(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211322753.5
(22)申请日 2022.10.27
(71)申请人 奥特酷智能科技 (南京) 有限公司
地址 210012 江苏省南京市雨 花台区安德
门大街57号楚翘城5幢401室-404室
(72)发明人 苏畅 陈诚 张旸
(74)专利代理 机构 南京行高知识产权代理有限
公司 32404
专利代理师 李晓
(51)Int.Cl.
G06V 20/64(2022.01)
G06V 10/82(2022.01)
G06V 10/766(2022.01)
G06V 10/764(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的3d目标检测办 法
(57)摘要
本发明公开了一种基于深度学习的3d目标
检测办法, 对加载的训练样本图像进行预处理,
计算目标的3d中心点, 3d中心点在图像上的投影
点, 八个角点位置, 目标中心点的高斯分布; 构建
深度学习卷积神经网络, 包括主干网络和两个分
支网络; 加载数据集作为训练集, 数据经过前向
传播得到深度学习卷积神经网络的输出, 计算损
失度, 反向传播, 更新网络参数, 得到训练好的神
经网络模型; 使用阶段, 接收测试集图像数据, 将
图像送入预训练好的神经网络模 型, 得到输出相
应的目标, 计算每一个目标的3d位置及类别。 本
发明的3d目标的检测方法, 用于自动驾驶中可以
提高车辆对环境的感知能力。
权利要求书2页 说明书5页 附图1页
CN 115546784 A
2022.12.30
CN 115546784 A
1.一种基于深度学习的3d目标检测办法, 其特 征在于, 包括 步骤:
(1)加载kitti数据集作为训练样本图像, 对加载的训练样本图像进行预处理, 计算目
标的3d中心点, 3d中心点在图像上的投影点, 八个角点 位置, 目标中心点的高斯分布;
(2)构建深度学习卷积神经网络, 包括主干网络和两个分支网络;
(3)加载数据集作为训练集, 数据经过前向传播得到深度学习卷积神经网络的输出, 计
算损失度, 反向传播, 更新网络参数, 得到训练好的神经网络模型;
(4)使用阶段, 接收测试集图像数据, 将图像送入预训练好的神经网络模型, 得到输出
相应的目标, 计算每一个目标的3d位置及类别。
2.根据权利 要求1所述的基于深度学习的3d目标检测办法, 其特征在于, 步骤(1)中, 训
练样本图像中的目标对象均己进行标注, kitti数据集的标签文件包含目标对象的标注信
息有: 目标 维度长宽高l, w, h, 目标在地面中心点的坐标x, y, z, 偏转角yaw, 相机的内参矩阵
K。
3.根据权利 要求2所述的基于深度学习的3d目标检测办法, 其特征在于, 步骤(1)中, 目
标中心点的高斯分布:
设置一个iou阈值, 假设一个目标在图像上的尺寸为(h, w), 求使得预测框和 真实框的
iou值大于thre_iou的圆圈的半径, 记为r; 根据r计算得出目标中心点的高斯分布, 表达这
个位置有目标的概 率;
设目标的中心为A, 点B在水平方向距离A的距离为x, 在垂直方向距离A的距离为y, 则可
以用
表示点B是目标中心的概 率, 其中, θ =r/ 3, x, y的范围为( ‑r, r)。
4.根据权利 要求1所述的基于深度学习的3d目标检测办法, 其特征在于, 步骤(2)中, 主
干网络采用多个残差结构, 残差块内部的结构为 1*1卷积层, 批量归一化层, 激活函数层, 3*
3卷积层, 批量归一化层, 激活函数层, 1*1卷积层, 批量归一化层, 激活函数层; 输入经过前
八层后得到 输出, 与输入相加, 再 经过激活函数层得到 输出;
残差块之间的连接关系为上一个残差块的输出为下一个残差块的输入, 上一个残差块
得到的特征图输入到当前残差块, 经过卷积后得到新的特征图, 和输入的特征图相加完成
特征的融合, 输入到下一个残差块, 以此类 推。
5.根据权利 要求1所述的基于深度学习的3d目标检测办法, 其特征在于, 步骤(2)中, 包
括分类分支和回归分支;
分类分支, 结构为3*3卷积层, 批量归一化层, 激活层, 1*1卷积层, 其输出为概率矩阵,
通道数量 为待识别的类别数量, 矩阵内的值 为该位置出现目标的概 率;
回归分支, 结构为3*3卷积层, 批量归一化层, 激活层, 1*1卷积层, 其输出为七个, 分别
为距离偏移zo, 目标中心在图像投影点的偏移xo, yo, 目标的三围尺寸的偏移ho, wo, lo, 以及
偏转角yaw的偏移yawo。
6.根据权利 要求5所述的基于深度学习的3d目标检测办法, 其特征在于, 步骤(3)中, 损
失度计算 为, l=α lc+β lr, 其中, α =1, β =1, 分类分支损失度lc, 回归分支损失度lr;
分类分支损失度lc=l1+l2/n, 其中, 对特征值的真值为1的位置, 损失度l1=‑logp**
(1‑p)a, 对特征值的真值不为1的位置, 损失度l2=w*‑log1‑p*(p)a, 其中, p为预测值, a=2,
权重w=(1‑pt)b, b=4, pt为真值, n 为真值为1的特征值个数;权 利 要 求 书 1/2 页
2
CN 115546784 A
2回归分支损失度lr, 使用损失函 数L1 loss, lr=loss(z,zgt)+loss(h, w, l, hgt,wgt, lgt)+
loss(corner,cornergt); 其中, 预测目标距离z=zscale*zo+zinit, 其中, zscale, zinit为预先定
义的尺度变化和偏移 参数, 距离偏移zo, zgt为相机坐标系下的目标3d框的底 面中心坐标; 预
测目标的三围尺寸
其中, h, w, l由训练数据集中相应类别
目标的尺寸求平均得到; 根据 距离偏移zo和目标中心 点在特征图上 投影点的偏移xo, yo以及
相机的内参矩阵K, 计算目标中心点在相机坐标系下的坐标x, y, z; 其中, hgt, wgt, lgt是目标
的真实的长宽高; 计 算偏移角yaw=yawgt+yawo, 其中, yawgt为训练集中相应目标的平均偏 移
角, 从而计算八个角点 位置comer; cornergt为目标的真实的八个角点的位置 。
7.根据权利 要求6所述的基于深度学习的3d目标检测办法, 其特征在于, 步骤(4)中, 具
体计算过程 为,
对分类分支的输出, 取特征值按从大到小排序的前k个值, 且特征值大于某个阈值, 记
录下特征值在特征图中的位置及相 应类别; 对回归分支, 根据分类分支得到的特征值的位
置, 取得回归分支输出的特征 图在相应位置 的通道维度的特征值, 分别为zo, ho, wo, lo, xo,
yo, yawo;
首先根据3d中心点在特征图像上的投影点的位置xo, yo以及主干网络的下采样 倍率, 还
原得到其在原始图像上的位置u, v; 根据距离偏移zo得到预测目标距离z, 进而根据u, v, z以
及相机的内参矩阵K, 计算得到目标中心点在相机坐标系下的坐标x,y,z;
由
求得预测的目标的尺寸h,w,l, 根据yaw角的偏移得yaw
=yawgt+yawo; 至此, 得到最终的预测目标的3d位置及类别。权 利 要 求 书 2/2 页
3
CN 115546784 A
3
专利 一种基于深度学习的3d目标检测办法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:10上传分享