(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211277046.9
(22)申请日 2022.10.18
(71)申请人 上海寻序人工智能科技有限公司
地址 201800 上海市嘉定区陈家山路3 55号
创新创业大厦14楼1 1-1室
(72)发明人 李鑫武 丁华杰 赵佳佳 谷俊
(74)专利代理 机构 宁波海曙甬睿专利代理事务
所(普通合伙) 33330
专利代理师 陈振伟
(51)Int.Cl.
G06V 20/56(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/25(2022.01)
G06V 10/44(2022.01)G06V 10/82(2022.01)
(54)发明名称
一种基于多摄像头的BEV视 觉感知方法
(57)摘要
本发明公开了一种基于多摄像头的BEV视觉
感知方法, 包括模型设计, 使用nusc enes数据集,
输入为6张环视相机图片, 模型设计包 括encoder
结构、 Decoder结构和最后的Loss设计, 基于
densnet去对每张图片进行encode来提取图像 卷
积特征, 然后通过PANET网络来输出3层多尺度特
征图加强信息传播, 检测头包 括6层transformer
decoder layer, 预先设置300/600/900个object
query, 每个query是256维的融合特征, object
query由一个全连接网络预测出在BEV空间中的
3D reference point坐标, 坐标经过tanh函数归
一化后表示在空间中的相对位置, 对object
queries预测出来的检测框和所有的真值框之间
利用匈牙利算法进行二分图匹配; 本发明提出一
种改进的多视角特征提取网络, 能够有效解决2D
图像到3D场景的理解能力, 从而有效提升后续感
知任务精度。
权利要求书1页 说明书3页 附图1页
CN 115512326 A
2022.12.23
CN 115512326 A
1.一种基于多摄像头 的BEV视觉感知方法, 其特征在于: 包括模型设计, 使用nuscenes
数据集, 输入为6张环视相机图片, 其中, 模型设计主要由三部分组成: 包括encoder结构、
Decoder结构和最后的L oss设计;
Encoder结构:
基于densnet去对每张图片进行encode来提取图像卷积特征, 然后通过PANET网络来输
出3层多尺度特 征图加强信息传播;
Decoder结构:
检测头包括6层transformer decoder layer, 预先设置300/600/900个ob ject query,
每个query是256维 的融合特征, object query由一个全连接网络预测出在BEV空间中的3D
reference point坐标(x,y,z), 坐标 经过tanh函数归一 化后表示在空间中的相对位置;
Loss设计:
对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分
图匹配, 找到使得loss最小的最优匹配, 类别间Loss计算采用focal loss减少样本不均衡
造成的影响, 使用L2 regression loss用于计算回归损失便 于网络给 出稳定解。
2.根据权利要求1所述的一种基于多摄像头的BEV视觉感知方法, 其特征在于: 在
Decoder结构中, 每层layer之中, 所有的object query之间通过自注意力机制来相互交互
获取全局信息并避免多个query收敛到同个物体, object query再和图像特征之间做特征
匹配, 将每个query对应的真实世界的3D坐标通过相机的内参外参投影到图片坐标, 利用线
性插值来采样对应的多尺度图像特征, 如果投影坐标落在图片范围之外就补零, 然后图像
特征采样去更新 object queries。
3.根据权利要求2所述的一种基于多摄像头的BEV视觉感知方法, 其特征在于: 更新后
的object query通过两个全连接神经网络来分别预测对应物体的类别和b ounding box的
参数, 为了避免因为数据偏差, 对每个物体的中心点预测偏移量δ来更新reference points
的坐标, 每层更新的object queries和reference points作 为下一层decoder layer的输
入, 再次进行计算更新, 总共 迭代6次。
4.根据权利要求1所述的一种基于多摄像头的BEV视觉感知方法, 其特征在于: 在
Decoder结构中, 由于tanh函数的取值范围在[ ‑1,+1]之间, 隐藏层的输出被限定在[ ‑1,+1]
之间, 可以看成是在0值附近 分布, 均值为0, 这样从隐藏层到输出层, 数据起到了归一化(均
值为0)的效果。权 利 要 求 书 1/1 页
2
CN 115512326 A
2一种基于多摄像头的BEV视觉感知方 法
技术领域
[0001]本发明涉及人工智能、 自动驾驶领域, 特别是涉及一种基于多摄像头的B EV视觉感
知方法。
背景技术
[0002]自动驾驶视觉感知领域, 最近两三年的一个热门方向便是更为直接的BEV视角下
的视觉感知。 不同于深度估计先显式获取各个像素点的深度, 再支持其他相关任务, BEV视
角下可以实现端到端的目标检测、 语义分割、 轨迹预测等各项任务。 由于这种方法更加简单
直接, 且能够更好地被下游规划控制所使用(在同一个坐标系), 迅速成为未来自动驾驶感
知落地的重要研究方向。
[0003]由于BEV特征需要从多视角图像特征融合得到, 所以需要先对多视角图像提取特
征, 而其中的一个重要难点在于对2D图像到 3D场景的特 征转换学习。
发明内容
[0004]为了克服现有技术的不足, 本 发明提供一种基于多摄像头的B EV视觉感知方法, 以
解决上述背景技术中提出的BEV特征需要从多视角图像特征融合得到, 所以需要先对多视
角图像提取 特征, 而其中的一个重要难点在于对2D图像到 3D场景的特 征转换学习的问题。
[0005]为解决上述技术问题, 本 发明提供如下技术方案: 一种基于多摄像头的B EV视觉感
知方法, 包括模型设计, 使用nuscenes数据集, 输入为6张环视相机图片, 其中, 模型设计主
要由三部分组成: 包括encoder结构、 Decoder结构和最后的L oss设计;
[0006]Encoder结构:
[0007]基于densnet去对每张图片进行encode来提取图像卷积特征, 然后通过PANET网络
来输出3层多尺度特 征图加强信息传播;
[0008]Decoder结构:
[0009]检测头包括6层transformer decoder layer, 预先设置300/600/900个object
query, 每个query是256维的融合特征, object query由一个全连接网络预测出在BEV空间
中的3D reference point坐标(x,y,z), 坐标经过tanh函数归一化后表示在空间中的相对
位置;
[0010]Loss设计:
[0011]对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行
二分图匹配, 找到使得loss最小的最优匹配, 类别间Loss计算采用focal loss减少样本不
均衡造成的影响, 使用L2 regression loss用于计算回归损失便 于网络给 出稳定解。
[0012]作为本发明的一种优选技术方案,在Decoder结构中, 每层layer之中, 所有的
object query之间通过自注 意力机制来相互交互获取全局信息并避免多个query收敛到同
个物体, object query再和图像特征之间做特征匹配, 将每个query对应的真实世界的3D坐
标通过相 机的内参外参投影到图片坐标, 利用线性插值来采样对应的多尺度图像特征, 如说 明 书 1/3 页
3
CN 115512326 A
3
专利 一种基于多摄像头的BEV视觉感知方法
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:30上传分享