专利一种基于多摄像头的BEV视觉感知方法 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211277046.9 (22)申请日 2022.10.18 (71)申请人上海寻序人工智能科技有限公司地址 201800 上海市嘉定区陈家山路3 55号创新创业大厦14楼1 1-1室 (72)发明人李鑫武　丁华杰　赵佳佳　谷俊　 (74)专利代理机构宁波海曙甬睿专利代理事务所(普通合伙) 33330 专利代理师陈振伟 (51)Int.Cl. G06V 20/56(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/25(2022.01) G06V 10/44(2022.01)G06V 10/82(2022.01) (54)发明名称一种基于多摄像头的BEV视觉感知方法 (57)摘要本发明公开了一种基于多摄像头的BEV视觉感知方法，包括模型设计，使用nusc enes数据集，输入为6张环视相机图片，模型设计包括encoder 结构、 Decoder结构和最后的Loss设计，基于 densnet去对每张图片进行encode来提取图像卷积特征，然后通过PANET网络来输出3层多尺度特征图加强信息传播，检测头包括6层transformer decoder layer，预先设置300/600/900个object query，每个query是256维的融合特征， object query由一个全连接网络预测出在BEV空间中的 3D reference point坐标，坐标经过tanh函数归一化后表示在空间中的相对位置，对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分图匹配；本发明提出一种改进的多视角特征提取网络，能够有效解决2D 图像到3D场景的理解能力，从而有效提升后续感知任务精度。权利要求书1页说明书3页附图1页 CN 115512326 A 2022.12.23 CN 115512326 A 1.一种基于多摄像头的BEV视觉感知方法，其特征在于：包括模型设计，使用nuscenes 数据集，输入为6张环视相机图片，其中，模型设计主要由三部分组成：包括encoder结构、 Decoder结构和最后的L oss设计； Encoder结构：基于densnet去对每张图片进行encode来提取图像卷积特征，然后通过PANET网络来输出3层多尺度特征图加强信息传播； Decoder结构：检测头包括6层transformer decoder layer，预先设置300/600/900个ob ject query，每个query是256维的融合特征， object query由一个全连接网络预测出在BEV空间中的3D reference point坐标(x,y,z)，坐标经过tanh函数归一化后表示在空间中的相对位置； Loss设计：对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分图匹配，找到使得loss最小的最优匹配，类别间Loss计算采用focal loss减少样本不均衡造成的影响，使用L2 regression loss用于计算回归损失便于网络给出稳定解。 2.根据权利要求1所述的一种基于多摄像头的BEV视觉感知方法，其特征在于：在 Decoder结构中，每层layer之中，所有的object query之间通过自注意力机制来相互交互获取全局信息并避免多个query收敛到同个物体， object query再和图像特征之间做特征匹配，将每个query对应的真实世界的3D坐标通过相机的内参外参投影到图片坐标，利用线性插值来采样对应的多尺度图像特征，如果投影坐标落在图片范围之外就补零，然后图像特征采样去更新 object queries。 3.根据权利要求2所述的一种基于多摄像头的BEV视觉感知方法，其特征在于：更新后的object query通过两个全连接神经网络来分别预测对应物体的类别和b ounding box的参数，为了避免因为数据偏差，对每个物体的中心点预测偏移量δ来更新reference points 的坐标，每层更新的object queries和reference points作为下一层decoder layer的输入，再次进行计算更新，总共迭代6次。 4.根据权利要求1所述的一种基于多摄像头的BEV视觉感知方法，其特征在于：在 Decoder结构中，由于tanh函数的取值范围在[ ‑1,+1]之间，隐藏层的输出被限定在[ ‑1,+1] 之间，可以看成是在0值附近分布，均值为0，这样从隐藏层到输出层，数据起到了归一化(均值为0)的效果。权　利　要　求　书 1/1 页 2 CN 115512326 A 2一种基于多摄像头的BEV视觉感知方法技术领域 [0001]本发明涉及人工智能、自动驾驶领域，特别是涉及一种基于多摄像头的B EV视觉感知方法。背景技术 [0002]自动驾驶视觉感知领域，最近两三年的一个热门方向便是更为直接的BEV视角下的视觉感知。不同于深度估计先显式获取各个像素点的深度，再支持其他相关任务， BEV视角下可以实现端到端的目标检测、语义分割、轨迹预测等各项任务。由于这种方法更加简单直接，且能够更好地被下游规划控制所使用(在同一个坐标系)，迅速成为未来自动驾驶感知落地的重要研究方向。 [0003]由于BEV特征需要从多视角图像特征融合得到，所以需要先对多视角图像提取特征，而其中的一个重要难点在于对2D图像到 3D场景的特征转换学习。发明内容 [0004]为了克服现有技术的不足，本发明提供一种基于多摄像头的B EV视觉感知方法，以解决上述背景技术中提出的BEV特征需要从多视角图像特征融合得到，所以需要先对多视角图像提取特征，而其中的一个重要难点在于对2D图像到 3D场景的特征转换学习的问题。 [0005]为解决上述技术问题，本发明提供如下技术方案：一种基于多摄像头的B EV视觉感知方法，包括模型设计，使用nuscenes数据集，输入为6张环视相机图片，其中，模型设计主要由三部分组成：包括encoder结构、 Decoder结构和最后的L oss设计； [0006]Encoder结构： [0007]基于densnet去对每张图片进行encode来提取图像卷积特征，然后通过PANET网络来输出3层多尺度特征图加强信息传播； [0008]Decoder结构： [0009]检测头包括6层transformer decoder layer，预先设置300/600/900个object query，每个query是256维的融合特征， object query由一个全连接网络预测出在BEV空间中的3D reference point坐标(x,y,z)，坐标经过tanh函数归一化后表示在空间中的相对位置； [0010]Loss设计： [0011]对object queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分图匹配，找到使得loss最小的最优匹配，类别间Loss计算采用focal loss减少样本不均衡造成的影响，使用L2 regression loss用于计算回归损失便于网络给出稳定解。 [0012]作为本发明的一种优选技术方案,在Decoder结构中，每层layer之中，所有的 object query之间通过自注意力机制来相互交互获取全局信息并避免多个query收敛到同个物体， object query再和图像特征之间做特征匹配，将每个query对应的真实世界的3D坐标通过相机的内参外参投影到图片坐标，利用线性插值来采样对应的多尺度图像特征，如说　明　书 1/3 页 3 CN 115512326 A 3

专利 一种基于多摄像头的BEV视觉感知方法

专利一种基于多摄像头的BEV视觉感知方法