(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211277046.9 (22)申请日 2022.10.18 (71)申请人 上海寻序人工智能科技有限公司 地址 201800 上海市嘉定区陈家山路3 55号 创新创业大厦14楼1 1-1室 (72)发明人 李鑫武 丁华杰 赵佳佳 谷俊  (74)专利代理 机构 宁波海曙甬睿专利代理事务 所(普通合伙) 33330 专利代理师 陈振伟 (51)Int.Cl. G06V 20/56(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/25(2022.01) G06V 10/44(2022.01)G06V 10/82(2022.01) (54)发明名称 一种基于多摄像头的BEV视 觉感知方法 (57)摘要 本发明公开了一种基于多摄像头的BEV视觉 感知方法, 包括模型设计, 使用nusc enes数据集, 输入为6张环视相机图片, 模型设计包 括encoder 结构、 Decoder结构和最后的Loss设计, 基于 densnet去对每张图片进行encode来提取图像 卷 积特征, 然后通过PANET网络来输出3层多尺度特 征图加强信息传播, 检测头包 括6层transformer   decoder layer, 预先设置300/600/900个object   query, 每个query是256维的融合特征, object   query由一个全连接网络预测出在BEV空间中的 3D reference  point坐标, 坐标经过tanh函数归 一化后表示在空间中的相对位置, 对object   queries预测出来的检测框和所有的真值框之间 利用匈牙利算法进行二分图匹配; 本发明提出一 种改进的多视角特征提取网络, 能够有效解决2D 图像到3D场景的理解能力, 从而有效提升后续感 知任务精度。 权利要求书1页 说明书3页 附图1页 CN 115512326 A 2022.12.23 CN 115512326 A 1.一种基于多摄像头 的BEV视觉感知方法, 其特征在于: 包括模型设计, 使用nuscenes 数据集, 输入为6张环视相机图片, 其中, 模型设计主要由三部分组成: 包括encoder结构、 Decoder结构和最后的L oss设计; Encoder结构: 基于densnet去对每张图片进行encode来提取图像卷积特征, 然后通过PANET网络来输 出3层多尺度特 征图加强信息传播; Decoder结构: 检测头包括6层transformer  decoder layer, 预先设置300/600/900个ob ject query, 每个query是256维 的融合特征, object  query由一个全连接网络预测出在BEV空间中的3D   reference  point坐标(x,y,z), 坐标 经过tanh函数归一 化后表示在空间中的相对位置; Loss设计: 对object  queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行二分 图匹配, 找到使得loss最小的最优匹配, 类别间Loss计算采用focal  loss减少样本不均衡 造成的影响, 使用L2 regression loss用于计算回归损失便 于网络给 出稳定解。 2.根据权利要求1所述的一种基于多摄像头的BEV视觉感知方法, 其特征在于: 在 Decoder结构中, 每层layer之中, 所有的object  query之间通过自注意力机制来相互交互 获取全局信息并避免多个query收敛到同个物体, object  query再和图像特征之间做特征 匹配, 将每个query对应的真实世界的3D坐标通过相机的内参外参投影到图片坐标, 利用线 性插值来采样对应的多尺度图像特征, 如果投影坐标落在图片范围之外就补零, 然后图像 特征采样去更新 object queries。 3.根据权利要求2所述的一种基于多摄像头的BEV视觉感知方法, 其特征在于: 更新后 的object  query通过两个全连接神经网络来分别预测对应物体的类别和b ounding box的 参数, 为了避免因为数据偏差, 对每个物体的中心点预测偏移量δ来更新reference  points 的坐标, 每层更新的object  queries和reference  points作 为下一层decoder  layer的输 入, 再次进行计算更新, 总共 迭代6次。 4.根据权利要求1所述的一种基于多摄像头的BEV视觉感知方法, 其特征在于: 在 Decoder结构中, 由于tanh函数的取值范围在[ ‑1,+1]之间, 隐藏层的输出被限定在[ ‑1,+1] 之间, 可以看成是在0值附近 分布, 均值为0, 这样从隐藏层到输出层, 数据起到了归一化(均 值为0)的效果。权 利 要 求 书 1/1 页 2 CN 115512326 A 2一种基于多摄像头的BEV视觉感知方 法 技术领域 [0001]本发明涉及人工智能、 自动驾驶领域, 特别是涉及一种基于多摄像头的B EV视觉感 知方法。 背景技术 [0002]自动驾驶视觉感知领域, 最近两三年的一个热门方向便是更为直接的BEV视角下 的视觉感知。 不同于深度估计先显式获取各个像素点的深度, 再支持其他相关任务, BEV视 角下可以实现端到端的目标检测、 语义分割、 轨迹预测等各项任务。 由于这种方法更加简单 直接, 且能够更好地被下游规划控制所使用(在同一个坐标系), 迅速成为未来自动驾驶感 知落地的重要研究方向。 [0003]由于BEV特征需要从多视角图像特征融合得到, 所以需要先对多视角图像提取特 征, 而其中的一个重要难点在于对2D图像到 3D场景的特 征转换学习。 发明内容 [0004]为了克服现有技术的不足, 本 发明提供一种基于多摄像头的B EV视觉感知方法, 以 解决上述背景技术中提出的BEV特征需要从多视角图像特征融合得到, 所以需要先对多视 角图像提取 特征, 而其中的一个重要难点在于对2D图像到 3D场景的特 征转换学习的问题。 [0005]为解决上述技术问题, 本 发明提供如下技术方案: 一种基于多摄像头的B EV视觉感 知方法, 包括模型设计, 使用nuscenes数据集, 输入为6张环视相机图片, 其中, 模型设计主 要由三部分组成: 包括encoder结构、 Decoder结构和最后的L oss设计; [0006]Encoder结构: [0007]基于densnet去对每张图片进行encode来提取图像卷积特征, 然后通过PANET网络 来输出3层多尺度特 征图加强信息传播; [0008]Decoder结构: [0009]检测头包括6层transformer  decoder layer, 预先设置300/600/900个object   query, 每个query是256维的融合特征, object  query由一个全连接网络预测出在BEV空间 中的3D reference  point坐标(x,y,z), 坐标经过tanh函数归一化后表示在空间中的相对 位置; [0010]Loss设计: [0011]对object  queries预测出来的检测框和所有的真值框之间利用匈牙利算法进行 二分图匹配, 找到使得loss最小的最优匹配, 类别间Loss计算采用focal  loss减少样本不 均衡造成的影响, 使用L2 regression loss用于计算回归损失便 于网络给 出稳定解。 [0012]作为本发明的一种优选技术方案,在Decoder结构中, 每层layer之中, 所有的 object query之间通过自注 意力机制来相互交互获取全局信息并避免多个query收敛到同 个物体, object  query再和图像特征之间做特征匹配, 将每个query对应的真实世界的3D坐 标通过相 机的内参外参投影到图片坐标, 利用线性插值来采样对应的多尺度图像特征, 如说 明 书 1/3 页 3 CN 115512326 A 3

PDF文档 专利 一种基于多摄像头的BEV视觉感知方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多摄像头的BEV视觉感知方法 第 1 页 专利 一种基于多摄像头的BEV视觉感知方法 第 2 页 专利 一种基于多摄像头的BEV视觉感知方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。