科学家在智能驾驶场景感知研究方面取得进展
近日,中国科学院上海微系统与信息技术研究所仿生视觉系统实验室研究员李嘉茂团队与合作者在智能驾驶感知领域取得进展。针对智能驾驶感知的两个关键问题——栅格占据预测和全景分割进行研究,两项成果分别被机器人领域国际学术会议2024 IEEE International Conference on Robotics and Automation(ICRA)录用。 4+:u2&I OYy8u{@U: 在智能驾驶中,栅格占据预测旨在表征空间中的对象分布,以指导路径选择。最直接的表征方法是将立体空间划分为无数个堆叠的占据体素,但庞大的计算量导致难以在实车中部署。鸟瞰视角(BEV)的表征方式,将空间投影于单个水平面,可以大幅减少计算与存储压力,但由于缺失细粒度的结构信息,在开放场景中对象的形状或外观不明确时,往往会出现错误估计障碍物的情况。TPVFormer基于传统三视图的占据预测方法,在BEV基础上将表征平面扩展至三个,可客观精细地表征三维环境,但该方法忽略了自车与表征平面的相对关系,导致场景中的视角重叠障碍物间难以分辨。 C?k4<B7V c7_b^7h1 为解决上述问题,在TPVFormer基础上,该团队提出了一种以自车为中心的环视视角的占据预测表征方法CVFormer。以汽车全景环视多视图为输入,建立环绕车辆的二维正交视角来表征三维场景,有效实现细粒度三维场景表征,并克服车体周身障碍物的视角遮挡问题。具体地,该研究提出了环视视图交叉注意力模块构建二维环视特征,设计时序多重注意力模块加强帧间关系的利用,并通过设计2D与3D类别一致性约束,增强网络对场景的学习性能。此方法在nuScenes数据集上进行验证,在预测精度上明显优于现有算法,达到了43.09%的mIoU性能指标,相比基线算法提高了102.3%,并将计算复杂度由O(n3)降低至O(n),展现了较强的可部署性,在路特斯下一代量产车型智能驾驶感知系统上完成了测试验证。 tvILLR :;QLoZh^ 全景分割是理解场景中背景与对象个体的语义的基础感知问题,是融合了语义分割与实例分割的综合方法。其中,语义分割关注将图像中的区域分割为不同的类别,而不区分不同的物体实例;实例分割则侧重对每个实例对象进行独立的分割。全景分割往往基于语义分割与实例分割的融合实现,既区分场景语义,又需要明确物体实例。全景分割方法在语义-实例分割任务融合中,往往由于二者预测结果间的矛盾,导致难以分辨合理的预测结果。 Jo]g{GX[ '/?&Go |