新技术让人工智能利用二维摄像机绘制三维空间地图

研究人员开发出一种技术，能让人工智能（AI）程序利用多台摄像机拍摄的二维图像更好地绘制三维空间地图。由于该技术能有效利用有限的计算资源，因此有望改善自动驾驶汽车的导航能力。 F<SCW+>z2a
相关论文的通讯作者、北卡罗来纳州立大学电气与计算机工程系副教授Tianfu Wu说：“大多数自动驾驶汽车都使用名为视觉转换器的强大人工智能程序来获取多个摄像头拍摄的二维图像，并创建车辆周围三维空间的表示，然而，虽然这些人工智能程序各自采用了不同的方法，但仍有很大的改进空间。” bpq2TgFj

[attachment=128988]

Tianfu Wu说：“我们的技术被称为多视图注意语境化（MvACon），是一种即插即用的补充技术，可以与这些现有的视觉转换器人工智能结合使用，提高它们绘制三维空间地图的能力。"视觉转换器并没有从摄像头获得任何额外的数据，它们只是能够更好地利用这些数据。”
MvACon 通过修改一种名为 "Patch-to-Cluster attention"（PaCa）的方法来有效工作，吴和他的合作者去年发布了这种方法。PaCa 允许变换器人工智能更高效、更有效地识别图像中的物体。
Wu说：“这里的关键进展是将我们在 PaCa 上展示的技术应用到使用多台相机绘制三维空间的挑战中。”
为了测试 MvACon 的性能，研究人员将其与三种领先的视觉转换器--BEVFormer、BEVFormer DFA3D 变体和 PETR 结合使用。在每种情况下，视觉转换器都从六个不同的摄像头收集二维图像。在所有三种情况下，MvACon 都显著提高了每个视觉转换器的性能。
Wu说：“在定位物体以及这些物体的速度和方向方面，性能尤其得到了提高。"将 MvACon 添加到视觉转换器中对计算需求的增加几乎可以忽略不计。我们下一步的工作包括根据其他基准数据集测试 MvACon，以及根据自动驾驶车辆的实际视频输入进行测试。如果 MvACon 的性能继续优于现有的视觉转换器，我们乐观地认为它将被广泛采用。”
这篇题为 "Multi-View Attentive Contextualization for Multi-View 3D Object Detection "的论文将于 6 月 20 日在华盛顿州西雅图举行的 IEEE/CVF 计算机视觉与模式识别会议上发表。
相关链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Liu_Multi-View_Attentive_Contextualization_for_Multi-View_3D_Object_Detection_CVPR_2024_paper.pdf

查看本帖完整版本: [-- 新技术让人工智能利用二维摄像机绘制三维空间地图 --] [-- top --]