新闻动态

    当前位置: 首页 >> 新闻动态 >> 正文

    学术成果丨基于Transformer结构的多模态动态目标分割算法

    发布日期:2025年01月10日 10:00  作者:   访问:  

    上海交通大学智能网联电动汽车创新中心杨明老师团队在IEEE/RSJ International Conference on Intelligent Robots and System上发表题为 "MOSFormer: A Transformer-based Multi-Modal Fusion Network for Moving Object Segmentation" 的研究论文。文章提出了一种双分支网络结构,利用图像语义来弥补由于点云投影造成的分割边界模糊问题,为下游任务提供更加可靠的分割结果。同时本文还基于nuScenes数据集制作了nuScenes for MOS数据集,该数据集包含了更丰富的动态场景数据,为后续研究提供了新的数据支持。

    交通场景中存在着大量的动态物体,包括运动的车辆、行人以及自行车等。在点云中,这些动态的点会导致建图过程中出现拖影现象、并进一步影响定位的精度。由此引申出来的动态目标分割任务旨在根据连续帧信息将点云分割成动态/静态点,并提供给下游建图定位、避障等任务。当前动态目标分割方法研究一方面面临数据集场景单一的问题,另一方面主流的基于投影的方法分割边界模糊、精度不足,难以满足实际应用的需求。

    为了解决数据集场景单一的问题,本文基于nuScenes数据集制作了面向动态目标分割研究的nuScenes for MOS数据集,该数据集包含了更丰富的行驶场景、更多样的动态目标以及更全面的传感器数据。除此以外,为了解决由投影方法分割边界模糊导致的精度不足问题,我们尝试引入图像模态。稠密的图像语义信息被用来监督反投影过程中的语义标签投票,以期望生成更精细可靠的分割边界。

    在KITTI MOS数据集以及nuScenes for MOS数据集上,实验证明了网络的性能达到了SOTA,对比现有方法,网络在处理分割边界方面的能力得到提升。同时本文在校园场景下展开了泛化实验,利用本文方法地图中的拖影现象被消除,建图质量得到了提升,由此验证了方法在实际应用方面的价值。

    原文信息:

    Zike Cheng, Hengwang Zhao, Qiyuan Shen, Weihao Yan, Chunxiang Wang, Ming Yang*, MOSFormer: A Transformer-based Multi-Modal Fusion Network for Moving Object Segmentation, 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS2024), Oct. 14-18, 2024, Abu Dhabi, UAE


    程子柯,上海交通大学电子信息与电气工程学院自动化系硕士研究生。主要研究方向为面向跨模态视觉定位的动静态感知方法研究,研究成果在IROS上发表。


    杨明,上海交通大学电子信息与电气工程学院特聘教授,博士生导师,密西根学院党委书记,智能网联电动汽车创新中心主任,国家“万人计划”科技创新领军人才。现任中国自动化学会智能车工委会副主任和教工委副主任、中国人工智能学会理事和智能机器人专委会副主任、IEEE IROS-CPRB副主编、《IEEE Transactions on Intelligent Vehicles》和《IEEE Transactions on Intelligent Transportation Systems》期刊编委。长期从事无人车和智能机器人等方面教学与研究工作,近年来在国内外学术刊物上发表论文200余篇,获国家发明专利授权50余项,指导学生多次获得IEEE Intelligent Vehicle Symposium、中国智能机器人大会等国内外顶级会议优秀论文。作为负责人,先后获得上海市技术发明一等奖、上海市教学成果一等奖、教育部技术发明奖等奖项。研究方向为低速无人驾驶系统。



    原文链接:https://mp.weixin.qq.com/s/KpRmv6RbcV1Ntx7OkUeREA