新闻动态

    当前位置: 首页 >> 新闻动态 >> 正文

    学术成果丨基于八叉树的自适应三维语义占用预测网络开源

    发布日期:2024年12月10日 10:00  作者:   访问:  

    上海交通大学智能网联电动汽车创新中心团队在IEEE Transactions on Circuits and Systems for Video Technology上发表题为 "AdaptiveOcc: Adaptive Octree-based Network for Multi-Camera 3D Semantic Occupancy Prediction in Autonomous Driving" 的研究论文。文章提出了一种稀疏化的多相机三维语义占用预测网络,基于八叉树结构自适应地使用多种粒度体素表达空间环境,为智能车感知和全景环境理解提供了新的技术支撑。IEEE TCSVT是中科院一区的SCI期刊,本文一作是硕士研究生杨天宇,本文共同通讯作者是钱烨强和杨明老师。研究成果现已开源在https://github.com/yty-sky/AdaptiveOcc。

    三维语义占用预测是自动驾驶领域的关键技术,用以判别空间中每一个体素的占用状态和语义类别,在全景环境理解中发挥着重要的作用。近年来,随着计算机视觉技术的快速发展,依托低成本相机传感器的纯视觉占用预测技术已能够实现接近激光雷达的几何感知能力,展现出广阔的研究前景和商业应用价值。然而传统的三维语义占用预测方法往往采用密集均匀的空间特征来表达周围环境,这显著限制了其分辨率扩展性。当这些方法扩展到更细粒度的分辨率时,密集的体素结构会导致计算和存储需求呈立方级增长,从而带来巨大的算力负担。这在很大程度上限制了其在多种场景中的应用,尤其是在需要高精度感知的复杂环境中。

    为解决上述问题,本文提出了一种新颖的基于八叉树的多层输出网络。相比现有的多相机占用预测方法,本研究主要从网络结构和监督真值构建上进行了两处创新改进:1. 网络结构采用多层输出模式,输出的体素粒度由浅层至深层逐渐精细。同质化的大块体素在网络的浅层进行输出,而精细的环境结构则保留至网络的较深层,从而有效优化了计算资源的利用效率。2. 为了赋予网络自适应性,本文提出了距离自适应的真值构建规则,以适应不同距离范围对感知粒度的差异化需求。该策略使得远距离范围的体素倾向于更粗的粒度,近距离范围的体素倾向于更细的粒度,从而实现更符合实际需求的分辨率分配。

         

    文章对该方法的强分辨率扩展能力进行了细致的理论分析和实验验证。此方法能够选择性地在一小部分体素子集上扩展分辨率,显著降低了分辨率提升所带来的计算与存储开销。实验结果显示,在分辨率扩展过程中,该方法的推理速度和训练显存的增长率分别为35.5%和44.2%,远优于现有方法。


    原文链接:https://ieeexplore.ieee.org/document/1074556

    代码链接:https://github.com/yty-sky/AdaptiveOcc



    杨天宇,上海交通大学电信学院自动化系,硕士研究生。主要研究方向为智能车视觉感知算法,研究成果在T-CSVT计算机视觉领域的期刊上发表。


    钱烨强,上海交通大学电信学院自动化系,长聘教轨副教授,博士生导师。研究方向为智能驾驶感知与导航系统。近年来以第一/通讯作者身份在IEEE Transactions系列发表长文10余篇,主持包括国家自然科学基金面上、青年在内的多个项目。


    杨明,上海交通大学电子信息与电气工程学院特聘教授,博士生导师,密西根学院党委书记,智能网联电动汽车创新中心主任,国家“万人计划”科技创新领军人才。现任中国自动化学会智能车工委会副主任和教工委副主任、中国人工智能学会理事和智能机器人专委会副主任、IEEE IROS-CPRB副主编、《IEEE Transactions on Intelligent Vehicles》和《IEEE Transactions on Intelligent Transportation Systems》期刊编委。长期从事无人车和智能机器人等方面教学与研究工作,近年来在国内外学术刊物上发表论文200余篇,获国家发明专利授权50余项,指导学生多次获得IEEE Intelligent Vehicle Symposium、中国智能机器人大会等国内外顶级会议优秀论文。作为负责人,先后获得上海市技术发明一等奖、上海市教学成果一等奖、教育部技术发明奖等奖项。研究方向为低速无人驾驶系统。



    原文链接:https://mp.weixin.qq.com/s/jaiejzlcrDUYAJ0kL0x9KQ