加拿大温哥华当地时间6月21日,人工智能领域(AI)最具学术影响力的顶级会议之一——国际计算机视觉与模式识别会议(CVPR)2023公布最佳论文等奖项。上海人工智能实验室(上海AI实验室)、武汉大学及商汤科技联合提出的自动驾驶通用模型相关论文从9155篇作品中脱颖而出,摘得本届CVPR最佳论文奖。这是近十年来计算机视觉3项顶级学术会议(CVPR、ICCV、ECCV)第一篇以中国学术机构作为第一单位的最佳论文。
万里挑一:中国科研团队闪耀国际顶会
CVPR在学术界及工业界都极具影响力。在谷歌学术指标2022年列出的全球最有影响力的6个科学期刊/会议中,CVPR位列第四,仅次于《自然》《新英格兰医学杂志》《科学》。
CVPR每年评选出的一篇或多篇最佳论文,代表了将对未来技术或行业发展产生重要影响的里程碑式研究成果。今年的CVPR最佳论文近乎“万里挑一”:投稿量达9155篇,大会最终接收论文2359篇,接收率为25.8%。其中12篇入选最佳论文候选名单,入选率仅1.3‰。
入围本届CVPR最佳论文候选名单的作品来自谷歌、Stability AI、上海AI实验室、斯坦福大学、康奈尔大学等知名企业和科研机构。最终,上海AI实验室联合团队的研究成果《以路径规划为导向的自动驾驶》摘取CVPR 2023最佳论文奖。该论文首次提出感知决策一体化的自动驾驶通用大模型UniAD,开创了以全局任务为目标的自动驾驶大模型架构先河,为自动驾驶技术与产业发展指出了新方向。
本届CVPR上,上海AI实验室有12篇论文入围“Highlight(高亮)”名单,覆盖视觉基础模型、通才模型、三维视觉、底层视觉、视频检索、物体检测、姿态估计、自动驾驶等相关领域的研究,在国际上充分展示了中国原创AI实力。
开创先河:自动驾驶大模型性能“当下最优”
自动驾驶是一个高度复杂的技术体系,不仅需要多个学科领域的知识和技能,包括传感器硬件、机器学习、多模态融合等内容,还需适应不同国家与地区的道路规则和交通文化,与车辆及行人进行良好的交互,以实现高度的可靠性和安全性。
上海AI实验室青年科学家李弘扬介绍,自动驾驶系统包含感知、预测和规划3项主任务。当前,业界主流的方案架构是分别采用不同的模块来处理这些任务,但由于各模块并非以驾驶为最终目标进行优化,自动驾驶系统的整体性能提升受到了很大限制。
自动驾驶通用大模型UniAD首次将感知、预测和规划3类主任务、6类子任务整合到一个基于Transformer的端到端网络框架下。在相关真实场景数据集下,UniAD的所有任务均达到领域最佳性能,尤其是预测和规划效果远超之前的最佳方案。其中,多目标跟踪准确率提升20%,车道线预测准确率提升30%,预测运动位移和规划误差分别降低38%和28%。
凭借其充分的可解释性、安全性、与多模块的可持续迭代性,UniAD代表了未来自动驾驶技术的发展趋势,是目前最具希望实际部署的端到端模型。该成果在产业界的落地应用,将有力推动自动驾驶技术与产品的规模化发展。
作者:沈湫莎
编辑:傅璐
*文汇独家稿件,转载请注明出处。