近日,达闼机器人与中山大学合作的研究论文成功被计算机视觉和人工智能领域的顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用。
该论文题为《通过大模型进行可纠正地标发现的视觉语言导航》(Correctable Landmark Discovery via Large Models for Vision-Language Navigation),提出了一种名为CONSOLE的新框架,利用大语言模型ChatGPT和视觉模型CLIP解决视觉语言导航中的地标发现问题,通过动态调整地标重要性实现精准导航,并在多个基准测试中显著超越现有技术。
IEEE TPAMI是人工智能、模式识别、计算机视觉等领域的国际顶尖期刊,是目前影响因子最高的CCF A类期刊,JCR 1区Top期刊。该期刊谷歌指数(H-Index)在计算机科学和工程技术两个大类学科里均列首位。IEEE TPAMI以严苛的审稿过程、深刻的理论分析著称,每年收录的论文数量有限,在计算机科学与人工智能领域具有权威影响力。
01
突破性研究:从有限数据到开放世界
视觉语言导航(VLN)要求代理遵循语言指令到达目标位置。传统的VLN方法常常受限于有限的数据集和场景,难以在未知环境中实现准确导航。此次发表的论文提出了一种全新的VLN范式——“通过大模型进行可纠正地标发现”(CONSOLE),旨在解决这一难题。
02
创新方法:融合ChatGPT与CLIP的大模型策略
CONSOLE将VLN视为一个开放世界中的序列地标发现问题,通过引入ChatGPT和CLIP两大模型,实现了前所未有的突破。具体来说,该方法利用ChatGPT提供丰富的开放世界地标共现常识,并基于此进行CLIP驱动的地标发现。这种创新性的组合,不仅提升了模态对齐能力,还有效应对了先验噪声的问题。
为了进一步提高精度,研究团队还设计了一种可学习的共现评分模块,根据实际观测结果校正每个共现的重要性,从而实现更精确的地标发现。此外,他们还提出了一种观察增强策略,将校正后的地标特征融入不同类型VLN代理,以增强其观察特征并优化行动决策。
03
实验验证:多项基准测试创下新纪录
在R2R、REVERIE、R4R、RxR等多个主流VLN基准测试中,CONSOLE展现出了压倒性的性能优势,不仅在未见场景下刷新了R2R和R4R的最前沿成果,而且整体成功率远超当前最强基线。这一系列实验结果有力证明了CONSOLE框架的有效性与普适性,为未来智能导航系统的研发指明了方向。
04
行业影响:推动AI技术新高度
IEEE TPAMI作为人工智能、模式识别及计算机视觉等领域最具权威性的期刊之一,其严苛审稿过程和深刻理论分析使得每篇录用论文都具有极高学术价值。本次达闼与中山大学合作成果能获此殊荣,不仅是对其科研实力的一次重要认可,更是对整个行业的一次激励。
未来,随着更多类似创新成果不断涌现,我们有理由相信,在不久之后,人类将迎来更加智能、高效、安全的人机交互新时代。而这篇论文无疑将在这一进程中扮演重要角色,为全球AI技术发展贡献力量。
达闼科技(CloudMinds),是一家云端智能机器人运营商。
达闼科技由前美国UT斯达康公司CTO、前中国移动研究院院长黄晓庆先生(Bill Huang)于2015年3月创立,专注于云端智能机器人技术的研究与开发,致力于实现运营商级别的大型融合智能机器学习和运营平台、安全高速网络,以及服务机器人和其他智能设备。达闼在北京、上海、深圳、成都、台湾、香港、美国硅谷和日本东京设有研发和分支机构。
目前,达闼科技正为各行业客户提供专业的机器人运营服务,推出了使用云端智能的迎宾机器人,安保机器人,清洁机器人,智能零售机器人,虚拟智能机器人等服务机器人解决方案; 此外,达闼科技还基于拥有自主知识产权的、具有技术性和前瞻性的移动内联网云服务MCS(Mobile-intranet Cloud Service)架构,为企业客户提供云、网、端一体化的云端智能终端解决方案,帮助客户实现安全而智能的IT/执法/政务,云端智能服务(如AI物体检测)等工作。
2024-07-16 10:21
2024-07-16 10:19
2024-07-15 09:03
2024-07-13 09:43
2024-07-13 09:42
2024-07-12 10:28
2024-07-12 10:27
2024-07-11 10:23
2024-07-10 11:22
2024-07-09 10:40