您好!歡迎登錄水木春錦資本管理有限公司官方網站!
已投資訊 | 達闥與中山大學合作論文被AI頂刊IEEE TPAMI錄用,科研實力再獲權威肯定!
發布時間:
2024-06-07 18:00
來源:
近日,達闥機器人與中山大學合作的研究論文成功被計算機視覺和人工智能領域的頂級國際期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 錄用。
該論文題為《通過大模型進行可糾正地標發現的視覺語言導航》(Correctable Landmark Discovery via Large Models for Vision-Language Navigation),提出了一種名為CONSOLE的新框架,利用大語言模型ChatGPT和視覺模型CLIP解決視覺語言導航中的地標發現問題,通過動態調整地標重要性實現精準導航,并在多個基準測試中顯著超越現有技術。
IEEE TPAMI是人工智能、模式識別、計算機視覺等領域的國際頂尖期刊,是目前影響因子最高的CCF A類期刊,JCR 1區Top期刊。該期刊谷歌指數(H-Index)在計算機科學和工程技術兩個大類學科里均列首位。IEEE TPAMI以嚴苛的審稿過程、深刻的理論分析著稱,每年收錄的論文數量有限,在計算機科學與人工智能領域具有權威影響力。
突破性研究:從有限數據到開放世界
視覺語言導航(VLN)要求代理遵循語言指令到達目標位置。傳統的VLN方法常常受限于有限的數據集和場景,難以在未知環境中實現準確導航。此次發表的論文提出了一種全新的VLN范式——“通過大模型進行可糾正地標發現”(CONSOLE),旨在解決這一難題。
創新方法:融合ChatGPT與CLIP的大模型策略
ONSOLE將VLN視為一個開放世界中的序列地標發現問題,通過引入ChatGPT和CLIP兩大模型,實現了前所未有的突破。具體來說,該方法利用ChatGPT提供豐富的開放世界地標共現常識,并基于此進行CLIP驅動的地標發現。這種創新性的組合,不僅提升了模態對齊能力,還有效應對了先驗噪聲的問題。
為了進一步提高精度,研究團隊還設計了一種可學習的共現評分模塊,根據實際觀測結果校正每個共現的重要性,從而實現更精確的地標發現。此外,他們還提出了一種觀察增強策略,將校正后的地標特征融入不同類型VLN代理,以增強其觀察特征并優化行動決策。
實驗驗證:多項基準測試創下新紀錄
在R2R、REVERIE、R4R、RxR等多個主流VLN基準測試中,CONSOLE展現出了壓倒性的性能優勢,不僅在未見場景下刷新了R2R和R4R的最前沿成果,而且整體成功率遠超當前最強基線。這一系列實驗結果有力證明了CONSOLE框架的有效性與普適性,為未來智能導航系統的研發指明了方向。
行業影響:推動AI技術新高度
IEEE TPAMI作為人工智能、模式識別及計算機視覺等領域最具權威性的期刊之一,其嚴苛審稿過程和深刻理論分析使得每篇錄用論文都具有極高學術價值。本次達闥與中山大學合作成果能獲此殊榮,不僅是對其科研實力的一次重要認可,更是對整個行業的一次激勵。
未來,隨著更多類似創新成果不斷涌現,我們有理由相信,在不久之后,人類將迎來更加智能、高效、安全的人機交互新時代。而這篇論文無疑將在這一進程中扮演重要角色,為全球AI技術發展貢獻力量。