Core Concepts
為了解決室內機器人導航任務中,需要複雜空間推理和語義理解的挑戰,該研究提出了一個大規模三維語義場景理解和導航數據集 VLA-3D,並利用基準模型測試其效能,為開發更強大的三維視覺語言模型和互動式室內導航系統提供資源。
Abstract
VLA-3D 數據集概述
本研究論文介紹了一個名為 VLA-3D 的新型數據集,旨在促進機器人應用中語義場景推理和理解的進展。該數據集基於從真實世界室內環境的 3D 掃描數據,並利用合成方法生成了大量的物件參考自然語言語句和空間場景圖。
數據集來源與規模
VLA-3D 數據集整合了來自六個不同來源的 3D 掃描數據,包括 ScanNet、Matterport3D、Habitat-Matterport 3D (HM3D)、3RScan、ARKitScenes 以及 Unity 生成的場景。數據集包含超過 11,500 個區域(房間),涵蓋 477 種物件類別,共計超過 286,000 個物件。此外,數據集還包含 2,350 萬個物件間的空間關係和 970 萬條參考語句。
數據集特點
VLA-3D 數據集有兩個主要特點:
- 大規模場景圖: 數據集為每個場景提供大規模場景圖,這些圖譜能夠 robust 地應對場景變化,並有助於識別相似物件。
- 可穿越的自由空間: 除了物件之外,數據集還將可穿越的自由空間納入參考目標,例如房間中可行走的區域。
數據處理流程
數據處理流程主要分為三個步驟:
- 3D 掃描處理: 從原始掃描數據中提取點雲、物件標籤、邊界框、顏色等資訊,並生成可穿越的自由空間標註。
- 場景圖生成: 根據物件的空間位置關係,利用啟發式方法生成場景圖,包含八種語義空間關係,例如「上方」、「下方」、「最近」、「最遠」、「之間」、「附近」、「在...裡面」和「在...上面」。
- 語言生成: 基於場景圖,利用模板生成參考語言語句,這些語句滿足以下特點:
- 視角獨立: 對目標物件的描述不依賴於觀察視角。
- 明確性: 在區域內只有一個物件符合描述。
- 簡潔性: 使用最少的描述符來區分目標物件。
基線評估
為了驗證 VLA-3D 數據集的難度,研究團隊使用兩個最先進的開源基準模型(MVT 和 3D-VisTA)在數據集上進行了評估。結果顯示,相較於在 ReferIt3D 벤치마크上的表現,這兩個模型在 VLA-3D 數據集上的準確率都顯著降低。
結論與未來方向
VLA-3D 數據集為開發能夠從 3D 場景中提取觀察結果並使用自然語言進行推理的通用方法提供了寶貴的資源,有助於開發能夠在不斷變化的環境中與人類共存和協作的互動式室內導航代理。未來,VLA-3D 數據集將進一步擴展,包括使用大型語言模型增強語句、添加來自其他來源的 3D 掃描數據、生成複合關係語句、生成視角相關語句,以及將語句擴展到參考物件定位之外,以明確包含動作組成部分。
Stats
數據集包含超過 11,500 個區域,涵蓋 477 種物件類別,共計超過 286,000 個物件。
數據集包含 2,350 萬個物件間的空間關係和 970 萬條參考語句。
MVT 模型在 VLA-3D 數據集上的準確率為 22.5%。
3D-VisTA 模型在 VLA-3D 數據集上的準確率為 28.9%。
Quotes
"As we progress towards generalizable embodied intelligence, there is a need for methods that are capable of reasoning in 3D-space and interacting with humans."
"The disconnect in performance indicates the poor cross-domain generalizability of existing methods, especially to complex real-world scenes, and delineates the need for more diverse language data to improve 3D visual grounding models and enable their use in more complex tasks like interactive indoor navigation."