英國初創公司Wayve在2023年6月發布了GAIA-1(Generative Artificial Intelligence for Autonomy),這是一款為自動駕駛車輛培訓數據而設計的生成式模型。GAIA-1的最新版本,GAIA-19B,已經取得了令人矚目的進展。
GAIA-1的獨特之處在于它的能力,它能夠使用文本、圖像、視頻和行動數據來生成各種交通情景的合成視頻。這一能力填補了自動駕駛車輛訓練中的數據缺口。
試想一下,在霧中,有一個行人從卡車后面跳出來,同時一名摩托車手即將超越你,一名自行車手從前方靠近。這是一個真實的情景,但要捕捉到這個精確的場景,你需要開多少英里的車并進行拍攝呢?GAIA-1回答了這個問題,它可以生成各種交通情景的合成視頻,用于自動駕駛車輛的培訓。
與傳統的生成式視頻模型不同,Wayve表示,GAIA-1是一種生成式“世界模型”,它學會了理解和解讀駕駛的最重要概念。它能夠識別和分離不同的車輛及其特征、道路、建筑物或交通信號燈等概念。GAIA-1還學會了代表環境及其未來動態,為駕駛提供了結構化的環境理解,可用于做出明智的駕駛決策。
自GAIA-1首次發布以來,Wayve團隊對其進行了優化,以高效生成高分辨率視頻,并通過大規模培訓提高了世界模型的質量。該模型現在擁有90億個參數(相對于六月版本的10億個參數),還能夠精確控制視頻中的車輛行為和場景特征。這使其成為培訓和驗證自動駕駛系統的強大工具。
GAIA-1的模型基于在2019年至2023年間在英國倫敦收集的4700小時專有駕駛數據。模型的架構包括每個輸入模態(視頻、文本和行動)的專用編碼器、世界模型、自回歸變換器和視頻解碼器,以及將預測的圖像元素轉換回像素空間的視頻擴散模型。
值得注意的是,GAIA-1的世界建模任務與大型語言模型(LLMs)常用的方法非常相似,其中任務被簡化為預測下一個標記。在GAIA-1中,這一方法應用于視頻建模,而不是語言。這表明隨著模型大小和培訓數據集的增加,GAIA-1在視頻生成方面的性能和效率將繼續提高,類似于大型語言模型在其各自領域內觀察到的縮放模式。開發人員表示,隨著更多的數據和處理能力,仍然存在“顯著的改進空間”。
此外,GAIA-1還可以預測過去的上下文視頻圖像的不同未來情景,包括行人、自行車手、摩托車手和對向交通的行為,從而使模型能夠考慮與其他道路使用者的互動并對情況做出反應。GAIA-1還可以通過純文本輸入進行控制,例如,通過文本命令“天氣是晴朗的”、“多雨的”、“有霧的”或“多雪的”來生成不同的駕駛情景。此外,它還可以使用文本命令,如“現在是白天,我們處于直射陽光下”、“天空是灰色的”、“現在是黃昏”和“現在是夜晚”,來創建不同的照明情景。
然而,Wayve也指出了GAIA-1的一些局限性。雖然自回歸生成過程非常有效,但需要大量計算,因此生成長時間的視頻會非常計算密集。此外,當前模型主要集中于預測單一攝像機輸出,而自動駕駛需要來自所有周圍視點的全面視圖,這是關鍵問題之一。
未來的工作將擴展該模型的能力,以捕捉更廣泛的視角,并優化其生成效率,使該技術更具適用性和效率。此外,Wayve還在開發Lingo-1,這是一種自動駕駛系統,將機器視覺與基于文本的邏輯相結合,以解釋道路上的決策和情況。這種基于文本的邏輯可以增加車輛的安全感,使人工智能的決策不再像一個“黑盒子”。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。