国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

京東MALL現場直擊多款多噴頭3D打印機實操評測 消費級3D打印機迎來新突破里程碑時刻!縱橫第100家體驗中心榮耀啟幕,筑牢中國豪華越野品類生態根基惡意利用“七無天無理由退貨”政策法律不予支持!央視曝光“摸摸黨”拼多多聯席董事長趙佳臻:Temu將All In中國供應鏈以科技守味非遺!卡薩帝冰箱冬至將全國啟幕「好好吃」餃子館字節TRAE,正悄悄“解放”600萬工程師酷開再獲國家級“信任牌照”:數據安全彰顯戰略定力ThinkPad 2025黑FUN禮——了不起的offer,企業采購專享狂歡來襲!拼多多宣布實行聯席董事長制度 下一個三年爭取再造一個拼多多菜鳥將入股九識智能 無人車業務有望大整合抖音上線“長輩防走失模式”同程旅行發布2025年度旅行榜:長線出行北上廣至川藏航線熱度居首XR專利首案在歐洲落地,中國智造出海風險與機遇并行超能小度,賦能生長,小度全屋智能舉辦年終核心服務商成長特訓營破“內卷”、立標準、向未來 光伏行業領袖共話行業生態重塑之道AI重構2026年線上帶貨新生態:零庫存爆單、小紅書月銷百萬,開啟AI小店副業新時代人形機器人租賃市場大幅降溫 行業商業化路徑仍待探索阿里云AI Landing Zone正式發布,助力企業從“上好云”到“用好AI”的戰略升級118家標桿企業脫穎而出,定義AI時代的雇主標桿!2025NFuture最佳雇主AI榜單重磅發布昇思人工智能框架峰會 | MindSpore Lite混合精度推理,實現內存節省30%,助力鴻蒙翻譯模型輕量化部署
  • 首頁 > 云計算頻道 > 大模型

    百萬魯棒數據訓練,3D場景大語言模型新SOTA!IIT等發布Robin3D

    2024年10月15日 14:24:08 來源:新智元公眾號

      多模態大語言模型(Multi-modal Large Language Models, MLLMs)以文本模態為基礎,將其它各種模態對齊至語言模型的語義空間,從而實現多模態的理解和對話能力。近來,越來越多的研究聚焦于3D大語言模型(3DLLM),旨在實現對3D物體以及復雜場景的理解,推理和自由對話。

      與2D MLLM所能接觸的廣泛的多模態數據不同,3DLLM的訓練數據相對稀少。

      即便過去有些工作嘗試生成更多的多模態指令數據,但這類模型仍然在指令的魯棒性上存在兩點不足:

      1. 絕大多數3D多模態指令數據對是正樣本對,缺乏負樣本對或者對抗性樣本對。模型在這種數據上訓練缺乏一定的辨識能力,因為無論被問到什么問題,模型只會輸出正面的回答。因此碰到問題與場景無關時,模型也更容易出現幻覺。這種模型有可能只是記住了正樣本對,而非真正地理解被問及的場景、物體、以及具體的指令。

      2. 由于在造數據的過程中,人類標注員或者生成式大語言模型是按照既定的規則去描述物體的,很多由這些描述所轉換而來的指令缺乏多樣性。甚至有的數據是直接按照模板生成的。

      為了解決以上問題,伊利諾伊理工大學、浙江大學、中佛羅里達大學、伊利諾伊大學芝加哥分校提出一個強大3DLLM——Robin3D,在大規模魯棒數據上進行訓練。

      論文地址:https://arxiv.org/abs/2410.00255

      文中提出了「魯棒指令數據生成引擎」(Robust Instruction Generation, RIG),可以生成兩種數據:

      1. 對抗性指令數據。該數據特點在于在訓練集或者單個訓練樣本中,混合了正樣本和負樣本對(或者對抗樣本對),從而使得模型在該類數據集訓練能獲得更強的辨識能力,該數據包含了物體層面到場景層面的、基于類別的指令和基于表達的指令,最終形成了四種新的訓練任務,幫助模型解耦對正樣本對的記憶。

      2. 多樣化指令數據,首先全面收集現有研究中的各種指令類型,或將一些任務轉化為指令跟隨的格式。為了充分利用大語言模型強大的上下文學習能力,研究人員使用ChatGPT,通過為每個任務定制的特定提示工程模板來多樣化指令的語言風格。

      將這些與現有基準的原始訓練集相結合,研究人員構建了百萬級指令跟隨樣本,其中約有34.4萬個對抗性數據(34%)、50.8萬個多樣化數據(50%)和16.5 萬個基準數據(16%),如圖1(右)所示。

      圖1 Robin3D在構建的百萬級數據上訓練(右),最終在所有3D多模態數據集上的性能超過之前的SOTA(左)

      Robin3D在模型上與Chat-Scene類似:使用Mask3D,Uni3D來抽3D物體級別的特征,使用Dinov2來抽2D物體級別的特征,使用物體ID來指定和定位物體。

      先前的方法在抽物體特征的時候,由于其物體級別的規范化(normalization),不可避免的丟失了物體間的3D空間關系。同時簡單的物體ID和物體特征拼接缺乏對ID-特征的充分聯結,使其在這種復雜的指令數據上面臨訓練的困難,而Robin3D引入了關系增強投射器來增強物體的3D空間關系,并使用ID-特征捆綁來增強指代和定位物體時ID與特征之間的聯系。

      最終Robin3D在所有的3D場景多模態數據集上達到一致的SOTA,并且不需要特定任務的微調。

      方法

      圖2 Robin3D的模型結構

      關系增強投射器

      如圖2所示,關系增強投射器(Relation-Augmented Projector, RAP)考慮三種特征:

      1. Mask3D所抽取的場景級別特征,這種特征經過多層cross-attention充分交互了語意和位置關系;

      2. Mask3D里的位置嵌入特征,這種特征由物體超點直接轉換而來,代表了物體間的位置關系。

      3. Uni3D抽取的統一物體級別特征,這種特征和語言進行過大規模的對齊訓練。

      圖3 RAP公式

      如圖3所示,通過MLP和短接的方式,對三種特征進行高效的融合,最終實現了即保持強大的統一物體級別語意信息、又增強了物體之間的空間位置關系。

      ID-特征捆綁

      如圖1所示,的ID-特征捆綁(ID-Feature Bonding, IFB)主要包含兩個操作。首先,使用兩個相同的ID來包裹其物體特征。

      由于LLM的因果注意力機制,這種方法通過第一個ID將ID信息與物體特征關聯起來,并通過第二個ID將物體信息與其ID關聯起來。

      其次,提出了一個后視覺順序,將視覺tokens放置在輸入序列的末尾,靠近模型生成的答案標記。

      該方法減少了由于tokens間的相對距離和LLM中旋轉位置嵌入所導致的從答案tokens到ID-特征tokens的注意力減弱問題,同時增強了視覺信息對答案tokens的注意力影響,從而提升答案生成效果。

      魯棒指令數據生成引擎

      對抗性數據生成

      圖4 對抗性數據的四種任務

      如圖4,的對抗性數據形成了四種新的具備挑戰性的任務HOPE、HROC、PF-3DVG和3DFQA,包含了從物體到場景、從基于類比到基于表達的不同指令。

      圖4左上:Hybrid Object Probing Evaluation (HOPE)

      為了構建一個場景級別的基于類別的任務,引入了HOPE,靈感來自2D領域的POPE基準。POPE通過詢問關于單個物體存在與否的是/否問題,評估2DMLLMs產生幻覺的傾向。在此基礎上,HOPE將這種幻覺挑戰擴展到3D領域的訓練階段,旨在讓模型更具辨別力。

      此外,HOPE引入了一個混合場景,增加復雜性,進一步推動模型對記憶中的視覺與語言正樣本的解耦。

      具體來說,在給定的3D場景中,要求模型判斷多個隨機指定的物體是否存在。物體可能存在或不存在,且每個存在的物體可能有一個或多個實例。

      當物體不存在時,模型需回答「否」;當物體存在時,需回答「是」并提供每個實例的物體ID。這一設置結合了正負物體的混合識別與多實例物體定位,具有很高的挑戰性。

      圖4右上:Hybrid Referring Object Classification (HROC)

      指代物體分類任務旨在評估模型在2D域中識別指代區域的能力,使用「區域輸入,文本輸出」的形式。HROC將此任務擴展到3D領域,創建了一個物體級別的基于類別的任務,并結合了對抗性和混合挑戰。

      在3D場景中,隨機生成混合的正負ID-類別樣本對來提出問題。正樣本對包含一個有效的物體ID和對應的真實類別,負對則包含一個有效的物體ID和隨機選擇的非真實類別,作為對抗性挑戰。模型需對正樣本對回答「是」,對負對回答「否」并給出正確類別。

      圖4左下:Partial Factual 3D Visual Grounding (PF-3DVG)

      PF-3DVG引入了一個場景級別的基于表達的任務,涵蓋三種數據類型:非真實數據、部分真實數據和真實數據。

      非真實數據:在3D場景中,隨機選擇Sr3D+中的描述,其中所描述的物體不存在與當前3D場景。模型需回答「否」。

      部分真實數據:給定Sr3D+的描述及對應的3D場景,隨機修改描述中的空間關系。例如,將「沙發上的枕頭」改為「沙發下的枕頭」。

      模型需糾正信息并回答「它是在『上面』」,同時提供物體ID。團隊確保描述的目標物體類別是當前場景唯一的、無干擾項,以避免歧義。真實數據:隨機增強空間關系的同義詞以提高多樣性,例如,將「below」替換為「under」、「beneath」或「underneath」。

      圖4右下:Faithful 3D Question Answering (3DFQA)

      原始的3D問答任務僅包含正樣本,可能導致模型記住固定的3D場景和問答對。為了解決這一問題,提出3DFQA,一個結合了負樣本和正樣本的場景級別的基于表達的QA任務,其增加了定位的要求。

      構建負樣本時,從ScanQA中抽取問答對,并收集問題或答案中的相關物體,然后隨機選擇一個缺少這些物體的3D場景。在原來的問題上,新增一個指令:「如果可以,請回答……并提供所有ID……」。

      此時,模型必須回答「否」,并且不提供任何物體ID,體現其對場景的依賴而不會胡言亂語總給出正面回復。正樣本直接取自ScanQA,模型需回答問題并提供相關物體的ID作為答案的依據。

      因此,訓練在的3DFQA數據集上的模型不能依靠記憶,而是要學會對正負樣本做出忠實回應并有理有據。

      多樣化數據生成

      多樣化數據旨在通過結合多種不同任務類型的指令數據,并提高指令的語言多樣性,從而增強模型的泛化能力。首先從基準數據集之外的不同任務中收集大規模數據。

      具體而言,給定一個3D場景,收集以下任務的問答對:類別問答任務(來自Chat-Scene),Nr3D描述生成任務(轉換自Nr3D),外觀描述生成任務(來自Grounded-3DLLM),區域描述生成任務(來自Grounded-3DLLM),端到端3D視覺定位(轉換自Nr3D),端到端3D視覺定位(轉換自Sr3D+)。

      圖5 多樣化數據的生成流程和詳細的提示工程

      為了豐富表述風格,開發了一個可擴展的流程,利用ChatGPT的上下文學習能力對上述數據進行重述。這通過一組示例和結構化提示工程實現,如圖5(上)所示。

      具體而言,給定一個收集的指令數據集D_task(其中任務包括ScanRefer、Multi3DRefer、Nr3D、Sr3D+、Nr3D Captioning、ScanQA、SQA3D、PF-3DVG和3DFQA),構建了一個系統提示P_system,以指示重述的要求和結構化的輸出格式,同時提供一個示例提示P_eg,以幫助ChatGPT更好地理解要求。

      還隨機選擇一個溫度參數T(從[1.1, 1.2, 1.3]中選取)以增加輸出的隨機性和多樣性。的重述輸出D_rephrase通過公式D_rephrase = M(P_system, P_eg, D_task, T)生成,其中M是ChatGPT的GPT-4o版本。

      圖5(上)詳細說明了P_system和P_eg的內容,以ScanRefer數據為例。通過使用sentence=和rephrase=的結構化提示,GPT-4o能夠輕松遵循要求,可以通過檢測rephrase=關鍵字方便地收集輸出。

      圖5(下)提供了每個任務的示例提示的詳細信息。由于Nr3D Captioning源于Nr3D,PF-3DVG源于Sr3D+,而3DFQA源于ScanQA,因此不再為這些任務提供額外示例。

      實驗

      主要結果

      表1 性能對比結果

      如表1所示,由于RIG生成的魯棒指令數據,Robin3D在所有基準測試中顯著超越了之前的模型。具體而言,Robin3D在Scan2Cap CIDEr@0.5上帶來了6.9%的提升,在ScanRefer Acc@0.25上帶來了5.3%的提升。值得注意的是,在包含零目標案例的Multi3DRefer評估中,這些案例對模型的區分能力提出了挑戰,并要求模型能夠回答「No」。的Robin3D在F1@0.25上實現了7.8%的提升,在F1@0.5上實現了7.3%的提升。

      消融實驗

      表2和表3 消融實驗結果

      如表2和表3所示,對提出的對抗性數據和多樣化數據進行了消融實驗,也對模型結構上RAP和IFB的提出做了消融實驗。實驗結果在所有benchmark上都證明了他們一致的有效性。

      特別的,在表2中,對抗性數據對描述生成任務Scan2Cap帶來了8.9%的提升,然而對抗性數據是不存在描述生成任務的,并且也不存在同源的數據(Scan2Cap數據源自ScanRefer, 但對抗性數據無源自ScanRefer的數據)。這種大幅的提升體現了對抗性數據對模型識別能力的提升。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    精品国产乱码久久久久久天美| 久久裸体网站| 亚洲一区图片| 国产精品网红福利| 成人动漫在线免费观看| 亚洲欧洲免费| 亚洲精品极品| 美女在线视频免费| 五月天婷婷在线视频| 亚洲国产激情一区二区三区| 亚洲一区二区三区乱码aⅴ蜜桃女| 51xtv成人影院| 伊人伊成久久人综合网小说| 亚洲国产综合在线| 福利一区福利二区微拍刺激| 最近2019年日本中文免费字幕| 日韩免费不卡av| 美女久久久精品| 国产精品免费丝袜| 欧美成人一区二区在线| 日韩电影在线一区二区三区| 日本免费在线观看| 日本欧美在线观看| 免费看欧美女人艹b| 久久精品久久久| 粉嫩av一区二区三区粉嫩| 99国内精品久久久久久久软件| 97夜夜澡人人双人人人喊| 99国产精品久久| 中文字幕乱码日本亚洲一区二区| 春色校园综合激情亚洲| 在线观看免费视频综合| 久久网福利资源网站| 国产成人在线视频免费观看| 久久精品国产秦先生| 欧美精选一区二区三区| 91大神在线网站| 亚洲国内精品视频| 亚洲精品综合在线| 精品亚洲一区二区三区四区五区| 欧美高清激情brazzers| 中文字幕日本精品| 91综合网人人| 国产亚洲高清一区| 成人欧美一区二区三区在线观看| 欧美日韩中文一区二区| 色综合视频一区二区三区44| 欧美黑粗硬大| 日韩理论电影中文字幕| 国产色产综合产在线视频| 欧美激情女人20p| 亚洲欧美在线看| 欧美高清自拍一区| 欧美日韩国产综合在线| 欧美日韩爱爱视频| 国产亚洲一级高清| 精品亚洲国内自在自线福利| 岛国一区二区三区| 在线观看91久久久久久| 国产日本亚洲高清| 国产日韩亚洲欧美综合| 国产精品高潮在线| 日韩在线播放一区二区| www.美女亚洲精品| 精品国产1区二区| 国产91精品精华液一区二区三区| 毛片激情在线观看| 亚洲午夜久久久久久久久电影院| 久久综合偷偷噜噜噜色| 亚洲欧美日韩精品久久奇米色影视| 九九热精品视频国产| 欧美日韩中文字幕精品| 在线电影欧美日韩一区二区私密| 91成人精品视频| 亚洲伦理久久| 亚洲一区二区欧美日韩| 成人区精品一区二区婷婷| 亚洲精品国产视频| 欧美三级电影网站| 免费毛片一区二区三区久久久| 中文国产字幕在线观看| 九色精品蝌蚪| 日本一区二区不卡高清更新| 国产不卡一区二区在线播放| 国产欧美日韩综合一区在线观看| 久草成人资源| 91精品免费视频| 波霸ol色综合久久| 一区二区三区四区在线免费观看| 国产成人精品123区免费视频| 精品久久久国产| 日韩欧美自拍偷拍| 午夜精品久久久久久久男人的天堂| 污视频在线看网站| 成人在线丰满少妇av| 日韩美女啊v在线免费观看| 五月婷婷久久综合| 精品日韩一区二区三区免费视频| 亚洲精品国产精品久久清纯直播| 亚洲美腿欧美激情另类| 亚洲不卡在线| 欧美午夜精品伦理| 麻豆国产欧美一区二区三区r| 日韩一区av在线| 亚洲精品无播放器在线播放| 美女少妇精品视频| 51蜜桃传媒精品一区二区| aa国产成人| 日韩精品成人av| 精品国产一区二区三区不卡| 26uuu亚洲电影在线观看| 亚洲人成在线观看网站高清| 久久精品国产精品亚洲综合| 麻豆视频在线观看免费| 无码一区二区三区视频| 亚洲色图二区| 精品一区在线看| 91网站免费观看| 久久久久久影院| 国产精品乱战久久久| 欧美色欧美亚洲另类二区| 亚洲精品永久免费精品| 992tv成人免费影院| 国产精品综合网| 国产精品麻豆99久久久久久| 日本黄色片在线观看| 久久精品综合网| av在线不卡电影| 国产精品日韩精品在线播放| 亚洲欧美专区| 国产精品十八以下禁看| 亚洲国产私拍精品国模在线观看| 欧美日韩欧美一区二区| 9191在线观看| 欧美一区二区视频17c| 韩日毛片在线观看| 欧美激情视频一区二区三区不卡| 久久99久国产精品黄毛片色诱| 欧美国产国产综合| 日产精品99久久久久久| h视频在线免费观看| 中文字幕欧美在线| 亚洲乱码视频| 蜜桃国内精品久久久久软件9| 亚洲综合日韩中文字幕v在线| 免费视频一区| 国产不卡一区二区在线观看| 青草成人免费视频| 日韩欧美不卡在线观看视频| 欧美视频中文字幕| 欧美最新大片在线看| 亚洲精品在线看| 男女免费观看在线爽爽爽视频| 亚洲精品国产精品国自产| 久热在线观看视频| 日本一区二区三区中文字幕| 激情视频一区二区| 2020国产精品久久精品美国| 国产精品91久久久| 自由的xxxx在线视频| 欧美日韩国产不卡在线看| 亚洲国产电影| 久久综合久久久| 爽爽淫人综合网网站|