国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    GPT-4o再暴露「弱智」缺陷,大模型無一幸免,港中文等發布「視覺聽覺」基準AV-Odyssey:26個任務直指死角問題

    2024年12月11日 14:08:02 來源:新智元公眾號

      多模態大模型在聽覺上,居然也出現了「9.11>9.8」的現象,音量大小這種簡單問題都識別不了!港中文、斯坦福等大學聯合發布的AV-Odyssey基準測試,包含26個視聽任務,覆蓋了7種聲音屬性,跨越了10個不同領域,確保測試的深度和廣度。

      在人工智能領域,我們一直以為頂尖的多模態大模型已經無所不能,GPT-4o在ASR(音頻轉文字)任務上已經達到了97%的正確率,更是凸顯了強大的音頻理解能力。

      然而,最近一項來自香港中文大學、斯坦福大學、伯克利大學和耶魯大學的研究成果卻徹底顛覆了這一認知——GPT-4o、Gemini1.5Pro、Reka Core等最先進的多模態大模型居然無法正確分辨明顯不同的聲音大小!

      下面是一個例子:

      音頻1,新智元,3秒

      音頻2,新智元,3秒

      結果讓人難以置信:這些頂尖的AI模型都未能準確判斷出音量的差異!對于人類來說,這種問題簡直是「傻瓜級」任務,然而這些大模型卻紛紛失手,暴露出其在基本聽覺能力上的嚴重缺陷。

      這一發現激發了研究團隊的思考:為什么如此先進的模型在聽覺辨識方面如此薄弱?為了填補這一空白,研究團隊首度提出了一個全新的測試工具——DeafTest,它專門用來測試多模態大模型的基礎聽覺能力。

      不僅如此,研究團隊還提出了首個全面的多模態大模型視聽能力評估基準——AV-Odyssey。這一基準旨在推動未來AI模型在聽覺、視覺的理解整合能力上邁向新高度。

      DeafTest:多模態大模型的「聽力盲點」

      為了測試多模態大模型最基礎的聽覺能力,研究團隊首先提出DeafTest,該測試包括四項基礎任務:數音頻中的聲音次數、比較兩個音頻的響度、比較兩個音頻的音高、比較兩個音頻的時長。

      這些任務都被設計為對人類來說極其簡單的判斷題,差異明顯,例如:

      在響度比較任務中,一個音頻的響度在70-100分貝之間,而另一個音頻則在30-60分貝之間。

      然而,測試結果卻令人震驚——這些頂尖的AI模型在大多數任務中的表現,幾乎與隨機猜測無異,準確率和隨機選擇的50%差不多,無疑暴露了多模態大模型在音頻感知上的巨大短板。

      AV-Odyssey Bench:全面評估多模態大模型的視聽能力

      為了更全面地評估AI在視聽能力上的表現,研究團隊還推出了一個全新的評估基準——AV-Odyssey。

      AV-Odyssey包含26個任務,覆蓋了7種聲音屬性——音色、語調、旋律、空間感知、時序、幻覺、綜合感知,并且跨越了10個不同領域,確保測試的深度和廣度。

      為了確保評估的穩健性和公正性,所有任務均采用四選一的多項選擇題形式,每個問題都融合了視覺、聽覺等多模態信息,全面考察模型的綜合處理能力。

      此外,為了避免因輸入順序或格式導致的偏差,所有輸入(包括文本、圖片/視頻和音頻片段)都會以交錯的方式輸入到多模態大模型中。問題的形式如下圖所示:

      AV-Odyssey中包含了由人類專家全新標注的4555個問題,確保題目沒有在其他任何數據集中出現過,任務分布以及統計信息如下面圖表所示:

      同時,為了進一步控制質量,研究團隊利用5個視覺語言模型和4個音頻大語言模型,過濾出包含冗余圖像或音頻片段的問題。

      在這個過程中,2.54%的問題同時被所有視覺語言模型或所有音頻大語言模型解決,研究團隊去除了這些問題。

      AV-Odyssey 實驗結果

      從實驗結果中,可以發現:

      AV-Odyssey的挑戰性:

      大多數現有的多模態大語言模型平均表現僅略高于25%,這與四選一問題的隨機猜測準確率相當。值得注意的是,即使是AV-Odyssey中的表現最佳的模型——GPT-4o,也僅取得了34.5%的準確率。

      這一結果凸顯了AV-Odyssey所帶來的高挑戰性,遠遠超出了當前模型訓練數據的分布范圍。

      通過設定嚴格的標準,AV-Odyssey基準測試為評估多模態大模型在音頻視覺任務中的能力提供了一個重要工具,突顯了現有模型的局限性,并為未來的改進指明了方向。

      開源多模態大模型訓練的局限性:

      同時,即便OneLLM、Unified-IO-2、VideoLLaMA2和NExT-GPT 通過引入Audiocaps等音頻-文本匹配數據集,嘗試增強音頻理解能力,并結合圖像-文本配對數據訓練視覺理解,這些模型在AV-Odyssey的測試中仍然表現不佳。

      這表明,目前的訓練流程并不足以真正彌合音頻與視覺模態之間的鴻溝,也未能有效地學習音視頻信息的整合與深度理解。

      AV-Odyssey 錯誤分析:音頻感知仍是瓶頸

      研究團隊對Gemini1.5Pro在AV-Odyssey中的錯誤進行深入分析,對每個任務隨機抽取了4個錯誤案例進行人工標注,最終得到104個錯誤案例,并對其進行統計。錯誤的分布如下圖所示:

      這一分析結果揭示了一個重要趨勢:63%的錯誤都集中在音頻理解上!

      例如,在某些任務中,雖然模型正確理解了視覺信息,但是音頻片段的內容識別錯誤,導致了錯誤答案的生成。一個例子如下圖所示:

      這一發現再次印證了DeafTest的初步結論:當前多模態大模型在基礎的聽力能力上存在明顯短板,音頻感知依然是多模態任務中的最大瓶頸。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    国产在视频线精品视频www666| 精品国产一区二区三区麻豆小说| jizz在线观看中文| 亚洲黄色小视频| 综合久久2o19| 伊人成综合网伊人222| 亚洲最大的免费视频网站| 影音先锋久久| 久久视频国产| 久久久久久久久蜜桃| 欧美电影免费观看网站| 国产亚洲精品美女久久久久| 色噜噜亚洲精品中文字幕| 亚洲欧美日韩国产一区二区三区| 国产精品久久久久久久电影| 91福利国产在线观看菠萝蜜| 精品三级av| 伊人久久大香线蕉无限次| 91视频免费进入| 日韩av片电影专区| 69精品国产久热在线观看| 国产精品美女在线观看| 久久99精品国产91久久来源| √天堂资源地址在线官网| 九九久久国产精品| 亚洲视频第一页| 国产资源在线观看入口av| 热门国产精品亚洲第一区在线| 欧美日韩最好看的视频| 91亚洲精品丁香在线观看| 色婷婷亚洲一区二区三区| 欧美人与性禽动交精品| 欧美日韩成人激情| 黄色免费大全亚洲| 99久久综合狠狠综合久久aⅴ| 亚洲国产尤物| 亚洲欧美日韩另类精品一区二区三区| 99热国产精品| 国产盗摄精品一区二区三区在线| 国产精品大片wwwwww| 免费av一区二区三区| 国产精品99久久久久久似苏梦涵| 国产精品丝袜久久久久久高清| 精品久久久久国产| 97色婷婷成人综合在线观看| 18video性欧美19sex高清| 免费97视频在线精品国自产拍| 97精品国产综合久久久动漫日韩| 欧美精品激情| 亚洲国产日韩在线一区模特| 日韩一二三区不卡| 神马影视一区二区| 日本黑人久久| 国产亚洲一级| 欧美午夜片在线看| 国产精品高潮呻吟久久av黑人| 狼人综合视频| 欧美日韩一区视频| 国产精品入口尤物| 亚洲欧美制服综合另类| 日韩精品极品| 中文字幕日韩av| 成人妖精视频yjsp地址| 任你弄在线视频免费观看| 57pao国产一区二区| 国产精品久久久999| 久久久精品国产免费观看同学| 蜜桃一区av| 欧美高清在线视频| 久久精品福利视频| 日本不卡高清视频| 欧美日韩在线视频免费观看| xxxxxx欧美| 国产777精品精品热热热一区二区| 欧美日韩天天操| 欧洲亚洲一区二区| 欧美人与禽猛交乱配视频| 美女看a上一区| 免费国产自线拍一欧美视频| 欧美日韩精品欧美日韩精品一| 欧美一级二区| 久久伊人中文字幕| 在线日韩日本国产亚洲| 色综合天天综合狠狠| 中文字幕亚洲综合久久筱田步美| 女人天堂av在线播放| 欧美国产激情二区三区| 亚洲精选免费视频| 国产精品美女免费看| 成人黄动漫网站免费| 国产精品大片免费观看| 欧美hd在线| 国产乱码精品一品二品| 99久久精品国产麻豆演员表| 热久久免费视频精品| 成人免费在线视频观看| 欧美一级精品片在线看| 浅井舞香一区二区| 极品销魂美女一区二区三区| 都市激情在线视频| 一本色道久久88精品综合| 精品福利免费观看| 欧美三级三级| 国产一区二区美女| 91麻豆福利精品推荐| 欧美另类老肥妇| 在线日本视频| 日韩在线资源网| 亚洲国产91色在线| 欧美一区二区三区视频免费播放| 石原莉奈在线亚洲三区| 一区二区三区中文在线| 欧美xxxx在线观看| 艳女tv在线观看国产一区| 亚洲午夜一区二区| 激情综合网av| 国产成人黄色av| 99re视频这里只有精品| 亚洲人成精品久久久久久| 欧美xxxx综合视频| 久久久久久久久久久免费| 日日骚欧美日韩| 国产一区免费电影| 国产精品久久影院| 日本女人一区二区三区| 欧美一级日韩一级| 日韩动漫在线观看| 欧美另类一区| 亚洲第一国产精品| 国产日韩一区二区三区在线| 国产日韩欧美在线| 亚洲人精品午夜在线观看| 18成人免费观看网站下载| 成人精品一区二区三区校园激情| 国产在线一区二区视频| 日韩电影二区| 91色p视频在线| 天堂资源在线亚洲资源| 国产精品一区=区| 91精品国产综合久久久久久久| 91精品国产色综合久久不卡蜜臀| 国产999精品| 国产精品视频你懂的| 欧美少妇一区| 欧美日韩激情在线一区二区三区| 国产精品久久久久久| 777午夜精品电影免费看| 97精品久久久| 久久久久久香蕉网| 午夜无码国产理论在线| 亚洲mv在线观看| www视频在线免费观看| 9i在线看片成人免费| 国产视频福利一区| 国产精品一区二区久久久久| 四虎8848精品成人免费网站| 欧美另类精品xxxx孕妇| 日本精品一区二区三区在线| 久久女同互慰一区二区三区| 亚洲精品在线影院| 国产一区亚洲一区| 亚洲欧美激情四射在线日| 久久福利在线| 91网站视频在线观看|