国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

深耕三載Rust轉譯難題,vivo藍河操作系統創新賽圓滿收官卡薩帝“科技長城”案例獲年度大獎誰攬30萬級越野桂冠?縱橫G700與坦克500全維度拆解發生事故可追溯到廠家 充電寶等產品的CCC認證標志將新增追溯二維碼中國聯通推出云智AI Pad:安卓/Windows雙系統、支持5G eSIM華為nova 15系列全面搭載鴻蒙6 不支持系統降級性能對標AMD RX550!龍芯:自研GPU 9A1000顯卡將適配Windows 滿足日常玩家快手突遭黑灰產攻擊 奇安信專家:黑灰產已全面邁入自動化攻擊時代中科曙光正式公布scaleX萬卡超集群:每節點640卡、總算力超500億億次眾泰汽車回應段永平牽頭OPPO、vivo重組:目前沒有合作技嘉主板開始印度制造!隨后擴展到顯示器和筆記本效能高出10倍!英偉達、SK海力士與群聯電子共同開發AI專用固態硬盤C口加持!OPPO Watch X3通過工信部核準,預計與Find N6同步登場卷軸屏、鴻蒙電腦、AI高靜游戲本 聊聊2025年筆記本行業有哪些新東西“鋁代銅”再引熱議!長虹空調:不冒進、不封閉2026年電視面板市場展望:量減質升,巨頭博弈“大尺寸”AI成最后籌碼放手一搏? 2026年是三星家電的關鍵一年OPPO楊寧:智能手機仍可能是6G時代最核心的終端載體消息稱字節跳動明年將投資230億美元發力AI國內第一!文心大模型5.0 Preview再登LMArena文本榜,超GPT-5.2
  • 首頁 > 云計算頻道 > 大模型

    DeepMind終結大模型幻覺?標注事實比人類靠譜、還便宜20倍,全開源

    2024年03月29日 15:19:13 來源:機器之心公眾號

      DeepMind 這篇論文一出,人類標注者的飯碗也要被砸了嗎?

      大模型的幻覺終于要終結了?

      今日,社媒平臺 reddit 上的一則帖子引起網友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》(大語言模型的長篇事實性),文中提出的方法和結果讓人得出大膽的結論:對于負擔得起的人來說,大語言模型幻覺不再是問題了。

      我們知道,大語言模型在響應開放式主題的 fact-seeking(事實尋求)提示時,通常會生成包含事實錯誤的內容。DeepMind 針對這一現象進行了一些探索性研究。

      首先,為了對一個模型在開放域的長篇事實性進行基準測試,研究者使用 GPT-4生成 LongFact,它是一個包含38個主題、數千個問題的提示集。然后他們提出使用搜索增強事實評估器(Search-Augmented Factuality Evaluator, SAFE)來將 LLM 智能體用作長篇事實性的自動評估器。

      對于 SAFE,它利用 LLM 將長篇響應分解為一組單獨的事實,并使用多步推理過程來評估每個事實的準確性。這里多步推理過程包括將搜索查詢發送到 Google 搜索并確定搜索結果是否支持某個事實 。

      此外,研究者提出將 F1分數(F1@K)擴展為長篇事實性的聚合指標。他們平衡了響應中支持的事實的百分比(精度)和所提供事實相對于代表用戶首選響應長度的超參數的百分比(召回率)。

      實證結果表明,LLM 智能體可以實現超越人類的評級性能。在一組約16k 個單獨的事實上,SAFE 在72% 的情況下與人類注釋者一致,并且在100個分歧案例的隨機子集上,SAFE 的贏率為76%。同時,SAFE 的成本比人類注釋者便宜20倍以上。

      研究者還使用 LongFact,對四個大模型系列(Gemini、GPT、Claude 和 PaLM-2)的13種流行的語言模型進行了基準測試,結果發現較大的語言模型通?梢詫崿F更好的長篇事實性。

      論文作者之一、谷歌研究科學家 Quoc V. Le 表示,這篇對長篇事實性進行評估和基準測試的新工作提出了一個新數據集、 一種新評估方法以及一種兼顧精度和召回率的聚合指標。同時所有數據和代碼將開源以供未來工作使用。

      方法概覽

      LONGFACT:使用 LLM 生成長篇事實性的多主題基準

      首先來看使用 GPT-4生成的 LongFact 提示集,包含了2280個事實尋求提示,這些提示要求跨38個手動選擇主題的長篇響應。研究者表示,LongFact 是第一個用于評估各個領域長篇事實性的提示集。

      LongFact 包含兩個任務:LongFact-Concepts 和 LongFact-Objects,根據問題是否詢問概念或對象來區分。研究者為每個主題生成30個獨特的提示,每個任務各有1140個提示。

      SAFE:LLM 智能體作為事實性自動評分者

      研究者提出了搜索增強事實評估器(SAFE),它的運行原理如下所示:

      a)將長篇的響應拆分為單獨的獨立事實;

      b)確定每個單獨的事實是否與回答上下文中的提示相關;

      c) 對于每個相關事實,在多步過程中迭代地發出 Google 搜索查詢,并推理搜索結果是否支持該事實。

      他們認為 SAFE 的關鍵創新在于使用語言模型作為智能體,來生成多步 Google 搜索查詢,并仔細推理搜索結果是否支持事實。下圖3為推理鏈示例。

      為了將長篇響應拆分為單獨的獨立事實,研究者首先提示語言模型將長篇響應中的每個句子拆分為單獨的事實,然后通過指示模型將模糊引用(如代詞)替換為它們在響應上下文中引用的正確實體,將每個單獨的事實修改為獨立的。

      為了對每個獨立的事實進行評分,他們使用語言模型來推理該事實是否與在響應上下文中回答的提示相關,接著使用多步方法將每個剩余的相關事實評級為「支持」或「不支持」。具體如下圖1所示。

      在每個步驟中,模型都會根據要評分的事實和之前獲得的搜索結果來生成搜索查詢。經過一定數量的步驟后,模型執行推理以確定搜索結果是否支持該事實,如上圖3所示。在對所有事實進行評級后,SAFE 針對給定提示 - 響應對的輸出指標為 「支持」事實的數量、「不相關」事實的數量以及「不支持」事實的數量。

      實驗結果

      LLM 智能體成為比人類更好的事實注釋者

      為了定量評估使用 SAFE 獲得注釋的質量,研究者使用了眾包人類注釋。這些數據包含496個提示 - 響應對,其中響應被手動拆分為單獨的事實(總共16011個單獨的事實),并且每個單獨的事實都被手動標記為支持、不相關或不支持。

      他們直接比較每個事實的 SAFE 注釋和人類注釋,結果發現 SAFE 在72.0% 的單獨事實上與人類一致,如下圖4所示。這表明 SAFE 在大多數單獨事實上都達到了人類水平的表現。然后檢查隨機采訪的100個單獨事實的子集,其中 SAFE 的注釋與人類評分者的注釋不一致。

      研究者手動重新注釋每個事實(允許訪問 Google 搜索,而不僅僅是維基百科,以獲得更全面的注釋),并使用這些標簽作為基本事實。他們發現,在這些分歧案例中,SAFE 注釋的正確率為76%,而人工注釋的正確率僅為19%,這代表 SAFE 的勝率是4比1。具體如下圖5所示。

      這里,兩種注釋方案的價格非常值得關注。使用人工注釋對單個模型響應進行評級的成本為4美元,而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為0.19美元。

      Gemini、GPT、Claude 和 PaLM-2系列基準測試

      最后,研究者在 LongFact 上對下表1中四個模型系列(Gemini、GPT、Claude 和 PaLM-2)的13個大語言模型進行了廣泛的基準測試。

      具體來講,他們利用了 LongFact-Objects 中250個提示組成的相同隨機子集來評估每個模型,然后使用 SAFE 獲取每個模型響應的原始評估指標,并利用 F1@K 指標進行聚合。

      結果發現,一般而言,較大的語言模型可以實現更好的長篇事實性。如下圖6和下表2所示,GPT-4-Turbo 優于 GPT-4,GPT-4優于 GPT-3.5-Turbo,Gemini-Ultra 優于 Gemini-Pro,PaLM-2-L-IT-RLHF 優于 PaLM-2-L-IT。

      更多技術細節和實驗結果請參閱原論文。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    蜜桃视频网站在线观看| 国产伦精品一区二区三区视频| 超碰97在线免费观看| 蜜臀av一区| 国产亚洲一区在线| 国产第一区电影| 日韩亚洲一区在线播放| 青椒成人免费视频| 日韩电影免费网站| 久久精品免费一区二区三区| 久久99精品久久只有精品| 欧美电影免费| 日韩不卡在线视频| 丁香五精品蜜臀久久久久99网站| 国产欧美一区二区三区在线看| 亚洲欧美国产77777| aaa级精品久久久国产片| 深夜成人影院| 99在线观看视频网站| 亚洲精品电影网站| 欧美日韩在线播放三区| 在线最新版中文在线| 日本精品va在线观看| 欧美偷拍一区二区| 国产日产一区二区三区| 91丝袜美腿美女视频网站| 91探花福利精品国产自产在线| www.亚洲一区| 久久久99久久精品女同性| 在线播放亚洲激情| 欧美美女一区二区三区| 国产精品美女在线观看| 国产精品视频中文字幕91| 国产伦精品一区二区三区免费| 欧美亚洲综合一区| 免费看成人吃奶视频在线| 91色porny蝌蚪| 久久久久久美女精品| 亚洲精品美女久久久| 成人免费精品视频| 亚洲二区在线视频| 精品一区2区三区| 一本一本久久a久久综合精品| 亚洲深夜福利在线| 亚洲国产成人一区| 久久99久久亚洲国产| 日韩高清av在线| 亚洲麻豆av| 国产麻豆一区| 亚洲精品欧美激情| 国产精品日本一区二区不卡视频| 床上的激情91.| 亚洲高清av| 国产精品久久久久久久久久| 国产精品影视网| 天天在线视频色| 久久五月婷婷丁香社区| 国产伦视频一区二区三区| 成人一区二区三区视频在线观看| 国产视频911| 国产乱人伦真实精品视频| 国产精品999999| 久久久av电影| 亚洲成人网在线观看| 日韩午夜中文字幕| 91成人在线精品| 国产在线国偷精品免费看| 中文字幕不卡三区| 亚洲人体av| 国产成人aa在线观看网站站| 日韩成人午夜电影| 欧美精品精品一区| 成人小视频免费在线观看| 欧美一区二区性放荡片| 色www永久免费视频首页在线| 亚洲国产高清在线观看| 97天天综合网| 日韩一区二区高清| 精品国产乱码久久久久久老虎| 亚洲一区二区三区四区视频| 在线精品视频免费播放| av爱爱亚洲一区| 欧美疯狂性受xxxxx喷水图片| 国产精品美女久久久久av爽李琼| 日韩精品在线视频| 日韩中文字幕视频| 亚洲精品免费在线视频| 亚洲欧洲成人精品av97| 在线这里只有精品| sm捆绑调教国产免费网站在线观看| 国产精品99久久久久久宅男| 久久综合九色综合网站| 欧美高清一区二区| 国产在线一区二区视频| 麻豆视频免费在线观看| 国产69精品久久久| 看国产成人h片视频| 好吊妞www.84com只有这里才有精品| 国产精品**亚洲精品| 牛夜精品久久久久久久99黑人| 羞羞污视频在线观看| 久久久久久久久久久黄色| 国产精品人成在线观看免费| 日韩欧美成人网| 久久久久久久av麻豆果冻| 99久久婷婷这里只有精品| 亚洲国产中文在线二区三区免| 欧美人与性动交α欧美精品济南到| 香蕉成人av| 欧美一区二区人人喊爽| 噜噜噜在线观看免费视频日韩| 永久免费av在线| 国产精品不卡视频| 国产精品狼人久久影院观看方式| 欧美性黄网官网| 99综合久久| 韩国成人动漫在线观看| 国产一区在线视频| 国产日产欧美精品一区二区三区| 97**国产露脸精品国产| 亚洲影院高清在线| 宅男噜噜噜66一区二区66| 国产一区二区三区精品欧美日韩一区二区三区| 国产一区二区高清不卡| 欧美亚洲高清一区| caoporn成人免费视频在线| 亚洲欧美一区二区三区国产精品| 麻豆影院在线| 日日噜噜夜夜狠狠视频欧美人| 久久99久国产精品黄毛片色诱| 欧美日韩精品免费观看视欧美高清免费大片| 日韩中文有码在线视频| 四季久久免费一区二区三区四区| 国产高清自产拍av在线| 免费欧美网站| 亚洲一区二区三区视频在线播放| 免费在线看黄网站| 国产精品电影在线观看| 99久久精品久久久久久ai换脸| 欧美嫩在线观看| 国产精品久久久久久久裸模| 欧美一区二区| 白浆视频在线观看| av成人资源网| 久久福利资源站| 国产精品一区二区99| 欧美成人精品在线视频| 麻豆精品蜜桃视频网站| 亚洲摸摸操操av| 免费不卡在线观看av| 国产精品99久久久久久似苏梦涵| 国产精品一区视频| 中文日韩在线视频| 欧美高清一区| 欧美一级日本a级v片| 国产高清视频在线| 日韩精品在线看片z| 欧美美女一区| 日韩精品免费在线观看| 国产精品久久久久久久免费观看| 欧美噜噜久久久xxx| 欧美电影一区二区| 亚洲一二三区在线观看| 国产一区二区三区免费在线观看|