近日,Elicit公司機器學習工程師Charlie George在LangChain博客上發表文章介紹了他們使用合成數據微調ChatGPT在新聞摘要任務上超越GPT-4的研究成果。
文章提到,盡管GPT-4被公認為世界上最強大的語言模型,但其調用限制、高成本和高延遲也限制了其實際應用。為解決這一問題,一些開發者轉而使用ChatGPT等小模型,但小模型的表現通常不如GPT-4。文章介紹了微調的思路,即調整模型參數以更好地適應具體任務,但收集人類標注數據昂貴且耗時,而傳統評估指標如困惑度也無法準確反映用戶體驗。
為解決數據問題,采用了一種合成數據生成方法,即使用GPT-4通過鏈式密度(CoD)提示逐步改進其生成的摘要。然后,使用LangSmith平臺收集這些改進后的摘要作為訓練數據,微調ChatGPT。
在評估方面,文章認為傳統的BLEU和ROUGE指標往往不能準確捕捉現代語言模型的細微差異。相比之下,人工評估雖可靠但耗時耗力。最佳方案是開發自動化評估系統,但也需要人工驗證其有效性。研究者已經開發了與真人高度一致的自動化評估鏈ScoreStringEvalChain和PairwiseStringEvalChain。

說明:經過微調的 ChatGPT 超越了 GPT-4零樣本,并接近帶有 CoD 的 GPT-4

說明:經過微調的 ChatGPT 比 GPT-4零樣本快11倍以上,比帶 CoD 的 GPT-4快33倍

經過微調的 ChatGPT 比 GPT-4零樣本便宜63%,比帶 CoD 的 GPT-4便宜84%
結果顯示,相比GPT-4零樣本,微調后的ChatGPT在新聞摘要任務上的表現優于前者,幾乎達到GPT-4鏈式提示的水平,但其速度提高11倍,成本降低63%。與零樣本GPT-4相比,微調ChatGPT在雙樣本評估中獲勝率達96%。
分析稱,合成數據微調展現了增強語言模型能力的巨大潛力。LangChain提供了創建復雜鏈條和遷移到小模型的完美工具。自動化評估為快速可靠地評估實際表現提供了有效手段。這為新一代AI應用大規模部署提供了路徑。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。