近日,英偉達、香港大學與麻省理工學院的研究團隊聯合發布了一種名為 Fast-dLLM 的創新技術,旨在提升擴散語言模型的推理效率。與傳統的自回歸模型不同,擴散語言模型采用逐步去除文本噪聲的方式生成文本,因此能夠在一次迭代中生成多個單詞,整體效率更高。然而,在實際應用中,許多開源擴散語言模型的推理速度仍然不如自回歸模型,主要受限于缺乏鍵值(KV)緩存支持以及并行解碼時生成質量下降。
KV 緩存是自回歸模型中常用的加速推理技術,通過存儲和重用之前計算的注意力狀態,顯著減少重復計算,從而提高生成速度。但由于擴散語言模型采用雙向注意力機制,直接應用 KV 緩存并不容易。Fast-dLLM 架構的創新之處在于將文本生成過程劃分為多個塊,每個塊包含一定數量的 token。通過這種塊狀生成方式,模型可以在生成一個塊之前預先計算并存儲其他塊的 KV 緩存,進而避免重復計算。
盡管 KV 緩存機制有效提升了推理速度,但在并行解碼時,生成質量往往會下降。這是因為擴散型模型在解碼時假設條件獨立性,然而標記之間可能存在復雜的依賴關系。為了解決這一問題,Fast-dLLM 提出了一種基于置信度的平行解碼策略。在每個解碼步驟中,模型會計算每個標記的置信度,并選擇置信度超過閾值的標記進行解碼。這種策略確保了高置信度的情況下能夠安全進行并行解碼,從而維持生成文本的連貫性和準確性。
為驗證 Fast-dLLM 的性能,研究人員在 NVIDIA A10080GB GPU 上對 LLaDA 和 Dream 兩種擴散語言模型進行了全面評估,涵蓋了數學推理和代碼生成等任務。在 KV 緩存機制的測試中,塊大小為32時,模型的吞吐量達到了54.4tokens/s,準確率為78.5%。并行解碼測試中,采用動態閾值策略優于固定 token 數基線。整體來看,LLaDA 模型在 GSM8K 任務中僅用 KV Cache 加速3.2倍,并行解碼加速2.5倍,兩者結合的速度提升達到8.1倍,生成長度達到1024時的端到端加速更是高達27.6倍。所有測試結果顯示,Fast-dLLM 在加速的同時,保持了生成質量的穩定。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。