蘋果公司昨日(12 月 18 日)發布博文,宣布和英偉達(Nvidia)合作,通過開源 Recurrent Drafter(ReDrafter)推測解碼方法,顯著提升了 AI 大語言模型(LLM)的推理速度。
蘋果公司表示 ReDrafter 已集成到 NVIDIA TensorRT-LLM 推理加速框架中,在 NVIDIA GPU 上,每秒生成 tokens 速度最高提升 2.7 倍,有效降低了用戶延遲和計算成本。
蘋果的機器學習研究人員指出,LLM 越來越多地用于驅動生產應用程序,提高推理效率對降低計算成本和用戶延遲至關重要。
援引蘋果官方博文,ReDrafter 使用 RNN 草稿模型,結合波束搜索(beam search)與動態樹注意力(dynamic tree attention),可以讓開源模型每步生成最多 3.5 個 tokens,超越了先前推測性解碼技術的性能。
為將 ReDrafter 應用于生產環境,蘋果與 NVIDIA 展開合作,將其集成到 NVIDIA TensorRT-LLM 框架中。
英偉達為此添加了新的運算符并公開了現有運算符,增強了 TensorRT-LLM 對復雜模型和解碼方法的適應性。
基準測試結果顯示,在 NVIDIA GPU 上使用集成了 ReDrafter 的 TensorRT-LLM 框架,數百億參數規模的生產模型的解碼速度提升了 2.7 倍。這不僅降低了用戶體驗延遲,還減少了 GPU 使用數量和功耗。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。