在當前技術發展的背景下,英特爾公司推出的Extension for Transformers工具包成為一個重要創新,實現了在CPU上對大型語言模型(LLM)推理性能的顯著加速。該工具包通過LLM Runtime技術,優化了內核,支持多種量化選擇,提供更優的KV緩存訪問和內存分配策略,使得首個token和下一個token的推理速度分別提升多達40倍和2.68倍。這一技術的推出,極大地滿足了不同場景對于LLM推理性能的需求。

在性能測試方面,通過與llama.cpp進行比較,LLM Runtime在輸入大小為1024時能夠實現3.58到21.5倍的性能提升,而在輸入大小為32時,提升為1.76到3.43倍。同時,工具包還通過驗證了多個模型的INT4推理準確性,表明在性能提升的同時準確性損失微小。

然而,不僅僅是性能的提升,工具包還在聊天場景中應用方面取得了顯著成果。通過引入流式LLM技術,解決了對話歷史、輸出長度有限和效率低下等應用難題,使得LLM在聊天場景中更加實用。這一技術的特性,包括對話歷史的納入和輸出長度的優化,使得工具包在解決聊天場景難題方面具有先進性和前瞻性。
英特爾® Extension for Transformers工具包在大型語言模型推理性能的提升以及聊天場景應用方面的創新成果,標志著對于人工智能領域的進一步推動。通過不斷引入先進的技術和解決實際問題的能力,該工具包展現了英特爾在人工智能領域的領先地位,為未來的發展提供了強有力的支持。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。