1月16日消息,智譜AI今天發布全自研第四代基座大模型GLM-4,性能相比前一代GLM-3提升60%、中文能力比肩GPT-4。
智譜AI CEO張鵬介紹,GLM-4的整體性能相比上一代大幅提升,逼近GPT-4。它可以支持更長的上下文,具備更強的多模態能力。同時,它的推理速度更快,支持更高的并發,大大降低推理成本。
除此之外,GLM-4大幅提升了智能體能力,GLM-4 All Tools 實現自主根據用戶意圖,自動理解、規劃復雜指令,自由調用網頁瀏覽器、Code Interpreter代碼解釋器和多模態文生圖大模型以完成復雜任務。GLMs 個性化智能體定制功能亦同時上線,用戶用簡單的提示詞指令就能創建屬于自己的 GLM 智能體。
中文能力比肩GPT-4
在基礎能力方面,GLM-4在各項評測集上的最終得分如下:
MMLU:81.5,達到GPT-4的94%水平;
GSM8K:87.6 ,達到GPT-4的95%水平;
MATH :47.9,達到GPT-4的91%水平;
BBH :82.3,達到GPT-4的99%水平;
HellaSwag :85.4,達到GPT-4 的90%水平;
HumanEval:72,達到GPT-4的100%水平。
指令跟隨能力方面, GLM-4在IFEval Prompt提示詞跟隨中文方面達到和GPT-4的88%水平,指令跟隨(中文)方面達到 90%水平。
對齊能力上,基于AlignBench數據集,GLM-4超過了GPT-4的6月13日版本,逼近GPT-4最新11月6日版本的效果。GLM-4在中文推理、邏輯推理方面的能力,還有待進一步提升。
GLM-4可以支持128k的上下文窗口長度,單次提示詞可以處理的文本可以達到300頁。同時,在needle test(大海撈針)測試中,128K文本長度內GLM-4 模型均可做到幾乎100%的精度召回,并未出現長上下文全局信息因為失焦而導致的精度下降問題。
同時,多模態能力方面,GLM-4在文生圖(CogView3)和多模態理解都得到了增強。CogView3效果超過開源最佳的Stable Diffusion XL,逼近DALLE•3。
此外,GLM-4的All Tools能力全新發布。
GLM-4實現了自主根據用戶意圖,自動理解、規劃復雜指令,自由調用網頁瀏覽器、Code Interpreter代碼解釋器和文生圖CogView3模型。
同時,GLM-4 通過代碼解釋器,會自動調用代碼解釋器進行復雜的方程或者微積分求解。對比GSM8K、Math以及Math23K三個數據集上的結果,GLM-4 All Tools取得和GPT-4 All Tools相當的效果。
GLM-4的All Tools能力完全自動,而且可以處理各種任務,比如包括文件處理、數據分析、圖表繪制等復雜任務,支持處理 Excel、PDF、PPT 等格式的文件。
GLMs上線 大模型開源基金共建生態
GLMs個性化智能體定制能力也同步上線。
基于GLM-4模型的強大能力,張鵬介紹介紹,用戶只要登錄智譜清言官方網站,用簡單的提示詞指令就能創建屬于自己的GLM智能體。
用戶可以通過全新上線的智能體中心分享自己創建的各種智能體。GLM模型智能體的推出標志著任何人都能夠自由運用GLM-4模型并挖掘它的潛力,沒有任何編程基礎也能夠實現大模型的便捷開發。這是智譜AI為降低大模型使用門檻所做的最新努力。
此前,智譜AI分別聯合CCF中國計算機學會、中國中文信息學會社會媒體處理專委會發起了CCF-智譜大模型基金、SMP-智譜大模型交叉學科基金,用于支持大模型理論、算法、模型、應用等相關研究和跨領域交叉創新。去年兩支基金為來自全國三十余所高校參與的41個研究項目累計提供了超1000萬元現金和算力資源的科研支持。
2024年智譜AI也將發起開源開放的大模型開源基金。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。