小紅書近日宣布開源其首個大規模模型 ——dots.llm1,該模型具有1420億個參數,是一種專家混合模型(MoE)。在推理過程中僅激活140億參數,這種結構不僅保持了高性能,還大幅降低了訓練和推理的成本。
dots.llm1使用了11.2萬億個非合成的高質量訓練數據,該模型在中文測試中的表現優異,平均得分91.3,超越了多款競爭對手。
在技術架構方面,dots.llm1采用了單向解碼器 Transformer 結構,并將傳統前饋網絡替換為 MoE。與傳統模型不同,MoE 將多個專家網絡分開,每個專家網絡專注于輸入數據的不同特征,從而在推理時只激活一小部分網絡進行計算,大幅度節省了算力需求。
dots.llm1包含128個路由專家和2個共享專家。每個專家都是一個具有兩層前饋結構的網絡,使用 SwiGLU 激活函數以捕捉數據中的復雜關系。在處理輸入標記時,模型會動態選擇出6個最相關的專家和2個共享專家進行運算。
此外,dots.llm1在訓練過程中還引入了改進的 RMSNorm 歸一化操作,以穩定模型性能和輸出。在 MoE 模塊中,負載平衡策略的引入確保了所有專家網絡的使用均衡,從而避免了過度依賴某些專家的問題。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。