国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    只激活3.8B參數,性能比肩同款7B模型!訓練微調都能用,來自微軟

    2024年07月18日 14:29:55 來源:量子位公眾號

      只需激活60%的參數,就能實現與全激活稠密模型相當的性能。

      微軟亞洲研究院的一項新研究,實現了模型的完全稀疏激活,讓推理成本大幅下降。

      而且適用范圍廣泛,無論是從頭訓練、繼續訓練還是微調,都能提供有效支持。

      該方法名為Q-Sparse,在神經元級別上實現了模型稀疏化,相比于其他方式粒度更細,在相同推理開銷下,無論性能還是稀疏率都更好。

      名稱之中,Q指的是量化(Quantization),意味著它除了普通模型之外,也兼容量化技術,適用于各種量化方式的模型。

      作者進一步表示,如果把Q-Sparse與模型量化技術結合,還可以實現更大程度的降本增效。

      另外在研究Q-Sparse的同時,團隊也對參數規模、稀疏率和模型性能三者之間的關系進行了深入探尋,并發現了適用于模型推理優化的“Scaling Law”。

      有網友認為,這項技術確實不錯,而且比ReLU要更好。

      還有人開啟了許愿模式,表示如果(AMD的)ROCm能比英偉達更快支持這項技術就好了。

      用Top-K函數實現稀疏化

      Q-Sparse所做的最核心的操作,是對輸入的張量應用Top-K稀疏化函數。

      具體來說,Transformer架構在注意力層和前饋層中都使用nn.Linear線性層(矩陣乘法)進行投影,可以表示為Y=X·W^T。(其中X就是輸入張量,W代表其權重,Y為輸出張量)

      Q-Sparse中,對于一個輸入激活張量X,首先會計算其絕對值|X|并進行排序,找出其中絕對值最大的K個元素。

      這里的K是預先設定的超參數,決定了稀疏化的程度。

      之后Q-Sparse會創建一個與X形狀相同的二進制掩碼張量M,對于一系列|X|中絕對值最大的K個元素對應的位置,將M中的相應位置設置為1,其余位置設置為0。

      接著,將輸入張量X與掩碼張量M進行Hadamard積(逐元素相乘)運算,就得到了稀疏化的張量X_sparse。

      在前向傳播過程中,稀疏化后的張量X_sparse將代替原始的輸入張量X參與后續的計算(如矩陣乘法)。

      由于X_sparse中大部分元素已經被設置為零,因此可以顯著減少計算量和內存帶寬需求。

      在反向傳播過程中,Q-Sparse使用了直通估計器(Straight-Through Estimator,STE)來計算Top-K函數的梯度。

      傳統的訓練方式中,通常需要計算損失函數對網絡參數的梯度,并使用梯度下降法更新參數以最小化損失。

      但當網絡中存在量化、Top-K等一些不可微的操作時,梯度的計算就會遇到問題,因為這些操作的輸出對輸入的梯度在大多數點上都是0,導致梯度無法有效傳播。

      STE通過直接將梯度傳遞給稀疏化之前的張量,避免了梯度消失的問題。

      一般的反向傳播中,損失函數L對x的梯度∂L/∂x=∂L/∂y⋅∂y/∂x,但由于不可微分無法直接計算。

      STE的解決方案是只計算損失函數對稀疏化張量y的梯度,然后將其直接復制給原始張量x,也就是直接將∂L/∂y作為∂L/∂x的估計。

      有/無STE時的梯度比較

      對于前饋層,Q-Sparse使用平方ReLU函數代替常規的ReLU激活函數,平方運算可以進一步提高激活的稀疏性(⊙表示Hadamard積)。

      另外,為了適配量化模型,Q-Sparse在應用Top-K稀疏化之前,會先對輸入張量進行量化,以確保稀疏化操作與量化表示兼容,其函數表示如下:

      其中,ε是一個小常數,用于避免出現分母為零的情況。

      特別的,對于1-bit量化的權重,Q-Sparse使用以下量化函數,其中α是權重張量W的平均絕對值。

      60%激活參數達到相同效果

      對比實驗表明,無論是稀疏率還是模型表現,Q-Sparse都顯著優于此前的ReLU方法。

      針對Q-Sparse的具體效果,作者對其在從頭訓練、繼續訓練和微調三項任務上的性能進行了評估。

      從頭訓練實驗使用的模型為Llama,結果在700M和7B模型上,使用70% top-K(即40%的整體稀疏率)的Q-Sparse可以達到與密集baseline相當的訓練損失。

      繼續訓練的目的是將稠密模型稀疏化,這里的實驗對象是Mistral-7B。

      結果,在激活參數為2.9B和3.8B的情況下,模型在ARC、MMLU等數據集中的得分均未發生明顯下降。

      在微調實驗中,對于Qwen-7B和Mistral-7B兩種模型,Q-Sparse顯示出了與繼續訓練相似的結果,用60%左右的激活參數實現了與密集模型十分接近的表現。

      這些結果意味著,在相同的性能下,與密集模型相比,稀疏激活模型在推理過程中可以顯著減少激活參數,進而降低消耗FLOPS的數量。

      對于量化模型,團隊在自研的BitNet b1.58模型上應用了Q-Sparse,并在多個數據集上進行了訓練和評估。

      可以看到,在700M和7B兩種規模下,使用Q-Sparse的量化模型的收斂速度和最終損失函數值與未使用Q-Sparse的量化模型(BitNet b1.58)相當。

      這說明Q-Sparse可以無縫集成到量化模型中,而不會顯著影響模型的訓練和收斂。

      據此作者認為,將Q-Sparse與量化技術相結合,可以進一步提高大語言模型在推理階段的效率。

      發現推理優化新“Scaling Law”

      除了測評這些模型采取稀疏激活時的表現,作者也對模型性能、規模和稀疏率三者之間的關系進行了探究,并有了一些新的發現。

      稀疏激活模型的性能縮放定律: 作者發現,與密集模型類似,稀疏激活模型的性能也遵循一個冪律縮放關系。

      具體來說,給定稀疏率S,模型在收斂時的損失函數值L(N,S)可以用以下公式近似:

      其中,N是模型參數的數量;E是一個常數,表示模型在無限大時的損失;A(S)是一個與稀疏率S有關的縮放因子。

      這個縮放定律表明,稀疏激活模型的性能隨著模型規模的增大而提高,但提高的速度會逐漸變慢

      同時作者發現,模型的性能也會受到稀疏率的影響。

      在參數規模與性能之間關系的部分提到,A(S)是一個與稀疏率S有關的縮放因子,可以用以下公式近似:

      其中B和C是常數,β是一個控制指數衰減速度的參數。

      這個公式表明,當稀疏率S增大(模型變得更稀疏)時,意味著更高的稀疏率會導致性能的下降,下降的速度是指數級的。

      基于上述發現,作者得出了一個推理最優的稀疏率S*,能在預算(推理時的浮點操作數)一定時,實現模型損失函數值的最小化。

      對于全精度(FP32)模型,最優稀疏率約為45.58%;而低精度(如1.58-bit)模型的最優稀疏率則更高,約為61.25%。

      作者觀察到,隨著模型規模的增大,稀疏激活模型與密集模型之間的性能差距逐漸縮小。

      這可以從縮放定律中得到解釋:當模型規模N趨于無窮大時,稀疏激活模型的損失函數值趨于L(∞,S)=E,而密集模型的損失函數值趨于L(∞,0)=E。

      這意味著,在極大規模下,稀疏激活模型有可能達到與密集模型相當的性能,為設計和訓練大規模稀疏激活模型提供了一個有用的參考。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    91在线小视频| 久久亚洲捆绑美女| 欧美激情一区二区三区在线| 久久99精品国产91久久来源| 91视频欧美| 国产91对白在线播放| 亚洲资源av| 日韩深夜影院| 国产精品永久免费在线| 久久精品国产清自在天天线| 91看片淫黄大片一级| 人人澡人人添人人爽一区二区| 欧美性色视频在线| 最近2019年好看中文字幕视频| 丁香高清在线观看完整电影视频| 国产精品久久久久久中文字| 欧美精品999| 欧美成人精精品一区二区频| 成人黄视频在线观看| 国产欧美日韩一区二区三区在线观看| 中文字幕视频一区二区在线有码| 欧美华人在线视频| 伊人久久大香线蕉综合网蜜芽| 99久久精品免费看国产四区| 欧美第一黄网| 国产va免费精品高清在线| 91精品国产综合久久香蕉的用户体验| 成人mm视频在线观看| 国产精品流白浆视频| 欧美一站二站| 日韩三级成人av网| 国产综合精品| 欧美精品一区二区久久婷婷| 中文字幕在线一区免费| 激情综合激情| 免费看精品久久片| 99视频在线观看一区三区| 清纯唯美激情亚洲| 国产一区二区不卡视频| 国产农村妇女精品一二区| 亚洲综合影院| 欧美在线性视频| 亚洲国产精品悠悠久久琪琪| 日韩一级成人av| 国产日韩在线看| 视频在线不卡免费观看| 蜜臀av性久久久久蜜臀aⅴ四虎| 岛国视频一区免费观看| 九九热精品在线| 日本最新高清不卡中文字幕| 国产日本欧美在线观看| 欧美日韩精品一区二区天天拍小说| 亚洲成av人在线观看| 99久久久精品免费观看国产蜜| 美女网站在线免费欧美精品| 日韩在线观看一区二区| 国产成人精品三级高清久久91| av动漫精品一区二区| 欧美日韩专区在线| 在线国产精品播放| 国产男女猛烈无遮挡91| 久久精品国产亚洲| 日韩av一区二区三区在线观看| 欧美性xxxxxx少妇| 久久香蕉综合色| 成人欧美一区二区三区的电影| 久久久久亚洲综合| 精品一二三四在线| 色一情一乱一伦一区二区三区| 亚洲第一区色| 日韩av影视综合网| 黑人极品ⅴideos精品欧美棵| 自拍偷在线精品自拍偷无码专区| 视频二区欧美毛片免费观看| 国产乱对白刺激视频不卡| 成人动漫在线观看视频| 超碰成人久久| 国产日韩欧美三级| 日韩精品视频网| 国产精品私人影院| 日韩欧美在线观看| 超碰这里只有精品| 成人视屏免费看| 久久这里只有精品99| 欧美日本一道本在线视频| 大菠萝精品导航| 国产激情在线播放| 嗯用力啊快一点好舒服小柔久久| 欧美疯狂做受xxxx富婆| 欧美日韩国产成人精品| 亚洲人成免费网站| 国产一区二区观看| 日本欧美大码aⅴ在线播放| 亚洲国产精品久久久天堂| 亚洲视屏一区| 91精品福利观看| 96sao精品视频在线观看| 日韩免费av一区二区| 免费久久久一本精品久久区| 国产精品免费网站在线观看| 久久―日本道色综合久久| 日韩毛片在线看| 综合一区二区三区| 久99九色视频在线观看| 中文字幕中文字幕在线十八区| 精品国产sm最大网站免费看| 国产精品一级黄| 一区二区美女| 精品日产一区2区三区黄免费| 福利电影一区二区三区| 日韩高清在线电影| 性欧美gay| 中文字幕在线看视频国产欧美在线看完整| 久久蜜臀中文字幕| 精品午夜一区二区| 亚洲一区二区三区爽爽爽爽爽| 国产精品刘玥久久一区| 亚洲女成人图区| 国产精品激情电影| 日本久久久久久久久久久| 永久免费观看精品视频| 国产精品一卡二卡| 日韩成人免费电影| 亚洲a成v人在线观看| 日韩欧美一区二区三区在线视频| 亚洲国产成人91精品| 欧美色图国产精品| 色综合天天狠狠| 日本福利一区| 在线精品亚洲| 99久久精品免费看国产免费软件| 国产专区一区二区| 亚洲男人av在线| 婷婷丁香久久五月婷婷| 国产精品va在线观看视色| 国产精品久久777777| 日本成人在线视频网址| 久久久久综合一区二区三区| 在线免费看h| 精品成人一区二区三区四区| 视频二区不卡| av手机在线观看| 国产一区二区中文字幕免费看| 日韩一区二区三区国产| 欧美视频福利| 国产91精品久| 国产在线资源一区| 国产一级精品aaaaa看| 国产一区久久久| 欧美国产激情18| 国产黄大片在线观看画质优化| 一级毛片久久久| 99精品在线免费观看| 91视频九色网站| 亚洲男人的天堂在线播放| 国产精品免费免费| 免费影视亚洲| 欧美激情综合在线| 日本韩国一区二区三区视频| 欧美狂野另类xxxxoooo| 欧美贵妇videos办公室| 欧美日韩免费电影| 色综合91久久精品中文字幕| 欧美一级爱爱|