国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    最火AI角色扮演流量已達谷歌搜索20%!每秒處理2萬推理請求,Transformer作者公開優化秘訣

    2024年06月21日 15:55:08 來源:量子位公眾號

      什么AI應用每秒處理20000個AI推理請求,達到2024年谷歌搜索流量的1/5?

      答案是獨角獸Character.ai,由Transformer作者Noam Shazeer(后面簡稱沙哥)創辦。

      剛剛,沙哥公布了推理優化獨門秘訣,迅速引起業界熱議。

      具體來說Character.ai在整個服務堆棧中實現了如下成績:

      內存高效架構設計:將KV緩存大小減少20倍以上,而不會降低質量

      Attention狀態緩存:95%請求無需重算

      直接用in8精度量化訓練:推理零損失還省顯存

      Character.AI通過以上種種優化,已經把推理成本降低到最初的1/33,如果用市場上最好的商業API來支撐這種級別的流量,成本會比現在高出13.5倍!

      眾多公布的方法中,原生int8訓練是最受關注的。

      雖然大多數技巧都來自公開研究,但是正如網友所說,知道如何把它們高效整合在一起實現的團隊才是真正的護城河。

      秘訣1:高效利用顯存,attention 參數量降低20倍

      大模型的一大痛點是顯存占用高,導致無法支持大批量推理。Attention 層中的 Key-Value(KV)緩存便是罪魁禍首之一。

      為了降低顯存占用,Character.AI在Attention層大動手術:

      全面采用MQA(Multi-Query Attention)

      與大多數開源模型中采用的GQA(Grouped-Query Attention)相比,將KV緩存大小減少了8倍。

      而MQA正是沙哥本人2019年在谷歌期間提出的,有網友評價“當一個人能在生產環境中引用自己的論文,就達到了一個新的高度”。

      混合注意力視野

      將局部注意力與全局注意力層交織在一起,使用滑動窗口訓練局部注意力,將復雜度從 O(length^2) 降低到 O(length)。

      團隊發現,將大多數注意力層的注意力范圍減少到1024不會對評估指標產生重大影響,包括長上下文大海撈針基準。在Character.ai生產模型中,每6層中只有1層使用全局注意力

      跨層KV共享

      團隊將KV緩存綁定在相鄰的注意力層上,這進一步將 KV緩存大小減少了2-3倍。

      對于全局注意力,跨塊綁定多個全局層的KV緩存,因為全局注意力層在長上下文用例中主導KV緩存大小,團隊發現跨層共享KV不會降低質量。

      下圖中左半部分是標準Transformer設計,每個注意力都是全局注意力。右半部分為Character.ai的設計,藍色框表示全局注意力,綠色框表示局部注意力,連線表示KV共享。

      這一套組合拳下來,KV緩存大小減少20倍以上,顯存再也不是瓶頸了。

      秘訣2:巧用狀態緩存,95%請求無需重算

      Character.AI還有一招神來之筆,就是在不同對話之間緩存Attention狀態。

      作為聊天機器人角色扮演服務,Character.AI上大部分對話都是連續多輪的,平均每個對話包含180條消息。如果每次都要重新計算前面的狀態,成本可想而知。

      于是團隊設計了一個緩存機制,把每個對話的Prefix和生成的消息都緩存在內存中,供后續調用。

      借鑒RadixAttention的思路,樹狀結構的LRU緩存組織緩存的KV張量。緩存的KV值由前綴token的Rolling Hash速檢索最長匹配的緩存,即使前綴只有部分匹配也能命中。

      更妙的是,他們還用會話保持(Sticky Session)把同一對話路由到同一個服務器,進一步提高緩存命中率。最終做到95%的請求都能復用已有緩存,大幅降低了計算成本。

      下圖中,藍色框表示主機內存上的緩存張量。綠色和黃色框表示CUDA內存上的KV緩存。當新查詢到達時,它檢索最長匹配前綴的KV緩存,Rolling Hash系統允許檢索部分匹配消息的緩存。

      秘訣3:直接量化訓練,推理零損失還省顯存

      最后一招,Character.AI沒有采用常見的“訓練后量化”,而是直接用Int8精度訓練模型。

      這種格式雖然表達精度降低,但通過精心設計定制的矩陣乘和 Attention 內核,不僅把訓練效率提高了好幾倍,而且還能無損用于推理。

      不過沙哥在這里暫時留了一手,表示“量化訓練本身就是一個復雜的話題,將在以后的文章中繼續討論。”

      沙哥其人

      最后再來介紹一下傳奇人物Noam Shazeer本人。

      他1994年拿了信息學奧賽IOI金牌,后來畢業于杜克大學。

      2000年加入谷歌,當時全公司只有200人左右,他參與了谷歌搜索的拼寫糾正功能,后來也負責過早期廣告系統。

      據知情人透露,在當初面試谷歌時,沙哥就被問到如何實現拼寫糾正。他描述了一種根據其他用戶的輸入輸入記錄,進行統計驗證的方法。

      面試官Gmail之父Paul Buchheit意識到,沙哥的方案比谷歌當時使用的要好。沙哥成功入職之后就把他的面試方案寫出來了。

      在Transformer開山之作《Attention is All You Need》研究中,沙哥最后一個加入團隊,一來就負責重新編寫了整個代碼。

      在沙哥出手之前,Transformer早期原型性能并沒有超越當時流行的LSTM方案,是他把早期設計中的卷積等模塊都拿掉,給出了一個極簡主義方案。最終破了BLEU測試的記錄,同時計算效率也更高。

      隊友用“他是一個巫師”來評價他的工程和代碼能力。

      除此之外,沙哥還有驚人的遠見。在Transformer架構問世不久,他就給谷歌高層寫信,提議公司放棄整個搜索索引,并用Transformer架構訓練一個巨大的神經網絡替代。

      2021年,沙哥離開谷歌后創辦了Character.AI,讓玩家簡單自創個性化AI陪聊,目前估值約50億美元。

      最近有消息稱,Meta與馬斯克的𝕏都在爭取與他們合作,把聊天機器人引入社交平臺。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    日韩一区二区免费在线电影| 99热精品久久| 天堂午夜影视日韩欧美一区二区| 久久亚洲人体| 亚洲国产老妈| 日韩av中文在线| 欧美大胆人体bbbb| 久久免费高清| 亚洲一区二区黄| 久久精品一级爱片| mm1313亚洲国产精品美女| 亚洲精品国产成人久久av盗摄| 欧美专区在线播放| 亚洲国产综合人成综合网站| 中文字幕亚洲国产| 九九热这里只有精品6| 精品久久美女| 亚洲成国产人片在线观看| 精品中文字幕一区二区三区av| 有码一区二区三区| 精品国产丝袜高跟鞋| 欧美有码在线观看| 日韩视频一区在线观看| 毛片在线网址| 国产亚洲二区| 国产清纯白嫩初高生在线观看91| 色婷婷激情一区二区三区| 久久密一区二区三区| 黄色一级片在线观看| 久久久亚洲高清| 亚洲精品一区二区妖精| 久久综合一区| 日本不卡一区二区三区| 成人v精品蜜桃久久一区| 天天综合色天天| 91伊人久久大香线蕉| 日韩电影免费在线观看| 一区二区三区四区亚洲| 国内精品久久国产| 国产+成+人+亚洲欧洲自线| 亚洲高清免费观看高清完整版| 91精品国产91久久| 国产精品国产三级国产专播品爱网| 51久久精品夜色国产麻豆| a篇片在线观看网站| 国产精品区一区| 国产精品久久精品国产| 亚洲免费专区| 国产精品不卡| 久久久99免费| 91av一区二区三区| 欧美日韩国产亚洲一区| 亚洲福利精品在线| 久久99精品久久久久久园产越南| 精品久久久久久国产| 日韩精品免费| 欧美羞羞视频| 免费在线中文字幕| 久久尤物视频| 精品久久在线| 欧美视频一区在线| 91日韩欧美| 亚洲国产成人精品久久| 久久久影视传媒| 91麻豆精品国产91久久久久推荐资源| 国产精品视频播放| 国产不卡一二三区| 国产精品一区二区久久国产| 亚洲毛片在线免费| 国产在线精品一区二区| 欧美伊人久久大香线蕉综合69| 欧美在线播放高清精品| 成人免费网站www网站高清| 欧美另类老肥妇| 国产精品一区专区欧美日韩| 成人免费视频免费观看| 午夜老司机精品| 日韩一区二区三区四区五区六区| 久久九九有精品国产23| 久热99视频在线观看| 国产日韩在线一区二区三区| 精品国产一区二区三区忘忧草| 成人在线不卡| 久久影院资源网| 亚洲欧洲免费视频| 午夜精品久久久久久久99热| 男人的天堂久久| 国产亚洲综合精品| 国产剧情一区| 中文字幕亚洲欧美在线| 国产精品久久久久av| 粉嫩av一区二区三区在线播放| 国产亚洲精品久久飘花| 亚洲第一狼人社区| 欧美人与物videos另类xxxxx| 大香伊人久久精品一区二区| 国产欧美欧洲在线观看| 高清不卡日本v二区在线| 4438x成人网最大色成网站| 青青青免费在线视频| 欧美体内she精视频在线观看| 国产一区二区三区网| 亚洲成a人片77777在线播放| 国产亚洲欧美另类中文| 国产69精品久久久久9999apgf| 国产不卡av在线免费观看| 成人成人成人在线视频| 国产福利精品av综合导导航| 亚洲一区在线观看免费观看电影高清| 日韩美女在线看免费观看| 57pao成人国产永久免费| 性xxxxfjsxxxxx欧美| 91精品国产91综合久久蜜臀| 久久国产欧美日韩精品| 欧美精品七区| 色综合久久中文综合久久牛| 日韩成人黄色av| 免费精品国产的网站免费观看| 亚洲综合社区网| 九9re精品视频在线观看re6| 99re国产视频| 国产成人免费在线观看| 亚洲国产高清不卡| 国产亚洲一区二区精品| 麻豆国产欧美日韩综合精品二区| 美女mm1313爽爽久久久蜜臀| 成人激情电影一区二区| 久久久久久国产三级电影| 国产亚洲情侣一区二区无| 99精品视频免费| 日本一区二区视频在线| 色综合久久久| 国产精品theporn| 国产欧美一区二区三区视频| 精品午夜一区二区三区| 91老司机在线| 女厕盗摄一区二区三区| 亚洲人成网站999久久久综合| 日韩国产精品大片| 欧美极品一区二区| 日韩高清不卡在线| 91精品在线一区| 国产亚洲福利社区一区| 亚洲精品久久7777| 日韩av在线一区二区三区| 日本精品一区二区三区在线播放| 久久久精品五月天| 久久黄色级2电影| 亚洲成av人片一区二区密柚| 国产成人精品a视频一区www| 91久久在线视频| 国产精品午夜国产小视频| 精品国产老师黑色丝袜高跟鞋| 成人精品一区二区三区电影| 国产在线观看精品一区二区三区| 成年永久一区二区三区免费视频| 欧美日韩亚洲激情| 欧美成人在线免费观看| 中文字幕亚洲一区在线观看| 校花撩起jk露出白色内裤国产精品| 欧洲一区精品| 超碰97人人做人人爱少妇| 夜夜精品视频一区二区| 国产一区二区三区久久久久久久久|