国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    LIama 4發布重奪開源第一!DeepSeek同等代碼能力但參數減一半,一張H100就能跑,還有兩萬億參數超大杯

    2025年04月07日 09:36:36 來源:量子位公眾號

      AI不過周末,硅谷也是如此。

      大周日的,Llama家族上新,一群LIama4就這么突然發布了。

      這是Meta首個基于MoE架構模型系列,目前共有三個款:

      Llama4Scout、Llama4Maverick、Llama4Behemoth。

      最后一個尚未推出,只是預告,但Meta已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號,也是同類產品中最好的多模態型號”。

      詳細來看一些關鍵詞——

      Llama4Scout,16位專家的170億激活參數的多模態模型,單個***GPU可運行, 同類SOTA,并擁有10M上下文窗口

      Llama4Maverick,128位專家的170億激活參數多模態模型,擊敗GPT-4o和Gemini2.0Flash,與DeepSeek-V3同等代碼能力參數只要一半,主打與DeepSeek一樣的性價比,單個***主機即可運行。

      Llama4Behemoth:2萬億參數的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓練中;多個基準測試超過GPT-4.5、Claude Sonnet3.7和 Gemini2.0Pro。

      Meta官推激情表示,這些Llama4模型標志著Llama生態系統新時代——原生多模態AI創新的開始。

      與此同時,大模型競技場排名迎來一輪更新。

      此次發布的Llama4Maverick,在困難提示、編碼、數學、創意寫作方面并列第一;得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個突破1400分的模型;。

      而且跑分明確——超越DeepSeek-V3,實現亮相即登頂,直接成為排名第一的開源模型

      谷歌CEO劈柴哥第一時間發來賀電:

      AI世界,從不平淡!

      恭喜呀!前進吧,Llama4團隊!

      中杯、大杯首批亮相

      了解了Llama4家族全體成員后,我們先來見識一下首批發布的2個模型:

      中杯

      :Llama4Scout(偵查兵Llama4)。

      大杯

      :Llama4Maverick(特立獨行的Llama4)。

      兩者均已能在Llama官網和抱抱臉上下載。

      我們抓取并提煉出這倆模型的一些特點:

      Meta首批MoE架構模型

      這是Llama系列,第一批使用MoE(混合專家模型)構建的模型。

      中杯Llama4Scout有17B激活參數,擁有16個專家模型。

      大杯Llama4Maverick擁有17B激活參數,擁有128個專家模型。

      至于還沒和大家正式見面的超大杯Llama4Maverick,擁有288B激活參數,擁有16個專家模型。

      非常長————的上下文

      Llama4系列,均具有很長的上下文窗口。

      這一點主要體現在Meta公布的中杯Llama4Scout的詳細數據里:

      Llama4Scout提供了行業領先的100萬上下文窗口。

      經過預訓練和后訓練,Llama4Scout長度為256K,這使基本模型具有高級長度泛化能力。

      這個配置,讓它在廣泛的測評集上,比Gemma3、Gemini2.0Flash-Lite和Mistral3.1的結果更優秀。

      那么之前的Llama系列模型的上下文窗口情況呢?

      Llama1,上下文窗口為2k;

      Llama2,上下文窗口默認為4k,但可以通過微調等可以拓展到32k;

      Llama3,上下文窗口是8k,后來Llama3.1的長文本能力拓展到了128k。

      Meta官方博客中是這么寫的:

      (Llama4的長上下文)開辟了一個充滿可能性的世界,包括多文檔摘要、解析廣泛的用戶活動以執行個性化任務以及對龐大的代碼庫進行推理。

      原生多模態設計

      Llama4系列,開啟了Llama的原生多模態時代。

      而已經公開對外的中杯和大杯,被官方稱為“輕量級原生多模態模型”。

      給用戶的體驗就是,上傳一張圖片,可以直接在對話框中提問關于這張圖片的各種問題。

      不是我說,Llama終于長眼睛了!!!

      上面這張動圖展示的僅僅是最基礎的,“為難”程都升級也不怕。

      比如喂它一張鋪滿工具的圖片,問它哪些適合來干某個活。

      它會很快地把適用的工具圈出來:

      要認顏色+認小鳥,也沒在怕的:

      中杯和大杯都在官方介紹中被打上了“世界上同類產品中最好的多模態模型”的tag。

      來看和Llama系列前作、Gemma3、Mistral3.1、Gemini2.0Flash-Lite的對比結果——

      可以看到,在各個測評集上的表現,Llama4Scout樣樣都是新SOTA

      語言天賦Max

      經過了預訓練和微調的Llama4,掌握全球12種語言,以此“方便全球開發者的部署”。

      比DeepSeek更狠的“AI模型拼多多”

      一定要跟大家分享的一個細節,Meta這次在模型API價格方面,下狠手了!

      先說結果:

      系列超大杯Llama4Maverick,不僅超越了同類型號其它模型,價格還非常之美麗。

      更直觀地來看這張表格,真的狠過DeepSeek——從性能到價格各個緯度。

      要知道,超大杯Llama4Behemoth屬于是Llama4系列的教師模型。

      如果說中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。

      288B激活參數,16個專家模型。

      最重要的是,它的總參數量高達2000B!

      在數學、多語言和圖像基準測試中,它提供了非推理模型的最先進性能。

      當“最牛”和“最便宜”擺在一起的時候,試問哪位開發者會不心動?(doge)

      訓練細節

      用他們自己的話來說,Llama系列是進行了徹底的重新設計。目前第一組LIama4系列模型,他們也公布了具體的訓練細節。

      預訓練

      他們首次使用混合專家MoE架構,在MoE架構中,單個token僅激活總參數的一小部分。MoE架構在訓練和推理方面具有更高的計算效率,固定訓練FLOP成本情況下質量更高。

      比如,Llama4Maverick模型有17B個激活參數和400B個總參數。他們使用交替的密集層和混合專家(MoE)層來提高推理效率。

      MoE層使用128位路由(Routed)專家和一位共享專家。每個令牌都會發送給共享專家以及128位路由(Routed)專家之一。

      因此,雖然所有參數都存儲在內存中,但在為這些模型提供服務時,只有總參數的子集被激活。

      這通過降低模型服務成本和延遲來提高推理效率——Llama4Maverick 可以在單個***DGX主機上運行,以便于部署,也可以通過分布式推理實現最高效率。

      他們早期融合,將文本和視覺token無縫集成到統一模型中。

      他們開發了一種新的訓練技術:MetaP,可以設置關鍵模型超參數,比如每層的學習率和初始化尺度。

      結果發現,所選的超參數能在批量大小、模型寬度、深度和訓練token的不同值之間很好地擴展和泛化——

      Llama4通過在200種語言(包括100多種語言,每種語言有超過10億個詞庫)上進行預訓練,實現了開源微調工作,多語言詞庫總量是Llama3的10倍。

      此外,他們使用FP8精度進行高效模型訓練,同時不犧牲質量并確保模型 FLOPs的高利用率—在使用FP8和32K GPU 預訓練 Llama4Behemoth模型時,結果他們實現了390TFLOPs/GPU。

      用于訓練的整體混合數據包括30多萬億個token,是Llama3預訓練混合物的兩倍多,其中包括各種文本、圖像和視頻數據集。

      在所謂的“中期訓練”中繼續訓練模型,通過新的訓練方法(包括使用專業數據集進行長上下文擴展)來提高模型的核心功能。

      后訓練

      后訓練階段,他們提出一個課程策略,與單個模式專家模型相比,該策略不會犧牲性能。

      在Llama4中,采用了一種不同的方法來改造我們的后期訓練管道:

      輕量級監督微調(SFT)>在線強化學習(RL)>輕量級直接偏好優化 (DPO)。

      一個關鍵的教訓是,SFT和DPO可能會過度約束模型,限制在線強化學習階段的探索,并導致精度降低,尤其是在推理、編碼和數學領域。

      為了解決這個問題,他們使用Llama模型作為評判標準,刪除了50%以上被標記為簡單的數據,并對剩余的較難數據集進行了輕量級SFT處理。

      在隨后的在線強化學習階段,通過仔細選擇較難的提示,我們實現了性能上的飛躍。

      此外,他們還實施了一種連續的在線強化學習策略,即交替訓練模型,然后利用模型不斷過濾并只保留中等難度到較高難度的提示。事實證明,這種策略在計算量和準確性的權衡方面非常有利。

      然后,他們采用輕量級DPO來處理與模型響應質量相關的拐角情況,從而有效地在模型的智能性和對話能力之間實現了良好的平衡。流水線架構和帶有自適應數據過濾功能的連續在線RL策略,最后造就了現在的LIama4。

      總結來看,Llama4架構的一項關鍵創新是使用交錯注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時間溫度縮放來增強長度泛化。

      這些他們稱之為iRoPE架構,其中“i”代表 “交錯 ”注意力層,突出了支持 “無限”上下文長度的長期目標,而 “RoPE ”指的是大多數層中采用的旋轉位置嵌入。

      Llama4Behemoth

      最后,他們還透露了超大模型Llama4Behemoth一些蒸餾和訓練細節。

      我們開發了一種新穎的蒸餾損失函數,可通過訓練動態加權軟目標和硬目標。

      預訓練階段,Llama4Behemoth的代碼蒸餾功能可以攤銷學生訓練中使用的大部分訓練數據計算蒸餾目標所需的資源密集型前向傳遞的計算成本。對于納入學生訓練的其他新數據,他們在Behemoth模型上運行前向傳遞,以創建蒸餾目標。

      后訓練階段,為了最大限度地提高性能,他們刪減了95%的SFT數據,而小型模型只需刪減50%的數據,以實現對質量和效率的必要關注。

      他們在進行輕量級SFT后,再進行大規模強化學習(RL),模型的推理和編碼能力會有更顯著的提高。

      強化學習方法側重于通過對策略模型進行pass@k分析來抽取高難度提示,并根據提示難度的增加精心設計訓練課程。

      此外還發現,在訓練過程中動態過濾掉優勢為零的提示語,并構建包含多種能力的混合提示語的訓練批次,有助于提高數學、推理和編碼的性能。最后,從各種系統指令中取樣對于確保模型在推理和編碼方面保持指令跟隨能力并在各種任務中表現出色至關重要。

      由于其規?涨,要為兩萬億個參數模型擴展RL,還需要改造底層RL基礎設施。

      他們優化了MoE并行化的設計,從而加快了迭代速度;并開發了一個完全異步的在線RL訓練框架,提高了靈活性。

      現有的分布式訓練框架會犧牲計算內存以將所有模型堆疊在內存中,相比之下,他們新基礎架構能夠將不同模型靈活分配到不同GPU上,并根據計算速度在多個模型之間平衡資源。

      與前幾代產品相比,這一創新使訓練效率提高了約10倍。

      One More Thing

      要知道,由于昨天DeepSeek發了新論文,搞得奧特曼都坐不住了,趕緊出來發聲:

      計劃改變:我們可能在幾周之后先發布o3和o4-mini。

      GPT-5就在幾個月后啊~

      但,誰知道半路又殺出個Llama4?!

      前有猛虎,后有豺狼,OpenAI你真的得加油了……

      網友調侃道,當奧特曼一睜眼,看到Llama4來了,而且Llama4的成本比GPT-4.5降低了3個數量級后——

      他的狀態一定是醬嬸兒的:

      以及相比Llama,現在可能神秘低調的DeepSeek,可能不知道什么時候突然就會推出DeepSeek R2和V4…同在杭州的通義千問也干勁十足,Llama也好GPT也好,基本成為平行參考了。

      太平洋這頭,已經開始落地應用和智能體了。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    日本成人网址| 4438五月综合| 中文一区二区完整视频在线观看| 欧美系列亚洲系列| 91精品在线播放| 在线视频亚洲一区| 91精品蜜臀在线一区尤物| 欧美自拍丝袜亚洲| 亚洲免费资源在线播放| 久久久视频在线| 欧美一级在线亚洲天堂| 日韩电影中文字幕在线观看| 91在线精品秘密一区二区| 免费中文日韩| 日韩一二三区不卡在线视频| 91精品国产美女浴室洗澡无遮挡| 成人黄色网址在线观看| 国产大陆精品国产| 红桃视频在线观看一区二区| 动漫3d精品一区二区三区乱码| 成人免费视频网| 亚洲成人精品视频在线观看| 日韩精品诱惑一区?区三区| 亚瑟国产精品| 国产日韩欧美一区二区| 成人深夜福利| 成人网在线免费视频| 欧美1区2区视频| 日韩欧美精品三级| 都市激情亚洲一区| 欧美性xxxx极品高清hd直播| 日韩不卡一二三区| 极品少妇一区二区三区| 日韩在线激情| 青青久久av| 97久久久久久| 日韩激情在线观看| 久久久久久一二三区| 国产精品传媒在线| 国产iv一区二区三区| 国产va免费精品观看精品视频| 亚洲国产裸拍裸体视频在线观看乱了| 中文字幕欧美国产| 成人综合婷婷国产精品久久免费| 影音先锋亚洲精品| 欧美成人性色生活仑片| 欧美极品少妇videossex| 在线免费三级电影网站| 欧美性大战久久久久久久蜜臀| 午夜精品视频在线观看一区二区| 中文字幕 久热精品 视频在线| 老色鬼精品视频在线观看播放| 日韩精品亚洲专区| 国产精品天干天干在观线| av大片在线播放| 97aⅴ精品视频一二三区| 日韩电影免费观看| 日日夜夜天天综合| www.精品| 中文字幕少妇一区二区三区| 国产777精品精品热热热一区二区| 日韩一区二区三区高清免费看看| 精品在线一区二区三区| 久久99精品久久久水蜜桃| 国产精品视频白浆免费视频| 国产日韩成人精品| 国产三区视频在线观看| 国产精品99一区二区三| 色爱综合网欧美| 91色中文字幕| 久久久久久69| 亚洲国产一区二区在线| 成人毛片av在线| 日本va欧美va精品| 99亚洲乱人伦aⅴ精品| 欧美色播在线播放| 国产剧情一区二区三区| 国产亚洲欧美日韩精品| 国产精品9999久久久久仙踪林| 国产精品久久久久一区二区三区| 色七七影院综合| 欧美一区在线看| 国产精品理论片在线观看| 欧美性猛交xxxx黑人猛交| 国产精品久久久久aaaa九色| 麻豆精品一区二区综合av| 欧美大片在线观看一区| 日韩精品一二三区| 日韩亚洲欧美一区| 91久久国产婷婷一区二区| 中文字幕综合一区| 精品丝袜在线| dj大片免费在线观看| 亚洲欧洲三级电影| 日本一区二区三区视频在线| 日本在线观看视频| 99在线观看免费视频精品观看| 欧美性生活大片免费观看网址| 欧美日韩精品在线| 亚洲精品国产视频| 国内精品一区二区三区| 在线a免费看| 亚洲精品97久久| 久久精品视频免费观看| 超碰人人在线| 久久福利网址导航| 欧美电影影音先锋| 国产亚洲激情| 在线观看精品一区| 国产精品美女久久久免费| 亚洲另类图片色| 亚洲无线码在线一区观看| 国产日韩欧美三级| 精品一区二区三区免费看| 精品日产卡一卡二卡麻豆| 99精品久久99久久久久| 久久色成人在线| 亚洲.欧美.日本.国产综合在线| 亚洲成人久久久| 久久久精品一区二区| 亚洲午夜在线电影| 欧美日韩激情视频8区| 99www免费人成精品| 中文字幕亚洲欧美日韩2019| 国产精品久久久久无码av| 亚洲激情成人在线| 亚洲成av人片在线观看| 亚洲男男av| 精品无人乱码一区二区三区的优势| 欧美日韩亚洲一区二区三区在线| 国产精品jizz在线观看麻豆| 高清不卡亚洲| 精品国产一区二区三区日日嗨| 亚洲二区在线| 欧美网站免费| 国产人妖ts一区二区| 国产精品视频第一区| 欧美激情一区二区三级高清视频| 欧美日韩亚洲不卡| 日韩欧美一区二区三区在线视频| 欧美精品黑人性xxxx| 国产亚洲欧美日韩日本| 国产成人精品一区二区在线| 99国内精品久久久久久久| 欧美三级午夜理伦三级中视频| 精品电影一区二区三区| 亚洲欧洲三级| 欧美成人一区二免费视频软件| 99电影在线观看| 中文字幕日韩精品在线| 国产99在线|中文| 3atv在线一区二区三区| 在线亚洲男人天堂| 变态调教一区二区三区| 日韩一区二区三区电影在线观看| 91网页在线观看| 日本不良网站在线观看| 97aⅴ精品视频一二三区| 午夜欧美精品| 999精品视频在线观看| 日本10禁啪啪无遮挡免费一区二区| 国产精品福利在线播放| 国产精品极品在线观看| 国产日韩欧美三区|