国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

晉商銀行攜手電科金倉,入選2025“金信通”金融科技創新應用案例破解5億人睡眠痛點!TCL小藍翼P7 Ultra安寢之眼睡眠科技定制整夜好眠豆包手機后思考:AGI會在中國率先跑出來嗎?深藍汽車完成C輪融資格力×抖音生服“青春之歌冰雪季”盛大收官,極寒中綻放中國制造力量開源成就訪談|開“芯”者說:一場關于RISC-V、生態與未來的深度對談螢石參編《智能家居施工安裝規范》團體標準發布,Y5000FVX Ultra摘2025鼎智獎新國標車型上市觀察:在安全原則與實用需求之間尋找最優解全地形車、觀光車、房車一站式看齊!2026年5月廣州廣交會展館變身“車旅嘉年華”漢嘉更名數智:戰略升級啟新程,“大數據+人工智能(機器人)”促發展⾸驅科技×V26無畏巡回:智能出⾏品牌聯名全球頂級電競IP正式官宣CIAS 2025第七屆中國汽車產業數智峰會圓滿落幕CAICT:11月國內手機市場出貨量3016.1萬部 5G手機占比91.6%斬獲LeadeRobot三項年度大獎,珞石機器人亮相中國機器人行業年會DSMC 2025第六屆中國制造業華北數智峰會圓滿收官中國電子學會工業工程分會2025年年會在京成功舉辦北汽福田發布國內首款量產液氫重卡:15分鐘加滿能跑1000公里最高時速120km/h!廣汽L3自動駕駛進入實證測試OPPO Pad Air5上架:4年流暢耐用 1899元起昂達推出Intel Z790主板新品:四槽DDR4內存、售價779元
  • 首頁 > 云計算頻道 > 大模型

    微軟發布“自我進化”,幫小模型超OpenAI-o1

    2025年01月10日 09:30:06 來源:AIGC開放社區公眾號

      微軟亞洲研究院發布了一種創新算法——rStar-Math。

      rStar-Math通過代碼增強CoT、蒙特卡洛樹搜索等,可以幫助小參數模型在不依賴老師模型蒸餾的情況下,實現多輪自我思維深度進化,極大增強模型的數學推理能力。

      在美國數學競賽AIME2024測試中,rStar-Math平均解決了53.3%(8/15)的難題,超過了OpenAI o1-preview的44.6%,以及所有其他開源的大模型,成為最聰明的前20%高中數學生。

      在MATH基準測試中,rStar-Math將阿里開源的小模型Qwen2.5-Math-7B的準確率從58.8%提高到90.0%,Qwen2.5-Math-1.5B的準確率從51.2%提高到87.8%,Phi3-mini-3.8B從41.4%提高到86.4%,全部超過了OpenAI o1-preview。

      這充分說明,小模型在創新算法和高質量數據加持下,推理能力同樣可以超大參數的前沿模型。

      代碼增強CoT

      傳統的數學推理模型依賴于自然語言生成的推理步驟,這種方法雖然直觀,但容易產生錯誤或不相關的步驟,尤其是在復雜的數學問題中很難被察覺到。所以,rStar-Math使用代碼增強CoT(Chain-of-Thought,思維鏈)的方法來解決這個難題。

      模型在生成每一步推理時,不僅生成自然語言的解釋,還生成對應的Python代碼,并通過代碼執行來驗證推理步驟的正確性。代碼增強CoT能夠提供嚴格的驗證機制,確保每一步推理的正確性。

      例如,在解決一個數學問題時,模型可能會生成一個方程求解的步驟,并通過Python代碼實際執行該方程求解過程。如果代碼執行成功且結果正確,該步驟才會被保留為有效推理步驟。這種方法不僅減少了錯誤推理步驟的生成,還提高了推理軌跡的整體質量。

      為了進一步確保推理步驟的質量,rStar-Math 使用了蒙特卡洛樹搜索(MCTS)來生成逐步推理軌跡。MCTS 被用來分解復雜的數學問題為多個單步生成任務。

      每個步驟中,策略模型生成多個候選步驟,并通過代碼執行來過濾有效節點。通過廣泛的MCTS回滾,rStar-Math 能夠為每個步驟分配Q值,確保生成的推理軌跡由正確且高質量的中間步驟組成。

      PPM訓練方法

      目前,多數大模型在推理數學問題時面臨著無法提供細粒度的步驟級反饋,以幫助其在推理過程中做出更優的選擇。rStar-Math通過引入過程獎勵模型(PRM)來幫助模型找到更優的推理路徑。

      PPM 的核心思想是通過構建步驟級的正負偏好對來訓練模型,而不是直接依賴于精確的步驟級評分。PPM 的訓練方法利用了MCTS生成的Q值,這些Q值是通過廣泛的回滾和反向傳播過程計算得出的,反映了每個步驟對最終答案的貢獻。雖然這些Q值本身并不完全精確,但它們能夠可靠地區分高質量步驟和低質量步驟。

      PPM從MCTS樹中選擇Q值最高的兩個步驟作為正例,Q值最低的兩個步驟作為負例,構建偏好對。通過這種方式,PPM 能夠學習到哪些步驟更有可能引導模型生成正確的推理軌跡,從而在推理過程中做出更優的選擇。

      PPM 的訓練過程采用了標準的Bradley-Terry 模型和成對排序損失函數。對于每個步驟,PPM 預測一個獎勵分數,并通過成對排序損失函數來優化模型的預測能力。成對排序損失函數的核心思想是最大化正例步驟與負例步驟之間的獎勵分數差異,從而確保模型能夠準確地區分高質量和低質量的推理步驟。

      PPM 的訓練方法還引入了一個重要的創新點,避免直接使用Q值作為獎勵標簽。雖然Q值能夠提供一定的步驟級反饋,但由于其固有的噪聲和不精確性,直接使用Q值作為訓練目標會導致模型學習到不準確的獎勵信號。

      所以,PPM 通過構建偏好對將Q值轉化為相對排序問題,從而減少了噪聲對模型訓練的影響。這種方法不僅提高了模型的魯棒性,還使得PPM能夠在推理過程中更可靠地評估每一步的質量。

      多輪自我進化

      rStar-Math通過四輪自我思維深度進化,并結合PPM、MCTS和代碼增強CoT 逐步增強模型的推理能力。

      第一輪,通過監督微調對基礎模型進行初步改進,為后續的自我進化奠定基礎。這一輪的關鍵在于生成高質量的初始訓練數據,并利用這些數據對基礎模型進行微調。

      第二輪,通過PPM顯著提升模型推理能力。PPM通過分析策略模型生成的推理步驟,識別出哪些步驟是高質量的,哪些步驟需要改進。然后將這些反饋信息傳遞給策略模型,指導其在后續的推理中做出更好的選擇。

      第三輪,通過PPM增強的MCTS生成更高質量的數據,進一步提升模型的推理能力。在這一輪中,PPM不僅評估策略模型生成的推理步驟,還指導MCTS的搜索過程,使其更有效地探索高質量的推理路徑。

      第四輪,通過增加MCTS回滾次數解決超難數學推理問題。在前三輪自我進化的基礎之上,第四輪自我進化通過增加MCTS的回滾次數,進一步提升了rStar-Math解決具有挑戰性數學問題的能力。

      增加回滾次數使得MCTS能夠更深入地探索不同的推理路徑,發現那些在初步探索中可能被忽略的高質量解決方案。這不僅提高了模型對復雜問題的解決能力,還增強了其在面對高難度數學問題時的魯棒性。

      從昨天微軟開源的最強小模型Phi-4,以及最新推出創新算法rStar-Math來看,未來小模型的性能和效率將逐漸成為主流,并且對于沒有強大算力集群的中小企業和個人開發者來說非常實用。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    日本不卡久久| 精品成人一区二区| 午夜久久电影网| 欧美日本一区二区三区四区| 日韩欧美色电影| 欧美日韩最好看的视频| 巨大黑人极品videos精品| 在线免费观看日本欧美爱情大片| 神马久久久久久| 91精品福利视频| 成人黄色生活片| 欧美国产视频一区二区| 日韩精品一区二区三区老鸭窝| 国产成人精品一区二区免费看京| 韩国国内大量揄拍精品视频| 亚洲电影天堂av| 久久精品夜色噜噜亚洲aⅴ| 日本不卡视频在线| 7777奇米亚洲综合久久| ccyy激情综合| 欧美不卡1区2区3区| 久久久国产精品不卡| 嫩草香蕉在线91一二三区| 日本大胆欧美| 亚洲夜间福利| 91日韩一区二区三区| 色呦呦一区二区三区| 国模 一区 二区 三区| 午夜免费欧美电影| 日本网站在线免费观看视频| 亚洲制服丝袜av| 国产精品久久久久四虎| 国产乱码一区| 久久影院视频免费| 国产精品综合久久久久久| 国产精品色噜噜| 欧美一区二区女人| 日韩成人中文字幕在线观看| 黄色精品一区| 久久91超碰青草是什么| 久久只精品国产| 成人激情视频小说免费下载| 18在线观看的| 超碰在线国产| 欧美在线观看一区二区| 国产aⅴ精品一区二区三区久久| 亚洲欧洲高清| 日韩一区免费观看| 久久精品亚洲欧美日韩精品中文字幕| 国产日韩欧美在线一区| 91高清在线观看视频| 在线精品小视频| 咪咪网在线视频| 精品久久久久久久久久久久久久| 国产一区二区三区在线看麻豆| 国产精品亚洲视频在线观看| 麻豆tv入口在线看| 丝袜亚洲另类欧美| 五月婷婷激情综合| 久青草国产97香蕉在线视频| 亚洲三级在线播放| 国产一区在线视频| 日韩在线免费观看视频| 日日噜噜噜噜夜夜爽亚洲精品| 日本人成精品视频在线| 中日韩美女免费视频网站在线观看| 瑟瑟视频在线| 91丨九色丨国产在线| 国产欧美在线| 国产专区一区| 国产精品女主播| 国产成人a级片| 久久午夜影院| 91精品国产一区二区三区| 蜜桃视频第一区免费观看| 欧美一区二区福利在线| 国产九九在线| 日韩1区2区| 欧美成人精品3d动漫h| 午夜久久影院| 欧美午夜精品久久久久久久| 成人免费毛片aaaaa**| 欧美日韩激情小视频| 色综合一本到久久亚洲91| 自拍偷在线精品自拍偷无码专区| 一区二区三区www| 97国产精品久久| 久久成人国产精品| 成人在线视频国产| www.亚洲免费视频| 欧美乱妇一区二区三区不卡视频| 欧美成人亚洲成人日韩成人| 在线一区免费观看| av在线播放一区| 日韩成人午夜电影| 有码一区二区三区| 国产欧美一区二区在线观看| 三级欧美日韩| 欧美成人午夜激情| 高清欧美性猛交xxxx黑人猛交| 俄罗斯一级**毛片在线播放| 不卡在线观看av| 国产综合久久久久影院| 这里有精品可以观看| 免费男女羞羞的视频网站在线观看| 久久久久久久久久久久久久一区| 亚洲夂夂婷婷色拍ww47| 亚洲精品国产嫩草在线观看| 日韩高清av在线| 日韩电影在线视频| 国产亚洲欧美日韩在线一区| 成人亚洲网站| 国产激情在线视频| 亚洲区综合中文字幕日日| 亚洲欧美日韩视频二区| 久久国产欧美精品| 日韩大尺度黄色| 久久久噜噜噜久久人人看| 亚洲第一视频网站| 精品国产一二| 国模gogo一区二区大胆私拍| 欧美三区美女| 91丝袜脚交足在线播放| 国产精品无遮挡| 国产成人av一区二区| 日本精品久久| 在线视频日韩| 欧美极品视频一区二区三区| 日韩av在线免费观看不卡| 91av视频在线观看| 国产精品久久久久久久久快鸭| 成人a在线观看| 免费成人在线电影| 韩国v欧美v日本v亚洲| 国产无人区一区二区三区| 精品调教chinesegay| 成人精品一区二区三区免费| 中文字幕亚洲欧美| 在线精品一区二区| 亚洲国产精品嫩草影院久久av| 神马电影网我不卡| 国产成人精品一区二区三区免费| 欧美精品一区二区三区在线看午夜| 日韩三级视频| 久热精品视频在线| www在线看| 亚洲精品一区二区三区蜜桃下载| 三级福利片在线观看| 一级日本不卡的影视| 中文字幕国产亚洲2019| 国产激情一区二区三区桃花岛亚洲| 2020最新国产精品| 亚洲国产日韩精品| 欧美日韩一区二区综合| 欧美精品二区三区四区免费看视频| 成人系列视频| 日韩国产激情在线| 国模套图日韩精品一区二区| 福利在线导航136| 欧美色欧美亚洲另类二区| 亚洲成a人片在线不卡一二三区| www黄在线观看| 国内精品久久久久国产| 中文字幕精品久久久久|