国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    高考數學全卷重賽!一道題難倒所有大模型,新選手Gemini奪冠,豆包DeepSeek并列第二

    2025年06月11日 16:05:09 來源:機器之心Pro

      AI挑戰全套高考數學題來了!

      高考數學一結束,我們連夜使用六款大模型產品,按照一般用戶截圖提問的方式,挑戰了 14 道最新高考客觀題,不過有網友質疑測評過程不夠嚴謹,所以這次我們加上解答題,重新測一遍。

      本次參加挑戰的選手分別是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增網友們非常期待的 Gemini 2.5 pro。上一次我們使用網頁端測試,這次除 o3 外,其他模型全部調用 API。

      在考題選擇上,我們仍然采用 2025 年數學新課標 Ⅰ 卷,包含 14 道客觀題,總計 73 分;5 道解答題,總計 77 分。其中第 6 題由于涉及到圖片,我們就單獨摘出來,后面通過上傳題目截圖的形式針對多模態大模型進行評測。其他文本題目全部轉成 latex 格式,分別投喂給大模型,還是老規矩,不做 System Prompt 引導,不開啟聯網搜索,直接輸出結果。

      (注:第 17 題雖然也涉及到圖片,但文字表述足夠清晰,不影響答題,因此也以 latex 格式測評。)

      客觀題計分方法按照以往高考判分原則:

      單選題每道 5 分,選項正確計分,錯誤不得分;

      多選題每道 6 分,全對計 6 分,漏選按正確答案數量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;

      填空題每道 5 分,填空正確計分,錯誤不得分。

      至于解答題,由于現在還未出具體的評分細則,所以我們請數學專業的朋友進行評判,主要還是看大模型的最終答案以及解題步驟中是否有嚴重失誤點。

      7 家大模型考試成績如下圖所示。

    1.jpg

      從客觀題來看,各家大模型幾乎拉不開差距,最大分差也只有 3 分,第 6 題圖像題更是讓這幾家多模態大模型「全軍覆沒」。在上一次測評中,o3 客觀題成績墊底,但有網友表示,這可能是由于某些原因導致后臺自動切換成其他模型,而這一次我們選用的是未「降智」的 o3,選擇題和填空題成績仍是排在最后,當然,65 分的成績相比「降智」版確實有很大提升。

      解答題是大模型失分的「重災區」。除了 Gemini 2.5 Pro 拿到全部的分數外,其它模型或多或少均有失分。其中 DeepSeek R1 和 Doubao 最可惜,只丟了一分;o3 則失了 2 分,最終得到 75 分。相較而言,hunyuan-t1-latest 和文心 X1 Turbo 發揮不佳,分別拿到 68 分和 66 分。

      從總分上來看,Gemini 2.5 Pro 考了 145 分,位列第一,Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。

      解答題:大模型失分「重災區」

      我們先來看看解答題的情況。

    2.jpg

      第 15 題和第 17 題,一道考查概率問題,一道涉及立體幾何知識,7 家大模型均拿到滿分。

      第 16 題是一道數列綜合題,滿分 15 分,只要證明完整、計算過程完整、結果正確就能拿到全部的分數。大模型整體表現不錯,只有 Qwen3 解答正確,但最終答案里面增加了多余的假設求值,扣了一分。

    3.jpg

      第 18 題這道橢圓方程與幾何就難倒了不少大模型,僅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到滿分 17 分,其他模型各有各的扣分點。Qwen3 前面回答得都不錯,過程也很完整,但偏偏最后一小問|PQ|最大值取約等于 9 的步驟多余,導致結果偏差,扣了一分。

    4.jpg

      o3 則是第(3)問答案沒化簡丟了一分。

    5.jpg

      文心 X1 在第 2 問 (2) 正確算出 P 點軌跡,但未證明極值,直接按最遠點計算造成結果錯誤,扣 6 分。

    6.jpg

      hunyuan-t1-latest 前兩問中回答正確,到了第 3 問完成 P 點軌跡之后就全錯了,一下子丟了 5 分。

    7.jpg

      對于最后一道壓軸題,Gemini2.5 pro 是唯一全對的大模型。Doubao 只說明了震蕩項的振幅大于 0,但是也有可能震蕩項的相位是反的,那樣的話最大值反而有可能更小,證明過程不夠嚴謹,扣一分。

    8.jpg

      DeepSeek R1 在第(3)問中分情況討論,得出了兩類解,但對第一類解未做后續說明,扣了一分。

    9.jpg

      o3 第(2)問思路正確,但因為開閉區間差別,「完全重合」說法錯誤,扣 1 分。

    10.jpg

      hunyuan-t1-latest 在第(2)問上思路可行但證明過程模糊,扣 2 分,到了第(3)問沒有判斷 phi 取值,又扣了 2 分。

    640.webp.png

      文心 X1 和 Qwen3 也都是在第 2 問和第 3 問上失了分,第 2 問證明模糊扣 2 分,第 3 問則是未具體說明 phi 值扣 2 分,而且文心 X1 比大小還發生錯誤,又扣了 1 分。

    12.jpg

    0102.jpg

      客觀題:一道圖像題難倒幾家多模態大模型

      在不考慮識圖題(第6題)的情況下,客觀題大模型總體表現都不錯,Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1 、文心 X1 Turbo 和 hunyuan-t1-latest 均取得了 68 分的高分,只有 o3 在多選題上少選了一項丟了分。

    13.jpg

      其中,o3 在第 9 題計算過程中,忽視了「正三棱柱」這一關鍵條件。它在建立坐標系時,分別用 (x₀, y₀, 0) 表示 A 點坐標,用 (c, 0, 0) 表示 C 點坐標,但沒有考慮到:正三棱柱的底面是正三角形,這意味著正三角形的邊長 c 與 x₀、y₀之間存在關系:c=2x₀=2y₀/√3。導致對 B 選項的判斷出現錯誤。

    14.jpg

      接下來看看這道圖片題。

    15.jpg

      遺憾的是,此次測評的多模態大模型都在這道識圖題上表現不佳。雖然 hunyuan-t1-latest 不是多模態,但我們又測試了 hunyuan-t1-vision ,也在這道題上敗下陣來。

    16.jpg

      相比之下,Doubao 和 o3 至少正確識別了坐標位置,只是誤判了視風風速方向,而 Gemini 連基本坐標都未能正確識別。

    17.jpg

    02.jpg

    03.jpg

      總的來說,這次測評結果顯示,大模型在數學推理能力上有不小的進步,但仍有較大的提升空間。比如不少模型在解答題上丟分,這反映出大模型在復雜推理、嚴謹論證和多步驟計算方面還需加強。

      此外,所有參測的多模態大模型在第 6 題的圖像識別上都出現了問題,這也暴露出當前 AI 在圖文結合理解方面的短板。

      最后,緊張的高考已經結束,祝福所有考生都能取得理想的成績,有著燦爛的未來!

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    [No.X058-2]

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    国产成人精品av| 成人aaaa免费全部观看| 欧美专区一二三| 精品写真视频在线观看| 国产欧美久久一区二区三区| 国产视频精品免费播放| re久久精品视频| 中文字幕一区二区三区乱码在线| 91丨九色丨国产| 国产女人aaa级久久久级| 欧美激情影音先锋| 色婷婷av一区二区三区大白胸| 国产麻豆日韩| 国产精品久久久一本精品| 久久婷婷国产综合国色天香| 美女视频黄久久| 91美女片黄在线| 在线不卡免费欧美| 成人免费在线观看av| 一区二区三区高清在线观看| 亚洲精品美腿丝袜| 欧美激情在线视频二区| 免费久久精品视频| 亚洲欧美日韩国产yyy| 国产专区欧美精品| 日本精品久久中文字幕佐佐木| 五月婷婷亚洲| 97在线视频免费观看| 日日嗨av一区二区三区四区| 99久久99久久精品国产片| 国产精品18久久久久久久网站| 综合久久国产九一剧情麻豆| 国外成人福利视频| 国产亚洲亚洲国产一二区| 激情丁香综合五月| 国产精品裸体一区二区三区| 日韩高清人体午夜| 午夜视频精品| 欧美军人男男激情gay| 国产福利一区二区| 91麻豆国产福利在线观看宅福利| 99久久婷婷国产综合精品| 欧美激情久久久久久| a级片国产精品自在拍在线播放| av不卡一区二区三区| 亚洲视频综合| 哺乳一区二区三区中文视频| 懂色av一区二区三区| 久久精品理论片| 制服丝袜中文字幕亚洲| 欧美在线免费视频| 2024最新电影在线免费观看| 日韩极品在线| 欧美最近摘花xxxx摘花| 91精品视频播放| 欧美日韩一区二区国产| 牛牛影视一区二区三区免费看| 国产麻豆日韩欧美久久| 亚洲一区免费观看| k8久久久一区二区三区| 中文字幕精品久久| 黄黄的网站在线观看| 免费91麻豆精品国产自产在线观看| 国产欧美日韩综合精品| 日日狠狠久久偷偷四色综合免费| 日韩av一区二区三区| 亚洲欧洲视频| 日韩avvvv在线播放| 欧美大香线蕉线伊人久久国产精品| 日韩精品影片| 欧美精品视频www在线观看| 亚洲h精品动漫在线观看| 日韩大片免费观看视频播放| 国产精品996| 91黄色小视频| 欧美午夜一区| 欧美在线free| 伊人亚洲精品| 狠狠操综合网| 国语自产精品视频在线看| 久久青草免费| 97欧美成人| 欧美一级片久久久久久久| 精品视频123区在线观看| 手机在线一区二区三区| 欧美午夜精彩| 成人福利在线观看视频| 久久久久国产精品www| 亚洲精品在线观看视频| 果冻天美麻豆一区二区国产| 欧美一二三四区在线| 亚洲三级网站| 桃色一区二区| 91精品国产综合久久福利软件| 亚洲视频一二| 亚洲摸下面视频| 亚洲午夜国产成人av电影男同| 亚洲一区二区在线免费观看视频| 97超碰在线公开在线看免费| 欧美一区二区成人6969| 亚洲婷婷免费| 色午夜这里只有精品| 久久久精品2019中文字幕之3| 国产精品视频一二三| 日韩一区二区三免费高清在线观看| 欧美激情性爽国产精品17p| 亚洲成人精品一区二区| 亚洲九九在线| 日韩一二三区视频| 日韩在线观看中文字幕| 韩国女主播一区二区三区| 欧美久久久久久| 在线观看日韩| 欧美精品免费观看二区| 亚洲成人免费在线| 免费欧美电影| 国产成人成网站在线播放青青| 岛国一区二区三区高清视频| 国产日韩欧美综合精品| 国产香蕉精品视频一区二区三区| 欧美专区18| 欧美猛男gaygay网站| 中文字幕日韩在线| 国产一区不卡在线| 亚洲精品国产偷自在线观看| 亚洲一区二区三区四区在线| 狠狠操一区二区三区| 精品视频在线观看免费观看| 日韩av在线中文字幕| 18av在线视频| 巨乳诱惑日韩免费av| 欧美日韩成人综合在线一区二区| 日韩一区二区视频在线观看| 综合色天天鬼久久鬼色| 亚洲经典视频| 西西人体一区二区| 91福利视频在线观看| 一区二区在线免费视频| 欧美成人一区二区三区片免费| 国产日韩欧美日韩| 亚洲第一网站免费视频| 九九视频直播综合网| 成人av免费| 日韩中文在线不卡| 国产精品一区高清| 亚洲欧美精品伊人久久| 亚洲黄页网在线观看| 精品国产鲁一鲁一区二区张丽| 亚洲色诱最新| 国产高清精品在线| 肉色欧美久久久久久久免费看| 九色精品美女在线| 成人a在线观看高清电影| 国产精品日韩二区| 鲁大师精品99久久久| 欧美综合国产精品久久丁香| 欧美日韩国产亚洲一区| 9i在线看片成人免费| 精品一区二区三区免费看| 91精品国产经典在线观看| 视频福利一区| gogogo免费视频观看亚洲一| 99v久久综合狠狠综合久久| 欧美另类极品|