讓AI“看懂”化學圖表,難在哪里?
化學研究離不開分子結構式、反應機理圖、實驗裝置示意圖等視覺信息。與普通圖像識別不同,理解這些科學圖像需要AI同時具備符號解析與邏輯推演能力——這恰恰是當前多模態大模型的薄弱環節。
研究團隊構建的USNCO-V評測基準,收錄了二十余年美國化學奧林匹克競賽中的473道圖文結合題目,覆蓋分子結構、實驗裝置、反應曲線等多種類型。這一基準填補了AI for Science領域在化學視覺推理系統性分析方向的空白。
測試結果:頂尖模型超越人類選手平均成績
研究對包括GPT-5、OpenAI o3、Gemini-2.5-Pro在內的40款主流多模態大模型進行了系統評估。結果顯示,表現最佳的GPT-5以93.2%的準確率位居榜首,顯著超越參賽選手44.6%的平均成績。
然而,研究也發現了一個耐人尋味的現象:部分模型在移除圖像輸入后,答題準確率反而提升。這一“視覺干擾效應”表明,當前AI在處理科學圖像時,視覺與語言模塊尚未實現真正的協同工作。
業內專家指出,這一發現對于改進下一代多模態模型具有重要指導意義。
人工智能國家隊的AI for Science版圖
作為國內人工智能領域的代表性企業,科大訊飛近年來在AI for Science方向持續布局。依托認知智能全國重點實驗室和國家新一代人工智能開放創新平臺,該公司已在多個科學領域取得進展。
據公開資料顯示,科大訊飛與中國科學院共建的“星火科研助手”平臺,目前已服務全國1300余所高校的17萬余名科研人員;在化工領域,其與中科院大連化物所合作研發的智能化工大模型已迭代至3.0版本;在核聚變研究方向,其團隊聯合中國科學技術大學在《Nuclear Fusion》發表的PaMMA-Net模型,突破了等離子體磁測量演化建模的技術瓶頸。
值得關注的是,科大訊飛在推進全國產技術路線方面的努力。該公司強調其星火大模型實現了全棧自主可控,從底層算力到上層應用均采用國產化方案,這在當前國際技術競爭背景下具有特殊意義。
從“語言理解”到“科學理解”
有分析人士認為,此次研究成果的發表,標志著國內大模型企業正從通用智能向科學智能縱深拓展。當AI不僅能夠處理日常對話,還能理解復雜的科學圖表、進行專業領域的邏輯推演時,其應用價值將發生質的飛躍。
不過,研究也坦承當前技術仍存在明顯短板——在分子結構識別與實驗裝置理解等任務上,即便是最先進的模型也表現欠佳。這意味著AI真正成為科學家的得力助手,仍有相當長的路要走。
隨著國內多家科技企業加速布局AI for Science賽道,這一領域的競爭正在升溫。而此次Nature子刊論文的發表,或許只是國內人工智能國家隊在科學智能領域發力的一個縮影。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。