訊飛星火高考數(shù)學成績穩(wěn)居國內(nèi)大模型第一梯隊,深度推理大模型引領教育創(chuàng)新

2025年高考數(shù)學結(jié)束后,關于數(shù)學考試難度的話題迅速引爆了熱搜。

訊飛星火高考數(shù)學成績穩(wěn)居國內(nèi)大模型第一梯隊,深度推理大模型引領教育創(chuàng)新

于此同時,一場人類考生與AI的數(shù)學較量也引發(fā)廣泛關注。DeepSeek R1 0528、訊飛星火 X1-0420、GPT o3 等國內(nèi)外主流深度推理大模型化身 “AI 考生”,在高考數(shù)學卷上展開激烈角逐。其中,訊飛星火X1以141分的優(yōu)異成績脫穎而出,穩(wěn)居國內(nèi)大模型第一梯隊。

本次評測由IT之家發(fā)起,采用了多版本交叉驗證結(jié)合老師解題驗證的方式,總分設定為150分,并特別邀請了具有十年高中數(shù)學一線教研經(jīng)驗的專家輔助評分。參與評測的深度推理大模型共有七家,包括訊飛星火X1-0420、DeepSeek R1 0528、通義千問Qwen3-235B-A22B、豆包 Seed-Thingking-v1.5、文心X1 Turbo、騰訊混元Hunyuan T1 latest以及GPT o3。

在考試開始時,面對較為基礎的選擇題,各家大模型均有不錯的表現(xiàn)。

訊飛星火高考數(shù)學成績穩(wěn)居國內(nèi)大模型第一梯隊,深度推理大模型引領教育創(chuàng)新

然而,隨著題目難度的不斷上升,模型間的差異開始顯現(xiàn)。比如在面對一道對數(shù)函數(shù)題時,DeepSeek都出現(xiàn)了錯誤。而到了解答題環(huán)節(jié),各家比分開始進一步拉開差距。

根據(jù)測評的最終結(jié)果,本次參與測評的大模型大多達到了人類優(yōu)秀考生的水準,相較去年有較大提升。其中,DeepSeek和訊飛星火X1表現(xiàn)突出,是唯二突破140分的大模型;豆包、通義千問、元寶等國產(chǎn)大模型分數(shù)則緊跟第三名GPT o3,接近國際頂尖的模型水平。

據(jù)悉,訊飛星火X1作為第一梯隊的深度推理大模型,其版本相較于其他模型較早,同時模型量級也相對較小(70B)。但是在測評中,訊飛星火X1卻展現(xiàn)出強大的推理能力。特別在解答題環(huán)節(jié),訊飛星火都能夠給出正確的答案和清晰明了的解題過程,并多次獲得滿分,其表現(xiàn)令人印象深刻。

訊飛星火高考數(shù)學成績穩(wěn)居國內(nèi)大模型第一梯隊,深度推理大模型引領教育創(chuàng)新

值得一提的是,基于在教育領域深耕20多年的經(jīng)驗,訊飛星火X1在其他學科的測試中表現(xiàn)同樣亮眼。比如在微博#AI高考作文盲評挑戰(zhàn)#中,訊飛星火X1成功拔得頭籌;在英語作文方面,訊飛星火X1同樣在新京報的測評中奪得第一,展現(xiàn)出強大的語言能力。

隨著AI技術的不斷發(fā)展,深度推理大模型在教育領域的應用前景越來越廣闊。訊飛星火作為其中的佼佼者,不僅為學生提供了有力的學習支持,更為教育行業(yè)的創(chuàng)新升級注入了新的活力。未來,我們有理由相信,訊飛星火將繼續(xù)引領教育創(chuàng)新,為培養(yǎng)更多優(yōu)秀人才貢獻力量。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://news.cnmtpt.com/?Sid=12177468_BJ130W644462775

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論