華為小藝AI競(jìng)賽Agent首戰(zhàn)國(guó)際數(shù)學(xué)奧林匹克大賽(IMO)榮獲佳績(jī)!
在2025年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)官方的特別邀請(qǐng)下,小藝AI競(jìng)賽Agent亮相本屆全球頂尖的數(shù)學(xué)賽事。經(jīng)過(guò)三天的激烈角逐,小藝AI競(jìng)賽Agent成功攻克6道難題中的5道,以34分的優(yōu)異成績(jī)摘得銀牌,距離金牌分?jǐn)?shù)線(35分)僅1分之差。這一歷史性的突破,標(biāo)志著華為AI的邏輯推理能力達(dá)到了一個(gè)新的高度。
IMO主席Gregor Dolinar教授對(duì)華為AI的表現(xiàn)給予了高度評(píng)價(jià):“華為AI提交的答卷獲得了34分(滿分42分),這是一個(gè)了不起的成就。(The Huawei AI scripts received a grade of 34 out of 42, which is a remarkable result.)”
不止于答題:小藝AI競(jìng)賽Agent展現(xiàn)專家級(jí)解題藝術(shù)
與傳統(tǒng)模型追求解題套路不同,小藝AI競(jìng)賽Agent在解題過(guò)程中展現(xiàn)了接近頂尖解題方式的創(chuàng)造力和嚴(yán)密性:
專家級(jí)推理能力:小藝AI競(jìng)賽Agent完美攻克第1至第4題,均獲滿分(7分)。其論證過(guò)程嚴(yán)謹(jǐn)、邏輯自洽、可讀性強(qiáng),此外在第3題中還靈活運(yùn)用了“升冪定理”等技巧,展現(xiàn)了深厚的數(shù)學(xué)知識(shí)儲(chǔ)備。值得說(shuō)明的是第5題,評(píng)審組確認(rèn),盡管Agent因?qū)ζ骄智闆r的表述存在細(xì)微瑕疵被扣1分,但其核心思維過(guò)程已完整包含了對(duì)該情況的嚴(yán)謹(jǐn)證明。這表明,它實(shí)際上已具備了解答該題所需的全部數(shù)學(xué)能力。
閃耀的解題靈感:在第2題的證明中,小藝AI競(jìng)賽Agent精準(zhǔn)預(yù)測(cè)并添加了唯一一個(gè)輔助點(diǎn),便完成了整個(gè)復(fù)雜證明的生成。其解法之高效、思路之凝練,顯著優(yōu)于已知的公開(kāi)解法。
接近完美的思考深度:第1題的解答思路流程完整,清晰簡(jiǎn)潔,對(duì)于n=3的情況討論充分,歸納過(guò)程嚴(yán)謹(jǐn);同時(shí)在第4題的解答中對(duì)所有情況討論完備,證明的結(jié)構(gòu)層級(jí)分明,易于理解。
> 對(duì)IMO 2025競(jìng)賽感興趣的開(kāi)發(fā)者,可以去Github:https://github.com/Huawei-xiaoyi/IMO2025-solutions和Gitee :https://gitee.com/huawei-xiaoyi/imo2025-solutions了解下賽題解答過(guò)程。
技術(shù)揭秘:驅(qū)動(dòng)巔峰表現(xiàn)的“雙腦”協(xié)同架構(gòu)
小藝AI競(jìng)賽Agent的卓越表現(xiàn),源于其創(chuàng)新的“自然語(yǔ)言大模型 + 形式化證明”協(xié)同架構(gòu)。這套系統(tǒng)如同一個(gè)擁有“左右腦”的數(shù)字大腦,將人類的直覺(jué)創(chuàng)造與機(jī)
器的嚴(yán)謹(jǐn)驗(yàn)證無(wú)縫融合。
1、思維風(fēng)暴與“AI同行評(píng)審”:孕育創(chuàng)造性解法
面對(duì)難題,小藝AI競(jìng)賽Agent首先通過(guò)并行采樣生成海量、多樣化的解題思路,如同進(jìn)行一場(chǎng)“思維風(fēng)暴”。隨后,啟動(dòng)獨(dú)特的“AI同行評(píng)審”機(jī)制,讓不同的AI模型互相審閱、辯論、評(píng)分,從而篩選出最優(yōu)的思路路徑。這一過(guò)程還會(huì)融合形式化證明的反饋,指導(dǎo)AI模型進(jìn)行多輪自我修復(fù)與迭代優(yōu)化,極大提升了模型攻克精英級(jí)難題的創(chuàng)造力。
2、迭代式多層級(jí)證明:構(gòu)建嚴(yán)密的邏輯閉環(huán)
為克服高復(fù)雜度數(shù)學(xué)證明嚴(yán)謹(jǐn)性的挑戰(zhàn),華為小藝團(tuán)隊(duì)設(shè)計(jì)了迭代式多層級(jí)并行證明系統(tǒng)。該系統(tǒng)首先將復(fù)雜的證明目標(biāo)分解為樹(shù)狀的多層級(jí)子問(wèn)題,然后由形式化證明模型自下而上地對(duì)每個(gè)子節(jié)點(diǎn)進(jìn)行大規(guī)模并行驗(yàn)證。一旦某個(gè)環(huán)節(jié)證明失敗,具備反思和自我修正能力的模型將立刻啟動(dòng)修復(fù)流程,直至整個(gè)邏輯鏈條完美閉環(huán)。
里程碑與新起點(diǎn):共探AI與教育的未來(lái)
此次賽事的成果,不僅是華為AI發(fā)展的重要里程碑,更充分地證明了基于大語(yǔ)言模型(LLM)的多Agent協(xié)同系統(tǒng)在解決高階數(shù)學(xué)問(wèn)題上的強(qiáng)大潛力。
與此同時(shí)華為小藝團(tuán)隊(duì)也意識(shí)到,當(dāng)前系統(tǒng)在面對(duì)極高復(fù)雜度的數(shù)學(xué)問(wèn)題時(shí)(如本屆IMO第6題)仍有局限,未來(lái)將會(huì)繼續(xù)提升小藝的抽象推理與問(wèn)題建模能力,持續(xù)向高階數(shù)學(xué)推理探索。
據(jù)悉,小藝AI競(jìng)賽Agent的核心能力,未來(lái)將逐步賦能于小藝教育Agent。華為小藝團(tuán)隊(duì)或?qū)⒁园酌麊螜C(jī)制,優(yōu)先向數(shù)學(xué)及AI領(lǐng)域的專業(yè)研究者開(kāi)放,旨在共同推動(dòng)智能解題方法論的創(chuàng)新,讓頂級(jí)的思維能力普惠每一位學(xué)習(xí)者。
評(píng)論