走出“大開發(fā)”時期。
來源|多知
作者|馮瑋
六月末,網(wǎng)易有道開源了“子曰3”數(shù)學模型(Confucius3-Math,下稱“子曰3”)。
子曰3是有道推理模型“子曰-o1” 在數(shù)學模型能力上的延伸,主打數(shù)學、邏輯與推理能力;同時也是一款專門面向教育機構、學校與開發(fā)者使用的模型。
據(jù)有道官方測試,在CK12-math(Internal)、GAOKAO-Bench(Math)、MathBench(K12)、MATH500等數(shù)據(jù)集上,14B輕量級的“子曰3”各項得分均高于DeepSeek-R1等通用大模型。
值得注意的是,在GAOKAO-Bench(Math)這一基于高考數(shù)學題的大模型評測框架中,“子曰3”拿到了98.5分。
這是個不錯的成績。
網(wǎng)易有道近兩年一直在加大對AI大模型的研發(fā),而子曰系列正是重要成果之一。相比通用大語言模型,此次的子曰3更側重結構化、符號化表達與嚴謹推理能力,符合教育、科研等需求場景。
發(fā)稿前,子曰3已同步開源,支持企業(yè)與個人免費使用——這意味著教育機構和開發(fā)者都能以低成本部署自己的數(shù)學AI應用。
子曰3到底一個什么樣的模型?有道開發(fā)和開源子曰3的思路是什么?
多知獨家對話網(wǎng)易有道首席科學家段亦濤。
01
子曰錨定數(shù)學?
多知:能否介紹下子曰3的立項背景?
段亦濤:這次模型的升級和開源,本質上是有道一貫秉承的AI發(fā)展思路的延續(xù)。
這個思路就是AI技術一定要在應用中去發(fā)展。因為AI就是一個以復刻人類智能為目標的技術,只有在應用中才能理解其本質,驗證其價值。
有道從事的是教育。這是一個AI有可能做出巨大創(chuàng)新的行業(yè),也是一個對AI的能力提出更嚴格要求的行業(yè)。目前來看這個行業(yè)缺乏一個低成本,高性能,同時也開源的模型。這里每一點要求都必不可少。只有低成本才能打破數(shù)字鴻溝,均衡教育資源,保證公平性。只有高性能才能保證結果的正確性,避免誤人子弟。開源除了可以進一步降低使用門檻,提高資源公平性之外,還可以促進合作,聚合更多力量。
從技術發(fā)展的大趨勢和條件看,這幾年大模型的發(fā)展帶來了技術上質的飛躍,尤其是近一年多來,模型的推理能力快速發(fā)展,有希望解決復雜的問題,達到前面說的高性能的目標。但從應用的要求來看,還有一定的差距。
子曰3就是在這些背景下立項。我們認為當前需求很明確,條件趨于成熟。子曰3的定位是一個低成本高性能多學科的教育模型。目前推出的子曰3數(shù)學是其中的第一步,聚焦在數(shù)學和解題答疑能力。以此為基礎,后續(xù)會拓展到其他學科和能力。
多知:有道現(xiàn)在對推理模型的投入好像越來越重?
段亦濤:對,推理能力一直是最新大模型發(fā)展的重點。
去年OpenAI 的 o1 模型在解決數(shù)學和編程等復雜多步驟任務方面取得了重大突破,引發(fā)了大家的關注,但其中的實現(xiàn)細節(jié)透露不多。DeepSeek R1披露更完整和詳細的構建推理能力的技術。它是首個證明純強化學習(RL)能夠有效培養(yǎng)高級推理技能的模型,實現(xiàn)了諸如鏈式思維和自我驗證等有機涌現(xiàn)的推理行為。除了技術成就之外,R1 的開放性還使更多人能夠獲取使用。
DeepSeek R1驗證了我們的一些猜測。我們認為強化學習有非常大的潛力,能夠大大提升模型能力的天花板。同時純強化學習后期訓練更具成本效益。
這是我們決定做后面的事情的很重要的技術基礎。
多知:有道子曰3在對推理能力能力升級后,對于數(shù)學答疑場景帶來的變化有哪些?
段亦濤:答疑能力并不等同于解題能力,但前者會非常依賴后者。首先,當我們的模型能力本身提升后,在我們實際的產(chǎn)品使用場景中AI的結果準確率也一定會相應提升,這會給用戶一個更好的體驗。其次,有了更強的解題能力之后,再去優(yōu)化模型的答疑能力,可以起到事半功倍的效果。
所以子曰3首先針對數(shù)學解題場景上做了很多的優(yōu)化,比如在數(shù)據(jù)上,我們收集了幾百萬學生易錯的試題并采用多種方法進行過濾,用來確保數(shù)據(jù)的質量;在訓練階段,我們采用了純強化學習策略,并提出像近期樣本恢復(Recent Sample Recovery)、特定策略的難度加權(Policy-Specific Hardness Weighting)等新技術,有效地加強了模型的解題能力。同時我們也在訓練過程中引入了對解題過程的價值反饋,使得模型能夠生成對用戶理解問題和解法有幫助的信息,大大提高了答疑效率和效果。
多知:在大模型訓練中,有兩種技術方法,一個是強化學習,它只給答案的對錯反饋,另外一個是之前常用的監(jiān)督學習,它給出中間的詳細步驟。您怎么看這兩種方式?
段亦濤:是的,我也和同行交流過類似的問題,的確目前這兩種方式都存在,一種是我們現(xiàn)在使用的強化學習優(yōu)化方法,它只給答案的對錯反饋,不管中間步驟,由模型發(fā)揮;另一種則是一步一步鎖定答案和邏輯思路。
對于優(yōu)化模型的推理能力,它們都是有用的,也都在不同的階段使用。
但是后者更傾向于“手把手”式的教學,一方面這對數(shù)據(jù)本身的要求會更高,另一方面對模型也會施加限制,讓模型只能照貓畫虎地學習,再往前就不行了。
我們認為,強化學習的路線更有潛力,天花板更高。它為模型提供自由發(fā)揮的空間,甚至可以讓模型學到超出人類自身的能力,就像我們在圍棋AI中做到的那樣。
02
全面開源:走出“大開發(fā)”時期
多知:這次為什么選擇開源?另外在合作上有什么考量么?
段亦濤:我們整體還是比較開放。
目前已經(jīng)把模型完全開源了,同步也放出相關代碼和論文細節(jié)。所以合作方想直接用也可以,想在現(xiàn)有基礎上進一步開發(fā)也可以,伴隨后面新功能的不斷推出,我想我們也會有更多的合作狀態(tài)。
選擇開源一方面肯定還是希望在我們的能力范疇內能夠幫助行業(yè)有需要的企業(yè)一起發(fā)展。另外我們自身的技術發(fā)展得益于開源社區(qū)的貢獻,我們也希望通過開源反哺相關的社區(qū)。
在教育領域,開放本身就是一個很重要的環(huán)節(jié):我們越開放,也會有越來越多的人來關注、使用和糾察,我們就可以一起進步,這對我們,對行業(yè)都是有益的。
現(xiàn)在很多學校和機構需要輕量級模型以便獨立部署與定制調優(yōu),子曰3數(shù)學模型的14B規(guī)格優(yōu)勢也相應提升:推理部署僅需24G顯存顯卡單卡,微調訓練通過4-8卡單機就可以完成了。
我們非常歡迎,也很期待大家來使用它。
多知:能不能具體介紹下接入方式?
段亦濤:目前我們提供了兩種,一種直接把模型拿下來去部署,基本上一張消費級的顯卡就可以跑,這是一個非常低門檻的使用方式了。
另外一種是通過我們或者其他云服務的供應商把模型部署起來后,再去調用。
我們目前的模型能力還聚焦在解題上,但其實公立校、培訓機構等等的需求都是不一樣的,比如她們可能不僅需要解題、還需要面對不同能力的人給出不同的解題思路、以及組卷、批改等等。
在各種各樣的需求下,我們的模型也會慢慢延伸為不同的功能和應用。
這些我想很快都會在我們的客戶端上實現(xiàn)的。
多知:是不是會有這樣一個可能,伴隨著每個機構都有自己的模型能力,接下來將不再需要依賴題庫去解題了?
段亦濤:這是必然的。以后解題都不會依賴題庫了,教育機構只需要出題或者提供其他的服務。
我們當前版本的模型,就可以在我們的用戶場景下做到96%準確率。預計很快能提升到98%以上。我們的下一步在進一步提升解題能力的同時,會拓展學科,以及構建學習過程中其他需求的能力。
多知:能否分享下長遠規(guī)劃?
段亦濤:其實我們已經(jīng)在一些維度實現(xiàn)了進展,但還沒有在這次公開
整體來看,接下來一定是推理能力的進一步增強,模型將能夠更準地解更難的題;另外會支持更多學科;最后還有在其他教育和學習相關的功能上的拓展。
比如這一次我們是在答疑解題的能力上提供了更多支持,那么以后,可能同樣是一個AI老師的角色,但這位老師將可以實現(xiàn)陪伴、引導、答疑解惑、組卷判卷,甚至是更多學生們細碎的需求,我們都可以給出恰到好處的幫助。
大模型技術落地這個事情,在行業(yè)里還有點像“大開發(fā)”的階段。
我想我們相較于競爭,更加需要關注的是合作,這也正式我們選擇開源的原因,因為對整個AI行業(yè)來講,我們還有很多困難還沒有解決、還沒有開發(fā)好。
我們多試試,多做做,才會使我們對這個領域的認知真正地成熟起來。而當基礎設施逐漸實現(xiàn)的時候,我們同時去想大家各自靠什么方式種什么樣的果子,這樣才會有一個持續(xù)發(fā)展的行業(yè)。
對話后,我們也實測了子曰3在數(shù)學答疑中的表現(xiàn)。
03
實測子曰3,如何解決數(shù)學難題?
該如何理解子曰3的模型能力?
多知找到了三道數(shù)學題目來測試。
實測地址:https://confucius.youdao.com/
第一題,我們先拿一道簡單的函數(shù)題開始。
函數(shù) y = √(2-x)/lg (x+1) 的定義域是 __________。
這道題其實并不難,但在這道題的解答思路里,卻展示了子曰3的一些特點。
比如思考過程的細致展現(xiàn)與“類人”的部分。
子曰3自稱“我”,在答題過程中出現(xiàn)了“我記得函數(shù)的定義域……”、“這應該是指以10為底的對數(shù)吧……”、“所以現(xiàn)在我得把各個條件……”、“對嗎?或者有沒有哪里遺漏了……”等等非常擬人化的思路和表達。
子曰3還會反復檢查。
可以看到子曰3在每一步推演后都會及時考慮如限制、遺漏情況、出錯可能。對于學生來說,也是一種必要的提示。
在全部推演完成后,子曰3又單獨拿出了幾個關鍵點進行重復驗證。
最后的答案也沒有任何問題,非常清晰。
第二題,我們選擇了2025年高考數(shù)學題。
2025年新高考一卷多選第11題,被多位老師評為今年的好題之一。
這道題的特別之處在于,其相比于常規(guī)的解三角形類題目,解題方法差別很大,這也讓今年的考生們在面對題目給出的三個條件時無從下手。
我們把這道題留給了子曰3。
需要注意的是,目前子曰3還不能直接通過輸入圖片或直接導入鏈接來識別題目。這個時候我們把題目輸入到可以識別圖片的模型中并提出“給出LaTex表達式”的要求即可以轉出。
這個部分對于初次使用的用戶還是需要適應一下。
但掌握后可以看到子曰3也很快進入識別理解與答疑之中。
這道題目的冷門之處在于,學生們習慣使用利用三角恒等變換公式化簡的方式是無法解開的。因此在解題時需要先分析三角形的形狀,根據(jù)內角的取值進行分析。
子曰3并非一開始就找到了最佳方案的。
在解答過程中,子曰3嘗試了多個解題思路,在多個步驟中出現(xiàn)如“考慮另一種方式”、“這樣可能比較復雜”、“可以再想想別的方法”并馬上調整。
在最終,子曰先根據(jù)題目條件利用余弦倍角公式進行化簡,同時得到A選項的正確性,
其次根據(jù)題目條件得到A,B均為銳角,在A選項的基礎上借助正弦定理得出三邊之間的關系,推出C只能為銳角或直角;進而再討論C的取值,利用反證法結合A,B為銳角得出C為直角。
最終在直角三角形的基礎上結合余弦和角公式和正弦定理求出邊長,最終得出其余選項的正確性……
延續(xù)了前一題的風格,這道題的答案還是兩次驗證后得出。
子曰3也還是表現(xiàn)的不錯的。
第三題,我們選擇了一道南京五年級數(shù)學應用題,并要求它用孩子更好理解的方式講解。
這個問題比較簡單,很快得到了完整的回答,同時子曰3的講解方式也比較適合小學的學生們。
也有小學生對多知解讀,這種大段的講解容易“看不下去”,添加適當?shù)膱D片或用簡短方式來提供答疑,或許也會更適合低齡用戶。
另外答案里的LaTex還剩下一點,沒有正確渲染出來。
不過總體上,子曰3還是很好地針對我們的數(shù)學問題給出了解題思路。
至此,子曰3的數(shù)學能力也驗證出當前有道對推理模型能力的提升,以及對強化學習落地的思考不斷深入。
另附:
附1:Demo
https://confucius.youdao.com/
附2:模型下載地址
https://github.com/netease-youdao/Confucius3-Math
附3:“子曰3”論文
《Conucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning》