對話｜有道“子曰3”數(shù)學模型開源背后

2025-07-11 19:40:24發(fā)布來源：多知作者：馮瑋

　　來源|多知

　　作者|馮瑋

　　六月末，網(wǎng)易有道開源了“子曰3”數(shù)學模型(Confucius3-Math，下稱“子曰3”)。

　　子曰3是有道推理模型“子曰-o1” 在數(shù)學模型能力上的延伸，主打數(shù)學、邏輯與推理能力;同時也是一款專門面向教育機構、學校與開發(fā)者使用的模型。

　　據(jù)有道官方測試，在CK12-math(Internal)、GAOKAO-Bench(Math)、MathBench(K12)、MATH500等數(shù)據(jù)集上，14B輕量級的“子曰3”各項得分均高于DeepSeek-R1等通用大模型。

　　值得注意的是，在GAOKAO-Bench(Math)這一基于高考數(shù)學題的大模型評測框架中，“子曰3”拿到了98.5分。

　　這是個不錯的成績。

　　網(wǎng)易有道近兩年一直在加大對AI大模型的研發(fā)，而子曰系列正是重要成果之一。相比通用大語言模型，此次的子曰3更側重結構化、符號化表達與嚴謹推理能力，符合教育、科研等需求場景。

　　發(fā)稿前，子曰3已同步開源，支持企業(yè)與個人免費使用——這意味著教育機構和開發(fā)者都能以低成本部署自己的數(shù)學AI應用。

　　子曰3到底一個什么樣的模型?有道開發(fā)和開源子曰3的思路是什么?

　　多知獨家對話網(wǎng)易有道首席科學家段亦濤。

　　子曰錨定數(shù)學?

　　多知：能否介紹下子曰3的立項背景?

　　段亦濤：這次模型的升級和開源，本質上是有道一貫秉承的AI發(fā)展思路的延續(xù)。

　　這個思路就是AI技術一定要在應用中去發(fā)展。因為AI就是一個以復刻人類智能為目標的技術，只有在應用中才能理解其本質，驗證其價值。

　　有道從事的是教育。這是一個AI有可能做出巨大創(chuàng)新的行業(yè)，也是一個對AI的能力提出更嚴格要求的行業(yè)。目前來看這個行業(yè)缺乏一個低成本，高性能，同時也開源的模型。這里每一點要求都必不可少。只有低成本才能打破數(shù)字鴻溝，均衡教育資源，保證公平性。只有高性能才能保證結果的正確性，避免誤人子弟。開源除了可以進一步降低使用門檻，提高資源公平性之外，還可以促進合作，聚合更多力量。

　　從技術發(fā)展的大趨勢和條件看，這幾年大模型的發(fā)展帶來了技術上質的飛躍，尤其是近一年多來，模型的推理能力快速發(fā)展，有希望解決復雜的問題，達到前面說的高性能的目標。但從應用的要求來看，還有一定的差距。

　　子曰3就是在這些背景下立項。我們認為當前需求很明確，條件趨于成熟。子曰3的定位是一個低成本高性能多學科的教育模型。目前推出的子曰3數(shù)學是其中的第一步，聚焦在數(shù)學和解題答疑能力。以此為基礎，后續(xù)會拓展到其他學科和能力。

　　多知：有道現(xiàn)在對推理模型的投入好像越來越重?

　　段亦濤：對，推理能力一直是最新大模型發(fā)展的重點。

　　去年OpenAI 的 o1 模型在解決數(shù)學和編程等復雜多步驟任務方面取得了重大突破，引發(fā)了大家的關注，但其中的實現(xiàn)細節(jié)透露不多。DeepSeek R1披露更完整和詳細的構建推理能力的技術。它是首個證明純強化學習(RL)能夠有效培養(yǎng)高級推理技能的模型，實現(xiàn)了諸如鏈式思維和自我驗證等有機涌現(xiàn)的推理行為。除了技術成就之外，R1 的開放性還使更多人能夠獲取使用。

　　DeepSeek R1驗證了我們的一些猜測。我們認為強化學習有非常大的潛力，能夠大大提升模型能力的天花板。同時純強化學習后期訓練更具成本效益。

　　這是我們決定做后面的事情的很重要的技術基礎。

　　多知：有道子曰3在對推理能力能力升級后，對于數(shù)學答疑場景帶來的變化有哪些?

　　段亦濤：答疑能力并不等同于解題能力，但前者會非常依賴后者。首先，當我們的模型能力本身提升后，在我們實際的產(chǎn)品使用場景中AI的結果準確率也一定會相應提升，這會給用戶一個更好的體驗。其次，有了更強的解題能力之后，再去優(yōu)化模型的答疑能力，可以起到事半功倍的效果。

　　所以子曰3首先針對數(shù)學解題場景上做了很多的優(yōu)化，比如在數(shù)據(jù)上，我們收集了幾百萬學生易錯的試題并采用多種方法進行過濾，用來確保數(shù)據(jù)的質量;在訓練階段，我們采用了純強化學習策略，并提出像近期樣本恢復(Recent Sample Recovery)、特定策略的難度加權(Policy-Specific Hardness Weighting)等新技術，有效地加強了模型的解題能力。同時我們也在訓練過程中引入了對解題過程的價值反饋，使得模型能夠生成對用戶理解問題和解法有幫助的信息，大大提高了答疑效率和效果。

　　多知：在大模型訓練中，有兩種技術方法，一個是強化學習，它只給答案的對錯反饋，另外一個是之前常用的監(jiān)督學習，它給出中間的詳細步驟。您怎么看這兩種方式?

　　段亦濤：是的，我也和同行交流過類似的問題，的確目前這兩種方式都存在，一種是我們現(xiàn)在使用的強化學習優(yōu)化方法，它只給答案的對錯反饋，不管中間步驟，由模型發(fā)揮;另一種則是一步一步鎖定答案和邏輯思路。

　　對于優(yōu)化模型的推理能力，它們都是有用的，也都在不同的階段使用。

　　但是后者更傾向于“手把手”式的教學，一方面這對數(shù)據(jù)本身的要求會更高，另一方面對模型也會施加限制，讓模型只能照貓畫虎地學習，再往前就不行了。

　　我們認為，強化學習的路線更有潛力，天花板更高。它為模型提供自由發(fā)揮的空間，甚至可以讓模型學到超出人類自身的能力，就像我們在圍棋AI中做到的那樣。

　　全面開源：走出“大開發(fā)”時期

　　多知：這次為什么選擇開源？另外在合作上有什么考量么？

　　段亦濤：我們整體還是比較開放。

　　目前已經(jīng)把模型完全開源了，同步也放出相關代碼和論文細節(jié)。所以合作方想直接用也可以，想在現(xiàn)有基礎上進一步開發(fā)也可以，伴隨后面新功能的不斷推出，我想我們也會有更多的合作狀態(tài)。

　　選擇開源一方面肯定還是希望在我們的能力范疇內能夠幫助行業(yè)有需要的企業(yè)一起發(fā)展。另外我們自身的技術發(fā)展得益于開源社區(qū)的貢獻，我們也希望通過開源反哺相關的社區(qū)。

　　在教育領域，開放本身就是一個很重要的環(huán)節(jié)：我們越開放，也會有越來越多的人來關注、使用和糾察，我們就可以一起進步，這對我們，對行業(yè)都是有益的。

　　現(xiàn)在很多學校和機構需要輕量級模型以便獨立部署與定制調優(yōu)，子曰3數(shù)學模型的14B規(guī)格優(yōu)勢也相應提升：推理部署僅需24G顯存顯卡單卡，微調訓練通過4-8卡單機就可以完成了。

　　我們非常歡迎，也很期待大家來使用它。

　　多知：能不能具體介紹下接入方式？

　　段亦濤：目前我們提供了兩種，一種直接把模型拿下來去部署，基本上一張消費級的顯卡就可以跑，這是一個非常低門檻的使用方式了。

　　另外一種是通過我們或者其他云服務的供應商把模型部署起來后，再去調用。

　　我們目前的模型能力還聚焦在解題上，但其實公立校、培訓機構等等的需求都是不一樣的，比如她們可能不僅需要解題、還需要面對不同能力的人給出不同的解題思路、以及組卷、批改等等。

　　在各種各樣的需求下，我們的模型也會慢慢延伸為不同的功能和應用。

　　這些我想很快都會在我們的客戶端上實現(xiàn)的。

　　多知：是不是會有這樣一個可能，伴隨著每個機構都有自己的模型能力，接下來將不再需要依賴題庫去解題了？

　　段亦濤：這是必然的。以后解題都不會依賴題庫了，教育機構只需要出題或者提供其他的服務。

　　我們當前版本的模型，就可以在我們的用戶場景下做到96%準確率。預計很快能提升到98%以上。我們的下一步在進一步提升解題能力的同時，會拓展學科，以及構建學習過程中其他需求的能力。

　　多知：能否分享下長遠規(guī)劃？

　　段亦濤：其實我們已經(jīng)在一些維度實現(xiàn)了進展，但還沒有在這次公開　

　　整體來看，接下來一定是推理能力的進一步增強，模型將能夠更準地解更難的題；另外會支持更多學科；最后還有在其他教育和學習相關的功能上的拓展。

　　比如這一次我們是在答疑解題的能力上提供了更多支持，那么以后，可能同樣是一個AI老師的角色，但這位老師將可以實現(xiàn)陪伴、引導、答疑解惑、組卷判卷，甚至是更多學生們細碎的需求，我們都可以給出恰到好處的幫助。

　　大模型技術落地這個事情，在行業(yè)里還有點像“大開發(fā)”的階段。

　　我想我們相較于競爭，更加需要關注的是合作，這也正式我們選擇開源的原因，因為對整個AI行業(yè)來講，我們還有很多困難還沒有解決、還沒有開發(fā)好。

　　我們多試試，多做做，才會使我們對這個領域的認知真正地成熟起來。而當基礎設施逐漸實現(xiàn)的時候，我們同時去想大家各自靠什么方式種什么樣的果子，這樣才會有一個持續(xù)發(fā)展的行業(yè)。

　　對話后，我們也實測了子曰3在數(shù)學答疑中的表現(xiàn)。

　　實測子曰3，如何解決數(shù)學難題?

　　該如何理解子曰3的模型能力？

　　多知找到了三道數(shù)學題目來測試。

　　實測地址：https://confucius.youdao.com/

　　第一題，我們先拿一道簡單的函數(shù)題開始。

　　函數(shù) y = √(2-x)/lg (x+1) 的定義域是 __________。

　　這道題其實并不難，但在這道題的解答思路里，卻展示了子曰3的一些特點。

　　比如思考過程的細致展現(xiàn)與“類人”的部分。

　　子曰3自稱“我”，在答題過程中出現(xiàn)了“我記得函數(shù)的定義域……”、“這應該是指以10為底的對數(shù)吧……”、“所以現(xiàn)在我得把各個條件……”、“對嗎？或者有沒有哪里遺漏了……”等等非常擬人化的思路和表達。

　　子曰3還會反復檢查。

　　可以看到子曰3在每一步推演后都會及時考慮如限制、遺漏情況、出錯可能。對于學生來說，也是一種必要的提示。

　　在全部推演完成后，子曰3又單獨拿出了幾個關鍵點進行重復驗證。

　　最后的答案也沒有任何問題，非常清晰。

　　第二題，我們選擇了2025年高考數(shù)學題。

　　2025年新高考一卷多選第11題，被多位老師評為今年的好題之一。

　　這道題的特別之處在于，其相比于常規(guī)的解三角形類題目，解題方法差別很大，這也讓今年的考生們在面對題目給出的三個條件時無從下手。

　　我們把這道題留給了子曰3。

　　需要注意的是，目前子曰3還不能直接通過輸入圖片或直接導入鏈接來識別題目。這個時候我們把題目輸入到可以識別圖片的模型中并提出“給出LaTex表達式”的要求即可以轉出。

　　這個部分對于初次使用的用戶還是需要適應一下。

　　但掌握后可以看到子曰3也很快進入識別理解與答疑之中。

　　這道題目的冷門之處在于，學生們習慣使用利用三角恒等變換公式化簡的方式是無法解開的。因此在解題時需要先分析三角形的形狀，根據(jù)內角的取值進行分析。

　　子曰3并非一開始就找到了最佳方案的。

　　在解答過程中，子曰3嘗試了多個解題思路，在多個步驟中出現(xiàn)如“考慮另一種方式”、“這樣可能比較復雜”、“可以再想想別的方法”并馬上調整。

　　在最終，子曰先根據(jù)題目條件利用余弦倍角公式進行化簡，同時得到A選項的正確性，

　　其次根據(jù)題目條件得到A，B均為銳角，在A選項的基礎上借助正弦定理得出三邊之間的關系，推出C只能為銳角或直角；進而再討論C的取值，利用反證法結合A，B為銳角得出C為直角。

　　最終在直角三角形的基礎上結合余弦和角公式和正弦定理求出邊長，最終得出其余選項的正確性……

　　延續(xù)了前一題的風格，這道題的答案還是兩次驗證后得出。

　　子曰3也還是表現(xiàn)的不錯的。

　　第三題，我們選擇了一道南京五年級數(shù)學應用題，并要求它用孩子更好理解的方式講解。

　　這個問題比較簡單，很快得到了完整的回答，同時子曰3的講解方式也比較適合小學的學生們。

　　也有小學生對多知解讀，這種大段的講解容易“看不下去”，添加適當?shù)膱D片或用簡短方式來提供答疑，或許也會更適合低齡用戶。

　　另外答案里的LaTex還剩下一點，沒有正確渲染出來。

　　不過總體上，子曰3還是很好地針對我們的數(shù)學問題給出了解題思路。

　　至此，子曰3的數(shù)學能力也驗證出當前有道對推理模型能力的提升，以及對強化學習落地的思考不斷深入。

　　另附：

　　附1：Demo

　　https://confucius.youdao.com/

　　附2：模型下載地址

　　https://github.com/netease-youdao/Confucius3-Math

　　附3：“子曰3”論文

　　《Conucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning》

商學院

Open Talk

對話｜有道“子曰3”數(shù)學模型開源背后

相關閱讀