做好AI大模型時代的數(shù)學基礎工作。

聯(lián)手谷歌,學而思發(fā)起全球大模型數(shù)學解題競賽,探索人工智能數(shù)學推理“無人區(qū)”

2023-10-11 13:02:59發(fā)布     來源:多知網(wǎng)    作者:Agnes  

  來源|多知網(wǎng)

  作者|Penny

  圖片來源|Pexels

  日前,由學而思牽頭,聯(lián)合谷歌、暨南大學等多家科技企業(yè)及高校的專家學者,依托智慧教育國家新一代人工智能開放創(chuàng)新平臺,共同舉辦AAAI2024 全球大模型數(shù)學推理競賽。該比賽邀請全球人工智能專家、開發(fā)者以及愛好者,一起用大模型自動解答中小學數(shù)學難題,探索和解決人工智能在數(shù)學領域的挑戰(zhàn)。

  此次比賽分為中文數(shù)學解題和英文數(shù)學解題兩個方向。由學而思提供比賽所用的中英文數(shù)據(jù)集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數(shù)據(jù)集囊括了國內外多個中小學數(shù)學競賽真題。

  比賽期間,參賽者需使用大模型對給定的數(shù)學題目,生成推理步驟與答案。主辦方將通過對比參賽者的模型輸出答案與正確答案之間的準確率,來為參賽者進行排名。準確率最高的參賽者將會贏得此次比賽。

  這是全球首次數(shù)學大模型解題競賽,主辦方還為此次比賽提供了3個測評基準作為參考,即GPT-3.5,GPT-4以及好未來自研的數(shù)學大模型MathGPT在公榜上的表現(xiàn)。

  好未來對MathGPT投入巨大,這次解題競賽也是學而思試圖解決“大模型不擅長理科方面的推理和計算”這一不足所做出的努力之一。

  01

  探索人工智能數(shù)學推理無人區(qū)

  眾所周知,大語言模型具備“先天性的缺陷”(如缺乏復雜推理能力、數(shù)值計算不夠準確等),如何提升大語言模型數(shù)學推理能力,突破語言模型的先天不足,成為當下全球人工智能領域關注的重點。這是此次學而思牽頭,聯(lián)合谷歌、暨南大學等共同舉辦的 AAAI2024 全球大模型數(shù)學推理競賽的重要原因。

  AAAI2024全球大模型數(shù)學推理競賽比賽官網(wǎng)已經(jīng)公布:https://ai4ed.cc/competitions/aaai2024competition

  

  AAAI(Association for the Advancement of Artificial Intelligence)由計算機科學和人工智能科學家Allen Newell、 Marvin Minsky 和John McCarthy等創(chuàng)辦,是國際人工智能領域最為權威與重要的協(xié)會之一,AAAI會議被中國計算機學會(CCF)推薦為A類會議。

  比賽期間,參賽者需使用大模型對給定的數(shù)學題目,生成推理步驟與答案。主辦方將通過對比參賽者的模型輸出答案與正確答案之間的準確率,來為參賽者進行排名。準確率最高的參賽者將會贏得此次比賽。

  為了更充分地探究各類大模型的數(shù)學推理能力,此次比賽分為中文數(shù)學解題和英文數(shù)學解題兩個方向。由學而思提供比賽所用的中英文數(shù)據(jù)集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數(shù)據(jù)集囊括了國內外多個中小學數(shù)學競賽真題,題目格式均經(jīng)過精心處理,每道題目都包含題目內容,題目難度等級和題目涉及到的從粗粒度到細粒度的知識點鏈條等字段。與之同時,TAL-SAQ7K-CN、TAL-SAQ6K-EN數(shù)據(jù)集中涉及到數(shù)學表達式已經(jīng)處理成統(tǒng)一的文本模式Latex。

  比賽分為兩個階段,第一階段即日起截止到12月31日,為公榜階段。主辦方事先隨機在TAL-SAQ7K-CN和TAL-SAQ6K-EN中選出30%的數(shù)據(jù),供參賽者進行大模型調試。第二階段則從2024年1月1日到1月10日,為私榜階段。期間,參賽者使用第一階段調優(yōu)過的大模型來解答數(shù)據(jù)集中剩余的70%題目。這一階段的成績將會作為比賽的最終成績。

  此外,主辦方還為此次比賽提供了3個測評基準作為參考,即GPT-3.5,GPT-4以及好未來自研的數(shù)學大模型MathGPT在公榜上的表現(xiàn),具體結果如下:

  Track1:

  

  Track2:

  

  02

  做好AI大模型時代的數(shù)學基礎工作

  大模型一直是近來年人工智能發(fā)展最熱門的領域之一,ChatGPT的橫空出世則讓更多人看到了人工智能未來的方向。然而,現(xiàn)有的大語言模型在數(shù)學問題的解決、講解、問答和推薦方面則存在明顯不足,如解答數(shù)學問題經(jīng)常出錯,難以進行復雜運算。

  作為本次全球大模型數(shù)學競賽的發(fā)起者,學而思方面表示,希望能夠通過這次大模型數(shù)學比賽,探索、解決現(xiàn)有的模型擅長文科而不擅長理科方面的推理和計算這一不足。學而思也在積極探索解決,如學而思MathGPT(官網(wǎng):https://www.mathgpt.com/)結合大模型和計算引擎兩者能力解決大模型在數(shù)學領域的三大挑戰(zhàn)——解對題、講清步驟、內容有趣生動。前者負責理解題目、分步解析,并在合適的步驟自行調用計算引擎,以此來提高正確率?;诤A棵麕熃忸}過程的數(shù)據(jù)進行模型訓練,模型的解題步驟可以更加清晰。再引入優(yōu)秀老師的教學理念和方法,模型在解題趣味性上也能進一步提高。

  以一道數(shù)列題為例,MathGPT給出的答案包含“分析”、“詳解”、“點睛”三個部分,比通用大模型的粗略講解方式更為細致,“分析”提供了題目的解題思路、思考方式,幫助用戶更好地理解題目,“詳解”則給出具體的計算方式和答案,最后“點睛”的環(huán)節(jié),對題目的考點、難點、關鍵點進行提示,幫助用戶回顧反思出題意圖、舉一反三。

  

  作為國內首個數(shù)學領域千億級大模型,MathGPT數(shù)學計算能力已覆蓋小學、初中、高中階段,題目類型涵蓋計算題、應用題、代數(shù)題等多個類型,還可以針對題目進行追問。相關技術報告顯示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考數(shù)學和Math401等6個公開數(shù)學評測集合的測試結果中,學而思MathGPT取得了多項測試的最高分數(shù);在C-Eval的初高中的全科測試集合上,MathGPT也均有不錯的表現(xiàn)。

  此外,學而思也在GitHub、Hugging Face等技術社區(qū)開源了MathGPT的模型訓練測試數(shù)據(jù)集——TAL-SCQ5K-EN/CN(各3K訓練集和2K測試集),題目為單選形式,涉及小初高階段數(shù)學內容,帶有詳細的解析步驟便于進行COT的訓練。(GitHub開源地址:https://github.com/math-eval/TAL-SCQ5K;Hugging Face開源地址:https://huggingface.co/datasets/math-eval/TAL-SCQ5K)

  作為智慧教育國家新一代人工智能開放創(chuàng)新平臺承建單位,學而思一直積極參與推動我國人工智能技術發(fā)展與進步。隨著大模型時代的到來,學而思希望用自身在數(shù)學和AI上的多年積累,面向全球范圍內的數(shù)學愛好者和科研機構,做好AI大模型時代的數(shù)學基礎工作。

  相關閱讀:

  好未來數(shù)學垂直大模型MathGPT來了!CTO田密:希望用AI實現(xiàn)大規(guī)模因材施教