垂類模型的價值在此刻顯現(xiàn)了。

9.11和9.9誰大?教育大模型高光時刻,通用大模型翻車

2024-07-17 07:56:18發(fā)布     來源:多知    作者:王上  

  來源|多知網(wǎng)

  作者|王上

  這兩天全球網(wǎng)絡掀起一個熱梗,紛紛問大模型“9.11和9.9誰大?”出乎意料的是很多大模型回答的是“9.11更大”。

  多知進行測試發(fā)現(xiàn),部分通用大模型認為9.11更大,甚至給出的解釋一塌糊涂。有的大模型時對時錯。這說明大模型可能雖然會解題,但可能不懂數(shù)學基礎(chǔ),就像有網(wǎng)友說的“大模型不理解‘十進制’的基本概念”。

  但是,多知測試發(fā)現(xiàn),教育大模型非常給力,例如學而思旗下九章大模型、猿力科技旗下看云大模型相關(guān)產(chǎn)品都答對了。

  對此,多知詢問學而思CTO田密,他向多知分析:“九章大模型能做對,是因為教育大模型定向構(gòu)造了很多數(shù)值計算和符號計算的數(shù)據(jù)給到了模型訓練,這樣一來,九章大模型知道這是數(shù)學題目,而通用大模型只能當成一個通用的題目處理。

  總體而言,“教育大模型有足夠多的、足夠?qū)I(yè)的數(shù)學數(shù)據(jù)訓練,整個解析過程是模擬孩子學習數(shù)學的過程,一步步地推導,所以可以解答對數(shù)學相關(guān)的問題。”

  01

  通用大模型集體“翻車”?

  先來看看國外網(wǎng)友的測試——

  ChatGPT-4o:

  

  難以置信,回答錯誤。

  有網(wǎng)友換了個說法:

  

  換成金錢后最初還是錯了,但在解釋過程中自行糾正了。

  博主s1r1us認為:“這是因為大模型不理解十進制表示的基本概念。11大于9的概率更大,所以9.11>9.9。但是讓它開始解釋時,它會將數(shù)字轉(zhuǎn)換為文本,并且有更大的數(shù)據(jù)表明90美分大于11美分,因此它會自行糾正。從大型語言數(shù)據(jù)庫進行統(tǒng)計推斷不是推理機器嗎?我的猜測是,即使數(shù)據(jù)/計算增加,LLM 模型也無法達到人類水平的推理能力。他們需要發(fā)現(xiàn)更好的算法來復制人類智能。

  再來看看多知測試的國內(nèi)大模型——

  文心一言:

  

  

  非常清晰,答對了。

  通義千問:

  

  錯得有點離譜。

  又試了一次:

  

  這次對了。解析得還挺詳細的。

  但這種一會兒對,一會兒錯,輸出不穩(wěn)定,讓人沒有安全感。

  騰訊元寶:

  

  正確,雖然沒有給出解釋,但這種直接的計算方式讓人無法反駁。

  訊飛星火:

  

  以為第二次解釋會對,但中間繞來繞去,最終還是錯了。

  豆包:

  

  結(jié)果錯誤,但解釋正確,舉的例子很有意思。

  看完大廠的,再來看看創(chuàng)業(yè)公司的大模型。

  Kimi:

  

  錯得很直接。

  不甘心,又換了個說法問它:

  

  這……還是錯了。

  02

  教育大模型更懂數(shù)學?

  教育大模型在教育領(lǐng)域的應用更加深入和專業(yè),它們通常針學科或者教學場景進行訓練,以提供更精準的支持。它們是否能解答對這道題?

  來看看九章大模型

  

  答對了,給出了一步步詳細的分析,且給出了“點睛”,也就是說九章大模型知道這道題考查什么。顯然學習過了相關(guān)問題。

  

  再看學而思旗下“九章隨時問”,AI老師“小思”也回答對了,并一步步給出講解,非常容易理解。

  有不少人發(fā)現(xiàn)了“九章隨時問”能解答對這道題,且用英文提問也能答對。有人在社交媒體發(fā)“九章隨時問”解答的圖片時評價到:“還得是教育大模型。”

  再來看猿輔導旗下海豚AI學中AI老師“小白”的回復:

  

  同樣,小白也答對了,且它并沒有直接給答案,而是進行了拆解,一步步引導,最終才給出正確的答案。

  教育領(lǐng)域的容錯率很低,大模型在教育領(lǐng)域的應用最大的阻礙就在于它的幻覺問題,這也是各家教育大模型著重解決的問題。

  之前,各家教育科技企業(yè)都向多知提到過,通過搜索召回增強技術(shù)(RAG),可以比較有效地緩解幻覺問題,這使得大模型能夠比較有效應用在實際的產(chǎn)品中去。

  RAG可以通俗地理解為在訓練的時候先給大模型輸入問題的答案,那么大模型就可以檢索到正確的答案,會按照指引生成對應上下文進行回答,從而避免胡說八道。

  不過,田密告訴多知:“這道題目能做對,還不是因為RAG,這次是因為九章大模型訓練了足夠多的數(shù)據(jù),而且這些數(shù)據(jù)是我們用AI合成的數(shù)據(jù),再來訓練AI 。整個解析過程是模擬孩子學習數(shù)學的過程,一步步地推導。”

  “也就是說,教育科技公司有足夠多的、足夠?qū)I(yè)的數(shù)學數(shù)據(jù)做過訓練,這是優(yōu)勢。通用大模型把這道題當成是一個通用的題來處理,而九章大模型知道它是一道數(shù)學題,它用數(shù)學的方式,一步步來推理,自然能做對,而且整個過程的可解釋性很好。”田密進一步向多知解釋。

  垂類模型的價值在此刻顯現(xiàn)了。

  

  

  相關(guān)閱讀:

  學而思宣布開放三項核心AI能力,CTO田密:教育大模型終極形態(tài)是AI老師

  深度|對話猿力科技CTO楊元祖:大模型為教育解決方案帶來“第三種可能”

  萬字對話有道四高管:“模型即應用”的時代,到了?