垂類模型的價值在此刻顯現(xiàn)了。
來源|多知網(wǎng)
作者|王上
這兩天全球網(wǎng)絡掀起一個熱梗,紛紛問大模型“9.11和9.9誰大?”出乎意料的是很多大模型回答的是“9.11更大”。
多知進行測試發(fā)現(xiàn),部分通用大模型認為9.11更大,甚至給出的解釋一塌糊涂。有的大模型時對時錯。這說明大模型可能雖然會解題,但可能不懂數(shù)學基礎(chǔ),就像有網(wǎng)友說的“大模型不理解‘十進制’的基本概念”。
但是,多知測試發(fā)現(xiàn),教育大模型非常給力,例如學而思旗下九章大模型、猿力科技旗下看云大模型相關(guān)產(chǎn)品都答對了。
對此,多知詢問學而思CTO田密,他向多知分析:“九章大模型能做對,是因為教育大模型定向構(gòu)造了很多數(shù)值計算和符號計算的數(shù)據(jù)給到了模型訓練,這樣一來,九章大模型知道這是數(shù)學題目,而通用大模型只能當成一個通用的題目處理。”
總體而言,“教育大模型有足夠多的、足夠?qū)I(yè)的數(shù)學數(shù)據(jù)訓練,整個解析過程是模擬孩子學習數(shù)學的過程,一步步地推導,所以可以解答對數(shù)學相關(guān)的問題。”
01
通用大模型集體“翻車”?
先來看看國外網(wǎng)友的測試——
ChatGPT-4o:
難以置信,回答錯誤。
有網(wǎng)友換了個說法:
換成金錢后最初還是錯了,但在解釋過程中自行糾正了。
博主s1r1us認為:“這是因為大模型不理解十進制表示的基本概念。11大于9的概率更大,所以9.11>9.9。但是讓它開始解釋時,它會將數(shù)字轉(zhuǎn)換為文本,并且有更大的數(shù)據(jù)表明90美分大于11美分,因此它會自行糾正。從大型語言數(shù)據(jù)庫進行統(tǒng)計推斷不是推理機器嗎?我的猜測是,即使數(shù)據(jù)/計算增加,LLM 模型也無法達到人類水平的推理能力。他們需要發(fā)現(xiàn)更好的算法來復制人類智能。”
再來看看多知測試的國內(nèi)大模型——
文心一言:
非常清晰,答對了。
通義千問:
錯得有點離譜。
又試了一次:
這次對了。解析得還挺詳細的。
但這種一會兒對,一會兒錯,輸出不穩(wěn)定,讓人沒有安全感。
騰訊元寶:
正確,雖然沒有給出解釋,但這種直接的計算方式讓人無法反駁。
訊飛星火:
以為第二次解釋會對,但中間繞來繞去,最終還是錯了。
豆包:
結(jié)果錯誤,但解釋正確,舉的例子很有意思。
看完大廠的,再來看看創(chuàng)業(yè)公司的大模型。
Kimi:
錯得很直接。
不甘心,又換了個說法問它:
這……還是錯了。
02
教育大模型更懂數(shù)學?
教育大模型在教育領(lǐng)域的應用更加深入和專業(yè),它們通常針學科或者教學場景進行訓練,以提供更精準的支持。它們是否能解答對這道題?
來看看九章大模型:
答對了,給出了一步步詳細的分析,且給出了“點睛”,也就是說九章大模型知道這道題考查什么。顯然學習過了相關(guān)問題。
再看學而思旗下“九章隨時問”,AI老師“小思”也回答對了,并一步步給出講解,非常容易理解。
有不少人發(fā)現(xiàn)了“九章隨時問”能解答對這道題,且用英文提問也能答對。有人在社交媒體發(fā)“九章隨時問”解答的圖片時評價到:“還得是教育大模型。”
再來看猿輔導旗下海豚AI學中AI老師“小白”的回復:
同樣,小白也答對了,且它并沒有直接給答案,而是進行了拆解,一步步引導,最終才給出正確的答案。
教育領(lǐng)域的容錯率很低,大模型在教育領(lǐng)域的應用最大的阻礙就在于它的幻覺問題,這也是各家教育大模型著重解決的問題。
之前,各家教育科技企業(yè)都向多知提到過,通過搜索召回增強技術(shù)(RAG),可以比較有效地緩解幻覺問題,這使得大模型能夠比較有效應用在實際的產(chǎn)品中去。
RAG可以通俗地理解為在訓練的時候先給大模型輸入問題的答案,那么大模型就可以檢索到正確的答案,會按照指引生成對應上下文進行回答,從而避免胡說八道。
不過,田密告訴多知:“這道題目能做對,還不是因為RAG,這次是因為九章大模型訓練了足夠多的數(shù)據(jù),而且這些數(shù)據(jù)是我們用AI合成的數(shù)據(jù),再來訓練AI 。整個解析過程是模擬孩子學習數(shù)學的過程,一步步地推導。”
“也就是說,教育科技公司有足夠多的、足夠?qū)I(yè)的數(shù)學數(shù)據(jù)做過訓練,這是優(yōu)勢。通用大模型把這道題當成是一個通用的題來處理,而九章大模型知道它是一道數(shù)學題,它用數(shù)學的方式,一步步來推理,自然能做對,而且整個過程的可解釋性很好。”田密進一步向多知解釋。
垂類模型的價值在此刻顯現(xiàn)了。
相關(guān)閱讀:
學而思宣布開放三項核心AI能力,CTO田密:教育大模型終極形態(tài)是AI老師
深度|對話猿力科技CTO楊元祖:大模型為教育解決方案帶來“第三種可能”