9.11和9.9誰大？教育大模型高光時刻，通用大模型翻車

2024-07-17 07:56:18發(fā)布來源：多知作者：王上

　　來源|多知網(wǎng)

　　作者|王上

　　這兩天全球網(wǎng)絡掀起一個熱梗，紛紛問大模型“9.11和9.9誰大?”出乎意料的是很多大模型回答的是“9.11更大”。

　　多知進行測試發(fā)現(xiàn)，部分通用大模型認為9.11更大，甚至給出的解釋一塌糊涂。有的大模型時對時錯。這說明大模型可能雖然會解題，但可能不懂數(shù)學基礎(chǔ)，就像有網(wǎng)友說的“大模型不理解‘十進制’的基本概念”。

　　但是，多知測試發(fā)現(xiàn)，教育大模型非常給力，例如學而思旗下九章大模型、猿力科技旗下看云大模型相關(guān)產(chǎn)品都答對了。

　　對此，多知詢問學而思CTO田密，他向多知分析：“九章大模型能做對，是因為教育大模型定向構(gòu)造了很多數(shù)值計算和符號計算的數(shù)據(jù)給到了模型訓練，這樣一來，九章大模型知道這是數(shù)學題目，而通用大模型只能當成一個通用的題目處理。”

　　總體而言，“教育大模型有足夠多的、足夠?qū)I(yè)的數(shù)學數(shù)據(jù)訓練，整個解析過程是模擬孩子學習數(shù)學的過程，一步步地推導，所以可以解答對數(shù)學相關(guān)的問題。”

　　通用大模型集體“翻車”?

　　先來看看國外網(wǎng)友的測試——

　　ChatGPT-4o：

　　難以置信，回答錯誤。

　　有網(wǎng)友換了個說法：

　　換成金錢后最初還是錯了，但在解釋過程中自行糾正了。

　　博主s1r1us認為：“這是因為大模型不理解十進制表示的基本概念。11大于9的概率更大，所以9.11>9.9。但是讓它開始解釋時，它會將數(shù)字轉(zhuǎn)換為文本，并且有更大的數(shù)據(jù)表明90美分大于11美分，因此它會自行糾正。從大型語言數(shù)據(jù)庫進行統(tǒng)計推斷不是推理機器嗎?我的猜測是，即使數(shù)據(jù)/計算增加，LLM 模型也無法達到人類水平的推理能力。他們需要發(fā)現(xiàn)更好的算法來復制人類智能。”

　　再來看看多知測試的國內(nèi)大模型——

　　文心一言：

　　非常清晰，答對了。

　　通義千問：

　　錯得有點離譜。

　　又試了一次：

　　這次對了。解析得還挺詳細的。

　　但這種一會兒對，一會兒錯，輸出不穩(wěn)定，讓人沒有安全感。

　　騰訊元寶：

　　正確，雖然沒有給出解釋，但這種直接的計算方式讓人無法反駁。

　　訊飛星火：

　　以為第二次解釋會對，但中間繞來繞去，最終還是錯了。

　　豆包：

　　結(jié)果錯誤，但解釋正確，舉的例子很有意思。

　　看完大廠的，再來看看創(chuàng)業(yè)公司的大模型。

　　Kimi：

　　錯得很直接。

　　不甘心，又換了個說法問它：

　　這……還是錯了。

　　教育大模型更懂數(shù)學?

　　教育大模型在教育領(lǐng)域的應用更加深入和專業(yè)，它們通常針學科或者教學場景進行訓練，以提供更精準的支持。它們是否能解答對這道題?

　　來看看九章大模型：

　　答對了，給出了一步步詳細的分析，且給出了“點睛”，也就是說九章大模型知道這道題考查什么。顯然學習過了相關(guān)問題。

　　再看學而思旗下“九章隨時問”，AI老師“小思”也回答對了，并一步步給出講解，非常容易理解。

　　有不少人發(fā)現(xiàn)了“九章隨時問”能解答對這道題，且用英文提問也能答對。有人在社交媒體發(fā)“九章隨時問”解答的圖片時評價到：“還得是教育大模型。”

　　再來看猿輔導旗下海豚AI學中AI老師“小白”的回復：

　　同樣，小白也答對了，且它并沒有直接給答案，而是進行了拆解，一步步引導，最終才給出正確的答案。

　　教育領(lǐng)域的容錯率很低，大模型在教育領(lǐng)域的應用最大的阻礙就在于它的幻覺問題，這也是各家教育大模型著重解決的問題。

　　之前，各家教育科技企業(yè)都向多知提到過，通過搜索召回增強技術(shù)(RAG)，可以比較有效地緩解幻覺問題，這使得大模型能夠比較有效應用在實際的產(chǎn)品中去。

　　RAG可以通俗地理解為在訓練的時候先給大模型輸入問題的答案，那么大模型就可以檢索到正確的答案，會按照指引生成對應上下文進行回答，從而避免胡說八道。

　　不過，田密告訴多知：“這道題目能做對，還不是因為RAG，這次是因為九章大模型訓練了足夠多的數(shù)據(jù)，而且這些數(shù)據(jù)是我們用AI合成的數(shù)據(jù)，再來訓練AI 。整個解析過程是模擬孩子學習數(shù)學的過程，一步步地推導。”

　　“也就是說，教育科技公司有足夠多的、足夠?qū)I(yè)的數(shù)學數(shù)據(jù)做過訓練，這是優(yōu)勢。通用大模型把這道題當成是一個通用的題來處理，而九章大模型知道它是一道數(shù)學題，它用數(shù)學的方式，一步步來推理，自然能做對，而且整個過程的可解釋性很好。”田密進一步向多知解釋。

　　垂類模型的價值在此刻顯現(xiàn)了。

　　深度|對話猿力科技CTO楊元祖：大模型為教育解決方案帶來“第三種可能”

　　萬字對話有道四高管：“模型即應用”的時代，到了?

商學院

Open Talk

9.11和9.9誰大？教育大模型高光時刻，通用大模型翻車

相關(guān)閱讀

商學院

Open Talk

9.11和9.9誰大？教育大模型高光時刻，通用大模型翻車

相關(guān)閱讀

9.11和9.9誰大？教育大模型高光時刻，通用大模型翻車