原生多模態(tài)AI大模型或更適合教育，谷歌稱Gemini數(shù)學(xué)、物理等方面超越人類專家

2023-12-08 13:21:54發(fā)布來源：Gemini 作者：王上

　　來源|多知網(wǎng)

　　作者|王上

　　圖片來源|Gemini

　　12月6日，谷歌宣布將推出其認(rèn)為規(guī)模最大、功能最強(qiáng)大的人工智能模型Gemini(雙子座)，試圖超越OpenAI。尤其是Gemini的演示視頻在全網(wǎng)刷屏，引發(fā)熱議。不過，評論兩極分化。

　　即便如此，谷歌母公司Alphabet股價(jià)周四大漲超過5%，報(bào)收每股136.93美元。

　　谷歌首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)在一份新聞稿中表示：“這是令人難以置信的勢頭，然而，我們才剛剛開始觸及可能性的表面。這個(gè)新時(shí)代的模型代表了我們作為一家公司所做出的科學(xué)努力之一。”

　　谷歌 DeepMind 產(chǎn)品副總裁 Eli Collins 在新聞發(fā)布會(huì)上表示，這是第一個(gè)在解決數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等某些基準(zhǔn)方面超越人類專家的人工智能模型。

　　谷歌稱Gemini是多模態(tài)的，即可以同時(shí)識別視頻、圖像、文本和語音。不過， Gemini 暫時(shí)只會(huì)以文本、語音或代碼形式回復(fù)。

　　根據(jù)視頻演示，Gemini與ChatGPT最大的不同是，可以在線上和線下進(jìn)行多模態(tài)的交互。在此之前，各大模型的多模態(tài)并未完全實(shí)現(xiàn)。

　　DeepMind創(chuàng)始人、Google DeepMind首席執(zhí)行官Demis Hassabis接受《連線》雜志采訪時(shí)提到，Gemin是“原生多模態(tài)”，而其他大模型是“近似多模態(tài)”。意思是“Gemini從一開始就是多模態(tài)的訓(xùn)練，而其他模型是視頻、圖像、文本和語音等單獨(dú)的模型，然后拼裝到一起。”

　　在視頻演示中，工作人員在紙上畫了一只藍(lán)色的鴨子，Gemini馬上能識別出是一只鴨子，但它很快說這只鴨子的顏色不真實(shí)，然后，它還給出了“鴨子”在全球的不同發(fā)音，包含英語、法語、中文等語言的發(fā)音。Gemini還展示了在杯子轉(zhuǎn)換游戲中追蹤球，識別手影戲手勢，重新排列行星素描等。

　　如果Gemini能實(shí)現(xiàn)多模態(tài)交互，那么對教育來說將極為便利。比如讓Gemini識別數(shù)學(xué)作業(yè)，它能說出對錯(cuò)，相當(dāng)于及時(shí)批改，也能對數(shù)學(xué)題目進(jìn)行講解。

　　在一個(gè)視頻演示中，谷歌展示了如何使用 Gemini 來幫助完成物理作業(yè)，逐步解決工作表上的問題，并指出已填寫答案中可能存在的錯(cuò)誤。

　　不過，根據(jù)美國科技媒體TechCrunch今天的報(bào)道，稱Gemini的演示有剪輯的成分，作者認(rèn)為Gemini的反應(yīng)速度太快了。對此，谷歌回應(yīng)稱，“這個(gè)視頻展示了Gemini的真實(shí)輸出，但我們對演示進(jìn)行了一些剪輯。”

　　也就說，谷歌演示了Gemini的技術(shù)和未來趨勢，但是，目前，Gemini的使用體驗(yàn)暫時(shí)還沒有視頻展示的那么流暢。

　　根據(jù)谷歌介紹，Gemini將包括三種不同的套件：

　　1)Gemini Ultra，功能最強(qiáng)大，適用于高度復(fù)雜的任務(wù)。

　　2)Gemini Pro，適用于多種任務(wù)。

　　3)Gemini Nano，適合想要構(gòu)建 Gemini 支持的應(yīng)用程序的 Android(安卓) 用戶。例如，借助 Gemini Nano，人們現(xiàn)在可以總結(jié)使用 Pixel 8 Pro 手機(jī)上的錄音機(jī)應(yīng)用程序進(jìn)行的錄音(但僅限英語)。

　　Eli Collins 強(qiáng)調(diào)，在 30 項(xiàng)衡量圖像理解或數(shù)學(xué)推理等能力的基準(zhǔn)測試中，Gemini Ultra 性能“遠(yuǎn)遠(yuǎn)超過”其他最先進(jìn)的模型。

　　當(dāng)前，谷歌正在分階段推出 Gemini，谷歌的人工智能聊天機(jī)器人Bard 已經(jīng)開始使用 Gemini Pro 的微調(diào)版本，為聊天機(jī)器人有了更先進(jìn)的推理和理解能力以及其他功能。Gemini Pro 支持的 Bard 僅提供英語版本，在 170 多個(gè)國家/地區(qū)可用。谷歌表示，巴德將于明年與 Gemini Ultra 整合。在接下來的幾個(gè)月中，該公司將在其他應(yīng)用程序中添加 Gemini，包括搜索、Google Ads 和 Chrome 瀏覽器。

　　谷歌 Bard 的副總裁 Sissie Hsiao 在新聞發(fā)布會(huì)上表示，Gemini Pro 在8 個(gè)行業(yè)基準(zhǔn)測試中的 6 個(gè)中優(yōu)于 GPT-3.5 。Google 最先進(jìn)的模型 Gemini Ultra 在八項(xiàng)基準(zhǔn)測試中的七項(xiàng)中擊敗了較新的 GPT-4。

　　不過值得警惕的是，大模型有一個(gè)問題是會(huì)產(chǎn)生幻覺，指的是一些人工智能模型在面對某些輸入時(shí)，會(huì)生成不準(zhǔn)確、不完整或誤導(dǎo)性的輸出。Gemini可以避免這個(gè)問題嗎?谷歌 DeepMind 產(chǎn)品副總裁 Eli Collins 在新聞發(fā)布會(huì)上說：“大模型仍然會(huì)產(chǎn)生幻覺。”

　　一年前，OpenAI 發(fā)布ChatGPT后，科技巨頭們紛紛推出自己的聊天機(jī)器人和大模型，以與這家人工智能初創(chuàng)公司競爭。谷歌最近對 Gemini 的評估表明 OpenAI 的競爭對手正在迎頭趕上。

　　可以看到，全球大模型軍備競賽愈演愈烈。谷歌Gemini 的出現(xiàn)或?qū)⒋蚱片F(xiàn)有大模型格局。

　　END

　　本文作者：王上

商學(xué)院

Open Talk

原生多模態(tài)AI大模型或更適合教育，谷歌稱Gemini數(shù)學(xué)、物理等方面超越人類專家

相關(guān)閱讀

商學(xué)院

Open Talk

原生多模態(tài)AI大模型或更適合教育，谷歌稱Gemini數(shù)學(xué)、物理等方面超越人類專家

相關(guān)閱讀

原生多模態(tài)AI大模型或更適合教育，谷歌稱Gemini數(shù)學(xué)、物理等方面超越人類專家