谷歌Gemini 的出現(xiàn)或?qū)⒋蚱片F(xiàn)有大模型格局。

原生多模態(tài)AI大模型或更適合教育,谷歌稱Gemini數(shù)學(xué)、物理等方面超越人類專家

2023-12-08 13:21:54發(fā)布     來源:Gemini    作者:王上  

  來源|多知網(wǎng)

  作者|王上

  圖片來源|Gemini

  12月6日,谷歌宣布將推出其認(rèn)為規(guī)模最大、功能最強(qiáng)大的人工智能模型Gemini(雙子座),試圖超越OpenAI。尤其是Gemini的演示視頻在全網(wǎng)刷屏,引發(fā)熱議。不過,評論兩極分化。

  即便如此,谷歌母公司Alphabet股價(jià)周四大漲超過5%,報(bào)收每股136.93美元。

  谷歌首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)在一份新聞稿中表示:“這是令人難以置信的勢頭,然而,我們才剛剛開始觸及可能性的表面。這個(gè)新時(shí)代的模型代表了我們作為一家公司所做出的科學(xué)努力之一。”

  谷歌 DeepMind 產(chǎn)品副總裁 Eli Collins 在新聞發(fā)布會(huì)上表示,這是第一個(gè)在解決數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等某些基準(zhǔn)方面超越人類專家的人工智能模型。

  谷歌稱Gemini是多模態(tài)的,即可以同時(shí)識別視頻、圖像、文本和語音。不過, Gemini 暫時(shí)只會(huì)以文本、語音或代碼形式回復(fù)。

  根據(jù)視頻演示,Gemini與ChatGPT最大的不同是,可以在線上和線下進(jìn)行多模態(tài)的交互。在此之前,各大模型的多模態(tài)并未完全實(shí)現(xiàn)。

  DeepMind創(chuàng)始人、Google DeepMind首席執(zhí)行官Demis Hassabis接受《連線》雜志采訪時(shí)提到,Gemin是“原生多模態(tài)”,而其他大模型是“近似多模態(tài)”。意思是“Gemini從一開始就是多模態(tài)的訓(xùn)練,而其他模型是視頻、圖像、文本和語音等單獨(dú)的模型,然后拼裝到一起。”

 

  在視頻演示中,工作人員在紙上畫了一只藍(lán)色的鴨子,Gemini馬上能識別出是一只鴨子,但它很快說這只鴨子的顏色不真實(shí),然后,它還給出了“鴨子”在全球的不同發(fā)音,包含英語、法語、中文等語言的發(fā)音。Gemini還展示了在杯子轉(zhuǎn)換游戲中追蹤球,識別手影戲手勢,重新排列行星素描等。

  

  如果Gemini能實(shí)現(xiàn)多模態(tài)交互,那么對教育來說將極為便利。比如讓Gemini識別數(shù)學(xué)作業(yè),它能說出對錯(cuò),相當(dāng)于及時(shí)批改,也能對數(shù)學(xué)題目進(jìn)行講解。

  在一個(gè)視頻演示中,谷歌展示了如何使用 Gemini 來幫助完成物理作業(yè),逐步解決工作表上的問題,并指出已填寫答案中可能存在的錯(cuò)誤。

  不過,根據(jù)美國科技媒體TechCrunch今天的報(bào)道,稱Gemini的演示有剪輯的成分,作者認(rèn)為Gemini的反應(yīng)速度太快了。對此,谷歌回應(yīng)稱,“這個(gè)視頻展示了Gemini的真實(shí)輸出,但我們對演示進(jìn)行了一些剪輯。”

  也就說,谷歌演示了Gemini的技術(shù)和未來趨勢,但是,目前,Gemini的使用體驗(yàn)暫時(shí)還沒有視頻展示的那么流暢。

  根據(jù)谷歌介紹,Gemini將包括三種不同的套件:

  1)Gemini Ultra,功能最強(qiáng)大,適用于高度復(fù)雜的任務(wù)。

  2)Gemini Pro,適用于多種任務(wù)。

  3)Gemini Nano,適合想要構(gòu)建 Gemini 支持的應(yīng)用程序的 Android(安卓) 用戶。例如,借助 Gemini Nano,人們現(xiàn)在可以總結(jié)使用 Pixel 8 Pro 手機(jī)上的錄音機(jī)應(yīng)用程序進(jìn)行的錄音(但僅限英語)。

  Eli Collins 強(qiáng)調(diào),在 30 項(xiàng)衡量圖像理解或數(shù)學(xué)推理等能力的基準(zhǔn)測試中,Gemini Ultra 性能“遠(yuǎn)遠(yuǎn)超過”其他最先進(jìn)的模型。

  當(dāng)前,谷歌正在分階段推出 Gemini,谷歌的人工智能聊天機(jī)器人Bard 已經(jīng)開始使用 Gemini Pro 的微調(diào)版本,為聊天機(jī)器人有了更先進(jìn)的推理和理解能力以及其他功能。Gemini Pro 支持的 Bard 僅提供英語版本,在 170 多個(gè)國家/地區(qū)可用。谷歌表示,巴德將于明年與 Gemini Ultra 整合。在接下來的幾個(gè)月中,該公司將在其他應(yīng)用程序中添加 Gemini,包括搜索、Google Ads 和 Chrome 瀏覽器。

  谷歌 Bard 的副總裁 Sissie Hsiao 在新聞發(fā)布會(huì)上表示,Gemini Pro 在8 個(gè)行業(yè)基準(zhǔn)測試中的 6 個(gè)中優(yōu)于 GPT-3.5 。Google 最先進(jìn)的模型 Gemini Ultra 在八項(xiàng)基準(zhǔn)測試中的七項(xiàng)中擊敗了較新的 GPT-4。

  不過值得警惕的是,大模型有一個(gè)問題是會(huì)產(chǎn)生幻覺,指的是一些人工智能模型在面對某些輸入時(shí),會(huì)生成不準(zhǔn)確、不完整或誤導(dǎo)性的輸出。Gemini可以避免這個(gè)問題嗎?谷歌 DeepMind 產(chǎn)品副總裁 Eli Collins 在新聞發(fā)布會(huì)上說:“大模型仍然會(huì)產(chǎn)生幻覺。”

  一年前,OpenAI 發(fā)布ChatGPT后,科技巨頭們紛紛推出自己的聊天機(jī)器人和大模型,以與這家人工智能初創(chuàng)公司競爭。谷歌最近對 Gemini 的評估表明 OpenAI 的競爭對手正在迎頭趕上。

  可以看到,全球大模型軍備競賽愈演愈烈。谷歌Gemini 的出現(xiàn)或?qū)⒋蚱片F(xiàn)有大模型格局。

 

  END

  本文作者:王上