長遠(yuǎn)來看,機器人一定會走進千家萬戶。
編者按:
本文轉(zhuǎn)載自“騰訊研究院”,多知經(jīng)授權(quán)發(fā)布。騰訊首席科學(xué)家、騰訊Robotics X實驗室主任張正友在“具身智能的一些挑戰(zhàn)和進展”主題演講中介紹了機器人的發(fā)展史及具身智能的挑戰(zhàn),還介紹了Robotics X實驗室基于“層次化”控制來研發(fā)智能機器人的進展。張正友提到,和ChatGPT不同,具身智能是通過類人的感知方式(視覺、聽覺、語言、觸覺)來獲取知識,并抽象成為一種表達(dá)語義來理解世界并作出行動,與世界交互。因此,大模型放到機器人上并不能馬上能實現(xiàn)具身智能。
為深入探討AI時代的人機關(guān)系,引領(lǐng)社會共同思考人機共生時代的經(jīng)濟發(fā)展機遇與社會應(yīng)對策略,騰訊研究院聯(lián)合前海國際事務(wù)研究院、青騰、香港科技園公司等機構(gòu)舉辦 “AI時代的人機關(guān)系展望”論壇,這也是“人工智能+社會發(fā)展系列高端研討會”的第二期。
論壇上,騰訊首席科學(xué)家、騰訊Robotics X實驗室主任張正友在“具身智能的一些挑戰(zhàn)和進展”主題演講中,介紹了Robotics X實驗室基于“層次化”控制來研發(fā)智能機器人的進展。“層次化”包括對本體、環(huán)境和任務(wù)共三層控制,層次化的具身智能的優(yōu)勢在于每個層次的知識都可以持續(xù)地更新和積累,而且層次之間能力可以解耦。騰訊Robotics X 實驗室今年研發(fā)了自研的五指靈巧手和機械臂,移動底盤也首次融入到機器人身上,再加上感知大模型和規(guī)劃大模型,能夠讓操作機器人實現(xiàn)自由對話和完成任務(wù)。
對于智能機器人將如何走進人們的生活,張正友說:“長遠(yuǎn)來看,機器人一定會走進千家萬戶,而在當(dāng)下,機器人可能會在康復(fù)養(yǎng)老、個性化教育等領(lǐng)域首先帶來巨大變化。”
以下為張正友的分享全文:
各位領(lǐng)導(dǎo)、各位嘉賓、各位老師、各位同學(xué):大家下午好。我今天要跟大家分享關(guān)于具身智能的一些挑戰(zhàn)和進展。
至于什么是具身智能,這個詞去年突然火起來了,大家感覺很酷。其實,具身智能是相對于非具身智能而言的,像ChatGPT擁有的是沒有身體的智能。對我來講,具身智能體就是一個智能的機器人。至于這個智能是應(yīng)該有身體還是沒有身體的,對我們做機器人的來講肯定是希望有身體,擁有身體才能把智能發(fā)育得更好。
2018年年初,騰訊董事會主席兼首席執(zhí)行官馬化騰決定成立騰訊Robotics X,當(dāng)時我還在朋友圈發(fā)了這樣一段話(2018年4月6日朋友圈的內(nèi)容):“沒有靈魂的軀體是一具行尸走肉,沒有軀體的靈魂是一縷虛無幽靈,我們不做行尸走肉,我們不要幽靈飄忽,我們創(chuàng)造與人和諧互助的機器人!”也就是我們要創(chuàng)建智能機器人來增強人的智力、發(fā)揮人類體能潛力、關(guān)懷人的情感、促進人和機器人的交互,迎接人和機器人共存、共創(chuàng)和共贏的時代,這是我們成立騰訊Robotics X的初衷。
其實,智能是否需要具身是有爭議的,這個爭議主要圍繞認(rèn)知科學(xué)展開。該領(lǐng)域內(nèi),大家認(rèn)為許多認(rèn)知特性是需要生物體的整體特性來塑造生物體的智能,但也有一部分人認(rèn)為智能是不需要身體的,因為我們主要面臨的是信息處理、問題解決和決策治理等任務(wù),這些都可以通過軟件和算法實現(xiàn)。具身智能這個詞和概念很早就存在了,對很多人來講,身體對于智能來說是至關(guān)重要的,因為智能源于生物體與其環(huán)境之間的交互,兩者之間的互動有利于智能的發(fā)育和發(fā)展。
回過頭看,圖靈在1950年寫的探討如何實現(xiàn)機器智能的文章??梢钥吹?,有一部分人認(rèn)為可以用一些非常抽象的Activity,比方說下棋來實現(xiàn)(智能),還有一部分人認(rèn)為,機器最好要有一些Organ(器官),比如speaker(話筒)來幫助我們更快的實現(xiàn)機器智能。不過,圖靈自己也說不知道哪一類最好。Open AI最早的時候也買了上百臺的機械臂,直接希望用機器人來實現(xiàn)AGI,經(jīng)過一年多的努力發(fā)現(xiàn)這條道路暫時走不通,所以他們就放棄了,把精力聚焦在基于文本的大模型,最后成功開發(fā)出了ChatGPT?! ?/p>
機器人有很悠久的歷史,最初是生產(chǎn)線上機械臂的自動化,也就是在已知環(huán)境中完成一系列的動作,需要精確控制,我把它叫做零智能,是因為這個過程是不需要任何智能的。這一類的機器人雖然操作能力非常強,但是這些操作能力是為了一個固定環(huán)境預(yù)編程好的,是零智能。
進入大模型時代,也有人認(rèn)為,大模型很厲害,放到機器人上馬上就能夠?qū)崿F(xiàn),實際上不是的。現(xiàn)在處于什么情況呢?打個比喻,就是相當(dāng)于20歲大腦放在3歲的身體上,機器人雖然擁有一定的移動能力,但是操作能力非常弱。真正的具身智能要能夠自主學(xué)習(xí)和處理問題,對環(huán)境變化和不確定的時候能夠自動調(diào)整和規(guī)劃,這是我們認(rèn)為具身智能能夠通往AGI或者是打造通用智能機器人非常重要的過程。
具體看來,具身智能是有物理載體的智能體(智能機器人)在一系列的交互中,通過感知、控制和自主學(xué)習(xí)來積累知識和技能,形成智能并影響物理世界的能力。這和ChatGPT是不太一樣的,具身智能是通過類人的感知方式(視覺、聽覺、語言、觸覺)來獲取知識,并抽象成為一種表達(dá)語義來理解世界并作出行動,與世界交互。這里面涉及到多個學(xué)科的融合,包括機械工程自動化、嵌入系統(tǒng)控制優(yōu)化、認(rèn)知科學(xué)、神經(jīng)科學(xué)之類的,它是所有領(lǐng)域發(fā)展到一定程度以后能夠涌現(xiàn)出來的一種能力。
具身智能面臨著非常多的挑戰(zhàn):
首先是復(fù)雜的感知能力,包括視覺、聽覺,現(xiàn)在大模型里包括GPT-4o也只是包括了視覺和聽覺,還沒有觸覺。對具身智能來講,觸覺非常重要。機器人需要有復(fù)雜的感知能力,才能感知和理解周圍不可預(yù)測的非結(jié)構(gòu)化的環(huán)境和物體。
第二是強大的執(zhí)行能力,包括移動、抓取、操縱以便能夠與環(huán)境和物體進行交互。
第三是學(xué)習(xí)能力,能夠從經(jīng)驗和數(shù)據(jù)中學(xué)習(xí)和適應(yīng),以便更好理解和應(yīng)對環(huán)境的變化。
第四是自適應(yīng)能力,能夠自主調(diào)整自己的行為和策略,以便更好地應(yīng)對不同的環(huán)境和任務(wù)。
第五是非常重要的,并不是把這些能力疊加就已經(jīng)達(dá)到具身智能,而是要把這些能力有機、高效地協(xié)作融合才能真正地達(dá)到我們講的希望的具身智能。
第六,在這個過程中,我們需要的數(shù)據(jù)是非常稀缺的,OpenAI最初是希望直接通過機器人達(dá)到AGI,由于數(shù)據(jù)的缺乏后面放棄了,但是數(shù)據(jù)還是需要解決的,數(shù)據(jù)的稀缺性是很大的挑戰(zhàn)。在實際場景中收集數(shù)據(jù)時還需要保護用戶的隱私安全。
第七因為具身智能是要生活在人類的人居環(huán)境,要保證自身和周圍的安全。
第八是社會倫理的問題,機器人和人交互時要遵循道德和法律的規(guī)范,保護人類的利益和尊嚴(yán)。
要達(dá)到具身智能是需要很多工作要做的,目前大家認(rèn)為大模型可以解決智能機器人的問題,我這里畫了一個圖,相當(dāng)于我們要把大模型塞到機器人的頭里好像就解決了,但是這只是達(dá)到部分的智能。我們期待智能和本體要有機融合,這樣機器人和環(huán)境交互中才能涌現(xiàn)出真正的智能。
為了達(dá)到這樣的愿景,我認(rèn)為需要改變控制范式。假如你們從機器人的教科書來看,傳統(tǒng)的控制范式先是感知,感知之后是計劃,計劃之后是行動,行動之后再來感知這樣的閉環(huán)過程,這個控制范式是不可能達(dá)到智能的。2018年我就提出了一個“SLAP范式”,S是感知,L是學(xué)習(xí),A是行動,P是計劃。感知和行動需要緊密相連,才能實時應(yīng)對不斷變化的環(huán)境。它們上面是規(guī)劃,去解決復(fù)雜一點的任務(wù)。學(xué)習(xí)是滲透到各個模塊,能夠從經(jīng)驗和數(shù)據(jù)中學(xué)習(xí),并能夠自主調(diào)整自己的行為和策略。這個SLAP范式和人類的智能是有很相似的地方?! ?/p>
諾貝爾獎獲得者Daniel Kahneman有一本書叫《Thinking,F(xiàn)ast and slow》,認(rèn)為人腦是有兩個系統(tǒng)的,第一個系統(tǒng)System 1是更多偏向于直覺,快速地解決問題。第二個系統(tǒng)是一種比較深度的思考,理性的思考,叫System 2。事實上,人95%的時間都在System 1,只有很少和復(fù)雜任務(wù)時才需要調(diào)度System 2,所以為什么人腦能夠這么高效,只要幾十瓦就能解決思考的問題,連一個GPU消耗的能量都不需要,這就是因為人類能夠在95%的問題在System 1解決了,很難的任務(wù)才會到System 2。
我提出來的SLAP的范式,在底層,感知和行動之間緊密相連才能夠解決反應(yīng)式的自主,這就對應(yīng)了System 1。有意識的自主是要達(dá)到System 2理性的思維和思考、
根據(jù)SLAP范式,結(jié)合人的大腦、以及小腦如何控制肢體的知識,我們研發(fā)了一個層次化的具身智能系統(tǒng),分成了三層:最下面一層是Proprioception,就是機器人對自身的感知狀況,這個地方對應(yīng)到控制電機運動的電機信號。
第二層是Exteroception,也就是對環(huán)境的感知,通過環(huán)境的感知智能知道需要調(diào)用哪些能力完成這個任務(wù)。
最上面一層是和任務(wù)相關(guān)的叫做Strategic Level planner,針對特定任務(wù),環(huán)境和機器人本體的能力做好規(guī)劃才能把任務(wù)很好地解決。
下面就具體給大家做一些演示,最底層(Proprioception Level)的運動的控制也是從數(shù)據(jù)中進行學(xué)習(xí)的。這里讓一個真狗在跑步機上不斷地跑,同步做數(shù)據(jù)采集。通過模仿學(xué)習(xí)和強化學(xué)習(xí),讓機器人學(xué)會和真狗類似的運動。我們用了一個虛實集成世界,數(shù)字孿生、虛實統(tǒng)一。這里看到的只是狗的外表的運動方式,但到底機器人怎么動,需要多少力量,要發(fā)送的關(guān)節(jié)和電機的信號強度都是需要通過強化學(xué)習(xí)得到的。
另一段視頻,在這里沒有專門的人類控制,就是讓機器狗學(xué)會了真狗的運動方式,它學(xué)會了之后就自己跑,有點活靈活現(xiàn)的感覺。
這是最基本的能力(運動能力),下一步是要對環(huán)境感知在環(huán)境里完成這些任務(wù),剛才講了在平地上動,第二步要把環(huán)境信息加進去,我們讓它學(xué)會匍匐前進,怎樣自然上臺階,怎么跨欄和怎么飛躍障礙物組合?! ?/p>
這時機器狗在仿真世界中已經(jīng)學(xué)會了怎么跳躍、跨越障礙物。這只狗是我們自研的,叫Max,和一般的狗不太一樣的地方是在膝蓋上加了輪子,在平地上用輪子走得更快,不平的地方可以用四足,所以說是不同的模態(tài)組合。
當(dāng)我們有了對環(huán)境適應(yīng)能力之后就可以讓它做各種不同的事情,比如我們要求其中一只狗追上另外一只狗,追上之后就贏了。為了增加復(fù)雜性,假如一個旗出現(xiàn),原本逃的那只狗碰到這個旗之后就可以變成追了。大家可以看一下,這也是通過強化學(xué)習(xí)自動學(xué)會的。一只狗在追另外一只狗,當(dāng)然我們把速度限制住了讓狗跑得比較慢一點?,F(xiàn)在變成了逃的那只狗去追,那只追的狗變了之后就轉(zhuǎn)了一個彎騙了另一只狗一下。
這樣一個層次化的具身智能的好處是每個層次的知識都可以持續(xù)地更新和積累,而且層次之間能力是可以解耦了,更新其他層級不會影響其他已有層級的知識。
比如說剛才從一只狗追另一只狗的時候,在強化學(xué)習(xí)時只學(xué)會了在平地上訓(xùn)練,根本沒有加上障礙物,現(xiàn)在加了障礙物之后不需要重新學(xué)習(xí),它自動學(xué)會了,因為在底層的時候知道怎么處理障礙物。大家可以看一下視頻,這是我們根本沒有重新訓(xùn)練的,上面加了障礙物,碰到一根棍子,他就鉆過去,碰到障礙物就跳過去,這是自動(學(xué)習(xí))的。
這些工作是去年年初就完成了,近期也會在國際頂級的學(xué)術(shù)期刊Nature Machine Intelligence上發(fā)表,并且作為封面故事,說明大家認(rèn)為這樣一個工作現(xiàn)在還是領(lǐng)先的。
下面講一下我們過去一年在大模型融合方面進展,也就是將語言大模型以及多模態(tài)的感知大模型融合進我們的層次化具身智能系統(tǒng)。比如人給機器人派了一個煎蛋任務(wù),基于LLM的規(guī)劃大模型將煎蛋這個任務(wù)分解一下,就是要先把蛋從冰箱里拿出來,把蛋打在鍋里面,然后要煎蛋。從多模態(tài)感知中,首先要知道這個蛋是放在冰箱里,需要調(diào)用下面的中層技能,機器人要先去冰箱把蛋拿出來,把冰箱門打開,抓握雞蛋回到灶臺。最下面就是底層控制的,控制機器人怎么到冰箱哪里,怎么打開冰箱門,等等,一旦學(xué)會都是自動完成的。最后是回到最頂層的Strategic Level Planner。注意在這個閉環(huán)里,機器人的行動作用于一個數(shù)字世界和物理世界緊密結(jié)合的虛實集成世界,在數(shù)字仿真空間里有機器人、也有看起來非常真實的場景,這樣機器人的技能在虛擬空間學(xué)會之后可以直接應(yīng)用到真實的空間里。
這里看一個視頻。我們把一個智能機器人放在一個從來沒見過的環(huán)境里面,第一步機器人要轉(zhuǎn)一圈探索這個世界。比如視頻里,機器人的任務(wù)是要把垃圾送到垃圾桶里,那么它首先要找到垃圾桶,找到垃圾桶之后就放過去了。同樣把垃圾桶換一個地方,假設(shè)他不知道這個環(huán)境,通過探索發(fā)現(xiàn)了垃圾桶之后就把垃圾送過去了。
下面這個場景是要把鼠標(biāo)送給藍(lán)衣服和牛仔褲的人,這里面有很多其他人,他一定要找到穿藍(lán)色衣服和牛仔褲的,他就自動去探索和找。這中間碰到的很多人不是藍(lán)衣服不是牛仔褲,一直到機器人看到藍(lán)衣服和牛仔褲,就把鼠標(biāo)送到了。
在探索過程中,機器人能把周圍的環(huán)境情況都記住了,不需要每次都重新探索。下面這個場景先是把藥送給一個同事,這個感冒藥的袋子再讓機器人扔掉,它在探索建模時已經(jīng)知道垃圾桶在什么地方,就直接去垃圾桶那邊了。還可以利用空間的關(guān)系,比如說凳子在哪里、白板在哪里,要把一個東西送到白板和高凳子之間的一個人那里,中間有障礙物能夠自動避開。
去年我們還做了一個調(diào)酒的機器人,那時候是用了一個自研的三指手,底盤是固定的,大家可以看一下。
這個花式調(diào)酒也是先采集了一個真人做調(diào)酒,把他的軌跡學(xué)會了,再到機器人身上實現(xiàn)。手指上也有觸覺傳感器,現(xiàn)在要把棍子插到孔里面,光靠視覺的能力是不夠的,精度不夠,所以它要靠觸覺的感知到底有沒有插進去,如果沒有插進去的話要往邊上移一下,最后實現(xiàn)把棍子插進去。
這是去年的工作,今年的工作有自研的五指手,機械臂也是我們自研的,去年沒有自研的機械臂,現(xiàn)在也有移動底盤,加上感知大模型和規(guī)劃大模型,能夠?qū)崿F(xiàn)操作機器人能夠自由對話和完成任務(wù)。
右下角是從移動智能機器人看到的東西,在桌子上發(fā)現(xiàn)有一瓶whisky的酒,讓它倒一杯whisky的酒,這是從機器人的視野里看到的,而且能夠?qū)崟r識別到各種各樣的東西。
現(xiàn)在就分享到這里。謝謝大家。