-
觀察者網(wǎng)WAIC直播實(shí)錄:AI大潮下的具身和人形,中國(guó)在跟跑還是并跑?
最后更新: 2025-08-03 23:55:24趙仲夏: 了解。好的,我們剛剛聊了很多跟人形機(jī)器人有關(guān)的爭(zhēng)議話題,要不來轉(zhuǎn)到另一個(gè)好玩的話題,就是人工智能和具身智能,想聽聽大家對(duì)具身智能這個(gè)概念的定義和看法,是不是像宇數(shù)那樣翻跟頭、跳舞就應(yīng)該算是具身智能?還是說具身智能有另外一些更廣更大的概念?奚老師,要不您先聊一聊。
奚偉: 好的,具身智能我接觸比較早, 2016 年在 Berkeley 訪問 Peter 的時(shí)候,他就提出具身智能的概念,當(dāng)時(shí)他們主要提出的是傳統(tǒng)的我們做機(jī)器人控制分三部分,一部分是perception,一部分是planning,還有一部分control。所有東西要通過代碼來去實(shí)現(xiàn),先做物體的識(shí)別定位,再做規(guī)劃,最后再做執(zhí)行。其實(shí)是,能不能把這個(gè)東西壓縮起來,直接從圖像到動(dòng)作一步完成。他提出這個(gè)東西,叫具身智能,因?yàn)楫?dāng)時(shí)我們對(duì)這個(gè)概念還是相對(duì)比較陌生,在 2016 年的時(shí)候就做機(jī)器人來講,一肯定要做這些,把它分解開,就是 divide and conquer,但是我覺得從現(xiàn)在發(fā)展來看,就像宇數(shù)做的強(qiáng)化學(xué)習(xí),可以認(rèn)為是一種具身智能,它的輸入傳感器是通過力傳感器,通過電流,也是通過傳感器形成最后的一個(gè)具身動(dòng)作,但它這動(dòng)作是通過仿真來實(shí)現(xiàn)的。
我們更多更廣義上的一些具身智能,是能夠從現(xiàn)實(shí)的環(huán)境中通過視覺,通過多模態(tài)的傳感器獲取到的經(jīng)驗(yàn),能夠?qū)崿F(xiàn)更高意義上的這個(gè)決策和推理,最后能夠達(dá)到通用的操作的能力。所以從這個(gè)角度來講,我覺得目前的技能學(xué)習(xí),或者說像宇數(shù)這種跳舞動(dòng)作是屬于相對(duì)初級(jí)的階段,它的目標(biāo)比較明確,但通用的具身智能,它的目標(biāo)是比較復(fù)雜的,這個(gè)能力的具身智能還在一個(gè)需要發(fā)展的階段。
趙仲夏: OK,了解,感謝奚老師對(duì)具身智能概念的分享,讓我想到了之前有一個(gè)概念叫做視覺私服。從控制學(xué)角度去討論的話,有點(diǎn)回到了當(dāng)時(shí)大家講通過視覺去牽引一個(gè)任務(wù)完成,然后來適應(yīng)一些不同的泛化。
馮老師,您這邊從人工智能,然后 AGI 到大模型這個(gè)角度,研究得會(huì)比較深刻一些,您是如何看待具身智能這個(gè)概念的?能不能幫我們從人工智能角度聊一聊。
馮子勇:因?yàn)槲覀冊(cè)瓉碜鲆曈X,沒有機(jī)器人就相當(dāng)于我只有感知,到最后我的決策就是一個(gè),譬如原來是輸出一些 label 框或什么東西,現(xiàn)在可以輸出語(yǔ)言,但是最終執(zhí)行還是給到人,就是我只能說相當(dāng)于他輔助出了一些信息,然后人再去做操作。整個(gè)閉環(huán)是沒辦法進(jìn)行的。在我看來,具身智能是希望這個(gè)閉環(huán)能在整個(gè)模型,或者說整個(gè)智能模型里面自己去產(chǎn)生閉環(huán),我的這個(gè)傳感器進(jìn)來,我自己產(chǎn)生判斷,具體產(chǎn)生的action,最后 action 改變的世界又重新回來了,這個(gè)閉環(huán)是完全的。
我認(rèn)為這就是具身智能非常重要的一個(gè)概念,需要把整個(gè)東西閉環(huán),并且是跟物理世界去交互,隨之就是我們可以在物理世界中隨著這種閉環(huán),不停地去提升我的智能能力,而不是靠采集數(shù)據(jù)標(biāo)注員,智能來自于標(biāo)注員,而不是來自于這個(gè)智能體本身。
趙仲夏: 多少人工就有多少智能。
馮子勇:對(duì),這個(gè)其實(shí)不太符合大家對(duì)智能的需求,所以我覺得具身智能在這個(gè)層面上應(yīng)該是,它會(huì)自主計(jì)劃,隨著他跟物理世界的接觸不停地去學(xué)習(xí),這樣的一個(gè)概念。
趙仲夏:了解。說到這個(gè),我有些概念想請(qǐng)教一下馮老師,我們常聽的LLM、VLM、 VLA 這些都是什么樣的概念?能不能稍微給我們解釋一下?
馮子勇:LLM 大家可能也比較熟悉了,這個(gè)現(xiàn)場(chǎng)大家都看到很多大語(yǔ)言模型,當(dāng)然在我看來,它雖然叫做大語(yǔ)言模型,但不只是語(yǔ)言模型,其實(shí)是邏輯模型,因?yàn)檎Z(yǔ)言是有邏輯的,我不會(huì)隨便說一些奇奇怪怪的話,所以你也可以認(rèn)為它是大邏輯模型。
很多時(shí)候現(xiàn)在只有語(yǔ)言的輸入,但接上了vision,就像我剛才講了我們也在做 vision 相關(guān)的工作,我們?cè)诖蟾?021 年就開始去摸索大視覺模型,當(dāng)時(shí)不叫大視覺模型,因?yàn)楫?dāng)時(shí)沒有這個(gè)概念,叫視覺基礎(chǔ)或者預(yù)訓(xùn)練模型。
這就是我們現(xiàn)在做的,我們把它叫做MVT,已經(jīng)到了 1.5 這個(gè)階段,它能夠把視覺傳感器進(jìn)來的圖像變化成視覺的token,這個(gè) token 就能進(jìn)到這個(gè)語(yǔ)言模型里面去。使得這個(gè)語(yǔ)言模型能夠作為一種視覺外語(yǔ)去理解它,這個(gè)邏輯至少在視覺跟語(yǔ)言上,或者視覺跟邏輯上融合在一起了,這就是大家能看到的 VLM 。
隨著機(jī)器人的發(fā)展,我不只想出一個(gè)文本,不想只出一句話,我還要有動(dòng)作,我還要有操作,我還要改變世界,那么就是 action 也出來了。
可能我們看到有很多技術(shù)路線,從一個(gè) hidden state,一個(gè)隱空間,就剛才說的某一坨邏輯,然后 decode 出來怎么去操作,這里面有很多專門的技術(shù),譬如說DP,把這樣的一些技術(shù)操作去做,在我看來可能導(dǎo)航也是一種操作,再把這三者有機(jī)地聯(lián)系在一起,那么它就變成了一個(gè)VLA。
趙仲夏: OK,太棒了。感覺好像跟我們講了一下大模型下發(fā)展的一個(gè)歷史。Mario 你是如何看待具身智能這個(gè)概念的?這個(gè)概念真的非常火,但是好像大家對(duì)它的定義也沒有完全特別清晰。
陳勉諾:我自己原來就是做機(jī)器人,在我的認(rèn)知里邊,它其實(shí)只是說把機(jī)器人做了延伸,因?yàn)榇竽P统鰜碇?,智能有了進(jìn)一步的提升,所以原來可能大家對(duì)機(jī)器人還是局限在傳統(tǒng)的控制學(xué)范疇,然后今天終于加上了 AI 范疇。所以提出一個(gè)新的概念,讓大家可以有更多的研究話題。
第二點(diǎn)是,對(duì)于具身智能概念的理解,主要因?yàn)樗?EmbodiedAI,其實(shí)是在于本身具備物理實(shí)體、然后能與環(huán)境做有效的交互,這可能區(qū)別于LLM范疇或者VLM范疇更偏數(shù)字世界,EmbodiedAI一定要有跟物理世界進(jìn)行交互,以及一個(gè)物理的實(shí)體。
從概念上去理解的話,廣義上不單單只局限于在機(jī)器人領(lǐng)域,只不過機(jī)器人是大家最fancy也是最容易想到的一個(gè)主要形態(tài),這也是大家普遍提到具身智能就理解成機(jī)器人的原因。我的理解在廣義上來說,它只要跟物理世界進(jìn)行交互,然后有具備一定的物理實(shí)體,可能具備一些這個(gè)物理感知,其實(shí)都可以被稱之為 EmbodiedAI具身智能。但在整個(gè)與物理世界交互的形態(tài)里面,最重要的還是機(jī)器人的形態(tài),因?yàn)闄C(jī)器人形態(tài)才能夠跟物理進(jìn)行有效的交互。有效交互指的是一定要跟物理世界有接觸,發(fā)生物理反應(yīng)才能夠叫有效交互。所以我們認(rèn)為 EmbodiedAI這個(gè)概念是機(jī)器人概念的一個(gè)延伸,但不限于機(jī)器人概念。
趙仲夏: 對(duì),我感覺每次聽勉諾講話都有點(diǎn)頓悟的感覺。馮老師,我們這邊關(guān)注到,最近有一個(gè)新的概念叫 world model世界模型,大家認(rèn)為也會(huì)在具身智能方向上產(chǎn)生一些比較好的潛力。您是怎么看這件事情的?我聽說您最近在做一些視頻模型,我們?cè)趺蠢斫庖曨l模型和 world model 呢?它們對(duì)具身智能是否有幫助?
馮子勇:OK,首先世界模型我認(rèn)為它是希望有一些視覺輸入之后,預(yù)測(cè)這個(gè)世界是怎么發(fā)展的,相當(dāng)于自己內(nèi)部會(huì)有一個(gè)預(yù)測(cè)模型,但這個(gè)模型有一些是顯示的,要生成下一幀或者下面一段時(shí)間的圖片或視頻。也有些就覺得,不需要顯示,拿到隱藏空間或者表達(dá)就 OK ,并不一定到 Pixel 像素層面去還原它。從我的角度更偏向于后者一點(diǎn),只要大概知道接下來是怎么做的就 OK 了。
世界模型可以幫助我們?nèi)ヌ嵘齎LA,因?yàn)楝F(xiàn)在大家說的 VLA 可能更狹義一點(diǎn),就是直接到操作,但是那具體怎么到操作可能中間會(huì)有,但都是直接做。
當(dāng)然你可以用COT,就說我做一些thinking,reasoning 這樣的序列來到達(dá)那個(gè)操作,但最后壓縮起來,還是應(yīng)該在這個(gè)模型的 latent 的 space 里面,是有一些預(yù)測(cè)的,但這個(gè)預(yù)測(cè)究竟是什么東西,我覺得學(xué)術(shù)界也在探討。
但我覺得世界模型還很重要,它不一定是顯示的表達(dá)出來,視頻模型是這樣的,就是我們自己,因?yàn)閯偛乓舱f了,我們很多研究都是基于圖像,但不只基于圖像,而是原來基于視頻的技術(shù)發(fā)展有點(diǎn)落后。圖像一是因?yàn)閿?shù)據(jù)多,另外容易訓(xùn),但視頻不太好去搜集標(biāo)注,從這個(gè)層面上訓(xùn)練的復(fù)雜度跟對(duì)算力的需求也非常大。
我們現(xiàn)在去看這個(gè)視頻是因?yàn)?,我們知道不管是真正地去分析這個(gè)世界,還是機(jī)器人,它對(duì)于這個(gè)連續(xù)動(dòng)作還是非常有需求的,而不是我就看一張一張的圖,當(dāng)然現(xiàn)在很多 VLM 也好, VLA 都是我先把這個(gè)視頻流切成一張一張的圖,然后送到這個(gè)模型里面,這個(gè)相當(dāng)于我可以讓這個(gè)大語(yǔ)言模型它自己去串這個(gè)邏輯。
在我們自己做視覺的這個(gè)角度來看,很多視頻流在前端就已經(jīng)有一點(diǎn)被壓縮掉了,特別是我們?cè)谝曈X領(lǐng)域上,它是冗余的,特別是我們大部分視覺元素是不變的,視頻是可以做得更高效、更緊致,而且去表達(dá)我們真正關(guān)注的東西,像人的 forbia 一樣,他只關(guān)注到動(dòng)的東西,我們做機(jī)器人很多時(shí)候關(guān)注的也是這個(gè)狀態(tài),世界狀態(tài)變化,別的可能不太關(guān)注。我覺得在這里面視頻的模型應(yīng)該是有可以做的空間,而且最后它肯定是也能服務(wù)到機(jī)器人上。因?yàn)槲覀兪且粋€(gè)動(dòng)態(tài)的場(chǎng)景,它不是靜態(tài)的。如果我們視頻能做得更好,那我相信機(jī)器人對(duì)場(chǎng)景的理解,對(duì)最終自己動(dòng)作的判斷也能做得更好。
趙仲夏: 了解。奚老師,您從應(yīng)用端角度來看的話,會(huì)去關(guān)注 world model 或者是視頻模態(tài)的進(jìn)展嗎?您覺得它對(duì)您這邊實(shí)際的人形機(jī)器人或者是區(qū)分智能落地會(huì)有很大幫助嗎?
奚偉: 我覺得這是對(duì)于復(fù)雜場(chǎng)景肯定是有幫助的。像勉諾剛才講的,對(duì)于通用的人形機(jī)器人,是要進(jìn)和世界進(jìn)行反復(fù)交互的,我們也在探索,比如在家庭場(chǎng)景四大件就是最典型的應(yīng)用,收納、清潔、洗衣、做飯,這四件事情看似簡(jiǎn)單,但非常復(fù)雜,比我們剛才說的在工業(yè)場(chǎng)景應(yīng)用復(fù)雜得多。因?yàn)楣I(yè)場(chǎng)景已經(jīng)高度細(xì)分了,它每一個(gè)內(nèi)容是一個(gè)一個(gè)動(dòng)作,只要把它做得精準(zhǔn)就可以了,它就有產(chǎn)業(yè)價(jià)值。但是我們希望這些機(jī)器人真正像人一樣能夠在家庭里邊給我們應(yīng)用。
所以我覺得 world model 就是物理世界模型,它是建立物理之間相對(duì)關(guān)系一個(gè)更好的表述,因?yàn)槲覀兪侨狈Ρ磉_(dá)的,因?yàn)槿狈Ρ磉_(dá)才沒有推理的手段,才沒有范式。所以我覺得進(jìn)入到家庭來講, world model 是一個(gè)比較重要的基礎(chǔ)。
趙仲夏: 謝謝。勉諾,你最近有在看 world model 一些相關(guān)的公司嗎?你如果看 world model 的。
陳勉諾:我們也一直在關(guān)注學(xué)術(shù)前沿進(jìn)展。 world model 到具身智能之間的衍生其實(shí)是在一些主流具身智能學(xué)派里面的一個(gè)分支路線。我們有交流過一些學(xué)者在順著 world model 方式來去做 Robotics 領(lǐng)域,我們也認(rèn)為這條路線是非常行之有效的。我有跟 MIT 和 Physical Intelligence 等里面同學(xué)去交流,這條路線是可以行得通的,因?yàn)?worldmodel本質(zhì)上是對(duì)物理世界的數(shù)字重建,如果可以將物理世界進(jìn)行重建得非常完善的情況下,它就能夠很有效地將機(jī)器人也能在數(shù)字世界重建,就能夠有效地 train 機(jī)器人的model。但這里邊有一個(gè)很大的問題,因?yàn)?world model 需要將物理世界重建,所以需要采集大量的數(shù)據(jù),它的成本會(huì)變得非常高,要把物理世界完全數(shù)字實(shí)現(xiàn)難度是非常高的。在這條路線上
如果問 world model 對(duì)具身智能發(fā)展是不是有幫助?絕對(duì)是有幫助的,但能不能構(gòu)建完全行之有效的 world model 這個(gè)事情,成本是非常非常昂貴的,而且很難去完全實(shí)現(xiàn)。所以在我的認(rèn)知里面,一直也在關(guān)注 world model 實(shí)際進(jìn)展。但從 world model 到具身的實(shí)際使用過程,我覺得是一個(gè)非常長(zhǎng)期的過程,而且可能world model 本身構(gòu)建的過程也非常困難,我們當(dāng)然希望有一天能夠把 world model 重建出來,那這樣的話我們就能在數(shù)字世界映射一個(gè)真實(shí)的物理世界,那這個(gè)時(shí)候很多物理世界的客觀物理規(guī)律甚至可能新的科研發(fā)現(xiàn)都能在這個(gè)數(shù)字世界進(jìn)行重建。就不單單只是機(jī)器人領(lǐng)域了,整個(gè)科研領(lǐng)域,整個(gè)人類的進(jìn)步都能夠得到更快的一個(gè)進(jìn)展。
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 張志峰 
-
鴻蒙世界,正上演“寒武紀(jì)大爆發(fā)”
2025-08-03 14:45 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
大疆、影石相互“偷家”!天空與全景的邊界瓦解
2025-08-03 13:43 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
華夏人壽被吊銷業(yè)務(wù)許可證,原董事長(zhǎng)、董秘被終身禁業(yè)
2025-08-02 19:42 -
李寧還能回到過去嗎?
2025-08-02 10:27 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
AI+中國(guó),能否帶來東方文藝的復(fù)興?
2025-08-02 10:06 2025世界人工智能大會(huì) -
-
-
東鵬半年報(bào):凈利增加37.22%,半年?duì)I收首次破百億
2025-08-01 23:19 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
香港法院要求宗馥莉保全18億美元信托,三子女證據(jù)曝光
2025-08-01 20:58 -
-
-
尊湃竊取華為芯片技術(shù)案宣判:14人被判刑,總罰金超千萬(wàn)
2025-08-01 19:27 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
香港高等法院:宗馥莉暫不得提取匯豐賬戶資產(chǎn)
2025-08-01 19:25 -
谷歌回應(yīng)恢復(fù)中國(guó)大陸服務(wù)傳聞:截圖不是來自Google
2025-08-01 19:10 -
計(jì)劃以29.32億港元進(jìn)行私有化,大悅城地產(chǎn)或?qū)⑼耸?/a>
2025-08-01 16:43 -
66折,李嘉誠(chéng)家族一項(xiàng)目大降價(jià)
2025-08-01 15:01 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
-
夢(mèng)百合、左右家居跨界開酒店,醉翁之意還是“賣貨”?
2025-08-01 12:05 -
相關(guān)推薦 -
習(xí)近平:中方在TikTok問題上的立場(chǎng)是清楚的 評(píng)論 7美媒挑事:巴基斯坦與中國(guó)很鐵,你細(xì)品… 評(píng)論 35“訓(xùn)練成本才這么點(diǎn)?美國(guó)同行陷入自我懷疑” 評(píng)論 108中美高層本月頻繁互動(dòng),什么信號(hào)? 評(píng)論 80“為跟中方談,特朗普拒批4億美元對(duì)臺(tái)軍援” 評(píng)論 121最新聞 Hot
-
美媒挑事:巴基斯坦與中國(guó)很鐵,你細(xì)品…
-
“中方最嚴(yán)厲的公開回應(yīng)”
-
“挑戰(zhàn)中國(guó)主導(dǎo),美國(guó)把手伸向贊比亞”
-
“訓(xùn)練成本才這么點(diǎn)?美國(guó)同行陷入自我懷疑”
-
普京罕見透露前線俄軍人數(shù)
-
加拿大饞哭了:中國(guó)又從澳方買了,一買就是9船…
-
以防長(zhǎng)威脅:胡塞,你的死期到了
-
主謀已落網(wǎng)
-
簽了!“中國(guó)發(fā)動(dòng)機(jī)替代德國(guó)產(chǎn)品”
-
“對(duì)農(nóng)民來說,無(wú)異于千刀萬(wàn)剮!好好和中國(guó)談吧”
-
印媒越吹越離譜:陣風(fēng)領(lǐng)先殲-35A...
-
白宮AI顧問急了:這正中華為下懷,居心何在?
-
“為跟中方談,特朗普拒批4億美元對(duì)臺(tái)軍援”
-
針對(duì)個(gè)別“反華”集會(huì),韓總理緊急指令
-
日本空自一架搜救機(jī)降落時(shí)沖出跑道,暫無(wú)人員傷亡
-
獨(dú)山縣委書記李景寬任上被查
-