趙仲夏: 太棒了,之前有聽(tīng)我的老師講,傳統(tǒng)的大源模型是讀萬(wàn)卷書(shū),那 world model 或者說(shuō)具身有點(diǎn)像是行萬(wàn)里路。這樣的話(huà)最終會(huì)發(fā)生一些概念,完成一些對(duì)現(xiàn)實(shí)上的一個(gè)對(duì)齊,一旦對(duì)齊之后將會(huì)誕生一個(gè)更棒的超級(jí)智能。
說(shuō)完 world model,我們想聊一下強(qiáng)化學(xué)習(xí)。奚老師覺(jué)得強(qiáng)化學(xué)習(xí)在這次具身智能中扮演一個(gè)什么樣的角色?您覺(jué)得強(qiáng)化學(xué)習(xí)要如何使用?
奚偉:我是這么想的,大語(yǔ)言模型是一個(gè)概率模型,它生成內(nèi)容,但是并不保證它的準(zhǔn)確性。強(qiáng)化學(xué)習(xí)是一個(gè)優(yōu)化模型,它去把結(jié)果根據(jù)你的需求進(jìn)行優(yōu)化,比如跳舞,在訓(xùn)練過(guò)程中都要根據(jù)你的目標(biāo)來(lái)進(jìn)行優(yōu)化,所以強(qiáng)化學(xué)習(xí)是一個(gè)必要的工具?;旧犀F(xiàn)在所有的應(yīng)用都會(huì)用到強(qiáng)化學(xué)習(xí),但它不是要取代大語(yǔ)言模型,這是相輔相成的,它是大語(yǔ)言模型的一個(gè) building block。我認(rèn)為,強(qiáng)化學(xué)習(xí)是必需的。
比如 DeepSeek R1 那篇文章發(fā)出來(lái)之后,大家就看到如果你有比較大的base model ,在上面加上 RL 之后,那它其實(shí)就能夠帶來(lái)很強(qiáng)的智能的泛化性,這個(gè)理解也很簡(jiǎn)單,就像普通一個(gè)班級(jí),同學(xué)們都做了很不錯(cuò)的習(xí)題練習(xí)之后,里邊有一些極度聰明的同學(xué),你給他一個(gè) reward 獎(jiǎng)勵(lì),給他一道更難的題這樣一個(gè)目標(biāo)函數(shù),然后他就能在這里邊去形成自己新的解題思路。
所以我們認(rèn)為在機(jī)器人領(lǐng)域也是一樣的,只不過(guò)可能今天在機(jī)器人領(lǐng)域,或者在具身智能領(lǐng)域,現(xiàn)在還沒(méi)有很好的 base model,所以大家普遍在于數(shù)據(jù)采集,然后去建立 base model 的狀態(tài)。所以RL重要嗎?我覺(jué)得未來(lái)RL非常非常重要。
只不過(guò)locomotion這種運(yùn)動(dòng)學(xué)更容易實(shí)現(xiàn),它不需要非常高精度的控制,所以我們今天看到 RL+locomotion其實(shí)在場(chǎng)景中更容易實(shí)現(xiàn)。可能下一步具身智能要解決問(wèn)題就是RL+manipulation操作層面上。但操作是一個(gè)更復(fù)雜任務(wù),你需要去定義這個(gè)任務(wù)到底是什么,它具備一定的復(fù)雜性,以及你要解決有一個(gè)能夠在數(shù)字世界里邊去建立的仿真環(huán)境,因?yàn)镽L本身是需要有真實(shí)數(shù)據(jù)在仿真環(huán)境下跑最終得到一個(gè)有效的模型,然后再把模型返回到真機(jī)的場(chǎng)景下去實(shí)現(xiàn)結(jié)果的這樣一個(gè)過(guò)程。這可能是今天我們要面臨的一個(gè)挑戰(zhàn),也是今天所有的具身智能的公司大家在去解決的問(wèn)題。大家可能普遍去構(gòu)建仿真環(huán)境,去采集真機(jī)數(shù)據(jù),構(gòu)建仿真數(shù)據(jù),然后仿真數(shù)據(jù)去Train一個(gè)還不錯(cuò)的 base model,把真實(shí)數(shù)據(jù)去放進(jìn)來(lái),然后定一個(gè)有效的任務(wù)目標(biāo)函數(shù),再讓它能夠在真實(shí)環(huán)境里面去解決。
趙仲夏: 您說(shuō)這個(gè)讓我想到了一個(gè)好玩的概念叫 BA base model,有點(diǎn)像是人的頓悟,因?yàn)槲覀冎v智能涌現(xiàn)是頓悟時(shí)刻,然后 RL 有點(diǎn)像佛祖的點(diǎn)化,但是佛祖只能點(diǎn)化一個(gè)有慧根的模型。所以我們現(xiàn)在相當(dāng)于行業(yè)或者研究一直在做數(shù)據(jù)采集,也是為了先訓(xùn)一個(gè)聰明的有慧根的 base model,然后等待 RL 點(diǎn)化,我覺(jué)得這個(gè)很有意思。
奚偉:具身智能和通用人工智能具有相關(guān)性,但完全是兩個(gè)不同的東西。具身智能一定是要和物理世界發(fā)生關(guān)系的,要通過(guò)傳感器去對(duì)物理世界進(jìn)行建模,再去通過(guò)決策操縱你的機(jī)構(gòu),然后發(fā)生關(guān)系。但通用人工智能是對(duì)我們所有的知識(shí)規(guī)則的一個(gè)一個(gè)總結(jié),它能形成一個(gè)有效的一個(gè)個(gè)推理,更多的是在一個(gè)抽象層面的能力,它并不一定需要一個(gè)具身載體,所以我認(rèn)為通用人工智能是對(duì)具身智能能力的一個(gè)巨大的提升,它應(yīng)該是一個(gè) building block,人工智能可以去賦能的一個(gè)技術(shù),它可以賦能不同的,包括機(jī)器人。美的也在提家電機(jī)器人化,也是把要把家電作為人工智能載體,結(jié)合在家電里邊放的一些傳感器,可以變成具身智能家電這樣的一個(gè)新物種。
陳勉諾: 我們投了幾家目前比較活躍的幾家公司,一個(gè)是剛剛有提到的 Daya Robotics,第二個(gè)是方舟無(wú)限,做機(jī)械臂的,還有做靈巧手和電機(jī)的舞肌科技,以及之前投的像非夕機(jī)器人, 優(yōu)艾智和都在往具身智能這個(gè)方向形態(tài)去轉(zhuǎn)變。