【本期嘉賓】
王 鶴 北京銀河通用機(jī)器人有限公司創(chuàng)始人兼首席技術(shù)官
王 潛 自變量機(jī)器人公司創(chuàng)始人兼首席執(zhí)行官
趙維晨 加速進(jìn)化(北京)機(jī)器人科技有限公司副總裁
【主持人】
張漫子 王若辰

裝配夾爪的“量子2號(hào)”機(jī)器人,在2025世界機(jī)器人大會(huì)展臺(tái)演示使用清潔工具進(jìn)行360度無(wú)死角全方位清潔。受訪者供圖
今年的人形機(jī)器人賽道,上演著一場(chǎng)“冰與火之歌”。
一邊是“上得廳堂互動(dòng)答疑,下得廠房干活出力”的火熱場(chǎng)景,機(jī)器人進(jìn)廠打工、酒店送餐、賽場(chǎng)踢球,前所未有地游走于日常生活之中,展示著接近人類的肢體能力;另一邊,則是“融資超過(guò)百億,訂單卻不過(guò)百臺(tái)”的冰冷現(xiàn)實(shí),一些實(shí)驗(yàn)室的捷報(bào)與商業(yè)訂單之間,橫亙著一條等待跨越的鴻溝。
今年以來(lái),投資機(jī)構(gòu)從觀望到競(jìng)逐,從質(zhì)疑撤退到擠破頭也要上牌桌;行業(yè)格局從“人形機(jī)器人第一股”一枝獨(dú)苗,演化到超20家機(jī)器人產(chǎn)業(yè)鏈企業(yè)走向IPO……這些變化與機(jī)器人的進(jìn)化,一同寫就“人形機(jī)器人量產(chǎn)元年”的真實(shí)注腳。
具身智能也來(lái)到了十字路口:是擠進(jìn)技術(shù)的窄門,還是擊穿一個(gè)場(chǎng)景?是做一個(gè)定義未來(lái)的遠(yuǎn)見者,還是做第一個(gè)活下來(lái)的盈利者?
每個(gè)答案,都是創(chuàng)新者的求索與選擇。每一重門,是關(guān)卡,也是階梯,跨越之后,終將成為機(jī)器人的“成人禮”。

北京銀河通用機(jī)器人有限公司創(chuàng)始人兼首席技術(shù)官王鶴。受訪者供圖
數(shù)據(jù):99%+1%,能實(shí)現(xiàn)“從0到10000”
銀河通用王鶴:讓機(jī)器人甩掉遙控器,“睜開眼”干活
8月,全球首個(gè)城市級(jí)常態(tài)化運(yùn)營(yíng)的人形機(jī)器人示范區(qū)落地北京。來(lái)自北京銀河通用機(jī)器人有限公司的“銀河太空艙”——由機(jī)器人經(jīng)營(yíng)的無(wú)人超市開張,具身智能真正走進(jìn)大眾日常生活。作為專注于研發(fā)人形機(jī)器人硬件和具身智能大模型的機(jī)器人企業(yè),銀河通用率先實(shí)現(xiàn)機(jī)器人在工業(yè)、零售等場(chǎng)景批量化落地,其自研機(jī)器人Galbot在機(jī)器人格斗賽等賽事上也斬獲佳績(jī)。
每次有機(jī)器人火上熱搜,評(píng)論區(qū)都有不少人強(qiáng)調(diào)一個(gè)現(xiàn)實(shí):目前,絕大多數(shù)機(jī)器人離開人工和遙控,還是會(huì)“原形畢露”。
而銀河通用的機(jī)器人Galbot卻有所不同:它不僅無(wú)需“遙控”,還能自主干活。
眼下,具身智能的最大困境,既非硬件,也非模型,而在于數(shù)據(jù)。不論是讓機(jī)器人從動(dòng)作智能轉(zhuǎn)向認(rèn)知智能,還是提升機(jī)器人的泛化性、魯棒性(指系統(tǒng)、算法或模型面對(duì)外部干擾、輸入異;騼(nèi)部參數(shù)變化時(shí)維持穩(wěn)定運(yùn)行并輸出預(yù)期結(jié)果的能力),關(guān)鍵在于數(shù)據(jù)的豐富性和準(zhǔn)確性。
而一個(gè)讓難度再進(jìn)階的考驗(yàn)是,想要真正實(shí)現(xiàn)商業(yè)閉環(huán),還要權(quán)衡數(shù)據(jù)獲取的質(zhì)量、成本與效率。

這是2025世界機(jī)器人大會(huì)上展示的一款拳擊機(jī)器人(8月8日攝)。新華社記者 謝晗 攝
記者:機(jī)器人發(fā)展的優(yōu)先級(jí),應(yīng)側(cè)重于能力的展示,還是產(chǎn)業(yè)的切實(shí)賦能?在發(fā)展方向上,業(yè)內(nèi)分歧多還是共識(shí)多?
王鶴:今年以來(lái),機(jī)器人企業(yè)在兩種能力的選擇上逐步有了區(qū)分度。一類以宇樹科技為代表,其機(jī)器人擅長(zhǎng)運(yùn)動(dòng)、舞蹈、拳擊,特點(diǎn)是以腿足乃至全身控制為主,能展現(xiàn)出精彩的運(yùn)動(dòng)能力。還有一類是以銀河通用為代表的“干活派”,依靠視覺反饋閉環(huán),展現(xiàn)出在實(shí)際場(chǎng)景中干活的能力!案苫钆伞崩铮笾逻可分為視覺算法+軌跡生成,與端到端VLA(即視覺-運(yùn)動(dòng)-動(dòng)作一體化生成)兩種技術(shù)路徑。
其實(shí),不少人形機(jī)器人跳舞、跑步,并沒有用到視覺傳感器。今年4月在北京舉行的全球首個(gè)機(jī)器人半程馬拉松上,不少觀眾注意到部分機(jī)器人“運(yùn)動(dòng)員”的不遠(yuǎn)處,有人用遙控器遙控機(jī)器人跑步、轉(zhuǎn)彎或加速,實(shí)際上機(jī)器人是“閉著眼”跑的。這樣的技術(shù)現(xiàn)狀跟機(jī)器人“生產(chǎn)力時(shí)代”還不是一回事,畢竟,沒有活是閉著眼睛干的。
今年,具身智能的場(chǎng)景落地在加快。以工業(yè)場(chǎng)景為例,銀河通用的機(jī)器人已實(shí)現(xiàn)流水線搬運(yùn)、分揀等環(huán)節(jié)的規(guī)模化應(yīng)用。零售場(chǎng)景中,銀河通用在北京海淀已成功落地10多家配備人形機(jī)器人的智慧藥房,并計(jì)劃年內(nèi)在全國(guó)開設(shè)100家。此外,銀河通用的機(jī)器人已開始售賣零食、咖啡等商品。
記者:機(jī)器人完成酷炫的、令人眼前一亮的動(dòng)作,許多情況下還是預(yù)編排的動(dòng)作序列、人工遙控與視頻剪輯共同作用的結(jié)果。為什么會(huì)出現(xiàn)“demo(演示視頻)先行、落地乏力”?
王鶴:秀一段5分鐘的demo,對(duì)機(jī)器人的可靠性、穩(wěn)定性要求并不高,不能證明它是能24小時(shí)工作的高可靠性產(chǎn)品。
demo與產(chǎn)品的差距主要來(lái)自兩方面。一是泛化性不足,視頻片段展示的多為精心布置的受控環(huán)境,如果換個(gè)物體、環(huán)境甚至是光線,機(jī)器人就難以工作了,這顯然還不是成熟的產(chǎn)品。二是硬件不可靠,如果機(jī)器人用上一會(huì)兒就需要人來(lái)維修,也顯然還不能大規(guī)模投入使用。機(jī)器人的核心功能是替人去勞動(dòng),而不是成為花瓶一樣的擺設(shè)。
記者:要想“拿掉機(jī)器人的遙控器”,核心在于什么?
王鶴:在于能夠自主執(zhí)行的模型“大腦”,且能實(shí)現(xiàn)跨場(chǎng)景泛化。今年初,銀河通用以10億級(jí)合成大數(shù)據(jù),端到端訓(xùn)練了一個(gè)VLA大模型,以視覺作為輸入,模型實(shí)時(shí)輸出當(dāng)前機(jī)器人末端執(zhí)行器應(yīng)當(dāng)如何移動(dòng),是一個(gè)閉環(huán)反饋模型,能夠?qū)崿F(xiàn)對(duì)不同場(chǎng)景中移動(dòng)物體的抓取。6月,又推出了端到端導(dǎo)航大模型,使機(jī)器人能夠擁有“聽—看—懂—走”閉環(huán)運(yùn)動(dòng)能力。
另一個(gè)核心在于硬件的性能要夠用、好用,精度要盡可能高。
記者:機(jī)器人實(shí)現(xiàn)泛化的關(guān)鍵在于什么?
王鶴:數(shù)據(jù)?梢哉f(shuō)數(shù)據(jù)決定了機(jī)器人能力的下限。
我的觀點(diǎn)是,現(xiàn)階段合成數(shù)據(jù)可用于解決從0到1的問題,利用真實(shí)遙操采集的數(shù)據(jù)可解決從1到100的問題,從100到10000的問題則交由視頻數(shù)據(jù)處理,讓機(jī)器進(jìn)行學(xué)習(xí)。具身智能所依靠的數(shù)據(jù),99%可借助高質(zhì)量的合成數(shù)據(jù)完成,只有在合成數(shù)據(jù)無(wú)法處理的情況下,才需要有針對(duì)性地采集使用1%的真實(shí)數(shù)據(jù)。
端到端具身大模型面臨的困難,與自動(dòng)駕駛所運(yùn)用的端到端大模型有所不同。自動(dòng)駕駛所依靠的數(shù)據(jù)來(lái)源廣泛、數(shù)量龐大,且采集成本為負(fù)。目前,頭部人形機(jī)器人廠商量產(chǎn)的機(jī)器人僅為千臺(tái)級(jí)別,難以達(dá)到萬(wàn)臺(tái)規(guī)模。在現(xiàn)實(shí)中,讓所有機(jī)器人都投入不同場(chǎng)景自主工作,以供真人采集上億條數(shù)據(jù),并不具有現(xiàn)實(shí)可行性。
更為切實(shí)可行的解決方案是,先利用合成數(shù)據(jù)完善抓取、移動(dòng)、放置等功能,助力具身智能開拓市場(chǎng),先完成那99%。而生成高質(zhì)量合成數(shù)據(jù)也存在一定門檻,需具備出色的圖形學(xué)、物理仿真、物理渲染、自動(dòng)動(dòng)作合成管線等一系列完整的基礎(chǔ)設(shè)施,還需要長(zhǎng)期的核心技術(shù)積累。
記者:什么能稱為高質(zhì)量的數(shù)據(jù)?該如何評(píng)價(jià)采集或仿真獲得的數(shù)據(jù)夠不夠好、夠不夠用?
王鶴:數(shù)據(jù)的“質(zhì)”比“量”重要。如果數(shù)據(jù)千篇一律、同質(zhì)性太高,那么它的價(jià)值就非常有限。高質(zhì)量數(shù)據(jù)意味著它是多元的,能夠體現(xiàn)柔性物體的操作,具備場(chǎng)景的泛化性。從機(jī)器學(xué)習(xí)的角度講,訓(xùn)練數(shù)據(jù)能覆蓋盡可能多元的測(cè)試數(shù)據(jù)的分布,機(jī)器人的學(xué)習(xí)就越高效,學(xué)成之后,它就能在陌生環(huán)境抓取一個(gè)此前沒見過(guò)的東西。
記者:現(xiàn)有的模型架構(gòu)夠用嗎?
王鶴:不能說(shuō)完全成熟,但是夠用了。模型方面一直有進(jìn)展,但起決定性作用的是數(shù)據(jù)。數(shù)據(jù)足夠的情況下,好的模型能學(xué)得更好,但數(shù)據(jù)不夠時(shí),好的模型也會(huì)變成“差生”。好比教一個(gè)3歲小孩學(xué)圍棋,一上來(lái)就教高端技巧并不現(xiàn)實(shí),得先讓他知道什么是黑子白子。
記者:機(jī)器人商業(yè)落地,難在哪里?技術(shù)突破速度與場(chǎng)景適配深度之間的平衡,如何把握?
王鶴:可批量復(fù)制的場(chǎng)景落地,將是具身智能的“生死分水嶺”。在我看來(lái),未來(lái)3年左右,能找到可以擊穿的場(chǎng)景就能留在牌桌,找不到的將會(huì)出局。未來(lái)1年,如果能實(shí)現(xiàn)千臺(tái)到萬(wàn)臺(tái)的機(jī)器人批量交付,行業(yè)價(jià)值才算得到驗(yàn)證,具身智能的泡沫也將被剝離。
事實(shí)上,如果能把抓取、移動(dòng)、放置這類“簡(jiǎn)單”操作的泛化性問題徹底解決,已堪稱具身智能發(fā)展過(guò)程中的一個(gè)里程碑。這一技術(shù)的成熟足夠打開數(shù)千億元的市場(chǎng),使機(jī)器人在零售、前置倉(cāng)、車廠分揀等多個(gè)場(chǎng)景中幫助人類完成繁重勞動(dòng)。
記者:普林斯頓大學(xué)一門哲學(xué)課花了一整個(gè)學(xué)期討論一個(gè)問題——先有語(yǔ)言,還是先有思維。這個(gè)討論是關(guān)于人的,但從這個(gè)視角看,機(jī)器人的語(yǔ)言形成、認(rèn)知形成,是否與人類相仿?大語(yǔ)言模型、推理模型的發(fā)展,如何影響機(jī)器人的進(jìn)化?
王鶴:不是所有的思維活動(dòng)都基于語(yǔ)言。拿猩猩舉例,猩猩學(xué)習(xí)某個(gè)技能,靠的是另一只猩猩在它面前演示一遍,也就是說(shuō),技能是靠具身的學(xué)習(xí)來(lái)傳播的。即使語(yǔ)言交流不發(fā)達(dá),猩猩也一樣具有視覺思維、空間思維、情感思維。
人類的思維是一個(gè)復(fù)雜的認(rèn)知過(guò)程,人類的語(yǔ)言和思維在互動(dòng)中塑造。語(yǔ)言能夠使思維在更大范圍內(nèi)傳播,思維涉及心智層面對(duì)信息的處理,包括概念形成、問題解決、決策制定與反思等,可以影響語(yǔ)言的演化與延伸。所以說(shuō)人類智能里,思維能力、語(yǔ)言能力、操作能力都是使人類擁有地球上迄今為止最強(qiáng)智能的重要因素。
記者:ChatGPT橫空出世時(shí),有人說(shuō)“語(yǔ)言即智能”;人形機(jī)器人熱潮來(lái)襲,又有人說(shuō)“身體即智能”。也許在今天,只以人的維度評(píng)價(jià)智能已經(jīng)不夠了。你如何定義“智能”?人的智能、機(jī)器人的智能是否有一個(gè)交匯點(diǎn)?
王鶴:智能就是解決問題的能力。無(wú)論對(duì)于人類、其他動(dòng)物還是機(jī)器人,遇到問題后能給出解決辦法的能力,就是智能。面對(duì)一瓶飲料,人類利用語(yǔ)言溝通請(qǐng)有工具的人打開它,動(dòng)物徒手打開它,機(jī)器人給出一個(gè)恰好的力來(lái)打開它——調(diào)用能力的方式不同,但這都是智能。

自變量機(jī)器人創(chuàng)始人兼首席執(zhí)行官王潛。受訪者供圖
模型:變形的拉鏈,能測(cè)出機(jī)器人的“智商”
自變量王潛:改造“精密的廢物”,須從“頭”開始
2025世界機(jī)器人大會(huì)上,自變量機(jī)器人公司的輪式雙臂機(jī)器人“小量”用一雙巧手靈活制作香囊,“量子2號(hào)”仿人形機(jī)器人以7自由度手臂設(shè)計(jì)實(shí)現(xiàn)捏薯片不碎、360°清潔等高難度操作。支撐其復(fù)雜靈巧操作的是自變量自研的機(jī)器人“大腦”——通用具身大模型WALL-A。“一腦多用”的端到端技術(shù),使機(jī)器人實(shí)現(xiàn)零樣本泛化能力。
什么樣的機(jī)器人,才不被稱作“精密的廢物”?
蹣跚學(xué)步至今,人形機(jī)器人正在取得肉眼可見的進(jìn)步。然而,真正制約它走進(jìn)工廠、融入家庭的并非四肢,而是能深刻理解物理世界、自主決策的“更強(qiáng)大腦”。沒有大腦驅(qū)動(dòng)的機(jī)器人,就好比失去靈魂的一塊鐵木,只能演示、無(wú)法實(shí)干。
超越“花拳繡腿”,機(jī)器人的再進(jìn)化也許真的要從“頭”開始。

8月8日,工作人員在2025世界機(jī)器人大會(huì)上演示智能機(jī)器人。新華社記者 李欣 攝
記者:過(guò)去一年,人形機(jī)器人有了怎樣的進(jìn)化?
王潛:去年夏天,還有很多人形機(jī)器人“動(dòng)彈不了”,到今年,多款機(jī)器人已能走路、跑步乃至打拳、踢球,并逐步開始像人一樣在廣泛、復(fù)雜、真實(shí)的世界中自主移動(dòng)、感知、理解、決策并靈巧地操作物體,以完成多樣化的任務(wù)。驅(qū)動(dòng)這些進(jìn)化的,是算法的進(jìn)一步成熟和收斂。
記者:機(jī)器人的大腦雖然一直在進(jìn)化,但技術(shù)路線還未“大一統(tǒng)”——有的用的是專用模型,有的用的是通用模型;有的采用分層模型,有的用上了端到端模型。哪種模型將是機(jī)器人大腦的“終局”?
王潛:提到大模型,普遍認(rèn)知中的還是大語(yǔ)言模型、多模態(tài)模型,或者視覺語(yǔ)言大模型(VLM)+動(dòng)作模塊。還有一種誤解,認(rèn)為具身智能的基礎(chǔ)模型是這些模型的延伸。
事實(shí)上,這些模型都屬于虛擬世界的基礎(chǔ)模型,并不是真正作用于物理世界的基礎(chǔ)模型。由于機(jī)器人涉及真實(shí)世界極為復(fù)雜的物理交互,處理的問題與虛擬的數(shù)字世界所要解決的問題截然不同,所以機(jī)器人真正需要的是物理世界中一個(gè)全新的基礎(chǔ)模型。
如果對(duì)物理世界的某個(gè)局部做一個(gè)三維重建,看上去或許已達(dá)到1:1復(fù)刻,但只要有一點(diǎn)點(diǎn)小毛刺那樣的瑕疵,在現(xiàn)實(shí)中都會(huì)造成操作上更大更棘手的問題,也就是說(shuō)0.1%的謬誤也可能會(huì)帶來(lái)10%-20%的差池。
物理世界最核心的難點(diǎn),是存在大量隨機(jī)的不可預(yù)測(cè)事件。哪怕只是一個(gè)用手推門的動(dòng)作,也會(huì)因手的接觸點(diǎn)位置、接觸時(shí)長(zhǎng)、力的方向和大小、動(dòng)摩擦因數(shù)等參數(shù)的差異,產(chǎn)生非常多的隨機(jī)可能。
記者:可以說(shuō),現(xiàn)階段機(jī)器人的泛化能力普遍還不強(qiáng),比如剛在跑道上學(xué)習(xí)過(guò)跑步,換成草地就跑不起來(lái)了。而機(jī)器人能夠進(jìn)廠入戶干活的前提是具備舉一反三的能力,那么,如何能讓機(jī)器人靈活應(yīng)對(duì)復(fù)雜隨機(jī)甚至是陌生的環(huán)境?
王潛:傳統(tǒng)的解題思路類似于“搭積木”:視覺識(shí)別、推理規(guī)劃、動(dòng)作生成各用一個(gè)模型,然后層層疊起……看似功能齊全,但信息傳遞時(shí)就像一排人在玩“傳話游戲”,不僅效率低下,而且前一層產(chǎn)生的微小差錯(cuò)容易在后續(xù)環(huán)節(jié)積累巨大誤差,無(wú)法實(shí)現(xiàn)深層跨模態(tài)理解。
理想的“大腦”,比如人腦,能夠讓看見、思考、行動(dòng)一氣呵成。因此真正的具身智能模型,應(yīng)當(dāng)由一個(gè)模型覆蓋從信號(hào)輸入到動(dòng)作輸出的完整過(guò)程。處理長(zhǎng)序列任務(wù)時(shí),機(jī)器人無(wú)需劃分從看到想再到動(dòng)的界限,而通過(guò)一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò),邊想邊做,還能像人一樣舉一反三,遇到?jīng)]見過(guò)的情境也能靈活應(yīng)對(duì)。
自變量是用一個(gè)通用具身智能模型來(lái)解決物理世界的復(fù)雜問題。具體來(lái)說(shuō),是把世界模型和端到端的通用模型放進(jìn)同一個(gè)模型,也就是把視覺、語(yǔ)言、觸覺、動(dòng)作等所有模態(tài)信息塞進(jìn)一個(gè)架構(gòu)里統(tǒng)一處理。這就區(qū)別于直接把自動(dòng)駕駛的模型遷移過(guò)來(lái),或給虛擬世界的視覺語(yǔ)言模型加上運(yùn)動(dòng)模塊的方式。
記者:裝上這樣的大腦后,機(jī)器人能夠解決哪些以分層模型或?qū)S媚P妥鳛榇竽X的機(jī)器人解決不了的問題?
王潛:比如機(jī)器人要完成穿衣服這一指令,如果遇到衣服突然掉落、拉鏈變形這樣的動(dòng)態(tài)變化或陌生狀況,傳統(tǒng)分層模型需要重新編程,而自變量的端到端模型只需少量樣本即可遷移學(xué)習(xí)。端到端模型能通過(guò)“實(shí)時(shí)感知決策閉環(huán)”馬上調(diào)整策略,而分層系統(tǒng)容易因模塊間延遲出現(xiàn)“手足無(wú)措”。
再比如,我們讓裝載端到端模型的機(jī)器人“小量”削蘋果,它會(huì)去廚房島臺(tái)尋找水果刀,我們又告訴它這是一個(gè)有小孩的家庭,然后看到它從更高處的抽屜開始找起——它在行動(dòng)前進(jìn)行了邏輯推理:為防止水果刀被小孩翻到并使其受傷,水果刀會(huì)被放進(jìn)更高的抽屜。
裝上通用大腦的機(jī)器人,還能拾取地面上的廢紙、飲料瓶、塑料袋等各種形狀不規(guī)則的垃圾,把沙發(fā)上隨意堆疊的多件衣物放進(jìn)臟衣簍。
記者:區(qū)分一個(gè)機(jī)器人大腦的強(qiáng)弱,與評(píng)價(jià)一個(gè)人智商的方法和維度相似嗎?
王潛:機(jī)器人大腦的強(qiáng)弱即模型的優(yōu)劣,更出色的模型具備更強(qiáng)的泛化能力、推理能力,能處理更復(fù)雜的問題。就泛化能力來(lái)說(shuō),從易到難可分為光照位置的泛化、環(huán)境背景的泛化、操作對(duì)象的泛化、操作任務(wù)的泛化。就任務(wù)復(fù)雜度來(lái)說(shuō),又分為操作動(dòng)作的復(fù)雜度、推理及狀態(tài)估計(jì)的復(fù)雜度、被操作物體的復(fù)雜度等不同維度。
記者:訓(xùn)練一個(gè)這樣的大腦,關(guān)鍵在于算法還是數(shù)據(jù)?
王潛:在大約10年前的AI1.0時(shí)代,大家認(rèn)為做AI就是做算法。如今,決定性因素從算法變成了數(shù)據(jù)。具身智能發(fā)展到深水區(qū),核心競(jìng)爭(zhēng)力就在于數(shù)據(jù)。
從成本和效率的角度考慮,目前自變量是以真實(shí)數(shù)據(jù)為主、互聯(lián)網(wǎng)數(shù)據(jù)為輔。自變量構(gòu)建了全球最大的具身智能數(shù)據(jù)集,涵蓋數(shù)萬(wàn)小時(shí)的機(jī)器人操作視頻、觸覺反饋、空間定位等多模態(tài)數(shù)據(jù)。為加快數(shù)據(jù)積累,自變量自研了物理準(zhǔn)確性最高的視頻生成大模型來(lái)做數(shù)據(jù)增強(qiáng),通過(guò)切換背景、環(huán)境、接觸物理過(guò)程等途徑,將一條真實(shí)數(shù)據(jù)擴(kuò)展為成百上千的數(shù)據(jù),用來(lái)快速提升模型的泛化性。我認(rèn)為數(shù)據(jù)質(zhì)量的重要程度高于數(shù)據(jù)數(shù)量,而提升數(shù)據(jù)質(zhì)量的一大途徑在于擴(kuò)大數(shù)據(jù)的多元性。
記者:機(jī)器人是軟硬件結(jié)合的工程。現(xiàn)在是“強(qiáng)本體—弱大腦”的階段,還是“強(qiáng)大腦—弱本體”的階段?
王潛:具身智能是顯著的“軟件定義硬件”的領(lǐng)域,硬件需按照機(jī)器人大腦的進(jìn)化去定義、去適配。

8月8日,觀眾在2025世界機(jī)器人大會(huì)上觀看一款跳舞機(jī)器人。新華社記者 金立旺 攝
記者:有人調(diào)侃:除了跳舞、翻跟頭,人形機(jī)器人還能干什么?在跑步、跳舞、踢球、格斗中習(xí)得的能力,與機(jī)器人實(shí)際落地所需的能力,有多大的匹配度?
王潛:匹配度不大。通用的機(jī)器人能力分為運(yùn)動(dòng)、導(dǎo)航、交互、操作四個(gè)維度,操作是關(guān)系到機(jī)器人進(jìn)廠入戶的最關(guān)鍵能力。這也是為什么自動(dòng)駕駛的模型無(wú)法直接遷移到機(jī)器人身上,因?yàn)樽詣?dòng)駕駛的能力難點(diǎn)集中在導(dǎo)航與運(yùn)動(dòng)上,而機(jī)器人的最大難點(diǎn)在于復(fù)雜操作。
但換個(gè)視角來(lái)看,人形機(jī)器人公司要發(fā)展,首先要活下來(lái)。如果機(jī)器人短期內(nèi)還無(wú)法進(jìn)化為實(shí)實(shí)在在的生產(chǎn)力,那么訓(xùn)練一些娛樂能力、體育能力,也能給用戶提供情緒價(jià)值。

加速進(jìn)化(北京)機(jī)器人科技有限公司副總裁趙維晨。受訪者供圖
落地:敲開家門前,賽事為機(jī)器人找到了“用武之地”
加速進(jìn)化趙維晨:形成商業(yè)閉環(huán),才能打破“死循環(huán)”
8月落幕的世界人形機(jī)器人運(yùn)動(dòng)會(huì)上,一場(chǎng)全程無(wú)遙控的機(jī)器人足球比賽火了。這支踢球的機(jī)器人隊(duì)伍來(lái)自加速進(jìn)化(北京)機(jī)器人科技有限公司。這家成立于2023年的公司在今年7月舉行的2025RoboCup巴西機(jī)器人足球世界杯上,幫助中國(guó)隊(duì)(清華火神隊(duì))首次在成人組奪冠,打破了歐美國(guó)家在這一賽事上長(zhǎng)達(dá)28年的壟斷。
人形機(jī)器人在球場(chǎng)上激烈對(duì)抗,而商業(yè)世界看不見的競(jìng)賽或許更加殘酷。
技術(shù)突破與落地盈利之間,仿佛有一道“雞生蛋還是蛋生雞”的死循環(huán):沒有訂單,就無(wú)力迭代技術(shù);技術(shù)不夠成熟,就無(wú)法拿下訂單。
破局的關(guān)鍵,不在于硬件或算法的單點(diǎn)勝出,而在于誰(shuí)能率先在“技術(shù)突破速度”與“場(chǎng)景適配深度”的平衡中轉(zhuǎn)動(dòng)飛輪——哪怕從一場(chǎng)足球賽、一個(gè)教育場(chǎng)景開始,只有讓機(jī)器人真正“用起來(lái)”,數(shù)據(jù)才會(huì)流動(dòng),成本才能打下去,技術(shù)才有機(jī)會(huì)來(lái)到實(shí)戰(zhàn)場(chǎng)。
記者:我們常說(shuō)“生命在于運(yùn)動(dòng)”。現(xiàn)在人形機(jī)器人也有了運(yùn)動(dòng)會(huì),運(yùn)動(dòng)也成為機(jī)器人進(jìn)化的加速器。機(jī)器人整體性能與運(yùn)動(dòng)能力進(jìn)化之間有怎樣的關(guān)系?
趙維晨:如果把機(jī)器人整體性能的提升看作一條向上波動(dòng)的S形曲線,那么在最初的一段,運(yùn)動(dòng)能力與整體性能的曲線是最接近的。
對(duì)于“成年”以前的機(jī)器人,運(yùn)動(dòng)能力的突破可為數(shù)據(jù)收集與算法訓(xùn)練提供支撐,推動(dòng)機(jī)器人感知、決策、規(guī)劃能力的提升,反過(guò)來(lái)模型能力的進(jìn)步也能倒逼運(yùn)動(dòng)控制的精度、復(fù)雜度,推動(dòng)運(yùn)動(dòng)能力再進(jìn)化。接下來(lái),手腦眼配合、跨場(chǎng)景遷移的泛化操作能力開始決定曲線的斜率。這就好比人類學(xué)會(huì)走路之后,真正拉開人與人差距的是更精細(xì)化的操作能力、交互能力。

3月14日,機(jī)器人在“村超”球場(chǎng)進(jìn)行趣味足球賽。新華社記者 楊文斌 攝
加速進(jìn)化上場(chǎng)踢球賽的機(jī)器人“運(yùn)動(dòng)員”是不用遙控器、全自主運(yùn)動(dòng)的,這背后是“感知—決策—控制”的智能系統(tǒng)做支撐。
感知算法如同眼睛和耳朵,實(shí)時(shí)捕捉足球軌跡與場(chǎng)上動(dòng)態(tài);運(yùn)控算法則像小腦和神經(jīng)系統(tǒng),精確控制全身數(shù)百個(gè)關(guān)節(jié)的電機(jī),完成奔跑、急停、轉(zhuǎn)向、射門等復(fù)雜動(dòng)作;決策算法則像是真正的戰(zhàn)術(shù)大腦,需要0.1秒內(nèi)做出判斷。足球賽事對(duì)抗激烈,機(jī)器人需要更強(qiáng)的算法能力來(lái)保持本體的平衡。端到端模型將視覺信號(hào)實(shí)時(shí)輸入,再輸出關(guān)節(jié)控制指令,二者配合默契才能實(shí)現(xiàn)“運(yùn)動(dòng)員”動(dòng)作的連貫、穩(wěn)定與精準(zhǔn)。
記者:制約取得更先進(jìn)性能的卡點(diǎn),有人說(shuō)在于“大腦”不聰明,有人說(shuō)在于硬件不給力。是誰(shuí)在給誰(shuí)拖后腿,加速進(jìn)化又主攻哪一方?
趙維晨:更底層的操作系統(tǒng),才是真正的護(hù)城河。當(dāng)越來(lái)越多的開發(fā)者基于你的操作系統(tǒng)做開發(fā),越來(lái)越多的機(jī)器人和硬件運(yùn)行你的框架,機(jī)器人的軟硬件能力才能快速迭代和遷移。操作系統(tǒng)的價(jià)值在于生態(tài)構(gòu)建,其發(fā)展突破將是連接技術(shù)、商業(yè)、生態(tài)的關(guān)鍵一躍。
記者:能踢足球的機(jī)器人“運(yùn)動(dòng)員”身上,有多少能力能遷移到生活場(chǎng)景?
趙維晨:足球場(chǎng)景是檢驗(yàn)機(jī)器人的運(yùn)動(dòng)能力、感知算法等關(guān)鍵技術(shù)的試金石,這些能力提升后都能遷移到未來(lái)的家庭陪伴、教育等更多場(chǎng)景。
具體來(lái)說(shuō),運(yùn)動(dòng)控制層面,球場(chǎng)上訓(xùn)練的動(dòng)態(tài)平衡、敏捷移動(dòng)、抗干擾能力,可遷移到家庭與工業(yè)場(chǎng)景的地面清理、避障等任務(wù)中;環(huán)境感知層面,球場(chǎng)上訓(xùn)練的識(shí)別場(chǎng)地、腳、足球及預(yù)測(cè)運(yùn)動(dòng)軌跡,可遷移到工業(yè)場(chǎng)景的分揀、避障、巡檢任務(wù),以及部分生活場(chǎng)景中;任務(wù)規(guī)劃層面,球場(chǎng)上訓(xùn)練的傳球、射門等快速?zèng)Q策能力,遷移到工業(yè)場(chǎng)景中,就是可以處理物流倉(cāng)儲(chǔ)的流線設(shè)計(jì)、家庭服務(wù)的動(dòng)線安排等。
生活場(chǎng)景的任務(wù)會(huì)更加多樣、復(fù)雜、長(zhǎng)程、隨機(jī),機(jī)器人必須邁過(guò)從賽場(chǎng)到生活的挑戰(zhàn)。
記者:有人質(zhì)疑,目前機(jī)器人的客戶和用途過(guò)多集中在科研院校及展示場(chǎng)景,未形成理想的商業(yè)模式,難以支撐長(zhǎng)期價(jià)值。對(duì)此,你怎么看?
趙維晨:從技術(shù)到場(chǎng)景、再到商業(yè)的閉環(huán),在技術(shù)成熟前是很難打通的。機(jī)器人進(jìn)入家庭以前,賽事為機(jī)器人找到了“用武之地”。賽事如火如荼,在其中秀出實(shí)力的機(jī)器人廠商能拿到商業(yè)訂單,從中小學(xué)到國(guó)內(nèi)外高校、研究機(jī)構(gòu)甚至家庭都更有意愿購(gòu)入機(jī)器人。只有拿到訂單,打破規(guī)模化困境,才有可能反哺研發(fā),保持進(jìn)化速度,守住優(yōu)勢(shì)。
記者:落地是懸在大多數(shù)廠商頭上的一把劍。在哪里落地、能不能擊穿場(chǎng)景,關(guān)系到廠商的生死存亡。不少?gòu)S商將工業(yè)場(chǎng)景作為率先落地的布局重點(diǎn),加速進(jìn)化卻為何選擇戰(zhàn)略性放棄?
趙維晨:先來(lái)算一筆經(jīng)濟(jì)賬——短期內(nèi)人形機(jī)器人單臺(tái)成本在10萬(wàn)元以上,加上維修,成本還會(huì)更高,而工人年薪在5萬(wàn)-8萬(wàn)元。更關(guān)鍵的是,工業(yè)場(chǎng)景需要的是可靠、精準(zhǔn)、高效,如在汽車工廠,停產(chǎn)1分鐘即損失數(shù)萬(wàn)元,那么因機(jī)器人時(shí)延而導(dǎo)致的損失也不容小覷。
技術(shù)匹配度方面,現(xiàn)有的專機(jī)如機(jī)械臂、自動(dòng)導(dǎo)向車(AGV)已實(shí)現(xiàn)分揀、焊接等環(huán)節(jié)的高度自動(dòng)化,如果盲目追求人形機(jī)器人入廠,好比讓瑞士軍刀切菜。此外,產(chǎn)線故障往往屬于長(zhǎng)尾場(chǎng)景,機(jī)器人難以解決,或解決的成本包不住收益。
能力遷移層面,工業(yè)場(chǎng)景的數(shù)據(jù)是固定的,光照、物體、流程相對(duì)變化不大,屬于“死數(shù)據(jù)”。而家庭場(chǎng)景的數(shù)據(jù)是“活”的,場(chǎng)景不斷變化,遷移難度也很大。
因此,我們視工業(yè)場(chǎng)景的“易落地”為短期誘惑,而將家庭機(jī)器人作為終極目標(biāo)。機(jī)器人的真正價(jià)值在于通用。正如智能手機(jī)替代功能手機(jī),不是因?yàn)樗芨玫亟哟螂娫,而是因(yàn)樗鼊?chuàng)造了全新的交互方式與生態(tài)價(jià)值。 |