新華通訊社主管

首頁 >> 正文

大模型“點(diǎn)睛” 人形機(jī)器人加速“進(jìn)化”
2024-08-26 記者 張漫子 來源:經(jīng)濟(jì)參考報(bào)

  一年一度的世界機(jī)器人大會是洞察機(jī)器人行業(yè)前沿的重要窗口。剛剛在京落下帷幕的2024世界機(jī)器人大會現(xiàn)場,被視為最適應(yīng)現(xiàn)實(shí)世界的人形機(jī)器人站上C位,27臺整機(jī)同臺競技,數(shù)量、水準(zhǔn)創(chuàng)歷屆之最。

  與往屆不同,在大模型“催化”下,從AI點(diǎn)綴、AI介入到AI驅(qū)動(dòng),從鎖起來的展品,到動(dòng)起來的產(chǎn)品,再到加速量產(chǎn)的商品,人形機(jī)器人正在經(jīng)歷由局部到整體的系統(tǒng)性進(jìn)化。

  從單一靈巧到系統(tǒng)協(xié)調(diào)

  對一款人形機(jī)器人說:“我想喝杯拿鐵?!眱芍混`巧手的默契配合下,不一會兒,一杯飄著香氣的咖啡就遞到眼前;

  對著另一款人形機(jī)器人“蓋博特”說一句:“蓋博特,幫我拿一把雨傘?!苯拥街噶畹臋C(jī)器人伸出雙臂,立馬行動(dòng)起來。它面向眾多物品,從中眼手協(xié)調(diào)地抓取出雨傘,贏得現(xiàn)場喝彩……

  這屆大會,人形機(jī)器人之間的比拼已不止于單點(diǎn)的技術(shù)突破,以及單個(gè)“器官”技術(shù)參數(shù)之間的PK,而是“進(jìn)化”到不同器官之間的配合與協(xié)調(diào)。

  “別看只是簡單的抓取、歸置,這兩個(gè)動(dòng)作背后包含了多種核心技術(shù)?!薄吧w博特”的研發(fā)方、北京銀河通用機(jī)器人有限公司聯(lián)合創(chuàng)始人姚騰洲向記者介紹。

  過去兩年,單只靈巧手的核心技術(shù),已逐步被多家企業(yè)掌握。例如,最新發(fā)布的智元機(jī)器人已替下去年6個(gè)自由度的靈巧手,換上19個(gè)自由度的升級版靈巧手。亮相本屆機(jī)器人大會的優(yōu)理奇人形機(jī)器人Martian,單只靈巧手的自由度已達(dá)到23個(gè)。

  然而,如今人形機(jī)器人手部能力的“鍛造”,已超越單個(gè)器官的靈巧,轉(zhuǎn)向?yàn)榫植繀f(xié)調(diào)的迭代。左右手的協(xié)同配合,一方面有賴于擁有像人一樣自由轉(zhuǎn)動(dòng)的關(guān)節(jié)、更多的“自由度”,另一方面還需要多維度的環(huán)境感知、更加精密的控制算法。

  “感知觸覺與視觸覺相結(jié)合的多觸覺傳感器,配合上持續(xù)優(yōu)化的控制算法,能夠處理更廣泛的物體交互。比如能實(shí)現(xiàn)左手捏住紐扣、右手拿針完成穿針引線這樣基于視觸覺位姿估計(jì)的精細(xì)操作?!敝窃獧C(jī)器人聯(lián)合創(chuàng)始人兼首席技術(shù)官彭志輝說,當(dāng)機(jī)器人擁有了感知觸覺與視觸覺的能力,它就可以做到對力的精準(zhǔn)定位與對力度大小的調(diào)節(jié)控制。

  “我們采用了立體視覺系統(tǒng),形成了手眼伺服系統(tǒng)、控制系統(tǒng)、運(yùn)動(dòng)系統(tǒng),實(shí)現(xiàn)了人形機(jī)器人的‘眼到手到’。”北京偉景智能科技有限公司創(chuàng)始人董霄劍說。

8月21日在2024世界機(jī)器人大會現(xiàn)場拍攝的人形機(jī)器人。 新華社記者 任超 攝

一款多模態(tài)情感交互機(jī)器人向觀眾“眨眼”?!⌒氯A社記者 陳鐘昊 攝

一款人形機(jī)器人在2024世界機(jī)器人大會展示炒菜?!⌒氯A社記者 張晨霖 攝

觀眾在2024世界機(jī)器人大會上參觀教育類機(jī)器人?!⌒氯A社記者 李欣 攝

觀眾在2024世界機(jī)器人大會現(xiàn)場參觀機(jī)器人寫毛筆字?!⌒氯A社記者 張晨霖 攝

  從AI“點(diǎn)綴”到AI驅(qū)動(dòng)

  人形機(jī)器人加速“進(jìn)化”,背后離不開AI這個(gè)“驅(qū)動(dòng)器”。

  “人形機(jī)器人與人工智能的深度融合,構(gòu)成今年機(jī)器人產(chǎn)業(yè)的顯著趨勢?!眱?yōu)理奇機(jī)器人科技公司創(chuàng)始人兼首席執(zhí)行官楊豐瑜做出判斷。

  早期的機(jī)器人僅能執(zhí)行特定環(huán)境的固定指令。“過去,機(jī)器人沒有自主的運(yùn)動(dòng)控制能力,只能在固定環(huán)境完成單一任務(wù),換一個(gè)環(huán)境后就難以完成。”北京具身智能機(jī)器人創(chuàng)新中心有限公司總經(jīng)理熊友軍說,由于傳統(tǒng)機(jī)器人基于Model-Based,即以數(shù)學(xué)模型求解方程的方式訓(xùn)練機(jī)器完成任務(wù),當(dāng)換一個(gè)陌生環(huán)境后,則需重新列方程、解方程,導(dǎo)致機(jī)器人的泛化能力很差。

  如今AI驅(qū)動(dòng)下,“大腦”與“小腦”的升級,牽引人形機(jī)器人不斷“進(jìn)化”。

  大模型的一大功能,首先體現(xiàn)在人形機(jī)器人“腦力”的升級。熊友軍說,人形機(jī)器人的“大腦”以多模態(tài)大模型增強(qiáng)人機(jī)交互,實(shí)現(xiàn)對人類意圖的理解、對復(fù)雜外部環(huán)境的理解與認(rèn)知。

  科大訊飛人形機(jī)器人首席科學(xué)家季超舉例說,例如星火大模型在復(fù)雜任務(wù)拆解、開放場景物體識別、多模態(tài)感知與理解等維度,顯著提升了人形機(jī)器人的智能化水平。

  “大模型的思維鏈推理能力顯著提升了機(jī)器人對于復(fù)雜任務(wù)的理解能力,并提供了符合物理世界常識的任務(wù)拆解與規(guī)劃。具身感知模型與具身決策模型的結(jié)合,進(jìn)一步提升了機(jī)器人在真實(shí)場景下的多模態(tài)感知與理解能力。”季超說。

  大模型的另一功能,體現(xiàn)在人形機(jī)器人“小腦”的增強(qiáng)?!耙簿褪峭ㄟ^算法驅(qū)動(dòng)人形機(jī)器人的運(yùn)動(dòng)控制,提升機(jī)器人的靈活性與協(xié)調(diào)性。全方位調(diào)動(dòng)視覺算法、運(yùn)動(dòng)控制算法、語音算法、基于狀態(tài)記憶的強(qiáng)化模仿學(xué)習(xí)算法,實(shí)現(xiàn)對機(jī)器人的運(yùn)動(dòng)控制?!毙苡衍娬f。

  大模型對機(jī)器人的賦能,還體現(xiàn)在通用性與泛化性的提升。楊豐瑜說:“預(yù)訓(xùn)練大模型,使用大量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,能使機(jī)器人具備更強(qiáng)的學(xué)習(xí)能力。遷移學(xué)習(xí),意味著大模型能將特定任務(wù)上的學(xué)習(xí)能力遷移到機(jī)器人任務(wù)上,提高適應(yīng)性、泛化性。另外是多模態(tài)學(xué)習(xí),也就是結(jié)合視覺、聽覺、觸覺等多種信號輸入,提升機(jī)器人對復(fù)雜場景的感知與理解能力,學(xué)會‘舉一反三’?!?/p>

  今年以來,人工智能正深度滲透到人形機(jī)器人“進(jìn)化”的各個(gè)階段。“一是感知系統(tǒng),從基本的環(huán)境感知到復(fù)雜的多模態(tài)感知(視覺、聽覺等)。二是運(yùn)動(dòng)控制,從站、走到跳、跑,手部從簡單的抓取到完成復(fù)雜的精細(xì)操作。三是智能決策,從預(yù)定義行為到自主學(xué)習(xí)和決策。最后是交互能力,機(jī)器人與人、環(huán)境的互動(dòng),從單純接受指令,到自然語言的理解,再到情感識別?!睏钬S瑜介紹,前兩者涉及機(jī)器人的“小腦”和“軀干”,后兩者則深入到機(jī)器人的“大腦”層面。

  大模型驅(qū)動(dòng)下,人形機(jī)器人的演進(jìn)路線什么樣?“最初是傳統(tǒng)自動(dòng)化,即人工編排下初步的感知、執(zhí)行。這一階段的機(jī)器無法在不同場景下做遷移,不具備泛化性。第二階段是基于基礎(chǔ)模型的通用原子能力,也就是單個(gè)的任務(wù)編排,部分實(shí)現(xiàn)特定任務(wù)的能力遷移。第三階段是數(shù)據(jù)驅(qū)動(dòng)下的端到端操作,逐步經(jīng)過認(rèn)知推理規(guī)劃大模型到端到端操作大模型的升級,實(shí)現(xiàn)更強(qiáng)的跨任務(wù)泛化能力。”彭志輝歸納。

  從產(chǎn)品迭代到量產(chǎn)提速

  站在2024世界機(jī)器人大會展廳門口,仿佛踏入一個(gè)未來世界——機(jī)器狗在行人的匆匆腳步間靈活避障、自由穿梭,有的機(jī)器人作揖、奔跑,有的機(jī)器人炫起球技,有的忙于為參觀者準(zhǔn)備可樂、冰激凌,還有機(jī)器人原地跳起“科目三”……場景的擴(kuò)容,打開人形機(jī)器人新的可能。

  技術(shù)構(gòu)筑價(jià)值,落地檢驗(yàn)價(jià)值。最近,隨著多家國產(chǎn)人形機(jī)器人技術(shù)突破、產(chǎn)品上新、場景刷新,人形機(jī)器人正由小批量出貨加速叩開量產(chǎn)之門。

  幾天前,智元機(jī)器人剛剛給出量產(chǎn)出貨時(shí)間表:作為上海首座人形機(jī)器人量產(chǎn)工廠,智元機(jī)器人一期工廠已完成產(chǎn)線建設(shè)和人員招募,今年10月投產(chǎn),計(jì)劃月產(chǎn)規(guī)模達(dá)到百臺以上、今年出貨量達(dá)到300臺左右。

  隨著加速規(guī)?;慨a(chǎn)成為多家企業(yè)的發(fā)力方向,業(yè)內(nèi)正加速挖掘場景,推進(jìn)大模型與具身智能的融合,以開源等方式完善產(chǎn)業(yè)鏈生態(tài),強(qiáng)化成本控制。

  例如,北京具身智能機(jī)器人創(chuàng)新中心正吸納更多海內(nèi)外人才,攻克全球人形機(jī)器人關(guān)鍵共性技術(shù)等問題??拼笥嶏w通過“機(jī)器人超腦平臺”方案深度鏈接420家機(jī)器人企業(yè)、1.5萬名機(jī)器人開發(fā)者,并與優(yōu)必選、智元機(jī)器人、銀河通用、人形機(jī)器人創(chuàng)新中心(上海)等企業(yè)、機(jī)構(gòu)探索多模態(tài)交互等方案的集成應(yīng)用,協(xié)同推進(jìn)技術(shù)迭代下的商用落地。

  然而,人形機(jī)器人邁向量產(chǎn)的路上,還有諸多問題待解。

  一個(gè)問題在于人形機(jī)器人的動(dòng)作還不能像人類一樣迅速敏捷,“進(jìn)化”路上還存在運(yùn)動(dòng)的時(shí)延問題?!皶r(shí)延問題是一個(gè)系統(tǒng)性問題,需要操作系統(tǒng)、架構(gòu)、算力、通信機(jī)制等方面的協(xié)同破解?!毙苡衍娬f。

  另一個(gè)問題在于人形機(jī)器人的能耗問題,尚未實(shí)現(xiàn)不間斷地為人類“出工”“出力”。普通的人形機(jī)器人處于待機(jī)狀態(tài)可以維持5至8個(gè)小時(shí),如果直立行走僅能維持2至3小時(shí)。

  “能耗問題,與人形機(jī)器人的電池、電機(jī)、減速器、重量等參數(shù)息息相關(guān)。如何在研發(fā)高能量密度電池的同時(shí)提升電機(jī)效率、減輕重量以降低能耗,是接下來需要解決的另一問題?!毙苡衍娬f。

  此外,想要讓人形機(jī)器人成為真正為人所用的商品,還需不斷提高智能化程度,提升它的“類人”水平。熊友軍認(rèn)為,人形機(jī)器人第一個(gè)階段是“形式”類人:外形上長得像人;第二階段是“行式”類人,行走、行動(dòng)類人;第三階段則是“神式”類人,即通過具身智能大模型,使人形機(jī)器人在理解、表達(dá)、思考等方面向人類看齊。

凡標(biāo)注來源為“經(jīng)濟(jì)參考報(bào)”或“經(jīng)濟(jì)參考網(wǎng)”的所有文字、圖片、音視頻稿件,及電子雜志等數(shù)字媒體產(chǎn)品,版權(quán)均屬《經(jīng)濟(jì)參考報(bào)》社有限責(zé)任公司,未經(jīng)書面授權(quán),不得以任何形式刊載、播放。獲取授權(quán)

《經(jīng)濟(jì)參考報(bào)》社有限責(zé)任公司版權(quán)所有 本站所有新聞內(nèi)容未經(jīng)協(xié)議授權(quán),禁止轉(zhuǎn)載使用

新聞線索提供熱線:010-63074375 63072334 報(bào)社地址:北京市宣武門西大街57號

JJCKB.CN 京ICP備18039543號