機器之心報道
編輯:陳萍、亞鸝
人形機器人的「Hello World」。
說起前段時間斯坦福開源的 Mobile ALOHA 全能家務機器人,大家肯定印象深刻,ALOHA 做起家務活來那是有模有樣:滑蛋蝦仁、蠔油生菜、干貝燒雞,一會兒功夫速成大餐:
研究團隊來自斯坦福,由三個人共同打造完成。Zipeng Fu 為項目共同負責人,他是斯坦福大學 AI 實驗室的計算機科學博士生,師從 Chelsea Finn 教授;Tony Z. Zhao 也是斯坦福大學的計算機科學博士生,導師也是 Chelsea Finn。
現(xiàn)在,繼 ALOHA 之后,Zipeng Fu、Chelsea Finn 等人又聯(lián)合推出了一款新的機器人研究 HumanPlus,不過這次 Tony Z. Zhao 沒有出現(xiàn)在作者欄里,而是在致謝名單上。
HumanPlus 團隊成員。
這款機器人能夠自主的疊衣服,然而即使是 2 倍速,動作看起來也是慢吞吞:
充當倉庫的搬運工,準確的將物品放置在機器狗背上的籃子里:
給大家表演個向后跳的節(jié)目,就像人類一樣,扎個馬步讓自己穩(wěn)妥一點:
可能你都不會彈的鋼琴,但這次機器人會了,它不是亂彈一通,仔細聽還能聽出旋律來:
化身你的乒乓球搭子,來上幾個回合沒有問題:
像個電腦新手一樣,在鍵盤上努力的敲出「HELLO WORLD」
打起拳來也是有模有樣
值得一提的是,這次斯坦福團隊公布了論文、機器人材料清單、數(shù)據(jù)集以及代碼。正如 Tony Z. Zhao 所表示的「這是唯一一篇完全開源的論文,雖然我們處在一個前沿的研究時代,但充滿了閉源、競爭等其他因素的限制,這個領域需要更多開放的科學,而不是酷炫的演示。」
根據(jù)材料清單我們推測完成機器人組裝大約花費 107,945 美元。
研究介紹
論文地址:https://humanoid-ai.github.io/
論文標題:HumanPlus: Humanoid Shadowing and Imitation from Humans
長期以來,人形機器人因其類似人的形態(tài)而備受關注。這主要得益于我們周圍的環(huán)境、工具等都是依據(jù)人類形態(tài)而設計的,因此人類大小的機器人在解決人類從事的任務上潛力巨大。
通過模仿人類,人形機器人為實現(xiàn)通用機器人智能提供了一個充滿希望的途徑。
然而,在實際操作中,要讓人形機器人從以自我為中心的視角學習自主技能仍然面臨挑戰(zhàn)。這主要是因為人形機器人在感知和控制方面的復雜性,以及其在形態(tài)結構和執(zhí)行機制上與人類之間仍存在的物理差異。此外,還缺乏一套數(shù)據(jù)處理流程,可以讓人形機器人通過以自我為中心的視角學習自主技能。
基于此,斯坦福團隊開發(fā)了一個全棧系統(tǒng),用于人形機器人從人類數(shù)據(jù)中學習運動和自主技能。該研究首先基于 40 小時的人體運動數(shù)據(jù)集,通過強化學習在模擬環(huán)境中訓練低級策略。然后將這一策略遷移到現(xiàn)實世界中,從而允許人形機器人僅使用 RGB 相機實時跟蹤人體和手部運動,稱為 Shadowing 系統(tǒng)。
通過 Shadowing,人類操作員可以遠程操作人形機器人來收集全身數(shù)據(jù),以便在現(xiàn)實世界中學習不同的任務?;谑占降臄?shù)據(jù),隨后進行有監(jiān)督的行為克隆,使用以自我為中心的視角來訓練機器人的技能策略,使人形機器人能夠通過模仿人類的技能自主完成不同任務。
研究者在定制的 33 自由度、高 180cm 的人形機器人上演示了該系統(tǒng),通過多達 40 次演示,該系統(tǒng)可以自主完成諸如穿鞋站立和行走,從倉庫貨架上卸載物品,折疊運動衫,重新排列物品,打字以及與另一個機器人打招呼等任務,成功率為 60-100%。
該研究團隊發(fā)布的機器人如圖 2 左側所示,具有 33 個自由度,其中包括兩個擁有 6 自由度的手指、兩個 1 自由度的手腕和一個有 19 自由度的身體(包含:兩個 4 自由度的手臂、兩個 5 自由度的腿和一個 1 自由度的腰部)。
該系統(tǒng)基于 Unitree H1 機器人構建,每只手臂集成了 Inspire-Robots RH56DFX Hand,通過定制手腕連接,其中每個手腕配有一個 Dynamixel 伺服電機和兩個推力軸承。手和手腕均通過串行通信控制。
機器人頭部安裝了兩個 RGB 網(wǎng)絡攝像頭(Razer Kiyo Pro),向下傾斜 50 度,瞳距為 160 毫米。手指可以施加高達 10 牛頓的力,而手臂可以舉起重達 7.5 公斤的物品。腿部的電機在操作過程中可以產生高達 360Nm 的瞬時扭矩。圖 2 右側提供了該機器人的其他技術規(guī)格信息。
人體部分和手部動作使用 SMPL-X 模型進行參數(shù)化。為了重定向身體姿態(tài),研究人員將 SMPL-X 對應的歐拉角復制到類人模型中,即髖部、膝蓋、腳踝、軀干、肩膀和肘部。機器人的每個髖部和肩部關節(jié)由 3 個正交旋轉關節(jié)組成,因此可以視為一個球形關節(jié)。機器人的手指有 6 個自由度:每個食指、中指、無名指和小指各 1 個自由度,大拇指 2 個自由度。為了重定向手部姿勢,他們使用中間關節(jié)的旋轉來映射每個手指的對應歐拉角。并且通過使用前臂和手的全局方向之間的相對旋轉,計算 1 自由度的手腕角度。
如圖 3 所示,身體姿勢估計和重定向在 NVIDIA RTX4090 GPU 上以每秒 25 幀的速度運行。
實時手部姿勢估計和重定向:該團隊使用 HaMeR——一個基于 Transformer 的手部姿態(tài)估計器,通過單個 RGB 攝像頭進行實時手部姿態(tài)估計。手部姿勢估計和重定向在 NVIDIA RTX4090 GPU 上以每秒 10 幀的速度運行。
該研究將低級策略 Humanoid Shadowing Transformer 制定為僅解碼器的 Transformer,如圖 4 左側所示。
在每個時間步中,策略的輸入是人形機器人的本體感知和目標姿態(tài)。策略的輸出是人形機器人身體關節(jié)的 19 維關節(jié)位置設定點,這些設定點隨后通過 1000Hz 的 PD 控制器轉換為扭矩。
隨機化模擬環(huán)境和人形機器人的物理參數(shù)見表 2。
如圖 3 所示,研究者使用單個 RGB 攝像頭實時估計人體和手部姿態(tài),并將人體姿態(tài)重定向為類人目標姿態(tài)。
如圖 1 所示,人類操作員站在人形機器人附近,將他們的實時全身運動投射到人形機器人上,并使用視線觀察人形機器人的環(huán)境和行為,確保遠程操作系統(tǒng)反應靈敏。
在被遠程操作時,人形機器人通過雙目 RGB 攝像頭收集第一視角視覺數(shù)據(jù)。通過 shadowing,研究人員為各種現(xiàn)實場景任務提供了一條高效的數(shù)據(jù)收集管道,從而避免了模擬環(huán)境中真實 RGB 渲染、精確軟體對象模擬和多樣化任務規(guī)范的挑戰(zhàn)。
與其他遠程操作方法相比,Shadowing 系統(tǒng)更具優(yōu)勢。
? THE END
轉載請聯(lián)系本公眾號獲得授權
投稿或尋求報道:[email protected]