微軟開發出名為Magma的新型生成式AI,能自主控制機器人並處理其感測器資訊,朝向ChatGPT等AI透過機器人與現實世界互動的目標邁進一大步。
 |
透過微軟Magma的生成式AI技術,自主控制機器人進行取拿物品的動作。(來源:微軟展示影片) |
Magma可處理文字、圖像和影片等多模態數據,並在視覺空間世界中規劃和行動,例如執行UI導航或操控機器人等任務。微軟表示,Magma能有效地從公開的視覺和語言數據中轉移知識,將語言和空間智能結合起來,以應對複雜的任務。
Magma是從大型語言模型和聊天機器人轉向「AI代理」的趨勢的一部分,AI代理可以代表人類執行任務。但這項技術仍存在技術限制,例如OpenAI最近發布的AI代理Operator,雖然設計用於瀏覽網際網路並執行任務,但仍需要大量的人工監督。
儘管如此,根據微軟的測試,Magma AI在UI導航和機器人操控任務上創造了新的最佳結果,表現優於專為這些任務量身定制的先前模型。微軟發布的影片顯示,該AI能將塑膠蘑菇放入金屬碗中,並將抹布推過檯面。
除了操控機器手臂外,Magma還可以用於透過實時視頻提供協助,例如在真實的西洋棋遊戲中提供幫助,或在客廳中建議如何放鬆幾個小時。
然而,微軟的研究人員也承認,Magma AI並非完美無缺。例如,他們設計的測試都非常具體,而且教學影片中的身份和活動分佈並不代表全球人類和社會的多樣性。