免培訓、動口就能操作機器人　 Google推出AI「通才」PaLM-E-DaySmart

最新消息

免培訓、動口就能操作機器人　 Google推出AI「通才」PaLM-E

Google和柏林科技大學（Technical University of Berlin）的研究人員稍早發布了名為PaLM-E的人工智慧（AI）模型，可用於控制機器人。PaLM-E在多模態嵌入視覺語言模型上訓練，具有超過5,620億個參數，不需要再培訓就執行各種任務。

根據Ars Technica報導，PaLM-E整合了AI驅動的視覺和語言，能自主控制機器人，讓機器人能根據人類的語音命令執行廣泛的任務。

PaLM-E能理解收到的命令，然後立即執行任務，例如若被命令拿取米果給施令者，PaLM-E將根據命令及自身視野迅速建立行動計畫，然後完全自主地執行動作。

PaLM-E是透過鏡頭觀察周圍環境，不需要任何預先處理的場景表示，它觀察和接收所見之物，然後在此基礎上運算需要做什麼，因此不必人工先對視覺資料進行註釋。

Google研究人員表示，PaLM-E在執行任務時還能對環境變化做出反應。例如，它去拿米果，卻被別人搶先一步拿走，並把米果拿去放在房間的桌子上，PaLM-E會看到發生什麼事，找到米果，再拿給施令者。

PaLM-E還能完成涉及序列等更複雜任務。PaLM-E會需要根據人類的指令規劃一系列導航和操作，例如下達「我打翻了飲料，替我拿點東西來清理一下」的指令，PaLM-E就會規劃包含找一塊海綿，撿起海綿，把它帶給使用者，放下海綿的序列。

PaLM-e基於現有的大型語言模型PaLM，該模型整合了感官資訊和機器人控制。其工作原理是對周圍環境進行連續觀察，將這些資料編碼為向量序列，類似於將單詞編碼為語言標記，透過這種方式，它能以處理語音命令相同的方式理解感官資訊。

此外，研究人員還觀察到，隨著語言模型越大，在視覺語言和機器人任務定量訓練時，機器人就越能保持其語言能力，562B PaLM-E模型幾乎保留了所有的語言能力。

研究人員補充說，PaLM-E表現出稱為正轉移的特徵，能將從過往任務中學到的知識和技能轉移到新任務，因此效能高過單一任務機器人模型。此外，研究人員表示，它還顯示了多模態思維鏈推論，可分析包括語言和視覺輸入在內的一系列輸入，以及多影像推論，可使用多個影像作為輸入來進行推論或預測某事。

總而言之，PaLM-E是自主機器人領域令人印象深刻的突破。Google表示，下一步將是探索家庭自動化和工業機器人等現實場景中的其他應用。

責任編輯：陳至嫻

By DIGITIMES