最新消息

免培訓、動口就能操作機器人  Google推出AI「通才」PaLM-E

Google和柏林科技大學(Technical University of Berlin)的研究人員稍早發布了名為PaLM-E的人工智慧(AI)模型,可用於控制機器人。PaLM-E在多模態嵌入視覺語言模型上訓練,具有超過5,620億個參數,不需要再培訓就執行各種任務。

根據Ars Technica報導,PaLM-E整合了AI驅動的視覺和語言,能自主控制機器人,讓機器人能根據人類的語音命令執行廣泛的任務。

PaLM-E能理解收到的命令,然後立即執行任務,例如若被命令拿取米果給施令者,PaLM-E將根據命令及自身視野迅速建立行動計畫,然後完全自主地執行動作。

PaLM-E是透過鏡頭觀察周圍環境,不需要任何預先處理的場景表示,它觀察和接收所見之物,然後在此基礎上運算需要做什麼,因此不必人工先對視覺資料進行註釋。

Google研究人員表示,PaLM-E在執行任務時還能對環境變化做出反應。例如,它去拿米果,卻被別人搶先一步拿走,並把米果拿去放在房間的桌子上,PaLM-E會看到發生什麼事,找到米果,再拿給施令者。

PaLM-E還能完成涉及序列等更複雜任務。PaLM-E會需要根據人類的指令規劃一系列導航和操作,例如下達「我打翻了飲料,替我拿點東西來清理一下」的指令,PaLM-E就會規劃包含找一塊海綿,撿起海綿,把它帶給使用者,放下海綿的序列。

PaLM-e基於現有的大型語言模型PaLM,該模型整合了感官資訊和機器人控制。其工作原理是對周圍環境進行連續觀察,將這些資料編碼為向量序列,類似於將單詞編碼為語言標記,透過這種方式,它能以處理語音命令相同的方式理解感官資訊。

此外,研究人員還觀察到,隨著語言模型越大,在視覺語言和機器人任務定量訓練時,機器人就越能保持其語言能力,562B PaLM-E模型幾乎保留了所有的語言能力。

研究人員補充說,PaLM-E表現出稱為正轉移的特徵,能將從過往任務中學到的知識和技能轉移到新任務,因此效能高過單一任務機器人模型。此外,研究人員表示,它還顯示了多模態思維鏈推論,可分析包括語言和視覺輸入在內的一系列輸入,以及多影像推論,可使用多個影像作為輸入來進行推論或預測某事。

總而言之,PaLM-E是自主機器人領域令人印象深刻的突破。Google表示,下一步將是探索家庭自動化和工業機器人等現實場景中的其他應用。

責任編輯:陳至嫻

By DIGITIMES

相關網址:https://www.digitimes.com.tw/tech/dt/n/shwnws.asp?cnlid=1&id=0000658761_2KD61ZXC75QHF1012MY2S&fc=a35d20ccc5197f3c&fbclid=IwAR2oYFUh29EwD_9a7QqZyYj0Svo_wY3-iVwNp3oc0dGTuub3lfsb4fAPfuk

商品

最新訊息