Google稍早宣佈啟用人工智慧模型PaLM-SayCan,將可讓母公司Alphabet打造的協助型機器人更容易理解使用者所下達口語指令,進而正確執行工作。
由於機器人所能理解語意,通常與人腦所能理解內容有所差異,例如機器人所能識別指令必須完整、精確,同時現階段所能理解內容也不能過於複雜、抽象,因此僅能執行「拿起一顆蘋果」 (Pick up an apple)此類簡潔描述指令,但可能無法理解「我剛運動完,可以幫我準備一些健康點心嗎?」 (I just worked out, can you get me a healthy snack?)的指令實際需求。
即便目前已經可以透過諸如GPT-3大型語言模型理解人類語句涵義,但距離讓機器人實際理解人類日常生活中的用語背後需求,實際上還有一大段落差,原因在於人腦對於語句背後的情境會有一定程度想像,比方當人打翻飲料時,向他人提出幫忙請求時,就會自然理解需要進行現場狀況清理,因此會衍生拿抹布擦拭地面、拿掃把清理碎裂物品等,但機器人目前仍無法實現此類聯想,可能僅能從現有資料庫比對可行的做法,導致經常出現答非所問的回覆。
而藉由Google此次提出的PaLM-SayCan模型,則是可進一步協助機器人判斷人類語句背後潛藏涵義,進而將相關語句轉換成可讓機器人正確執行的指令內容,並且透過增加任務對應性與技能可行性判斷,藉此強化指令執行正確率。
以打翻飲料情況為例,機器人在接收「打翻飲料」關鍵字詞之後,將會進一步聯想所有與「打翻」、「飲料」等字詞組合相關應對方式,最後加上場景識別等判斷基礎,即可得出需要進行「清理」、「擦拭」等工作,最終則會讓機器人選擇拿取海綿吸拭灑在桌上的飲料。
目前Google已經透過GitHub公開PaLM-SayCan模型相關內容,讓有興趣的開發者、設計團隊取用測試。