市場動態 生活 觀察

訓練機器就跟教導狗狗一樣,可用正向鼓勵方式加快學習效率

位於美國馬里蘭州巴爾的摩的約翰霍普金斯大學近期提出機器學習訓練方式,將用於訓練狗的正向激勵方式促進機器人正確學習效率。

AI training

相較傳統訓練狗的方式是透過處罰增加避免犯錯記憶點,目前主流訓練方式則是透過獎勵狗導正其行為,例如乖乖安份等候指令就給予零食獎勵,約翰霍普金斯大學提出的機器學習訓練方式也採用相同模式,亦即當機器人做出正確動作或任務時,就會獲得積分作為「獎勵」,而機器人在設計中也加入以獲得高分為目標情況下,就會加快學習正確執行動作效率。

依照提出此論文作者,同時也是約翰霍普金斯大學博士班學生Andrew Hundt說明,此項理論源自本身教導家裡狗不要追逐松鼠的作法,透過外部導正方式促使機器人更快學習正確動作,將比過往透過錯誤嘗試找到正確方式,能以夠快效率完成機器人訓練。

原本需要一個月時間的訓練時間,在此方式僅需在短短兩天內完成訓練。

不過,目前此訓練方式僅能對應較簡單動作,例如堆放積木,或是路線模擬導航,但預期未來將能對應更複雜的動作訓練。

楊又肇 (Mash Yang)
mashdigi.com網站創辦人兼主筆,同時也是科技新聞業流浪漢。

發表迴響