美大學用正面增強 顯著縮短機器人學習時間

Print

美大學用正面增強 顯著縮短機器人學習時間
DIGITIMES
陳明陽
2020-11-03
約翰霍普金斯大學(Johns Hopkins University)的研究團隊指出運用基於分數獎勵的正面增強(positive reinforcement)方式,能顯著縮短訓練機器人學習新技能以正確執行操作的時間,目前雖僅訓練機器人疊積木等相當基本的操作,但未來可望執行更複雜且有用的實際工作。

根據TechCrunch報導,訓練機器人學習的方式攸關解鎖機器人產業的眾多商機,因此研究人員殫精竭慮的嘗試各種方法,以找出協助機器人加速學習的秘訣。正面增強的學習獎勵方式常用於狗的訓練,核心在於當狗的動作或反應正確時表達激勵態度與提供實質獎勵,但不要在發生錯誤時顯露抑制的負面態度。

機器人學家致力於發展能讓機器人從錯誤中提高學習效率的方法,約翰霍普金斯大學研究團隊發表的新論文「Good Robot」探索運用正面增強激勵方式訓練機器人的潛力,並基於相關機制來開發機器人的學習演算法,協助沒有高度直覺頭腦、凡事都需重頭學習的機器人,從試誤中學習以建立目標技能。

研究團隊藉由遊戲化的得分系統激勵機器人,每當自我學習改善技能而正確執行一項作業就可以得若干分,機器人為了追求高分會加快學習以獲取最佳獎勵。研究團隊首先以學習演算法訓練模擬的機器人,然後才訓練實驗室的機器人Spot以提高學習效率,結果原本機器人需要1個月的練習才能在疊積木時達到100%正確的操作,目前已可大幅縮短到2天。

雖然機器人一開始可能對如何操作毫無頭緒,但絕不放棄再加上重複練習與嘗試,就會越來越上手而達到完全正確。機器人Spot在自我訓練疊積木時需學習聚焦於建設性的動作,在探索積木的同時快速了解到抓不到積木、碰倒積木堆等錯誤的動作會抱鴨蛋,反之正確的堆疊動作能獲得分數,且成功疊起5顆積木可拿到最高分。

在任何情況下都能從錯誤中學習是機器人適應新環境所不可或缺的能力,正面增強的學習獎勵方式讓Spot快速自學疊積木與玩導航模擬遊戲等新技能,研究團隊認為未來可能也將有助於訓練家庭機器人,執行洗衣與洗碗等在開放市場上有需求的家務工作,讓銀髮族與身障者等自理能力不足者的生活更獨立。

研究團隊希望最終正面增強的學習獎勵方式能在強化自駕車的演算法,或是機器人學習與執行產品組裝、銀髮族照護、手術等實際且複雜的工作時兼顧效率與安全,不過研究團隊目前還不知道如何程式化這些複雜的工作。

20201103a