學習人類行為 MIT讓機器人執行複雜工作

Print

學習人類行為 MIT讓機器人執行複雜工作
DIGITIMES
莊清瑋
 2020-04-01

未來即使是不會寫程式的人,訓練互動型機器人對他們而言也許變得輕而易舉。不論是家務還是業務,只要示範待辦事項,機器人可能一看就會。

20200401

據The Robot Report報導,麻省理工學院(MIT)正在設計可以透過觀察人類來學習新工作的自動機器人系統,以免機器人因為規則太令人費解而無法進行較複雜的任務。

機器人直接學習人類做法
研究團隊開發的Planning with Uncertain Specifications(PUnS)系統旨在賦予機器人類似於人的計劃能力,可以自行權衡許多含糊曖昧甚至可能相互矛盾的要求。為達到行動目標,系統會以任務的可能走向做為自身想法的基礎,最終採取最可行的措施。

團隊以餐桌布置為測試,研究人員事先編輯各種刀叉和杯盤等器具可能如何配置的數據集,而後機器手臂會隨機觀察到人類布置餐桌的演示。

為了實驗成功,即使面臨餐具被藏起來等刁難,機器人也必須衡量許多可能的布置順序。儘管這些實驗會使機器人感到困惑,但在實地測試中並沒有差錯,且在成千上萬次的模擬測試中也只有少許錯誤。

航太系研究生(MIT AeroAstro)Ankit Shah表示,團隊的願景是將寫程式交給專家,透過直觀的方式對機器人進行編碼,而不是向工程師下指令添加代碼。

如此一來,機器人不需再執行預先編碼的任務。從工廠組裝工作到家務勞動,就連操作洗碗機這麼細緻的工作,機器人都可以透過學習人類行為來執行。

取代獎懲機制訓練法

機器人除了替其設定明確的要求以達最終目標,另一種流行的訓練方法就是透過反覆試驗的機器學習技術,以及賞罰分明的獎勵機制,來讓它們學會執行任務。

然而,餐桌布置這類關乎文化習慣的社交禮儀或物品功能性有主觀的判斷,很難透過結果來分辨給予獎懲。

MIT這套PUnS系統使機器人能夠自行設想事情可以如何完成,然後以這樣的想法來判斷結果的好壞。Shah表示,機器人本質上和打賭(Hedging its Bets)沒什麼不同,它會根據任務本身的目的而採取吻合自身想法的行動,而不是工程師給出明確的要求。

Shah指出,教導給機器人的每項公式的編碼略有不同,但機器人會衡量各種模板的組合,並試圖滿足所有條件,最終就會做出對的事情。

報導指出,研究團隊也開發了演算法來加強機器人的靈活度,可以忽略一些突發狀況,去完成整個任務,而不是卡在一個地方太久卻不去完成其餘部分。

Shah表示,接下來的發展是讓機器人能根據口頭指令或校正,以及使用者的評估,來調整行為。如此一來,機器人便不需要人類親自示範。

影片連結
https://www.youtube.com/watch?v=_Ugr8d_lHtw&feature=emb_title