學習人類行為　MIT讓機器人執行複雜工作

學習人類行為　MIT讓機器人執行複雜工作
DIGITIMES
莊清瑋
2020-04-01

未來即使是不會寫程式的人，訓練互動型機器人對他們而言也許變得輕而易舉。不論是家務還是業務，只要示範待辦事項，機器人可能一看就會。

20200401

據The Robot Report報導，麻省理工學院(MIT)正在設計可以透過觀察人類來學習新工作的自動機器人系統，以免機器人因為規則太令人費解而無法進行較複雜的任務。

機器人直接學習人類做法
研究團隊開發的Planning with Uncertain Specifications(PUnS)系統旨在賦予機器人類似於人的計劃能力，可以自行權衡許多含糊曖昧甚至可能相互矛盾的要求。為達到行動目標，系統會以任務的可能走向做為自身想法的基礎，最終採取最可行的措施。

團隊以餐桌布置為測試，研究人員事先編輯各種刀叉和杯盤等器具可能如何配置的數據集，而後機器手臂會隨機觀察到人類布置餐桌的演示。

為了實驗成功，即使面臨餐具被藏起來等刁難，機器人也必須衡量許多可能的布置順序。儘管這些實驗會使機器人感到困惑，但在實地測試中並沒有差錯，且在成千上萬次的模擬測試中也只有少許錯誤。

航太系研究生(MIT AeroAstro)Ankit Shah表示，團隊的願景是將寫程式交給專家，透過直觀的方式對機器人進行編碼，而不是向工程師下指令添加代碼。

如此一來，機器人不需再執行預先編碼的任務。從工廠組裝工作到家務勞動，就連操作洗碗機這麼細緻的工作，機器人都可以透過學習人類行為來執行。

取代獎懲機制訓練法

機器人除了替其設定明確的要求以達最終目標，另一種流行的訓練方法就是透過反覆試驗的機器學習技術，以及賞罰分明的獎勵機制，來讓它們學會執行任務。

然而，餐桌布置這類關乎文化習慣的社交禮儀或物品功能性有主觀的判斷，很難透過結果來分辨給予獎懲。

MIT這套PUnS系統使機器人能夠自行設想事情可以如何完成，然後以這樣的想法來判斷結果的好壞。Shah表示，機器人本質上和打賭(Hedging its Bets)沒什麼不同，它會根據任務本身的目的而採取吻合自身想法的行動，而不是工程師給出明確的要求。

Shah指出，教導給機器人的每項公式的編碼略有不同，但機器人會衡量各種模板的組合，並試圖滿足所有條件，最終就會做出對的事情。

報導指出，研究團隊也開發了演算法來加強機器人的靈活度，可以忽略一些突發狀況，去完成整個任務，而不是卡在一個地方太久卻不去完成其餘部分。

Shah表示，接下來的發展是讓機器人能根據口頭指令或校正，以及使用者的評估，來調整行為。如此一來，機器人便不需要人類親自示範。