【蝦皮:教育學程考題彙編】評論
DeepMind最近於自然神經科學期刊中,發表了利用元強化學習(Meta-reinforcement learning)了解多巴胺與學習過程的關係,該研究透過元強化學習網路模擬多巴胺的功能,發現該AI網路能夠從過去的經驗中,學習抽象的規則,應用到新任務中,有助於強化AI系統一次性學習的成效,並能加速AI學習新任務的速度,就像人類一樣,能夠活用過去的知識,套用到新的任務上。最近AI系統的能力已經能夠駕馭許多遊戲,但是要達到這樣的成果,AI還是需要上千個小時的遊戲訓練,才能在遊戲中超越人類的表現,而相較之下,人類卻可以在幾分鐘內,學會玩從來沒玩過的遊戲。人類可以用很少的知識做很多新的事的特性,這種學習能力被稱之為元學習(Meta-learning)或是學會學習(Learning to learn),人類的學習分為長期和短期,短期將會聚焦於特定的案例,而長期則是會學習抽象的技能和規則來完成別的任務,人類就是結合了兩種學習方式,因此在面對新的任務時,可以很快又有彈性地處理新任務。DeepMind將人類學會學習的能力套用到AI系統中,並稱之為元強化學習,實驗成果顯示該方法能夠強化AI系統一次性學習的成效,並能加速AI學習新任務的速度。不過,人類大腦的學習機制在神經科學中仍然還無法解釋。DeepMind的研究中,透過元強化學習框架來研究多巴胺(Dopamine)在大腦中幫助人類學習的作用,多巴胺通常被稱為大腦快樂的訊號,對應到AI系統中,類似用來評斷預測誤差的獎勵訊號,AI系統會依據獎勵機制反覆訓練。而DeepMind認為,多巴胺不僅是利用獎勵機制來理解就過去完成任務的行為,更是能夠讓人類快速、有效地學習新任務的關鍵。因此,DeepMind為了要測試這個想法,用模擬的方式重新建立神經科學領域的6個Meta-learning實驗,每個代理網路都有相同的技能和規則,並要求代理網路執行任務。首先,研究團隊透過標準的深度強化學習(代表多巴胺的角色),訓練了一個遞歸神經網路(代表前額葉皮質),接著,將遞歸神經網路的表現,與之前在神經科學實驗中得到的實際數據進行比較,結果顯示,遞歸神經網路對於Meta-learning是好的代理網路,因為網路能夠將過去的行為和觀察內化,在從事多種不同任務時,應用這些過去的經驗。https://www.ithome.com.tw/news/123178