20 下列何種神經傳導物質與強化學習的神經機制最密切相關？(A)腦內啡（endorphin） (B)多巴胺（dopamine） (C)麩氨酸（glutamate） (D)甘胺酸（glycine）

問題詳情

20 下列何種神經傳導物質與強化學習的神經機制最密切相關？
(A)腦內啡（endorphin）
(B)多巴胺（dopamine）
(C)麩氨酸（glutamate）
(D)甘胺酸（glycine）

參考答案

答案：B
難度：適中0.5
書單：沒有書單，新增

用户評論

DeepMind最近於自然神經科學期刊中，發表了利用元強化學習（Meta-reinforcement learning）了解多巴胺與學習過程的關係，該研究透過元強化學習網路模擬多巴胺的功能，發現該AI網路能夠從過去的經驗中，學習抽象的規則，應用到新任務中，有助於強化AI系統一次性學習的成效，並能加速AI學習新任務的速度，就像人類一樣，能夠活用過去的知識，套用到新的任務上。最近AI系統的能力已經能夠駕馭許多遊戲，但是要達到這樣的成果，AI還是需要上千個小時的遊戲訓練，才能在遊戲中超越人類的表現，而相較之下，人類卻可以在幾分鐘內，學會玩從來沒玩過的遊戲。人類可以用很少的知識做很多新的事的特性，這種學習能力被稱之為元學習（Meta-learning）或是學會學習（Learning to learn），人類的學習分為長期和短期，短期將會聚焦於特定的案例，而長期則是會學習抽象的技能和規則來完成別的任務，人類就是結合了兩種學習方式，因此在面對新的任務時，可以很快又有彈性地處理新任務。DeepMind將人類學會學習的能力套用到AI系統中，並稱之為元強化學習，實驗成果顯示該方法能夠強化AI系統一次性學習的成效，並能加速AI學習新任務的速度。不過，人類大腦的學習機制在神經科學中仍然還無法解釋。DeepMind的研究中，透過元強化學習框架來研究多巴胺（Dopamine）在大腦中幫助人類學習的作用，多巴胺通常被稱為大腦快樂的訊號，對應到AI系統中，類似用來評斷預測誤差的獎勵訊號，AI系統會依據獎勵機制反覆訓練。而DeepMind認為，多巴胺不僅是利用獎勵機制來理解就過去完成任務的行為，更是能夠讓人類快速、有效地學習新任務的關鍵。因此，DeepMind為了要測試這個想法，用模擬的方式重新建立神經科學領域的6個Meta-learning實驗，每個代理網路都有相同的技能和規則，並要求代理網路執行任務。首先，研究團隊透過標準的深度強化學習（代表多巴胺的角色），訓練了一個遞歸神經網路（代表前額葉皮質），接著，將遞歸神經網路的表現，與之前在神經科學實驗中得到的實際數據進行比較，結果顯示，遞歸神經網路對於Meta-learning是好的代理網路，因為網路能夠將過去的行為和觀察內化，在從事多種不同任務時，應用這些過去的經驗。https://www.ithome.com.tw/news/123178

問題詳情

參考答案

用户評論

資訊推薦