[DeepMind論文部分翻譯]克服神經網絡中的災難性遺忘 Overcoming catastrophic forgetting in neural networks

本文翻譯了DeepMind的最新研究成果的第一部分,可以當做是introduction部分,借鑒神經科學成果,解決了一個通用人工智能領域持續學習所面臨的關鍵性難題。
實現通用智能需要智能代理能夠學習和記住許多不同的任務[1]。在現實世界中這很困難:任務的順序并不會顯式地標注出來,任務之間可能會不可預期地切換,單一任務可能在很長的一段時間內都不會復現。因而,智能代理必須具備持續學習的能力:也就是學習連貫的任務而不會忘記如何執行之前訓練過的任務的能力。
持續學習對人工神經網絡是一個特別大的挑戰,因為與當前任務(比如任務B)相關的知識被合并掉,關于先前任務(比如任務A)的知識會突然地丟失。這個現象術語叫災難性遺忘(catastrophic forgetting)[2-6],一般會發生在神經網絡在多個任務上進行按序訓練的時候,比如對任務A很重要的神經網絡的權重正好滿足任務B的目標時。然而近來機器學習的進步,尤其是深度神經網絡的進步對各個領域已經產生了廣泛的有利影響(如文獻7和8),但連續學習領域的研究卻停滯不前。當前的方法主要是通過確保來自各個任務的數據在訓練中都可以同時獲得。通過在學習過程中對來自多任務的數據進行交叉操作,其實遺忘并不會發生,因為神經網絡的權重能夠對所有任務上的表現進行聯合優化,但這個方法通常指的是多任務學習范式-深度學習技術,已經被成功地應用在訓練單一智能體玩多種Atari游戲[9,10]。如果任務按序呈現的話,只能在數據存儲在事件記憶系統并在訓練的過程中對網絡進行回放時,才能采用這種多任務學習技術。這種方法(通常也叫系統級鞏固[4, 5])面對學習大量任務時并不實用的,因為按照我們的設定,它應該需要與任務數量成比例的存儲數量。相關算法的確實成為通用智能開發的關鍵障礙。
與人工神經網絡形式鮮明對比的是人類和其他動物似乎能夠以連續的方式學習[11]。最近的證據提示哺乳動物的大腦可能會通過大腦皮層回路來保護先前獲得的知識,從而避免災難性遺忘[11-14]。當小鼠需要一個新技能的時候,一定比例的突觸就會增強,表現為單一神經元的樹突棘數量的增加[13]。至關重要的是,即使進行了后續的其他任務的學習,這些增加了的樹突棘能夠得到保持,以便幾個月后相關能力仍然得到保留。當這些樹突棘被選擇性“擦除”后,相關的技能就會被遺忘[11,12]。這表明對這些增強的突觸的保護對于任務能力的保留至關重要。這些實驗發現與諸如瀑布模型[15, 16]這樣的神經生物學模型提示我們大腦皮層中的持續學習依賴于任務相關突觸的鞏固,知識能夠長久地編碼得益于讓一部分突觸降低可塑性從而在相當長的時間范圍內變得穩定。
本次工作將展示任務相關突觸鞏固為人工智能的持續學習問題提供了獨特的解決方案。我們為人工智能神經網絡開發了一種類似于突觸鞏固的算法,稱之為可塑權重鞏固(elastic weight consolidation,EWC)。這個算法會針對那些對特定任務特別重要的特定權重降低學習率。也會展示EWC如何應用在監督學習和強化學習問題中,在不會遺忘舊任務的情況下,按次序地訓練多個任務,并與之前的深度學習技術進行對比。
3d历史开奖结果 配资服务 湖北体彩11选五玩法介绍 吉林十一选五开奖结果形态走势图 贵州快三开奖号码查询 大乐透玩法说明 二分时时彩怎么玩 排列五稳赚打法 12096期排列3预测 北京十一选五开奖结果手机版 招商证券理财平台 河南福彩快3今天预测 澳门正规赌博官方网址 pc蛋蛋幸运28论坛 幸运赛车怎么算中 3d试机号203历史出现统计 理财投资有哪些