Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

那這邊修改的條件,修改的criteria,是你希望找到一個新的G',這個G'跟Gb它們做inner product以後要大於等於0,而且G'跟G不能夠差太多。所以本來你往這個方向update,可能會產生catatrophy forgetting的情形,但是我們刻意去修改update的方向,從G變成G',這樣就可以減輕catatrophy forgetting所造成的問題。

link |

24:25.000

但講到這邊,你有沒有發現這個方法有一點貓膩呢?有沒有一點什麼奇怪的地方呢?你仔細想想,Gb是怎麼算出來的。我們要算Gb,我們要算task1的gradient,意味著我們存有task1的資料。

link |

24:47.000

如果我們沒有存task1的資料,那我們根本就沒有辦法把Gb算出來。所以Gem這個方法的一個劣勢就是,它需要把過去方法的資料存下來。那這個跟lifelong learning想要追求的是有點不一致的,因為我們一開始就有說,lifelong learning就是不希望把過去的資料都存下來啊,如果過去的資料都存下來的話,資料累積的越來越多,那你最終會沒有辦法把過去的資料都存下來。

link |

25:15.000

所以Gem有點違反lifelong learning的最初的精神,它是有偷偷存過去的資料的。但是也許這個問題並沒有特別嚴重,為什麼?因為Gem這個方法只需要存非常少量的資料就好。

link |

25:31.000

因為這個Gb,它最重要的工作只是去修改一下G的方向,所以也許算Gb的時候,我們不需要非常大量的資料,只要存一點點的資料就好。所以Gem想要做的事情是,希望透過只存一點點資料來達到避免catatrophy forgetting的效果。

link |

25:52.000

所以Gem比較於其他方法,比如說我們剛才看到的EWC等等,有點不公平,因為它有偷存額外的資料。但是其實你再更仔細想一下,EWC這些方法,這些regularization-based的方法,它們需要佔用額外的空間來儲存舊的模型跟儲存BI。

link |

26:17.000

所以剛才講的那些regularization-based的方法,它也需要佔用到額外的空間,這些額外的空間包括一個舊的模型還有BI這個守衛的數值。

link |

26:29.000

所以如果Gem它今天雖然存了一些舊的資料,只要它存的舊的資料所佔用的記憶體的量沒有比多存BI還有舊的模型多的話,也許也是可以接受的。所以如果Gem沒有存太多資料的話,其實也是一個可以被接受的做法。

link |

26:48.000

接下來,另外兩個做法我們就是非常快的帶過去。第一個做法是Additional Neural Resource Allocation,也就是我們改變一下使用在每一個任務裡面的neural resource。

link |

27:03.000

什麼意思呢?一個最早的做法叫做Progressive Neural Network,它的想法是這個樣子的。我們訓練任務1的時候有一個模型,訓練任務2的時候,你就不要再去動任務1學到的那個模型了,你另外再多開一個Network。

link |

27:21.000

這個Network它會吃任務1的Hidden Layer Output作為輸入,所以如果任務1有學到什麼有用的資訊,任務2也是可以利用它的。但是任務1這邊的參數,任務1學出來的參數,不要再去動它了,我們只多新增一些額外的參數,我們只Train額外的參數。

link |

27:42.000

任務3也是一樣,我們有一組專門給任務3的參數,當訓練任務3的時候,任務1、任務2訓練出來的參數,就不要再動它了。

link |

27:52.000

對於解決Catatrophy Forgetting而言,這當然是一個有效的做法,你完全不會有Catatrophy Forgetting的問題,因為舊的參數你根本完全沒有動到它嘛。

link |

28:01.000

但是Progressive Neural Network它會造成的問題是,你每一次訓練一個新的任務的時候,你會需要額外的空間去產生額外的Neural。

link |

28:14.000

你每一次加一個新的任務,你的模型就會長大一點。如果今天你的模型長大的速率跟新增任務是成正比的話,當你的任務不斷的新增增下去的時候,最終你的Memory還是會耗盡的,你的模型終究會太大,大到你沒有辦法把它存下來。

link |

28:36.000

所以Progressive Neural Network看起來並沒有完全解決Catatrophy Forgetting的問題。但是在任務量沒有很多的時候,Progressive Neural Network仍然是可以派得上用場的。

link |

28:48.000

然後有另外一個方法叫做PackNet,它是Progressive Network的反過來。Progressive Network是說,每一次有新的任務進來,我們就多加一些Neural。那PackNet正好是用另外一個想法,它說我們先開一個比較大的Neural。

link |

29:08.000

然後接下來,每一次有新的任務進來的時候,我們只用這個大Neural的其中一部分。任務一的資料進來,在這個圖示裡面,我們就把每一個圈圈想成是Neural裡面的一個參數。

link |

29:25.000

然後任務一的資料進來,只准使用這邊有黑色框框的這些圈圈的參數。然後任務二的資料再進來,只准用這邊橙色的參數。任務三的資料再進來,只准用這邊綠色的參數。

link |

29:40.000

這樣的好處就是,你的參數量不會隨著任務增多而不斷增加。但是如果相較於Progressive Network的方法相向,這個方法其實也只是朝三暮四而已。

link |

29:52.000

它是一開始開一個比較大的Neural,然後說每一個任務不要把所有的參數都用盡,只用部分的參數,然後這樣子你就不會有Catastrophic Forgetting的問題。

link |

30:03.000

但是相較於不斷增加新的參數,你只是提早把更多的記憶體用完而已,這個有點朝三暮四的感覺。

link |

30:12.000

然後PackNet跟Progressive Network是可以結合在一起的,這個結合的方法也是一個很知名的做法,叫做Compacting, Picking, and Growing的CPG。

link |

30:23.000

它就是我們的Model既可以增加新的參數,每一次又都只保留部分的參數可以拿來做訓練。至於這些方法的細節我們就不細講,就留給大家慢慢研究。

link |

30:36.000

第三個做法叫做Memory Replay,第三個做法非常直覺。

link |

30:59.000

我們之前有講說,只要把所有的資料統統倒在一起,就不會有Catastrophic Forgetting的問題,但我們又說不能夠存過去的資料。

link |

31:10.000

我們乾脆就訓練一個Generative Model,這個Generative Model就是會產生Pseudodata,我們不能夠存過去的資料,但是我們訓練一個Generative Model,把過去的資料在訓練的時候即時的產生出來。

link |

31:28.000

也就是說,我們現在有第一個任務的訓練資料,我們不只訓練一個Classifier來解任務1,我們同時訓練一個Generator,它會產生任務1的資料。

link |

31:39.000

接下來,你在訓練任務2的時候,如果你只把任務2的資料倒給Machine,那它可能會有Catastrophic Forgetting的問題,但是你又不能把任務1的資料拿出來,那怎麼辦?

link |

31:52.000

用Generator產生任務1的資料,給第二個任務的Classifier做訓練。

link |

32:01.000

所以這個Classifier,它在訓練的時候不是只看到任務2的資料,它還看到Generator產生出來的任務1的資料,所以用這個方法就可以避免Catastrophic Forgetting的問題。

link |

32:15.000

接下來,你又有任務2的資料,那也許你就會把任務2的資料跟任務1產生出來的Pseudo的資料再倒在一起,再訓練一個Generator,這個Generator可以同時產生任務1跟任務2的資料。

link |

32:29.000

這個過程就反覆繼續下去。

link |

32:33.000

那這個方法到底合不合理呢?就是見仁見智啦,因為你需要另外產生一個Generator嘛,那這個Generator當然也是會佔用一些空間。

link |

32:45.000

但是如果這個Generator佔用的空間比你儲存資料來講還要更小的話,那也許這就是一個有效的方法。

link |

32:54.000

事實上,我們實驗室也有做過一些Lifelong Learning的study,在我們的經驗上,這種Generating Data的方法其實是非常有效的。

link |

33:04.000

用這種Generating Data的方法,往往你都可以逼近Lifelong Learning的Upper Bound了,往往你都可以做到跟Multitask Learning差不多的結果。

link |

33:13.000

接下來,如果你想想看我們剛才講的Lifelong Learning的Scenario,我們都假設說每一個任務需要的模型就是一樣的。

link |

33:29.000

我們甚至強迫限制說,每一個任務我們要訓練的Classifier,他們需要的Class量都是一樣的。

link |

33:37.000

但假設不同的任務,他們的Class數目不一樣,有沒有辦法解呢?

link |

33:43.000

第一個任務有10個Class,第二個任務有20個Class,第三個任務有100個Class。

link |

33:50.000

你訓練新的任務的時候,你同時要增加新的Class,有沒有辦法解呢?

link |

33:55.000

是有辦法解的,這邊就列一些文獻,比如說Learning Without Forgetting,LWF,還有ICRL,Incremental Classifier and Representation Learning,給大家參考。

link |

34:08.000

助教在Lifelong Learning的作業的選擇題裡面,我們也問大家一些有關這些做法的問題,如果你有興趣,你再自己去讀一下這些文獻。

link |

34:20.000

其實我們今天講的Lifelong Learning,也就是Continuous Learning,只是整個Lifelong Learning領域研究裡面的其中一小塊,其中某一個情境而已。

link |

34:34.000

其實Lifelong Learning,也就是Continuous Learning,還有很多不同的情境。

link |

34:39.000

你可以閱讀一下下面這邊統整的文獻,它會告訴你說Lifelong Learning有三個情境。

link |

34:46.000

我們今天講的只是那三個情境裡面最簡單的一種而已,最容易的一種。

link |

34:53.000

剩下另外兩種更有挑戰性的情境是什麼,我們留在選擇題裡面,讓大家自己去看看另外兩種情境是什麼樣子。

link |

35:09.000

這個就是有關Lifelong Learning的三個研究方向。

link |

35:15.000

剛才有同學問到說,如果我們調換學任務學習的順序,會不會有非常不一樣的結果呢?確實是會有的。

link |

35:25.000

這邊就舉一個具體的例子來跟大家說明。

link |

35:29.000

在剛才我們一開頭講的Lifelong Learning的例子裡面,我們說先讓機器先學這一種有雜訊的圖片,接下來再學沒有雜訊的圖片。

link |

35:41.000

但是反過來,如果先學沒有雜訊的圖片,再學有雜訊的圖片,會發生什麼樣的狀況呢?

link |

35:49.000

如果讓機器先學沒有雜訊的圖片的話,在任務2上正確率97,在任務1上正確率62。

link |

35:58.000

看起來能夠解沒有雜訊圖片的分類,看到有雜訊的圖片還是handle不了的。

link |

36:05.000

但是如果說我們更進一步讓機器學任務1的話,這個時候你發現它任務1、任務2都可以做好,這個時候沒有catatrophic forgetting的問題。

link |

36:18.000

所以看起來任務的順序是重要的,有一些順序會有forgetting的問題,有一些順序其實也沒有forgetting的問題。

link |

36:28.000

而研究什麼樣的順序才是好的、什麼樣的順序才對學習是有效的這個問題,叫做curriculum learning。

【機器學習2021】機器終身學習 (Life Long Learning, LL) (二) - 災難性遺忘(Catastrophic Forgetting)的克服之道