Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

所以R01代表說,今天是一個random initialized model在task1上的performance,random initialized model在task2上的performance,random initialized model在task大T上的performance。今天一開始,機器它的參數是random initialized,所以它在大T上顯然不會得到太好的performance。

link |

06:29.140

接下來讓它學學學學學,在它學大T的task之前,它還沒看到大T的task,大T的這個task,它只學了第一個到T-1的task,它還沒學大T這個task。它把之前的task都學完,它到底已經學到大T這個task學到了什麼樣的程度?

link |

06:49.260

那這個叫做forward transfer,就在還沒有看到要它學task之前,它看了別的task,到底已經可以學到多少東西?

link |

06:59.020

好,那這個就是幾個你常常拿來衡量你的lifelong learning model的方法。那我們剛才講說,如果有一個model它可以做到forward transfer算出來是正的,那就很厲害。那有些model確實可以做到forward transfer算出來是正的,就你不只不會遺忘,還可以學新的task還會觸類旁通。

link |

07:21.300

那這邊舉一個例子,叫做Gradient Episodic Memory,它所寫的是GEM。那GEM它想要做到的事情是說,我們今天在新的task上算出我們的Gradient,我們今天要optimize一個新的task,所以要Gradient descent嘛,要算Gradient,它在新的task上算出的Gradient,它稍微修改一下,改一下它的方向,希望它對過去的task也有幫助。

link |

07:45.180

什麼意思呢?今天假設你現在要訓練的model叫做Seda,在新的任務上,在你現在要考慮的那個任務上,你算一下它的Gradient,或者說算一下它的Gradient的負的方向,因為我們update參數的時候是走負的方向嘛,你算它的negative的Gradient,告訴你說,我們現在要把參數往這個方向update,可以讓loss下降最多。

link |

08:06.620

然後呢,你再回頭過去計算一下之前的task它的Gradient的方向,但是如果你要計算之前的task的Gradient的方向的話,意味著其實你是偷偷存了一些之前的task的data,所以其實GEM這個model跟其他model比起來也稍微有點不公平,因為它其實是有存過去的task的資料,

link |

08:30.980

只是它可能不把整個code格存下來,而是每個task都只取幾筆存下來,比如說每個task都只取十筆存下來這樣子。

link |

08:39.980

假設你可以有一些過去的task的資料,所以你也可以計算說,假設我今天要minimize過去的task的loss,那我歸點是要怎麼走?假設我今天過去有兩個task,task1跟task2,現在要取的是task3,那你可以計算出,假設我要minimize task1的loss,那我歸點是這個方向,那我要minimize task2的loss,我歸點是這個方向。

link |

09:04.620

那這兩個方向跟G這個方向,因為它們的data都是正的,它們的內積都是正的,那我們就往G這個歸點的方向來走,那今天假如你算出來G是這個方向,但是你要讓過去的task它loss下降的方向分別是G1跟G2,

link |

09:26.220

這個時候如果你把你的歸點往G這個方向移動,你把你的參數往G這個方向移動,那因為跟G1的這個方向,它的inner data是負的,所以你現在update你的參數的時候,你可能就會傷害到過去第一個task的performance。

link |

09:44.060

那為了不要傷害到第一個task的performance,你就稍微轉一下這個G的方向,你就稍微轉一下,把G轉到Gπ的方向,這個轉方向的條件是希望轉完這個方向以後,這個新的方向Gπ跟G1的inner data跟G2的inner data至少都要大於等於零,

link |

10:06.780

可以確保說我們往Gπ這個方向做update你的參數的時候,不會傷害到G1跟G2,搞不好還可以讓你過去的task的loss變得更小,或至少不要傷害到過去的task,至少不要讓過去的task的loss變大,搞不好還可以讓過去的task的loss變小。

link |

10:24.540

但同時因為我們也不能讓現在的這個task變差,所以我們希望說Gπ跟G的距離應該要越近越好。然後在這些constraint之下,你就解一個optimization problem,找出一個最好的Gπ,它跟G的距離是最近的,同時跟G1跟G2做inner data以後是正的,

link |

10:43.060

然後你今天update參數的時候,不是順著native gradient的方向去update,而是順著這個新算出來的這個新的參數update的方向去update。講到這邊,大家有問題要問嗎?

link |

10:56.100

對,這邊就是你每次update參數的時候,你都要算一下G1跟G2這樣,其實這樣G1跟G2是現場算出來的,對不對,因為你在算task1跟task2的時候,你並不知道你之後的model的參數是在哪個地方。

link |

11:23.860

就今天這個model是會一直變化的嘛,那你今天要算gradient是跟這個model其實也是有關係的,所以變成G1跟G2是每次你要update參數的時候,你都要回頭去把G1跟G2都算出來。

link |

11:39.780

所以這就是為什麼你必須要存一些過去的data,你才能夠算G1跟G2,所以這個方法是需要存一些過去的data,所以跟其他方法比也是有一點不公平的。

link |

11:49.300

好,那今天大家還有問題要問嗎?

link |

11:54.020

我今天講的這些papers其實都是很新的東西,所以有很多東西都是還沒有人嘗試過,像你剛才講的其實就是一個很好的想法,今天居然要產生data,要存一些data不太公平,那能不能夠自己升級data。

link |

12:19.780

這邊我放的一些reference都是很新的,比如說2017年、2018年的papers。

link |

12:27.540

好,那大家還有問題嗎?

link |

12:31.140

對,就GEM,這個是比較舊啦,是2017年的papers,後來有一個新改進的版本叫AGEM,它應該是在今年的,它會發表在今年的IKEA,你要知道今年的IKEA,一般都還沒有開就是了。

link |

12:43.780

好,那這樣大家還有問題要問嗎?

link |

12:48.420

好,如果沒有的話,我們來看一下GEM的performance,它就很屌啊,它backward transfer居然是正的。

link |

12:57.220

我們來看一下它在anis的permutation這樣的test,就是說我們把anis的hocus的image拿出來做種種的擾動,一種擾動就叫做是一種test,然後就做了一大堆的test。

link |

13:11.300

我們就看左邊這個圖就好,那我們剛才說我們在做evaluate的時候,三種evaluation的measure,一個是所有的任務通通學完的時候,對每一個任務的正確率最高。

link |

13:24.580

它這邊比較是有把GEM跟EWC比,那這個single的意思就是說同一個model,然後把所有的task通通都學完,第一個學完第一個,再學第二個,然後沒有做任何其他的事情。

link |

13:41.940

然後independent是每一個task都獨立的去學一個model,然後multimodel這個有點難解釋,我們今天就不要解釋了,總之就是GEM它的正確率最高。

link |

13:53.780

然後如果你看backward transfer,就是它會不會遺忘過去的東西,它不只不遺忘過去的東西,居然全部的test做完以後,過去的任務做出來,正確率還稍微高了一點點,其他的方法,backward transfer都是負的,都會遺忘一些東西。

Life Long Learning (6/7)