Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

那現成pre-trained好的network,它的一次微分可能很小,可能是接近於0的,那我是不是應該要做二次微分?但是這邊有一件事要跟大家講的就是,你知道我們今天在做Attack的時候,我們改的是inputX,我們今天訓練完network,微分等於0是說,我們的參數θ,對我們的Loss的微分是0,但是X對Loss的微分不見得是0。

link |

06:17.840

你瞭解我的意思?所以你不見得會遇到這個X對你的Loss的微分很小這件事情。

link |

06:26.760

然後其實啊,有一件事情之前在講Adversal attack的時候是沒有講到的,你講確實有很多方法,他們為了避免Attack,他們的招數就是把一次微分設為0,就想辦法讓你在Train的時候多加一個Loss,是這樣一次微分設變成0,然後這樣你在做Adversal attack的時候不就Attack不到嗎?

link |

06:47.380

那其實要對付那種方法,你也不需要算二次微分,你其實用那個positive network就可以攻破那種方法,就是positive network,大家記得之前講Adversal attack的時候說,你可以用另外一個network去mimic原來的network,那你用另外一個network,他只要一次微分不是0,他就可以攻破原來那個network,所以這種把gradient藏起來這種方法是不見得非常有用的。

link |

07:11.360

所以之前就有一個人,他就propose一個Attack的方法,專門去針對這種gradient是0的方法,就把gradient藏起來的方法變成0,0的那種方法進行攻擊,然後他就說Iclear好像assign了九篇有可以防禦的方法,然後說那些方法都是垃圾,他就說他的方法可以攻破八片這樣子,然後其他人就很神奇。

link |

07:39.220

總之,B其實你有別的方法來做,反正你就是自己想,你可以完全propose一個自己的方法,看你覺得說要怎麼樣衡量一個參數,他到底對某一個任務是不是重要的,二次微分只是眾多其中一個可能而已。

link |

07:55.460

所以我們現在知道,如果你B1設得很小,B2設得很大,就是告訴network說,我們現在在訓練task2的時候,你可以動SETA1,你可以在這個方向上移動,但是你儘量不要在這個方向上移動,雖然在這個方向上移動可能可以讓你的loss變得更小,但是在這個方向上移動是不好的,你儘量不要在這個方向上移動。

link |

08:18.420

那你重新做訓練以後,那可能你就不會從SETA1跑到SETA2這邊,你可能會跑到這個地方,因為你只能夠動SETA1,SETA2儘量不要動,而跑到這邊,其實這個地方的loss可能這個地方的loss也差不了多少了,所以你可能最後收斂的結果就訓練,就是你的network最後就收斂在這個地方。

link |

08:38.660

然後回到task1,那你就會發現說loss沒有掉太多,代表說network其實並沒有遺忘它過去已經學會的技能。

link |

08:48.660

好,那這個就是EWC的概念,這個是最原始的EWC的那篇paper上面的實驗結果,它就說現在我們分別訓練task A、task B跟task C,這邊那三個task都是MNIST的,都是手寫數字編制,跟我剛才舉的那個例子是有點像的。

link |

09:09.860

它對這三種不同的task其實就是把MNIST的那個數字做不同的permutation,做不同的破壞,把那個pixel做一下random的shuffle,做不同的shuffle,就當作不同的task。

link |

09:24.580

好,那我們讓機器先學task A,然後接下來學task B的時候,這個第一個row的結果是task A的正確率的變化,那你就會發現說當機器開始學task B的時候,如果你是用一般的歸間descent,task A的正確率就開始下降,那學到task C的時候正確率又下降更多。

link |

09:49.220

如果你是用L2的regularization,那正確率其實不會下降太多,但是還是有點掉,那如果用EWC的話,你的正確率就幾乎不會掉。

link |

10:01.380

那如果在task B跟task C,你看一下這個L2的結果,你會發現說L2發生intransigence的現象,也就是說現在你的network在有apply L2的regularization的情況下,先讓它學task A,接下來再讓它學task B,然後看一下它在task B上的結果,你會發現說它撐不起來了。

link |

10:27.460

因為L2的regularization限制太大了,它學不會新的技能了,為了避免忘掉舊的技能,它反而學不會新的技能了。

link |

10:38.220

那在task C上也有同樣的狀況,先讓network已經學完了task A、task B,然後看看它在task C上的結果,你會發現說當你apply L2的regularization的時候,它學不起來了,它的正確率沒有辦法像其他的方法一樣高。

link |

10:54.100

代表說它為了記錄舊的事情,它變得很保守,它學不會新的技能了。

link |

11:00.700

那EWC有很多不同的變形,這邊就是列三個例子給大家的參考,所謂不同的變形就是剛才那個B,你用不同的方法來估測出那個B,就是不同的變形。