Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

link |

00:00.000

這段是想跟大家簡短的介紹一下Batch Normalization的技術。

link |

00:15.000

因為上課的內容想要配合作業的關係,所以我們會先把作業需要的,比如說Self-Tension就先講一講。

link |

00:24.000

我們在比較覺得進度有跟得上的時候,就講一些Training的Tips。

link |

00:30.000

所以這樣可能有點散亂了,就Training的Tips散佈在課程的各個地方。

link |

00:35.000

但Training的Tips這種東西,如果真的想講的話是永遠都講不完的,這個Tips實在是太多了,所以我們有空的時候就講一些Tips。

link |

00:44.000

我們這邊要講的是Batch Normalization。這個時候講Batch Normalization是最合適的,因為Batch Normalization在作業三是用得上的。

link |

00:53.000

而且作業三助教的程式裡面其實就有Batch Normalization。

link |

00:58.000

在做CNN的時候,今天做影像處理的時候,Batch Normalization往往可以帶來蠻大的幫助。

link |

01:05.000

所以我們正好準備要來做作業三了,所以我們來講一下Batch Normalization。

link |

01:10.000

這邊是一個很快的介紹Batch Normalization這個技術。

link |

01:15.000

那你記得我們之前才講過說,我們能不能夠直接改Aero Surface的Landscape。

link |

01:25.000

我們覺得Aero Surface如果很崎嶇的時候,它比較難Train。

link |

01:30.000

那我們能不能夠直接把三產品讓它變得比較好Train呢?

link |

01:36.000

Batch Normalization就是其中一個把三產品的想法。

link |

01:42.000

那我記得我們在講Optimization的時候,我們一開始就跟大家講說,不要小看Optimization這個問題。

link |

01:51.000

有時候就算你的Aero Surface是Convex的,也就是它就是一個腕的形狀,都不見得很好Train。

link |

01:58.000

那我們舉的例子就是,假設你的兩個參數,它們對Loss的斜率差別非常大。

link |

02:06.000

在W1這個方向上面,你的斜率變化很小,在W2這個方向上面,斜率變化很大。

link |

02:12.000

你今天如果是固定的Learning Rate,你可能很難得到好的結果。

link |

02:18.000

所以我們才說,你需要Adaptive的Learning Rate,你需要用Add-On等等比較進階的Optimization的方法,才能夠得到好的結果。

link |

02:30.000

那現在我們要從另外一個方向想,直接把難做的Aero Surface把它改掉,看能不能夠改得好做一點。

link |

02:40.000

那在做這件事之前,也許我們第一個要問的問題就是,有這種狀況,W1跟W2它們的斜率差很多的這種狀況,到底是從什麼地方來的?

link |

02:54.000

那我們這邊就是舉一個例子,假設我現在有一個非常簡單的Model,它的輸入是X1跟X2。

link |

03:04.000

X1跟X2它對應的參數就是W1跟W2,它是一個Linear的Model,沒有Activation Function。

link |

03:11.000

W1乘X1,W2乘X2,加上B以後就得到Y,會計算Y跟Y hat之間的差距,當作1。

link |

03:20.000

把所有Trending Data一加起來就是你的Loss,那你希望去Minimize你的Loss。

link |

03:27.000

那什麼樣的狀況,我們會產生像上面這樣子比較不好Trend的Aero Surface呢?

link |

03:33.000

我們來看一下這個W1,如果今天W1有改變的時候,它對Loss的變化,我們要怎麼看呢?

link |

03:44.000

當我們對W1有一個小小的改變,比如說加上Delta W1的時候,那這個L也會有一個改變。

link |

03:52.000

那這個W1是透過W1改變的時候,你就改變了Y,Y改變的時候你就改變了E,然後接下來就改變了L。

link |

04:02.000

所以當W1改變的時候,L就跟著改變。

link |

04:05.000

那什麼時候W1的改變會對L的影響很小呢?

link |

04:11.000

那什麼時候W1這邊的變化,它在Aero Surface上的斜率會很小呢?

link |

04:17.000

一個可能性是當你的Input很小的時候,假設X1的值都很小。

link |

04:24.000

假設X1的值在不同的Trending Example裡面,它的值都很小,那因為X1是直接乘上W1。

link |

04:32.000

如果X1的值都很小,W1有一個變化的時候,它對Y的影響也是小的,對E的影響也是小的,它對L的影響就會是小的。

link |

04:42.000

所以如果W1接的Input它的值都很小,那就會產生這邊的這樣的case,你在W1上面的變化對大L的影響是小的。

link |

04:52.000

反之呢,如果今天是X2的話,假設X2它的值都很大,當你的W2有一個小小的變化的時候,

link |

05:05.000

雖然W2這個變化可能很小,但是因為它乘上了X2,X2的值很大,那Y的變化就會很大,那E的變化就會很大,那L的變化就會很大。

link |

05:15.000

那就會導致我們在W這個方向上做變化的時候,我們把W改變一點點,那我們的Error Surface就會有很大的變化。

link |

05:24.000

所以你發現說,今天在這個Linear的Model裡面,當我們Input的Feature每一個Dimension的值,它的Scale差距很大的時候,

link |

05:34.000

我們就可能產生像這樣子的Error Surface,就可能產生不同方向,它的斜率非常不同的、它的坡度非常不同的Error Surface。

link |

05:44.000

所以怎麼辦呢?我們有沒有可能給不同的Dimension,Feature裡面不同的Dimension,讓它有同樣的數值的範圍?

link |

05:56.000

如果我們可以給不同的Dimension同樣的數值範圍的話,那我們可能就可以製造比較好的Error Surface,讓Training變得比較容易一點。

link |

06:07.000

那怎麼讓不同的Dimension有類似的、有接近的數值的範圍呢?其實有很多不同的方法。

link |

06:16.000

那這些不同的方法往往就合起來統稱為Feature Normalization。

link |

06:21.000

那我以下所講的方法只是Feature Normalization的一種可能性,它並不是Feature Normalization的全部。

link |

06:30.000

你可以怎麼做呢?你可以說,假設X1到XR是我們所有的訓練資料的Feature Vector。

link |

06:39.000

我們把所有訓練資料的Feature Vector通通都集合起來。

link |

06:44.000

那每一個Vector,X1裡面就有X上標1下標1,代表X1的第一個Element。

link |

06:50.000

X上標2下標1就代表X2的第一個Element,以此類推。

link |

06:55.000

那我們把同一個Dimension,不同筆資料,不同Feature Vector,同一個Dimension裡面的數值,把它取出來。

link |

07:06.000

然後去計算某一個Dimension的Mean。

link |

07:09.000

那我們現在計算的是第i一個Dimension,它的Mean就是ni。

link |

07:14.000

那我們計算第i一個Dimension的Standard Deviation,我們用σi來表示它。

link |

07:21.000

那接下來,我們就可以做一種Normalization。

link |

07:25.000

那這種Normalization其實叫做標準化,其實叫Standardization。

link |

07:29.000

不過我們這邊等一下就統稱Normalization就好了。

link |

07:32.000

那我們怎麼做Normalization呢?

link |

07:34.000

我們就是把這個X,把這邊的某一個數值,減掉這個Dimension算出來的Mean。

link |

07:42.000

再除掉這個Dimension算出來的Standard Deviation。

link |

07:46.000

減掉Mean,除掉Standard Deviation,得到新的數值,叫做XΔ。

link |

07:53.000

那得到新的數值以後,再把新的數值把它塞回去。

link |

07:57.000

我們等一下都用這個Δ來代表有被Normalize以後的數值。

link |

08:03.000

那做完Normalize以後有什麼好處呢?

link |

08:06.000

做完Normalize以後,這個Dimension上面的數值就會平均是0,然後它的Variance就會是1。

link |

08:15.000

所以這一排數值,它的分布網就都會在0上下。

link |

08:20.000

那你對每一個Dimension,每一個Dimension,每一個Dimension都做一樣的事情,都做一樣的Normalization,

link |

08:27.000

把它們變成Mean接近0,Variance是1,

link |

08:32.000

那你就會發現說所有的數值,所有feature不同Dimension的數值都在0上下。

link |

08:38.000

那你可能就可以製造一個比較好的Aerial Surface。

link |

08:42.000

所以像這樣子的Feature Normalization的方式,往往對你的Training有幫助。

link |

08:47.000

它可以讓你在做Gradient Descent的時候,你的Gradient Descent它的Loss收斂更快一點,

link |

08:53.000

可以讓你的Gradient Descent它的訓練更順利一點。

link |

08:57.000

這個是Feature Normalization。

link |

09:00.000

所以當然Deep Learning可以做Feature Normalization,你可能會把Feature做Normalize以後,

link |

09:04.000

其實在助教的Code裡面,我們都有對Feature做Normalization。

link |

09:09.000

那當你得到X tilde以後呢,這個是X tilde代表Normalize的Feature以後呢,

link |

09:14.000

把它丟到Deep Neural裡面去做接下來的計算,去做接下來的訓練。

link |

09:20.000

所以你把X1 tilde通過第一個Layer得到Z1,

link |

09:25.000

那你有可能通過Activation Function,不管是選Signal或Relu都可以,

link |

09:30.000

然後再得到A1,然後再通過下一層等等,那就看你有幾層Neural就做多少的運算。

link |

09:36.000

每一個X都做類似的事情。

link |

09:39.000

但是如果我們進一步來想的話,對W2來說,

link |

09:44.000

這邊的A1 A3,這邊的Z1 Z3,其實也是另外一種Input。

link |

09:51.000

如果這邊X tilde,雖然它已經做Normalize,但是通過W1以後它就沒有做Normalize啦,

link |

09:59.000

如果X tilde通過W1得到Z1,而Z1的不同的Dimension間,

link |

10:04.000

它的數值的分布仍然有很大的差異的話,

link |

10:07.000

那我們要Tread W2第二層的參數會不會也有困難呢?

link |

10:13.000

所以這樣想起來,我們也應該要對這邊的A或對這邊的Z做Feature Normalization。

link |

10:22.000

對W2來說,這邊的A或這邊的Z其實也是一種Feature,

link |

10:26.000

我們應該要對這些Feature也做Normalization。

link |

10:30.000

但這邊有人就會問一個問題,應該要在Activation Function之前做Normalization,

link |

10:37.000

還是要在Activation Function之後做Normalization呢?

link |

10:42.000

在實作上這兩件事情其實差異不大,

link |

10:45.000

你可以自己在座位裡面試試看這兩件事情有沒有差異,

link |

10:48.000

它們的差異是不大的,

link |

10:50.000

所以你對Z做Feature Normalization或對A做Feature Normalization其實都可以啦。

link |

10:55.000

那如果你選擇的是Sigmoid,那可能比較推薦對Z做Feature Normalization,

link |

11:00.000

因為你知道Sigmoid是一個S的形狀嘛,

link |

11:04.000

那它在0附近斜率比較大,

link |

11:07.000

所以如果你對Z做Feature Normalization把所有的值都挪到0附近,

link |

11:11.000

那你到時候算Gradient的時候算出來的值會比較大。

link |

11:14.000

那不過因為你不見得是選Sigmoid嘛,

link |

11:16.000

所以你也不一定要把Feature Normalization放在Z這個地方,

link |

11:20.000

若是選別的,也許你選A也會有好的結果,也說不定。

link |

11:25.000

總之,in general而言,

link |

11:28.000

這個Normalization要放在Activation Function之前或之後都是可以的,

link |

11:32.000

在實作上可能沒有太大的差別。

link |

11:36.000

好,那我們這邊就是對Z做一下Feature Normalization。

link |

11:42.000

那怎麼對Z做Feature Normalization呢?

link |

11:46.000

那你就把Z想成是另外一種Feature嘛,

link |

11:49.000

我們這邊有Z1、Z2、Z3,

link |

11:52.000

我們就把Z1、Z2、Z3拿出來算一下它的mean。

link |

11:56.000

怎麼算mean呢?

link |

11:57.000

這邊的μ它是一個vector,

link |

11:59.000

我們就把Z1、Z2、Z3這三個vector呢,

link |

12:02.000

把它平均起來得到μ這個vector。

link |

12:05.000

那我們也算一個Standard Deviation,

link |

12:07.000

這個Standard Deviation這邊這個σ代表了一個vector,

link |

12:11.000

那這個vector怎麼算出來呢?

link |

12:13.000

你就把Zi減掉μ,然後取平方。

link |

12:16.000

這邊的平方這個notation有點abuse,

link |

12:19.000

這邊的平方就是指對每一個element都去做平方,

link |

12:23.000

然後再開根號,這邊開根號指的是對每一個element,

link |

12:27.000

向量裡面的每一個element都去做開根號,得到σ。

link |

12:31.000

反正你知道我的意思就好,

link |

12:32.000

就把這三個vector裡面的每一個dimension,

link |

12:35.000

都去把它的μ算出來,把它的σ算出來。

link |

12:40.000

好,我這邊就不把那些箭頭畫出來了,

link |

12:43.000

從Z1、Z2、Z3,算出μ、算出σ。

link |

12:47.000

好,接下來呢,你就把這邊的每一個Z啊,

link |

12:50.000

都去減掉μ除以σ。

link |

12:52.000

你把Zi減掉μ除以σ,就得到Zi的θ。

link |

12:57.000

那這邊的μ跟σ它都是向量啦,

link |

13:00.000

所以這邊這個除呢,它的notation有點abuse,

link |

13:03.000

我這邊的除的這個意思是說,

link |

13:06.000

Element wise的相除,就是Zi減μ,它是一個向量。

link |

13:10.000

所以分子的地方是一個向量,分母的地方也是一個向量。

link |

13:13.000

把這個兩個向量,它們對應的element的值相除,

link |

13:17.000

是我這邊這個除號的意思,這邊得到Z的θ。

link |

13:22.000

好,所以我們就是把Z1減μ除以σ,得到Z1θ。

link |

13:27.000

同理,Z2減μ除以σ,得到Z2θ。

link |

13:31.000

Z3減μ除以σ,得到Z3θ。

link |

13:34.000

那就把這個Z1、Z2、Z3做feature normalization,

link |

13:38.000

變成Z1θ、Z2θ跟Z3θ。

link |

13:43.000

好,那接下來呢,要做什麼,

link |

13:46.000

接下來就看你愛做什麼就做什麼啦,

link |

13:48.000

通過activation function得到其他vector,

link |

13:51.000

然後再去通過其他layer等等,這樣就可以了。

link |

13:55.000

這樣你就等於對Z1、Z2、Z3做了feature normalization,

link |

13:59.000

變成Z1θ、Z2θ、Z3θ。

link |

14:03.000

但這邊有一件有趣的事情,這件事情是這樣子的。

link |

14:07.000

這邊的μ跟σ,他們其實都是根據Z1、Z2、Z3算出來的。

link |

14:14.000

所以這邊Z1啊,它本來如果我們沒有做feature normalization的時候,

link |

14:21.000

你改變了Z1的值,你會改變這邊A的值。

link |

14:27.000

但是現在啊,當你改變Z1的值的時候,μ跟σ也會跟著改變。

link |

14:35.000

μ跟σ改變以後,Z2的值、A2的值、Z3的值、A3的值也會跟著改變。

link |

14:44.000

所以之前啊,我們每一個X1θ、X2θ、X3θ,它是獨立分開處理的。

link |

14:50.000

但是我們在做feature normalization以後,

link |

14:54.000

這三個example,他們變得彼此關聯了。

link |

14:58.000

我們這邊Z1只要有改變,接下來Z2、A2、Z3、A3也都會跟著改變。

link |

15:07.000

所以這邊啊,其實你要把當你有做feature normalization的時候,

link |

15:12.000

你要把這一整個process,就是有收集一堆feature,

link |

15:18.000

把這堆feature算出μ跟σ這件事情,當作是network的一部分。

link |

15:25.000

也就是說你現在有一個比較大的network,

link |

15:28.000

你之前的network都只吃一個input得到一個output。

link |

15:32.000

現在呢,你有一個比較大的network,

link |

15:35.000

這個大的network它是吃一堆input,

link |

15:38.000

用這堆input在這個network裡面要算出μ跟σ,

link |

15:42.000

然後接下來產生一堆output。

link |

15:45.000

那這個地方比較抽象,不知道大家有沒有,

link |

15:48.000

希望希望你聽得懂,如果你覺得有困惑的話,

link |

15:51.000

你可以等一下詢問或者是在討論板上發問。

link |

15:54.000

那這一段呢,我覺得只可繪衣不可言傳這樣子,

link |

15:58.000

不知道你聽不聽得懂這一段的意思。

link |

16:01.000

現在不是一個network處理一個example,

link |

16:04.000

而是有一個巨大的network它處理一把example,

link |

16:07.000

用這把example還要算個μ跟σ得到一把output。

link |

16:11.000

那這邊就會有一個問題了,

link |

16:13.000

因為你的訓練資料裡面你的data非常多啊,

link |

16:17.000

現在一個data set的benchmark topper都上百萬筆資料啊,

link |

16:21.000

你哪有辦法一次把上百萬筆資料丟到一個network裡面,

link |

16:25.000

你這個GPU的memory根本無法,

link |

16:28.000

這個沒電了,換一個,

link |

16:33.000

好,麥克風沒電了,

link |

16:37.000

好,那你那個GPU的memory根本沒有辦法把整個data set的data都漏進去啊,

link |

16:44.000

所以怎麼辦?在實作的時候,

link |

16:47.000

你不會讓這個network考慮整個training data裡面的所有example,

link |

16:53.000

你只會考慮一個batch裡面的example,

link |

16:56.000

舉例來說你batch設64,

link |

16:58.000

那你這個巨大的network就是把64筆data讀進去,

link |

17:02.000

算這64筆data的μ,算這64筆data的σ,

link |

17:06.000

對這64筆data都去做normalization,

link |

17:11.000

因為我們在實作的時候,

link |

17:12.000

我們只對一個batch裡面的data做normalization,

link |

17:16.000

所以這招叫做batch normalization,

link |

17:20.000

這個就是你常常聽到的batch normalization,

link |

17:24.000

那這個batch normalization顯然有一個問題,

link |

17:26.000

就是你一定要有一個夠大的batch,

link |

17:29.000

你才算得出μ跟σ,

link |

17:31.000

假設你今天你batch設1,

link |

17:33.000

那你就沒有什麼μ或σ可以算,

link |

17:35.000

你就會有問題,

link |

17:36.000

所以這個batch normalization是適用於batch size比較大的時候,

link |

17:41.000

那我們因為batch size如果比較大,

link |

17:43.000

也許這個batch size裡面的data就足以表示

link |

17:46.000

整個Corpus的分布,

link |

17:48.000

那這個時候你就可以把這個

link |

17:51.000

本來要對整個Corpus做feature normalization這件事情,

link |

17:54.000

改成只在一個batch做feature normalization,

link |

17:58.000

作為approximation。

link |

18:02.000

好,那在做batch normalization的時候,

link |

18:04.000

往往還會有這樣的設計,

link |

18:06.000

你算出這個θ以後,

link |

18:09.000

接下來你會把這個θ再乘上另外一個向量叫做γ,

link |

18:15.000

這個γ也是一個向量,

link |

18:17.000

所以你是把θ跟γ做element wise的相乘,

link |

18:21.000

把θ這個向量裡面的element,

link |

18:23.000

跟γ這個向量裡面的element,

link |

18:25.000

兩兩做相乘,

link |

18:26.000

再加上β這個向量,

link |

18:28.000

得到Z hat。

link |

18:30.000

而β跟γ你要把它想成是network的參數,

link |

18:34.000

它是另外再被認出來的。

link |

18:37.000

那為什麼要加上β跟γ呢?

link |

18:40.000

那是因為有人可能會覺得說,

link |

18:42.000

如果我們做normalization以後,

link |

18:44.000

那這邊的Zθ它的平均就一定是0,

link |

18:48.000

那也許今天如果平均是0的話,

link |

18:51.000

就是給network一些限制嘛,

link |

18:53.000

那也許這個限制會帶來什麼負面的影響,

link |

18:56.000

所以我們把β跟γ加回去,

link |

18:58.000

然後讓network現在它的hidden layer的output不需要平均是0,

link |

19:04.000

如果它想要不平均不是0的話,

link |

19:07.000

它就自己去認β跟γ,

link |

19:09.000

來調整一下輸出的分布,

link |

19:11.000

來調整Z hat的分布。

link |

19:13.000

但講到這邊又會有人問說,

link |

19:15.000

剛才不是說做batch normalization,

link |

19:17.000

就是為了要讓每一個不同的dimension,

link |

19:20.000

它的range都是一樣,

link |

19:22.000

我們才做這個normalization嗎?

link |

19:24.000

現在如果加去乘上γ再加上β,

link |

19:27.000

把γ跟β加進去,

link |

19:29.000

這樣不會不同dimension的分布,

link |

19:31.000

它的range又都不一樣了嗎?

link |

19:33.000

有可能,但是實際上你在做的時候,

link |

19:36.000

實際上在訓練的時候,

link |

19:38.000

γ跟β的初始值,

link |

19:40.000

你會把γ的初始值都設為1,

link |

19:43.000

所以γ是一個裡面的值,

link |

19:45.000

一開始是一個裡面的值全部都是1的向量,

link |

19:47.000

那β是一個裡面的值全部都是0的向量,

link |

19:50.000

所以γ是一個1 vector都是1的向量,

link |

19:53.000

β是一個0 vector裡面的值都是0的向量,

link |

19:56.000

所以讓你的network在一開始訓練的時候,

link |

19:58.000

每一個dimension的分布是比較接近的,

link |

20:01.000

也許訓練到後來,

link |

20:03.000

你已經訓練夠長的一段時間,

link |

20:05.000

已經找到一個比較好的,

link |

20:07.000

Aerosurface走到一個比較好的地方以後,

link |

20:09.000

那再把γ跟β慢慢地加進去,

link |

20:12.000

所以加Batch Normalization,

link |

20:14.000

往往對你的訓練是有幫助的。

link |

20:17.000

接下來就要講testing的部分了,

link |

20:21.000

剛才講的都是training的部分,

link |

20:23.000

還沒有講到testing的部分。

link |

20:25.000

Testing有時候又叫inference,

link |

20:27.000

所以有時候在文件上看到有人說,

link |

20:29.000

做個inference,inference指的就是testing。

link |

20:33.000

這個Batch Normalization在inference或是testing的時候,

link |

20:36.000

會有問題啊,會有什麼樣的問題呢?

link |

20:39.000

在testing的時候,當然如果今天你是在做作業,

link |

20:44.000

我們一次會把所有的testing的資料給你,

link |

20:46.000

所以你確實也可以在testing的資料上面,

link |

20:49.000

製造一個一個Batch。

link |

20:51.000

但是假設你真的有系統上線,

link |

20:53.000

你是一個真正的線上的application,

link |

20:56.000

你可以說我今天一定要等30,

link |

20:59.000

比如說你的batch size是64,

link |

21:00.000

我一定要等64筆資料都進來,

link |

21:02.000

我才一次做運算嗎?

link |

21:04.000

這顯然是不行的,對不對?

link |

21:05.000

如果你是一個線上的服務,

link |

21:07.000

一筆資料進來,你就要每次都做運算,

link |

21:10.000

你不能等說我累積了一個batch的資料,

link |

21:13.000

才開始做運算。

link |

21:15.000

但是在做Batch Normalization的時候,

link |

21:17.000

我們今天一個x tilde,

link |

21:20.000

一個normalize過的feature進來,

link |

21:22.000

然後你有一個z,

link |

21:23.000

你的z要減掉μ跟除σ,

link |

21:26.000

那這個μ跟σ是用一個batch的資料算出來的,

link |

21:29.000

但如果今天在testing的時候根本就沒有batch,

link |

21:32.000

那我們要怎麼算這個μ跟怎麼算這個σ呢?

link |

21:38.000

所以實作上的解法是這個樣子的,

link |

21:42.000

如果你看那個PyTorch的話,

link |

21:44.000

Batch Normalization在testing的時候,

link |

21:46.000

你並不需要做什麼特別的處理,

link |

21:48.000

PyTorch幫你處理好了,

link |

21:49.000

PyTorch是怎麼處理這件事的呢?

link |

21:51.000

他說在training的時候,

link |

21:53.000

如果你有在做Batch Normalization的話,

link |

21:55.000

在training的時候,

link |

21:57.000

你每一個batch計算出來的μ跟σ,

link |

22:00.000

他都會拿出來算moving average,

link |

22:04.000

什麼意思呢?

link |

22:05.000

你每一次取一個batch出來的時候,

link |

22:07.000

你就會算一個μ1,

link |

22:08.000

取第二個batch出來的時候,

link |

22:09.000

你就算一個μ2,

link |

22:10.000

一直到取第一個batch出來的時候,

link |

22:12.000

你就算一個μt,

link |

22:13.000

接下來你會算一個moving average,

link |

22:15.000

也就是你會把你現在算出來的μ的一個平均值,

link |

22:20.000

叫做μbar乘上某一個factor,

link |

22:22.000

那這個也是一個constant,

link |

22:24.000

這也是一個hyperparameter,

link |

22:26.000

也是需要調的那一種啦,

link |

22:28.000

那在PyTorch裡面,

link |

22:29.000

我沒記錯他就是0.1,

link |

22:31.000

我加b就是0.1,

link |

22:33.000

然後加上1-p乘上μt,

link |

22:36.000

然後來更新你的μ的平均值,

link |

22:38.000

然後最後在testing的時候,

link |

22:40.000

你就不用算batch裡面的μ跟σ了,

link |

22:43.000

因為testing的時候,

link |

22:44.000

在真正的application上,

link |

22:46.000

也沒有batch這個東西,

link |

22:47.000

你就直接拿μbar跟σbar,

link |

22:50.000

也就是μ跟σbar在訓練的時候,

link |

22:52.000

得到的moving average,

link |

22:53.000

μbar跟σbar,

link |

22:55.000

來取代這邊的μ跟σbar,

link |

22:57.000

這個就是batch normalization,

link |

22:59.000

在testing的時候的運作方式。

link |

23:02.000

好,那這個是從batch normalization,

link |

23:04.000

原始的文獻上面,

link |

23:05.000

截出來的一個實驗結果,

link |

23:08.000

那在原始的文獻上,

link |

23:09.000

還講了很多其他的東西,

link |

23:10.000

舉例來說,

link |

23:11.000

我們今天還沒有講的是,

link |

23:13.000

batch normalization用在CNN上,

link |

23:16.000

要怎麼用呢?

link |

23:17.000

那你自己去讀一下原始的文獻,

link |

23:19.000

你會告訴你說batch normalization,

link |

23:21.000

如果用在CNN上,

link |

23:23.000

應該要長什麼樣子。

link |

23:25.000

好,那這個是原始文獻上面,

link |

23:26.000

截出來的一個數據,

link |

23:28.000

那這個橫軸呢,

link |

23:29.000

代表的是訓練的過程,

link |

23:31.000

縱軸呢,

link |

23:32.000

代表的是validation state上面的accuracy,

link |

23:37.000

那這個黑色的虛線,

link |

23:39.000

是沒有做batch normalization的結果,

link |

23:43.000

他用的是inception的network,

link |

23:45.000

就是某一種network架構,

link |

23:47.000

也是以CNN為基礎的network架構,

link |

23:49.000

總之黑色的這個虛線,

link |

23:51.000

代表沒有做batch normalization的結果,

link |

23:54.000

然後如果有做batch normalization,

link |

23:56.000

你會得到紅色的這一條虛線,

link |

24:00.000

那你會發現說,

link |

24:01.000

紅色這一條虛線,

link |

24:03.000

他訓練的速度,

link |

24:04.000

顯然比黑色的虛線還要快很多,

link |

24:07.000

雖然最後收斂的結果,

link |

24:08.000

就是你只要給他足夠的訓練的時間,

link |

24:11.000

可能都跑到差不多的accuracy,

link |

24:14.000

但是紅色這一條虛線,

link |

24:16.000

可以在比較短的時間內,

link |

24:19.000

就跑到一樣的accuracy,

link |

24:21.000

那這邊這個藍色的菱形,

link |

24:23.000

代表說這幾個點的accuracy是一樣的啦,

link |

24:26.000

那紅色的大概在一半以內的時間,

link |

24:29.000

相較於沒有做batch normalization,

link |

24:31.000

只需要一半或甚至更少的時間,

link |

24:33.000

就跑到同樣的正確率了,

link |

24:35.000

那這邊還有別的線啦,

link |

24:37.000

這邊有一個粉紅色的線,

link |

24:39.000

粉紅色的線是什麼呢?

link |

24:41.000

粉紅色的線是sigmoid function,

link |

24:43.000

就是sigmoid function一般的認知,

link |

24:45.000

我們雖然還沒有討論這件事啦,

link |

24:47.000

但一般都會選擇relook,

link |

24:49.000

我們是用sigmoid function,

link |

24:50.000

因為sigmoid function他的training是比較困難的,

link |

24:52.000

但是這邊想要強調的點是說,

link |

24:54.000

就算是sigmoid比較難搞的,

link |

24:57.000

加batch normalization,

link |

24:59.000

還是train得起來,

link |

25:00.000

那這邊沒有,

link |

25:01.000

sigmoid沒有做batch normalization的結果,

link |

25:03.000

因為在這個實驗上,

link |

25:05.000

作者有說,

link |

25:06.000

sigmoid不加batch normalization,

link |

25:07.000

根本連train都train不起來,

link |

25:09.000

那這邊還有這個藍色的實線,

link |

25:11.000

藍色的實線跟這個藍色的虛線呢,

link |

25:14.000

是把learning rate設比較大一點,

link |

25:16.000

乘5就是learning rate變原來的5倍,

link |

25:18.000

然後乘30就是learning rate變原來的30倍,

link |

25:22.000

那因為如果你做batch normalization的話,

link |

25:25.000

那你的error surface會比較平滑,

link |

25:28.000

比較容易訓練,

link |

25:29.000

所以你可以把你的,

link |

25:30.000

比較不崎嶇,

link |

25:31.000

所以你就可以把你的learning rate設大一點,

link |

25:34.000

那這邊有個不好解釋的奇怪的地方就是,

link |

25:37.000

不知道為什麼learning rate設30倍的時候,

link |

25:39.000

是比5倍差啦,

link |

25:40.000

那作者也沒有解釋啦,

link |

25:41.000

你只要做deep learning就是,

link |

25:43.000

有時候會產生這種怪怪的,

link |

25:44.000

不知道怎麼解釋的現象就是了,

link |

25:46.000

不過作者就是照實,

link |

25:47.000

把它做出來的實驗結果,

link |

25:49.000

呈現在這個圖上面。

link |

25:52.000

好,接下來的問題就是,

link |

25:54.000

batch normalization,

link |

25:55.000

它為什麼會有幫助呢?

link |

25:57.000

在原始的batch normalization那篇paper裡面,

link |

26:01.000

它提出來一個概念叫做,

link |

26:03.000

internal covariate shift,

link |

26:06.000

covariate shift這個詞彙是原來就有的,

link |

26:09.000

internal covariate shift我認為是,

link |

26:12.000

batch normalization的作者自己發明的,

link |

26:15.000

他認為說今天在train network的時候,

link |

26:18.000

會有以下這個問題,

link |

26:19.000

這個問題是這樣,

link |

26:21.000

network有很多層,

link |

26:22.000

x通過第一層以後得到a,

link |

26:24.000

a通過第二層以後得到b,

link |

26:27.000

那我們今天計算出gradient以後,

link |

26:29.000

把aupdate成a',

link |

26:31.000

把b這一層的參數update成b',

link |

26:34.000

但是作者認為說,

link |

26:36.000

現在我們在把bupdate到b'的時候,

link |

26:40.000

那我們在計算bupdate到b'的gradient的時候,

link |

26:44.000

這個時候前一層的參數是a,

link |

26:46.000

或者是前一層的output是a,

link |

26:49.000

那當前一層從a變成a'的時候,

link |

26:52.000

它的output就從a變成a',

link |

26:54.000

但是我們計算這個gradient的時候,

link |

26:56.000

我們是根據這個a算出來的,

link |

26:58.000

所以這個update的方向,

link |

27:00.000

也許它適合用在a上,

link |

27:02.000

但不適合用在a'上面,

link |

27:05.000

那如果做batch normalization的話,

link |

27:07.000

因為我們每次都有做normalization,

link |

27:09.000

我們就會讓a跟a'的分佈比較接近,

link |

27:13.000

也許這樣就會對訓練有幫助,

link |

27:16.000

但是有一篇paper叫做

link |

27:18.000

How does batch normalization help optimization?

link |

27:20.000

它就打臉了internal covariance shift的觀點,

link |

27:24.000

在這篇paper裡面,

link |

27:25.000

它從各式各樣的面向來告訴你說,

link |

27:28.000

internal covariance shift,

link |

27:31.000

首先它不一定是training network時候的一個問題,

link |

27:35.000

然後batch normalization它會比較好,

link |

27:37.000

可能不見得是因為它解決了internal covariance shift,

link |

27:42.000

那在這篇paper裡面,

link |

27:43.000

它做了很多很多的實驗,

link |

27:45.000

比如說它比較了訓練的時候,

link |

27:48.000

這個a的分佈的變化發現,

link |

27:51.000

不管有沒有做batch normalization,

link |

27:53.000

它的變化都不大,

link |

27:55.000

然後它又說就算是變化很大,

link |

27:58.000

對training也沒有太大的傷害,

link |

28:01.000

然後它又說,

link |

28:03.000

不管你是根據a算出來的規定,

link |

28:05.000

還是根據a'算出來的規定,

link |

28:07.000

方向居然都差不多,

link |

28:08.000

所以它告訴你說internal covariance shift,

link |

28:11.000

可能不是training network的時候最主要的問題,

link |

28:13.000

它可能也不是batch normalization會好的一個關鍵,

link |

28:17.000

那有關更多的實驗,

link |

28:19.000

你就自己參見這篇文章。

link |

28:22.000

好,那為什麼batch normalization會比較好呢?

link |

28:27.000

在這篇How does batch normalization help optimization這篇論文裡面,

link |

28:30.000

它從實驗上,也從理論上,

link |

28:33.000

至少支持了batch normalization可以改變error surface,

link |

28:38.000

讓error surface比較不崎嶇這個觀點,

link |

28:41.000

所以這個觀點是有理論的支持,

link |

28:44.000

也有實驗的佐證的。

link |

28:47.000

那在這篇文章裡面,

link |

28:49.000

作者還講了一個非常有趣的話,

link |

28:51.000

他說他覺得batch normalization的positive impact,

link |

28:55.000

因為他說如果我們要讓network,

link |

28:57.000

這個error surface變得比較不崎嶇,

link |

29:00.000

其實不見得要做batch normalization,

link |

29:03.000

感覺有很多其他的方法都可以讓error surface變得不崎嶇,

link |

29:07.000

那他就試了一些其他的方法,

link |

29:09.000

發現說跟batch normalization performance差不多,

link |

29:12.000

甚至還稍微好一點,

link |

29:13.000

所以他就講了下面這句感嘆,

link |

29:15.000

他覺得說positive impact of batch norm on training,

link |

29:21.000

可能是somewhat serendipitous,

link |

29:25.000

怎麼是serendipitous呢?

link |

29:27.000

這個字眼可能可以翻譯成偶然的,

link |

29:30.000

但偶然並沒有完全表達這個詞彙的意思,

link |

29:33.000

這個詞彙的意思是說,

link |

29:35.000

你發現了一個什麼意料之外的東西,

link |

29:39.000

舉例來說,

link |

29:40.000

盤尼西林就是意料之外的發現,

link |

29:44.000

大家知道盤尼西林的由來就是,

link |

29:46.000

有一個人叫做佛萊明,

link |

29:48.000

他本來想要培養一些葡萄球菌,

link |

29:52.000

但是因為他實驗沒有做好,

link |

29:54.000

他的葡萄球菌被感染了,

link |

29:56.000

有一些黴菌掉到他的培養皿裡面,

link |

29:59.000

發現那些黴菌會殺死葡萄球菌,

link |

30:02.000

所以他就發現了盤尼西林,

link |

30:05.000

所以這是一種偶然的發現,

link |

30:08.000

這篇文章的作者也覺得batch normalization,

link |

30:11.000

也像是盤尼西林一樣是一種偶然的發現,

link |

30:15.000

但無論如何它是一個有用的方法,

link |

30:19.000

那其實batch normalization不是唯一的normalization,

link |

30:22.000

normalization的方法有一把啦,

link |

30:25.000

那這邊就是列了幾個比較知名的normalization,

link |

30:27.000

參考一下,

link |

30:29.000

那講到這邊,

link |

30:30.000

不知道有沒有同學有問題想要問的呢?

link |

30:34.000

線上有問題想要問的嗎?

link |

30:46.000

如果沒有的話,

link |

30:48.000

因為講到這邊剛好告一個段落,

link |

30:50.000

雖然這堂課比較短,

link |

30:51.000

但我們還是休息十分鐘,

link |

30:53.000

十分鐘後再回來。

【機器學習2021】類神經網路訓練不起來怎麼辦 (五)： 批次標準化 (Batch Normalization) 簡介

【機器學習2021】類神經網路訓練不起來怎麼辦 (五)：批次標準化 (Batch Normalization) 簡介