Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

那怎麼解這個optimization的問題呢?就看看你要用什麼方法解都可以啊,看你知道什麼你可以解optimization問題的方法啊。假設今天啊,我們知道怎麼計算partial find、partial l.find,假設我們會計算這個gradient,那沒有問題,直接用gradient descent就結束了。

link |

22:47.000

但是有時候你會遇到一些問題就是,如果這一項是沒有辦法計算的呢?因為這個find,它可能是一些什麼network架構啊之類很複雜的東西,如果partial find、partial l.find,這個find對大L的gradient是無法計算的,那怎麼辦呢?

link |

23:05.000

那你記不記得我告訴你說,如果你在解一個optimization的problem的時候,如果你沒有辦法計算gradient,沒有辦法計算微分的時候怎麼辦呢?用reinforcement learning硬train下去就結束了。

link |

23:20.000

所以假設今天L.find沒有辦法對find做微分,那沒關係,也許你可以考慮用RL硬做,或者是也有人會用一些evolutionary的algorithm硬做,反正就是硬把這個optimization問題解開,你就得到一個learning的algorithm叫做find star了。

link |

23:40.000

好,那假設反正不管用什麼方法,我們現在把這個optimization的問題解開了,得到find star了,那就結束了,我們就讓機器自己找出來了一個learning的algorithm。

link |

23:53.000

這個learning的algorithm是一個被learn出來的learning的algorithm,它是一個被學出來的學習的演算法,我們叫它F下標find star。

link |

24:05.000

所以整個meta learning的framework是這個樣子,你收集了一大堆訓練資料,根據這些訓練資料,透過我們剛才講的三個步驟,你就學出來了一個學習的algorithm。

link |

24:20.000

這個學習的algorithm是學出來的,你有一個learn的learning algorithm,聽起來有點拗口,它是一個learn的learning algorithm,我們叫做F find star。

link |

24:30.000

接下來呢,你有測試的任務,假設訓練的時候,訓練的任務是教機器分蘋果跟橘子,教機器分腳踏車跟汽車,測試的時候是要分貓跟狗。

link |

24:41.000

那每一個任務裡面都有訓練資料,都有測試資料,那你就把測試任務裡面的訓練資料,這個有點拗口哦,它是測試任務裡面的訓練資料,

link |

24:55.000

你把測試任務裡面的訓練資料丟到這個學習的演算法裡面,讓它進行學習,學出一個classifier,然後呢,再把這個classifier用在測試任務裡面的測試資料上,然後你就可以得到你想要的結果。

link |

25:12.000

好,那測試的任務是我們真正關心、真正要解的、真正希望我們有好結果的任務,而訓練任務是跟測試任務無關的那些任務,這些訓練的任務它的目標是要來找出學習的演算法。

link |

25:30.000

那用這些訓練的任務找出學習的演算法以後,用在測試的任務上,希望會有好的結果。那像這一種啊,學習的演算法它厲害在哪裡呢?不知道大家有沒有聽過fusion learning,翻成中文通常是翻成那個小樣本學習啦,fusion learning,

link |

25:50.000

就是期待機器只看幾個example,每個類別都只給它三張圖片,它就可以學會做分類。那很多人聽到fusion learning往往會跟meta learning搞混在一起,就想說meta learning其實就是fusion learning。

link |

26:04.000

那其實它們兩者是有不太一樣的區別的,fusion learning比較像是我們期待機器達成的目標,就是只用一點點訓練資料就可以訓練出我們要的結果,而meta learning是學習如何學習這一件事情。

link |

26:19.000

但是為什麼大家會覺得fusion learning跟meta learning非常的像呢?那就是因為今天你想要達到fusion learning,你想要有一個什麼學習的演算法,它只要看到一點點的資料就可以學起來,往往不是人類可以想得出來的學習演算法。

link |

26:34.000

所以那些fusion learning的algorithm通常就是用meta learning得到的,所以大家往往會覺得說fusion learning幾乎就等同於是meta learning,不過兩者還是有微妙的區別的。

link |

26:46.000

我們到這邊看一下同學們有沒有問題要問的。

link |

26:50.000

好,我看一下。好,這個建成說等於測試任務是不能碰的,對照一般ML的話,沒錯,對照一般ML的話,這個是你的訓練資料,這個是你的測試資料。

link |

27:11.000

不過我覺得在meta learning裡面,我們講這個訓練資料這句話的時候要非常的小心,這個很容易跟訓練任務裡面的訓練資料搞混。

link |

27:20.000

所以我們有一堆訓練任務,我們有一堆測試任務,訓練的任務拿來訓練,然後用在測試任務上。

link |

27:27.000

有個同學說每個任務的測試資料對於meta learning算是訓練資料,對,就是訓練任務裡面的訓練資料跟測試資料就是我們的訓練資料,但是在meta learning裡面我們要避免用訓練資料這個詞。

link |

27:51.000

很多paper在寫meta learning相關的事情的時候,他其實也就沒那麼講究,他就會告訴你說,哦,我用了一些training data,他就沒有講清楚說他的training data到底是指training task還是說testing task裡面的training data,這個就非常容易造成誤解。

link |

28:07.000

所以在這一堂課裡面,我們就說訓練的任務裡面有訓練資料跟測試資料,測試的任務裡面有訓練資料跟測試資料。就想成是training task跟testing task就好。

link |

28:24.000

對,對,對,就是要想成training task跟testing task。testing task的training data在meta learning裡面是不能碰的,對,testing task的training data是不能碰的。

link |

28:38.000

好,那個建成說fusion是目標,meta是手段,對,對,就是這個意思,那看起來大家的觀念都還蠻正確的。好,那接下來呢,呃,就先跟大家稍微比較一下machine learning跟meta learning的差異,然後呢,我們再休息10分鐘。

link |

29:02.000

好,我們來看一下machine learning跟meta learning的目標。machine learning的目標是要找一個function,我們這邊用小f來表示。這個function可能是一個classifier,擺張圖片丟進去,它就告訴你分類的結果。

link |

29:17.000

meta learning一樣是找一個function,但它要找的function我們這邊用大f來表示,我們要找一個大f,這個大f是一個可以找小f的大f,不知道大家聽不聽得懂我在說什麼。

link |

29:32.000

總之你有一個learning的algorithm叫做大f,這個大f持訓練資料作為輸入,它直接輸出訓練的結果,也就是一個classifier,希望這個classifier可以被拿來使用,希望這個classifier可以丟一張圖片進去,就輸出分類的結果。

link |

29:49.000

那訓練資料呢?在machine learning裡面,你是拿某一個任務裡面的訓練資料來進行訓練。在meta learning裡面,我們是拿訓練的任務來進行訓練,而每一個訓練任務裡面都有訓練資料跟測試資料。

link |

30:13.000

不過,因為訓練任務裡面有訓練資料跟測試資料,這個很容易搞混,所以你會發現很多文獻為了解套,怎麼解套呢?他們不把任務裡面的訓練資料跟測試資料叫做訓練資料跟測試資料。

link |

30:29.000

在文獻上常常有一個解套的方法是,把任務裡面的訓練資料叫做support set,把測試資料叫做query set,尤其是在一個叫做learning to compare那個系列的work裡面,更常使用support set跟query set這個詞彙。

link |

30:47.000

所以你看到有個paper說,他用support set做了什麼,再用query set怎樣怎樣怎樣,這個support set跟query set指的就是一個任務裡面的訓練資料跟測試資料。

link |

30:59.000

那在machine learning裡面呢,我們就是有一個handcrafted的learning algorithm,訓練資料丟進去,訓練結果也就是一個classifier跑出來。在meta learning裡面,我們是有一堆訓練的任務,我們要用這些訓練的任務找出一個learning的algorithm。

link |

31:21.000

那因為meta learning它所謂的訓練是involve一大堆任務的,所以在這一堂課裡面,我們把meta learning的learning叫做across-task learning,across-task training,它是跨任務的學習。

link |

31:39.000

我們把一般的machine learning的學習叫做within-task的training,因為如果我們講training的時候,你很容易誤解,不知道它是這樣子的training,任一個learning algorithm的training,還是有了learning algorithm以後找出某一個classifier的training。

link |

31:58.000

這兩個training是不一樣的,所以這個也是一個training的過程,這個也是一個training的過程,但為了區別這兩種training的過程,我們把根據一堆任務學出learning algorithm這件事叫做across-task的training,把只用一個任務裡面的訓練資料來學出一個classifier這件事叫做within-task的training。

link |

32:23.000

所以在machine learning裡面,完整的framework就是你有訓練資料,然後你把這些訓練資料拿去產生一個classifier,然後把testing的data丟到這個classifier裡面,你就得出classifier的結果。

link |

32:41.000

而在meta-learning裡面,你是有一堆訓練的任務,把這些訓練的任務拿來產生一個學出來的learning algorithm,叫做SEDA 5-star。

link |

32:53.000

接下來,你有一個測試的任務,測試的任務裡面有query set跟testing set,也就是suppose set跟query set,你把測試任務裡面的訓練資料丟到認出來的learning algorithm裡面,得到一個classifier,再把測試資料丟進去,然後得到分類的結果。

link |

33:14.000

我們把meta-learning裡面的這個測試叫做across-task的testing,因為它不是一般的testing,一般的machine learning,你的testing我們叫做within-task的testing,你就是把測試資料丟進去就結束了。

link |

33:32.000

那在meta-learning裡面,我們要測試的不是一個classifier表現的好壞,而是一個learning algorithm表現的好壞,所以在meta-learning裡面,我們的testing還包含了training。

link |

33:46.000

大家了解嗎?在meta-learning裡面,我們的testing還包含了within-task的training,所以為了要強調說meta-learning的testing不是一般的testing,我這邊叫做across-task的testing,跨任務的測試。

link |

34:01.000

在這個跨任務的測試裡面,在across-task的testing裡面,包含了within-task的training跟within-task的testing,所以今天在across-task的testing裡面,你有within-task的training加within-task的testing。

link |

34:18.000

那有時候呢,你在一些文件上會看到說,這整個流程,一次within-task的training加一次within-task的testing,這個流程合起來叫做一個episode。

link |

34:33.000

那Loss呢,那在machine learning裡面,我們有一個大寫的L of theta,那這個L是summation over所有的training data,但這個training data是來自於某一個任務。

link |

34:48.000

在meta learning裡面呢,我們是summation over,在meta learning裡面呢,這個小寫的L,它是summation over某一個任務裡面所有的測試資料,而這個summation呢,是summation over所有的任務。

link |

35:07.000

所以machine learning,你的大L是用一個任務算出來的,meta learning,你的大L是用一把任務,大N個任務算出來的。

link |

35:18.000

好,那接下來呢,我們來稍微講一下training的時候會發生什麼樣的狀況。

link |

35:24.000

在meta learning裡面呢,假設你training的時候需要算小L的N,因為一般我們在做training的時候,假設你今天要用gradient descent,那你通常會需要把你的Loss能夠求出來,你當然要能夠求出你的Loss。

link |

35:44.000

那你要能夠求出這個大L,我們就要能夠算每一個任務的小L。要算每一個任務的小L,其實沒有那麼容易,要算每一個任務的小L,你需要經過一次within task的training,一次within task的testing,也就是一個完整的episode,你才能夠算出一個小L。

link |

36:04.000

哦,所以這邊要算一個小L啊,這個運算量往往非常大,你光是要算一個任務的小L,然後把它通通加起來變成大L,你就要做一次完整的訓練,再做一次測試,你才能夠把這個小L把它給算出來。

link |

36:21.000

好,那假設我們今天這個optimization的algorithm裡面,你要找一個範例讓L的範例最小這件事情的時候,你需要算這個大L很多次的話,哇,那你的across task training裡面就要包含做within task training跟within task testing好多次,也就是你的across task training裡面就要包含很多個episode。

link |

36:46.000

那在文獻上啊,尤其是learning to initialize,也就是非常知名的memo那系列的work裡面,往往把across task training叫做outer loop,把within task training叫做inner loop,因為你在across task training裡面,你要跑好幾次within task training。

link |

37:05.000

所以across task training是outer loop,那within task training是inner loop。不過outer loop、inner loop這個稱呼啊,通常只有在learning to initialize那個系列的work上才會有啦,如果不是learning to initialize那個系列的work,通常也不會這樣叫。

link |

37:21.000

因為有時候你的learning的algorithm啊,它不見得是iterative,我們在做gradient descent的時候,那個learning的algorithm就是要反覆跑嘛,要iterative去跑嘛,所以它有很多loop,所以這邊叫outer loop跟inner loop。但有些learning的algorithm其實沒有loop,那這樣叫outer loop跟inner loop就有點怪啦,所以我這邊就叫做within task training跟across task training。

link |

37:42.000

但是在learning to initialize那個系列的文章裡面,within task training叫inner loop,across task training叫做outer loop。

link |

37:51.000

好,剛才講的都是meta learning跟machine learning的差別,那它們有沒有什麼一樣的地方呢?它們其實有蠻多一樣的地方的。

link |

38:03.000

事實上很多你在machine learning那邊學到的知識跟基本概念,都可以直接搬到meta learning來用。舉例來說,在machine learning上面,你會害怕overfeed在你的training data上,對不對?

link |

38:17.000

你會害怕說你在training data上做得很好,但是在testing data上做得不好。在meta learning裡面也有一樣的問題,你會害怕說你machine找了一個learning algorithm,

link |

38:29.000

但這個learning algorithm只有在training的task上做得好,來一個新的testing的task反而會做得不好,所以meta learning也有可能有overfeeding的問題。

link |

38:42.000

如果遇到overfeeding的問題怎麼辦呢?在machine learning裡面,你是不是最釜底抽薪的方法就是收集更多的訓練資料。

link |

38:51.000

在meta learning裡面也可以做一樣的事,你要meta learning真的做得好,那你就收集更多的訓練的任務。

link |

39:00.000

你如果訓練的任務越多,就代表你的training example越多,那你在這些training任務上學出來的learning algorithm就越有機會可以generalize用到新的任務上面。

link |

39:14.000

那我們在machine learning上會做data augmentation,你會用一些方法來增加在沒有增加太多額外負擔的情況下增加你的訓練資料。

link |

39:25.000

在meta learning裡面,你也可以做task augmentation,你也可以想一些方法來增加你的訓練的任務。

link |

39:35.000

那這邊有一個meta learning的問題,你知道在做meta learning的時候,我們還是要做optimization,你還是要想辦法去找一個fine可以讓L2的fine越小越好。

link |

39:50.000

但是假設你今天minimize L2 fine的方法一樣用的是gradient descent,難道那個gradient descent就不用調參數了嗎?

link |

40:00.000

假設你要learn learning rate,但是你learn learning rate的時候,你也要用gradient descent,你不是有另外一組learning rate要調嗎?

link |

40:07.000

對,你就是有另外一組learning rate要調,所以你在自己實做meta learning的時候,也是要爆調一波參數的,只是你爆調的不是每一個任務訓練的參數,而是learn learning algorithm的時候的參數。

link |

40:22.000

所以你有時候會覺得,哇,做meta learning好像是為了避免讓自己壓力更大反而壓力更大,為了避免禿頭然後讓自己壓力更大結果反而禿頭,所以做meta learning也是需要調參數的。

link |

40:36.000

但是meta learning期待做到的目標是,假設我們花了很多力氣爆調一波參數,找到一個好的learning algorithm以後,它可以用在任何新的任務上,以後在新的任務上就再也不用調參數了。

link |

40:50.000

一勞永逸,我們爆調一次參數,找出一個好的learning algorithm,這個好的learning algorithm就不必調參數了,可以用在任何新的任務上。

link |

40:59.000

好,那既然講到要調參數啊,那就遇到一個問題了,記不記得在做machine learning的時候,我們不是只有training set跟testing set,我們是有training set,有development set,有testing set。

link |

41:13.000

你用development set來選擇你的模型,對不對?你用development set來決定比如說你的network架構應該長什麼樣子。

link |

41:23.000

而meta learning,我們也有參數要調啊,那meta learning是不是應該要有development task呢?我認為meta learning應該要有development task。

link |

41:34.000

所以在meta learning裡面,你應該要有training task,要有development task來決定訓練那個learning algorithm的時候的一些hyperparameter,然後才跑在testing的task上面。

link |

41:47.000

不過如果你讀meta learning的文獻,你會發現說很多meta learning的文獻,它是沒有development task的,它是只有training task跟testing task,但是我認為meta learning應該要有development task。

link |

42:02.000

好,那我看看大家有沒有問題要問的。

link |

42:15.000

好,我看一下哦。有同學問說,這樣會不會無限遞回,學習如何學習如何學習之類的?

link |

42:24.000

對,就是有可能會有這個問題。這就是一個梗啦,就是現在有meta learning,以後就會有人去提meta、meta learning,還會有人在提meta、meta、meta learning,不知道什麼時候才會停止。

link |

42:41.000

什麼狀況,L of phi會沒辦法對phi做為分?

link |

42:45.000

取決於你的,有同學問說L of phi什麼時候沒辦法對phi做為分,取決於你的phi是什麼,對不對?就是假設你的phi是比如說learning rate,你要能夠做為分啊,你要那個東西,就是你拿phi去對L of phi做為分的時候,你要能夠計算當phi做小小變化的時候,L of phi會有什麼樣的影響。

link |

43:09.000

那假設你的phi它根本就是discrete的東西,它是離散的東西,比如說neural架構一層兩層三層,那它根本沒有辦法做小小的變化啊,你根本沒有辦法說從三層變到三點一層,看它會發生什麼事嘛。

link |

43:23.000

所以,如果你的phi是一些離散的東西,那你沒辦法做為分。

link |

43:28.000

哦,下面有同學回答說,phi包含神經元連結的資訊之類的。

link |

43:33.000

對,然後,對,有一個同學說,像meta learning裡面,ilga之類的都可以用。

link |

43:49.000

對,ilga之類的都可以用。

link |

43:52.000

development task是什麼?這個就是,你想想看,你在做meta learning的時候,你不是比如說你用gradient descent來解那個L of phi嗎?

link |

44:06.000

那gradient descent裡面不是也要調learning rate嗎?那你那個learning rate要怎麼決定?你是不是要試不同的learning rate?

link |

44:14.000

那你試不同的learning rate,有得到不同的learning algorithm以後,就我們現在的learning rate是要找learning algorithm的那個learning rate哦,我們試不同的learning rate得到一把learning algorithm以後,你怎麼知道哪一個是最好的呢?

link |

44:28.000

那你應該用development set來挑嘛,然後挑出development set最好的那個learning algorithm,然後才把它用在testing的task上面,對不對?

link |

44:41.000

這樣你才不會overfit到,你才不會等於是拿那個testing的task來調你的hyperparameter。

link |

44:47.000

好,希望這樣有回答到大家的問題。

link |

44:54.000

很多人不知道用development task這件事,大家其實也不必太訝異,我覺得這個一個新的技術在發展的過程中啊,本來就會有很多的磕磕絆絆。

link |

45:05.000

那今天不是所有的論文,你會發現很多meta論語的論文,它沒有development task,但是我相信在比如說十年後,大家都會知道應該要用development task。

link |

45:16.000

那就好像說,哎,我十年前其實修過林宣田老師的機器學習,其實我也沒有修,我沒簽,我其實你知道就是機器學習這種課都不是你想要修就可以修的嘛,我當時也沒簽到啦,我是旁聽而已啦。

link |

45:29.000

那那個時候林宣田老師就說,哎,不是每個人都知道要用development的data set,你讀了很多論文,有些論文就沒有用development data set,它就是train在training data上,直接用在testing data上,用testing data來調參數。

link |

45:41.000

那個林宣田老師就說這個是cheating,那我們要知道不要這麼做。

link |

45:47.000

那今天大家都知道說machine learning就是要切training set、development set跟testing set,那未來大家也都會知道說meta learning就是要切training task、development task跟testing task。

link |

45:59.000

好,希望這樣有回答到大家的問題。我們在這邊休息一下,十分鐘後回來,我們就是五點四十六分回來。

【機器學習2021】元學習 Meta Learning (一) - 元學習跟機器學習一樣也是三個步驟