back to index

【機器學習2021】自督導式學習 (Self-supervised Learning) (一) – 芝麻街與進擊的巨人


link |
00:00.000
好,那我們就講下一個主題。我們接下來要講的主題呢,叫做Self-Supervised Learning。
link |
00:10.000
那在講Self-Supervised Learning之前呢,就不能不介紹一下芝麻街啊。
link |
00:16.000
為什麼呢?因為不知道為什麼Self-Supervised Learning的模型都是以芝麻街的人物命名的。
link |
00:23.000
我今天特別穿了芝麻街的T-shirt,給大家看一下。
link |
00:31.000
看不清楚的同學呢,或線上的同學呢,這個照片在這邊啦,是同一件。
link |
00:37.000
這個是我本人,然後這些角色就是芝麻街的角色。
link |
00:44.000
那這些芝麻街的角色,都是些什麼樣的模型呢?
link |
00:49.000
我們來看看他們的名字,在我們實際了解他們做的事情之前,先來認識他們的名字。
link |
00:56.000
這個紅色的怪物呢,叫做Elmo。
link |
01:00.000
Self-Supervised Learning裡面呢,有一個模型叫做Embeddings from Language Modelling,
link |
01:06.000
它是最早的Self-Supervised Learning的Model,它的縮寫就叫做Elmo。
link |
01:11.000
那有了Elmo以後呢,後來又有另外一個動物叫做Bert,這個是大家最耳熟能詳的Self-Supervised Model。
link |
01:20.000
Bert呢,它是Bidirectional Encoder Representation from Transformer的縮寫。
link |
01:27.000
Elmo跟Bert都是芝麻街的人物。
link |
01:31.000
有了兩個芝麻街的人物以後,Bert他最好的朋友就是這一隻。
link |
01:36.000
他是誰呢?他叫做Ernie。
link |
01:39.000
事實上有了Bert以後,馬上就出現了兩個不同的模型,都叫做Ernie。
link |
01:44.000
其中一個模型的縮寫是這樣啦,Enhanced Representation from Knowledge Integration,然後它的縮寫是Ernie。
link |
01:51.000
我就問說,現在縮寫這樣都可以了嗎?你根本就只是想要叫做Ernie而已啊。
link |
01:58.000
你可能以為這個已經很荒唐了,但是後來這一隻動物,它叫做大鳥,Big Bert。
link |
02:05.000
後來就有一個模型叫做Big Bert,Transformer from Longer Sequence。
link |
02:10.000
現在已經完全放棄要湊字了,已經完全要放棄湊出一樣的名字了,直接就把它叫做Big Bert就結束了。
link |
02:18.000
所以我們現在在這個Self-Supervised Learning的Model裡面,都有一堆芝麻街的人物。
link |
02:25.000
Cookie Monster還沒有人去湊他啦,就等著你來湊Cookie Monster就是了。
link |
02:30.000
講到Big Bert,又要提到進擊的巨人。我以下會提到進擊的巨人的劇情。
link |
02:39.000
我個人是覺得沒有雷,但是如果你怕被雷到的話,你就把眼睛閉起來,耳朵捂起來。
link |
02:47.000
接下來是要提一下進擊的巨人。為什麼要提到進擊的巨人呢?
link |
02:52.000
因為Big Bert是一個非常巨大的模型,有多大?它有340個million的參數。
link |
03:00.000
也許我直接給你一個340million的數字,你沒有什麼感覺,那我告訴你,作業4的模型有多大?
link |
03:06.000
作業4的模型它也是一個Transformer,它只有0.1個million而已。
link |
03:11.000
如果你覺得作業4的Baseline很大,它只有0.1個million。
link |
03:15.000
Big Bert是它的3000倍那麼大,所以它確實是一個非常巨大的模型。
link |
03:22.000
所以當我們想到Big Bert的時候,我們就想到超巨大的巨人,一腳可以踢破瑪利昂之牆的那種超巨大的巨人。
link |
03:31.000
但是我有一個發現,我發現超巨大巨人的控制者是誰你們知道嗎?
link |
03:38.000
是貝爾托特對不對?貝爾托特的名字裡面是有Bert的,這個絕對不是巧合,我相信這絕對不是巧合。
link |
03:48.000
那你可能會覺得很困惑的就是,貝爾托特他出現的時間應該在Bert這個模型被提出來之前。
link |
03:56.000
Bert的模型是什麼時候提出來的?2018年的年底。
link |
04:01.000
你知道進擊的巨人十年前就有了,所以貝爾托特出現是在Bert之前。但為什麼超巨大巨人會由貝爾托特所控制呢?
link |
04:10.000
那就是因為劍三創他其實也有進擊的巨人的能力,所以他能夠知道未來的事情。
link |
04:16.000
所以他就把超巨大巨人的控制者命名成貝爾托特,就這樣結束了。
link |
04:21.000
所以這個就是Bert,但是其實你可能覺得Bert已經很大了,但是還有更多更巨大的模型。
link |
04:32.000
這個時代就像是被發動了地鳴一樣,有很多超巨大的巨人從地底湧出。
link |
04:39.000
有哪些超巨大的巨人呢?最早的是Elmo,Elmo也有94個million了啦,我們這邊用這些角色的身高來代表他的參數量。
link |
04:50.000
Bert大了一點,340個million,遠比你在座位裡面做的大了1000倍以上。
link |
04:56.000
但是他還不算是特別大的GPT-2,他有1500個million的參數。
link |
05:02.000
就算是GPT-2,他也不算是太大的Megatron,有8個billion的參數,GPT-2的8倍左右。
link |
05:12.000
後來又有T5,T5就是有一款福特汽車叫T5,雖然T5是Google做的,跟車子也沒有什麼關係,但這邊就放一個福特汽車。
link |
05:21.000
T5有11個billion,但這也不算什麼。
link |
05:25.000
Turing-NLG有17個billion,但這也不算什麼,GPT-3有Turing-NLG的10倍那麼大,他有10倍那麼大。
link |
05:36.000
到底GPT-3有多大呢?如果我們把它具象化的話,他有這麼大。
link |
05:42.000
我們先把這些模型的大小轉換成身高,Bert 340個million,我們就當作他有一公尺高。
link |
05:52.000
所以這個是Bert,這個是我本人。
link |
05:56.000
那GPT-3有多大呢?他就是背後的台北101那麼大。
link |
06:01.000
所以從Bert到GPT-3,模型從一個人高變成台北101那麼高。
link |
06:09.000
其實GPT-3還不是最大的模型,我現在看到最大的模型是Switch Transformer。
link |
06:16.000
他有1.6個T那麼多,他有上兆個參數,他比GPT-3又再大了10倍。
link |
06:25.000
這邊換了一個Switch,他跟任天堂其實沒有什麼關係,你也可以想像說這個其實也是Google做的。
link |
06:31.000
我們把他的論文放在這邊給大家參考。
link |
06:34.000
如果你有看到更大的模型再跟我講。
link |
06:38.000
所以現在已經有上兆個參數的模型了。
link |
06:43.000
那這些巨大的模型他們都是在做些什麼呢?
link |
06:48.000
那在等一下的課程裡面我們會講兩個東西,我們會講Bert跟GPT。
link |
06:55.000
我會跟大家介紹這兩個模型,告訴你說這些Sales Supervised Learning Model他們做的事情是什麼。
link |
07:01.000
那我想我們在這邊還是正好告一個段落,我們還是休息一下好了,我們十分鐘以後再回來。