back to index
【機器學習2021】自督導式學習 (Self-supervised Learning) (一) – 芝麻街與進擊的巨人

link |
好,那我們就講下一個主題。我們接下來要講的主題呢,叫做Self-Supervised Learning。
link |
那在講Self-Supervised Learning之前呢,就不能不介紹一下芝麻街啊。
link |
為什麼呢?因為不知道為什麼Self-Supervised Learning的模型都是以芝麻街的人物命名的。
link |
我今天特別穿了芝麻街的T-shirt,給大家看一下。
link |
看不清楚的同學呢,或線上的同學呢,這個照片在這邊啦,是同一件。
link |
這個是我本人,然後這些角色就是芝麻街的角色。
link |
那這些芝麻街的角色,都是些什麼樣的模型呢?
link |
我們來看看他們的名字,在我們實際了解他們做的事情之前,先來認識他們的名字。
link |
Self-Supervised Learning裡面呢,有一個模型叫做Embeddings from Language Modelling,
link |
它是最早的Self-Supervised Learning的Model,它的縮寫就叫做Elmo。
link |
那有了Elmo以後呢,後來又有另外一個動物叫做Bert,這個是大家最耳熟能詳的Self-Supervised Model。
link |
Bert呢,它是Bidirectional Encoder Representation from Transformer的縮寫。
link |
Elmo跟Bert都是芝麻街的人物。
link |
有了兩個芝麻街的人物以後,Bert他最好的朋友就是這一隻。
link |
事實上有了Bert以後,馬上就出現了兩個不同的模型,都叫做Ernie。
link |
其中一個模型的縮寫是這樣啦,Enhanced Representation from Knowledge Integration,然後它的縮寫是Ernie。
link |
我就問說,現在縮寫這樣都可以了嗎?你根本就只是想要叫做Ernie而已啊。
link |
你可能以為這個已經很荒唐了,但是後來這一隻動物,它叫做大鳥,Big Bert。
link |
後來就有一個模型叫做Big Bert,Transformer from Longer Sequence。
link |
現在已經完全放棄要湊字了,已經完全要放棄湊出一樣的名字了,直接就把它叫做Big Bert就結束了。
link |
所以我們現在在這個Self-Supervised Learning的Model裡面,都有一堆芝麻街的人物。
link |
Cookie Monster還沒有人去湊他啦,就等著你來湊Cookie Monster就是了。
link |
講到Big Bert,又要提到進擊的巨人。我以下會提到進擊的巨人的劇情。
link |
我個人是覺得沒有雷,但是如果你怕被雷到的話,你就把眼睛閉起來,耳朵捂起來。
link |
接下來是要提一下進擊的巨人。為什麼要提到進擊的巨人呢?
link |
因為Big Bert是一個非常巨大的模型,有多大?它有340個million的參數。
link |
也許我直接給你一個340million的數字,你沒有什麼感覺,那我告訴你,作業4的模型有多大?
link |
作業4的模型它也是一個Transformer,它只有0.1個million而已。
link |
如果你覺得作業4的Baseline很大,它只有0.1個million。
link |
Big Bert是它的3000倍那麼大,所以它確實是一個非常巨大的模型。
link |
所以當我們想到Big Bert的時候,我們就想到超巨大的巨人,一腳可以踢破瑪利昂之牆的那種超巨大的巨人。
link |
但是我有一個發現,我發現超巨大巨人的控制者是誰你們知道嗎?
link |
是貝爾托特對不對?貝爾托特的名字裡面是有Bert的,這個絕對不是巧合,我相信這絕對不是巧合。
link |
那你可能會覺得很困惑的就是,貝爾托特他出現的時間應該在Bert這個模型被提出來之前。
link |
Bert的模型是什麼時候提出來的?2018年的年底。
link |
你知道進擊的巨人十年前就有了,所以貝爾托特出現是在Bert之前。但為什麼超巨大巨人會由貝爾托特所控制呢?
link |
那就是因為劍三創他其實也有進擊的巨人的能力,所以他能夠知道未來的事情。
link |
所以他就把超巨大巨人的控制者命名成貝爾托特,就這樣結束了。
link |
所以這個就是Bert,但是其實你可能覺得Bert已經很大了,但是還有更多更巨大的模型。
link |
這個時代就像是被發動了地鳴一樣,有很多超巨大的巨人從地底湧出。
link |
有哪些超巨大的巨人呢?最早的是Elmo,Elmo也有94個million了啦,我們這邊用這些角色的身高來代表他的參數量。
link |
Bert大了一點,340個million,遠比你在座位裡面做的大了1000倍以上。
link |
但是他還不算是特別大的GPT-2,他有1500個million的參數。
link |
就算是GPT-2,他也不算是太大的Megatron,有8個billion的參數,GPT-2的8倍左右。
link |
後來又有T5,T5就是有一款福特汽車叫T5,雖然T5是Google做的,跟車子也沒有什麼關係,但這邊就放一個福特汽車。
link |
T5有11個billion,但這也不算什麼。
link |
Turing-NLG有17個billion,但這也不算什麼,GPT-3有Turing-NLG的10倍那麼大,他有10倍那麼大。
link |
到底GPT-3有多大呢?如果我們把它具象化的話,他有這麼大。
link |
我們先把這些模型的大小轉換成身高,Bert 340個million,我們就當作他有一公尺高。
link |
那GPT-3有多大呢?他就是背後的台北101那麼大。
link |
所以從Bert到GPT-3,模型從一個人高變成台北101那麼高。
link |
其實GPT-3還不是最大的模型,我現在看到最大的模型是Switch Transformer。
link |
他有1.6個T那麼多,他有上兆個參數,他比GPT-3又再大了10倍。
link |
這邊換了一個Switch,他跟任天堂其實沒有什麼關係,你也可以想像說這個其實也是Google做的。
link |
那這些巨大的模型他們都是在做些什麼呢?
link |
那在等一下的課程裡面我們會講兩個東西,我們會講Bert跟GPT。
link |
我會跟大家介紹這兩個模型,告訴你說這些Sales Supervised Learning Model他們做的事情是什麼。
link |
那我想我們在這邊還是正好告一個段落,我們還是休息一下好了,我們十分鐘以後再回來。