Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

link |

00:00.000

好,那我們就講下一個主題。我們接下來要講的主題呢,叫做Self-Supervised Learning。

link |

00:10.000

那在講Self-Supervised Learning之前呢,就不能不介紹一下芝麻街啊。

link |

00:16.000

為什麼呢?因為不知道為什麼Self-Supervised Learning的模型都是以芝麻街的人物命名的。

link |

00:23.000

我今天特別穿了芝麻街的T-shirt,給大家看一下。

link |

00:31.000

看不清楚的同學呢,或線上的同學呢,這個照片在這邊啦,是同一件。

link |

00:37.000

這個是我本人,然後這些角色就是芝麻街的角色。

link |

00:44.000

那這些芝麻街的角色,都是些什麼樣的模型呢?

link |

00:49.000

我們來看看他們的名字,在我們實際了解他們做的事情之前,先來認識他們的名字。

link |

00:56.000

這個紅色的怪物呢,叫做Elmo。

link |

01:00.000

Self-Supervised Learning裡面呢,有一個模型叫做Embeddings from Language Modelling,

link |

01:06.000

它是最早的Self-Supervised Learning的Model,它的縮寫就叫做Elmo。

link |

01:11.000

那有了Elmo以後呢,後來又有另外一個動物叫做Bert,這個是大家最耳熟能詳的Self-Supervised Model。

link |

01:20.000

Bert呢,它是Bidirectional Encoder Representation from Transformer的縮寫。

link |

01:27.000

Elmo跟Bert都是芝麻街的人物。

link |

01:31.000

有了兩個芝麻街的人物以後,Bert他最好的朋友就是這一隻。

link |

01:36.000

他是誰呢?他叫做Ernie。

link |

01:39.000

事實上有了Bert以後,馬上就出現了兩個不同的模型,都叫做Ernie。

link |

01:44.000

其中一個模型的縮寫是這樣啦,Enhanced Representation from Knowledge Integration,然後它的縮寫是Ernie。

link |

01:51.000

我就問說,現在縮寫這樣都可以了嗎?你根本就只是想要叫做Ernie而已啊。

link |

01:58.000

你可能以為這個已經很荒唐了,但是後來這一隻動物,它叫做大鳥,Big Bert。

link |

02:05.000

後來就有一個模型叫做Big Bert,Transformer from Longer Sequence。

link |

02:10.000

現在已經完全放棄要湊字了,已經完全要放棄湊出一樣的名字了,直接就把它叫做Big Bert就結束了。

link |

02:18.000

所以我們現在在這個Self-Supervised Learning的Model裡面,都有一堆芝麻街的人物。

link |

02:25.000

Cookie Monster還沒有人去湊他啦,就等著你來湊Cookie Monster就是了。

link |

02:30.000

講到Big Bert,又要提到進擊的巨人。我以下會提到進擊的巨人的劇情。

link |

02:39.000

我個人是覺得沒有雷,但是如果你怕被雷到的話,你就把眼睛閉起來,耳朵捂起來。

link |

02:47.000

接下來是要提一下進擊的巨人。為什麼要提到進擊的巨人呢?

link |

02:52.000

因為Big Bert是一個非常巨大的模型,有多大?它有340個million的參數。

link |

03:00.000

也許我直接給你一個340million的數字,你沒有什麼感覺,那我告訴你,作業4的模型有多大?

link |

03:06.000

作業4的模型它也是一個Transformer,它只有0.1個million而已。

link |

03:11.000

如果你覺得作業4的Baseline很大,它只有0.1個million。

link |

03:15.000

Big Bert是它的3000倍那麼大,所以它確實是一個非常巨大的模型。

link |

03:22.000

所以當我們想到Big Bert的時候,我們就想到超巨大的巨人,一腳可以踢破瑪利昂之牆的那種超巨大的巨人。

link |

03:31.000

但是我有一個發現,我發現超巨大巨人的控制者是誰你們知道嗎?

link |

03:38.000

是貝爾托特對不對?貝爾托特的名字裡面是有Bert的,這個絕對不是巧合,我相信這絕對不是巧合。

link |

03:48.000

那你可能會覺得很困惑的就是,貝爾托特他出現的時間應該在Bert這個模型被提出來之前。

link |

03:56.000

Bert的模型是什麼時候提出來的?2018年的年底。

link |

04:01.000

你知道進擊的巨人十年前就有了,所以貝爾托特出現是在Bert之前。但為什麼超巨大巨人會由貝爾托特所控制呢?

link |

04:10.000

那就是因為劍三創他其實也有進擊的巨人的能力,所以他能夠知道未來的事情。

link |

04:16.000

所以他就把超巨大巨人的控制者命名成貝爾托特,就這樣結束了。

link |

04:21.000

所以這個就是Bert,但是其實你可能覺得Bert已經很大了,但是還有更多更巨大的模型。

link |

04:32.000

這個時代就像是被發動了地鳴一樣,有很多超巨大的巨人從地底湧出。

link |

04:39.000

有哪些超巨大的巨人呢?最早的是Elmo,Elmo也有94個million了啦,我們這邊用這些角色的身高來代表他的參數量。

link |

04:50.000

Bert大了一點,340個million,遠比你在座位裡面做的大了1000倍以上。

link |

04:56.000

但是他還不算是特別大的GPT-2,他有1500個million的參數。

link |

05:02.000

就算是GPT-2,他也不算是太大的Megatron,有8個billion的參數,GPT-2的8倍左右。

link |

05:12.000

後來又有T5,T5就是有一款福特汽車叫T5,雖然T5是Google做的,跟車子也沒有什麼關係,但這邊就放一個福特汽車。

link |

05:21.000

T5有11個billion,但這也不算什麼。

link |

05:25.000

Turing-NLG有17個billion,但這也不算什麼,GPT-3有Turing-NLG的10倍那麼大,他有10倍那麼大。

link |

05:36.000

到底GPT-3有多大呢?如果我們把它具象化的話,他有這麼大。

link |

05:42.000

我們先把這些模型的大小轉換成身高,Bert 340個million,我們就當作他有一公尺高。

link |

05:52.000

所以這個是Bert,這個是我本人。

link |

05:56.000

那GPT-3有多大呢?他就是背後的台北101那麼大。

link |

06:01.000

所以從Bert到GPT-3,模型從一個人高變成台北101那麼高。

link |

06:09.000

其實GPT-3還不是最大的模型,我現在看到最大的模型是Switch Transformer。

link |

06:16.000

他有1.6個T那麼多,他有上兆個參數,他比GPT-3又再大了10倍。

link |

06:25.000

這邊換了一個Switch,他跟任天堂其實沒有什麼關係,你也可以想像說這個其實也是Google做的。

link |

06:31.000

我們把他的論文放在這邊給大家參考。

link |

06:34.000

如果你有看到更大的模型再跟我講。

link |

06:38.000

所以現在已經有上兆個參數的模型了。

link |

06:43.000

那這些巨大的模型他們都是在做些什麼呢?

link |

06:48.000

那在等一下的課程裡面我們會講兩個東西,我們會講Bert跟GPT。

link |

06:55.000

我會跟大家介紹這兩個模型,告訴你說這些Sales Supervised Learning Model他們做的事情是什麼。

link |

07:01.000

那我想我們在這邊還是正好告一個段落,我們還是休息一下好了,我們十分鐘以後再回來。

【機器學習2021】自督導式學習 (Self-supervised Learning) (一) – 芝麻街與進擊的巨人