back to index
[DLHLP 2020] 來自獵人暗黑大陸的模型 GPT-3

link |
剩下的時間呢,我想要跟大家分享GPT-3
link |
GPT-3,OpenAI發表了新的巨大的Language Model
link |
之前OpenAI已經發表了GPT,還有轟動一時的GPT-2
link |
這篇Paper有非常多的作者,作者量也挺驚人的
link |
這篇Paper的名字叫Language Model are Future Learners
link |
那其實GPT-3跟GPT-2有什麼不同呢?
link |
基本上沒有什麼不同,它們都是Language Model
link |
那Language Model是什麼?我想就不需要再多做解釋了
link |
它有多巨大呢?之前最大的Model是Turing-NLG
link |
我們在之前的課堂上已經給大家看過這一個Model大小的比較圖
link |
從最早的Elmo到後來的Turing-NLG
link |
Turing-NLG非常的巨大,它有17個Billion的參數
link |
那遠大過之前OpenAI發表的GPT-2還有最早的GPT-3
link |
它是Turing-NLG的10倍啊,它有170個Billion的參數啊
link |
為了讓大家能夠想像GPT-3有多大,我們來做一個比方
link |
假設Elmo的參數量是一個長30公分的尺
link |
我們假設Elmo的參數量就是30公分
link |
GPT-3它的參數量是Elmo的大約2000倍
link |
所以想想看,最早的這類Pre-trained model Elmo
link |
但今天GPT-3它已經長成了台北101那麼高的參天巨鼠
link |
那我們知道說,巨大的東西都是來自暗黑大陸啦
link |
所以GPT-3是來自於暗黑大陸的模型
link |
有人說GPT-3如果你想要拿商用的cloud computing的platform
link |
自己訓練一個GPT-3要花多少錢呢?
link |
然後有人發現說,GPT-3就算是OpenAI佛心來的想試出
link |
因為GPT-3 1.5個billion的參數就6GB了
link |
175個billion的參數大概700GB啊
link |
然後有人發現,GPT-3的paper很長
link |
Elmo 15頁,BERT 16頁,GPT-3 24頁,T5 53頁
link |
不只他的model很大,paper也很長
link |
那這系列GPT-3,GPT系列的work
link |
他想要做的事情是zero-shot的learning
link |
也就是說,過去在我們使用BERT這樣pre-train model的時候
link |
我們是先pre-train一個model
link |
接下來對每一個任務,我們都準備一些這些任務的資料
link |
根據這些任務的specific的資料進行finetune
link |
所以你今天你要拿BERT去解downstream的任務
link |
BERT並沒有辦法直接去解這些downstream的任務
link |
你要BERT解QA,收集一些QA的資料給BERT去
link |
你要BERT解NLI,收集一些NLI的資料給BERT去
link |
所以你還是需要收集一些downstream task的資料
link |
才能夠讓BERT學會解這些downstream task
link |
但GPT系列的work要問的問題就是
link |
我們能不能夠拿掉finetune這個步驟
link |
我們能不能pre-train一個模型
link |
這個pre-train的模型,直接就可以解這些downstream task了
link |
GPT系列它的終極目標也許就像是這樣
link |
我們今天人類在考這種英文能力檢定的時候
link |
有提醒的說明可能就是很簡單的告訴考生說
link |
再看了一點範例就知道怎麼回答接下來的問題了
link |
一個是Few-Shot Learning
link |
一個是One-Shot Learning
link |
一個是Zero-Shot Learning
link |
在Few-Shot Learning的狀況下
link |
Translate English to French
link |
告訴它說Sea Otter箭號就是翻譯成這樣
link |
然後Clutch Giraffe就是翻譯成這樣
link |
這個是Few-Shot Learning
link |
那如果是One-Shot Learning呢
link |
One-Shot Learning可能就非常接近
link |
最狂的是Zero-Shot Learning
link |
不知道一個Language Model
link |
Translate English to French
link |
Translate English to French
link |
也許One-Shot Learning比較接近
link |
也許One-Shot Learning還是比較有機會
link |
它的Few-Shot Learning
link |
跟一般我們所謂的Few-Shot Learning的意思
link |
我們一般所謂的Few-Shot Learning是說
link |
用少量的訓練資料去Finetune我們的Model
link |
但在GPT-3裡面沒有Finetune這回事
link |
所謂的Few-Shot Learning
link |
完全沒有所謂的Gradient Descent
link |
叫做In-Context Learning
link |
有把他們的In-Context Learning
link |
跟Meta-Learning稍微做一些比較
link |
GPT-3這篇Paper表現怎麼樣呢
link |
不管是Zero-Shot One-Shot
link |
跟Few-Shot Learning的正確率
link |
它可以做Closed Book的QA
link |
怎麼是Closed Book的QA呢
link |
我們剛講完Question Answering
link |
我們說Question Answering裡面
link |
就是有一個Knowledge Source
link |
可以看Knowledge Source
link |
沒有Knowledge Source
link |
Few-Shot Learning的Performance
link |
One-Shot Learning的Performance
link |
跟Few-Shot Learning的Performance
link |
在做Few-Shot Learning的時候
link |
Training Example對Performance
link |
Zero-Shot的Learning
link |
那跟Finetune的Bird Performance差不多
link |
就可以超越Finetune的Bird
link |
它是一個Language Model
link |
所以今天在做Generation的時候
link |
GPT-3不會是Zero-Shot的
link |
怎麼接下來就去吃ICE CREAM呢
link |
What is 17 minus 14
link |
Zero-Shot跟One-Shot
link |
在Zero-Shot跟One-Shot
link |
只有Few-Shot Learning
link |
他就是一個巨大的language model
link |
所以GPT-2、GPT-3、GPT系列
link |
那本來OpenAI在做這個實驗的時候
link |
downstream task的資料
link |
所有跟他們的downstream task
link |
無法想像犯了這個錯誤的researcher
link |
接下來他說因為due to the training cost
link |
it wasn't feasible to train the model
link |
那我們就改一下testing data
link |
downstream task的data
link |
所謂clean data的意思就是說
link |
那dirty data就是GPT-3在訓練的時候
link |
dirty data的performance
link |
dirty data的performance比較好
link |
他的performance都集中在這條水平線上
link |
混雜到downstream task的資料
link |
叫做Turing Advice Challenge
link |
現在要講這個東西跟GPT-3沒有什麼關係
link |
叫做Turing Advice Challenge
link |
是放在Turing Advice Challenge
link |
也就是600k個reddit上的po文
link |
如果是今天的話你可能就會想用GPD3試看看
link |
那今天這些巨大的language model
link |
在Turian Advice Challenge裡面呢
link |
如果你想要用這種巨大的language model
link |
沒有考慮什麼影像的prior knowledge
link |
這個就是知名的用GAME產生出來的網球狗