Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

後來Google就有一篇paper叫Skilling Instruction Fine Tuning Language Model,我們之前已經講過Instruction Tuning,講過FLAM這個Model,後來有一個FLAM系列的模型,它的訓練的任務有1.8K、1800個任務,它用1800個任務去微調大型的Language Model,看看在解其他任務的時候會不會結果就起飛了。

link |

19:11.200

在論文裡面有特別強調說,Instruction Tuning其實是一件非常lightweight的事情。對於大型Language Model來說,Instruction Tuning雖然你聽到1800個任務覺得好像很耗費運算資源,其實在1800個任務上做Instruction Tuning所需要的運算資源只是pre-training的0.2%而已。

link |

19:36.560

但是光是做這件事情,模型在你關心的這些downstream task、下游任務上面就有很顯著的不同。左邊這個圖,橫軸是模型的參數量,縱軸是在某些任務上面的正確率。如果你完全沒有做Fine Tuning,你得到的是黑色這條線。隨著Fine Tuning的任務越來越多,線的顏色越來越深,你的模型可以有一個非常顯著的提升。

link |

20:03.760

右邊這個圖,意思也是一樣,有三個不同大小的模型,隨著任務越來越多,在自然語言處理任務上的正確率就會越來越高。而讓模型從這裡提升到這裡,你需要的運算資源是非常少的,只需要pre-training的0.2%,所以與其追求一個更大的模型、更大的資料,也許找一些自然語言處理的任務來直接教機器也是一個非常有效的做法。

link |

20:34.720

這一頁投影片,其實之前大家已經看過很類似的概念了。為什麼機器在自然語言處理的任務上沒有做Instruction Fine Tuning,直接拿一個Language Model在各種任務上做得不好呢?就是因為它根本不知道你要它回答問題。

link |

20:50.080

舉例來說,像這邊,它出了一個數學題,你給機器出一個數學題。那PALM如果不做Instruction Fine Tuning的話,它會以為你要更多的數學題,它就幫你出更多的數學題。但你要做Instruction Fine Tuning,它才能夠直接給你答案。

link |

21:08.320

我們已經知道說,像這一種做完pre-training以後,再根據額外的Label Data,再去做Fine Tuning這件事情,就是確GPT成功的一個關鍵。

link |

21:22.160

如果你看過去OpenAI的論文的話,先做Supervised Fine Tuning,然後接下來再做Reinforcement Learning,是一個固定的套路了。不只確GPT這樣做,Instruction GPT也這樣做,另外一邊做Summarization Paper也這樣做,你會發現這些圖大概都有個87%像,基本上就是一個熟悉的套路。

link |

21:45.200

那在pre-training之後,再做Fine Tuning或再做Reinforcement Learning到底有多有效呢?我們來看一下Instruction GPT這篇Paper裡面的實驗結果。

link |

21:56.480

在這篇Paper裡面,橫軸是模型的大小,從1.3B、6B到175B的參數。縱軸是把你的模型去跟一個775B的GPT直接面對面做對決的時候。

link |

22:18.400

這邊的對決應該就是把兩個模型都伸出結果,然後給使用者看,看使用者比較喜歡哪一個的時候,哪贏的機率。

link |

22:27.760

所以如果今天是175B的模型經過Fine Tuning以後,自己跟自己比,勝率就算是50%。

link |

22:38.080

最底下這條線是原始的GPT,這個GPT Pumping這件事就是GPT加In Context Learning,這個我們是上週講過的東西。

link |

22:48.320

SFT就是有做Fine Tuning,根據Instruct GPT收集到的一些人類老師提供的資料做Fine Tuning。

link |

22:56.640

PPO這邊是試了兩個有點不一樣的演算法,PPO就是做Reinforcement Learning的結果。

link |

23:04.640

這邊有哪些看點呢?第一個看點是,你可以比較6B的模型經過Fine Tuning的結果,跟175B的模型沒有Fine Tuning的結果。

link |

23:15.040

你會發現說6B的模型這麼小,但是有做一下Fine Tuning是可以打爆一個大模型的,小模型經過人類老師的訓練是可以打爆沒有訓練的大模型的。

link |

23:26.560

當然如果大模型有訓練以後還是比小模型更好啦。

link |

23:29.600

另外一個看點是說,今天如果是一個大模型只有做Supervised Learning,跟一個最小的模型,這個模型真的很小,1.3B的模型你應該有機會自己訓練。

link |

23:42.880

1.3B的模型做完人類老師的Supervised Learning,再做更多的Reinforcement Learning,做完Reinforcement Learning以後是可以打爆巨大模型沒有做Reinforcement Learning的結果的。

link |

23:57.680

所以這就是顯示說,就算你的模型沒有非常的巨大,如果你如果有使用者的feedback,你可以做人類老師給的回饋,你可以做Reinforcement Learning,你其實有機會讓小模型可以跟大模型一搏的。

link |

24:15.760

那另外一個實驗結果放在Instruction GDP那篇paper裡面的結果是這樣子的,他這邊比較了幾個不同的模型,這邊縱軸是直接把這個模型輸出的結果給人類看,然後人類勾選個喜歡的程度,然後這個分數越高就代表人類越喜歡這個答案。

link |

24:34.960

這邊試了GPT加InContext Learning,還有GPT做Supervised Learning,然後還有Instruct GPT做Reinforcement Learning,他的結果是最好的。

link |

24:47.760

那你發現Instruct GPT做Reinforcement Learning以後,他其實是完勝Flame跟T0的,Flame是什麼?Flame就是有拿很多的任務去對模型做Instruction fine tuning的結果。

link |

25:03.120

你會發現Instruct GPT是透過人類真正的feedback,使用者真正的feedback來做微調的,跟從一些NLP的任務得到的資料來做Instruction fine tuning的結果其實是非常不一樣的。

link |

25:18.480

這邊也許可以給我們的一個啟示就是,其實資料對真的非常重要。對Flame來說,他裡面給模型的指示通常是長這個樣子的,這種指示你不覺得其實也蠻不自然的嗎?

link |

25:34.160

今天你在用Chair GPT的時候,你真的會輸入這樣的句子嗎?或甚至你在做Chair GPT的時候,這是一個NLI的任務,是Natural Language Inference的任務,你是給兩個句子問Chair GPT說你覺得這兩個句子有沒有矛盾,你真的沒事會去問Chair GPT這個問題嗎?很少對不對?

link |

25:51.760

所以我覺得這就是為什麼Chair GPT相較於其他的大型的Language Model可以這麼成功的原因。因為你想想看過去的歷史,Open AI雖然有open這個字,但是其實他們現在其實是傾向close的對不對?

link |

26:06.800

因為GPT-3根本就沒有釋出它的模型,它是一個線上的API,大家是不斷地去玩GPT-3這個模型。GPT-32020年的時候上線,從2020年到今天兩年多的時間內,無數的人在玩這個線上的模型。

link |

26:24.160

所以Open AI完全知道人類面對一個大型的Language Model的時候,你會問什麼問題。你大概不會做NLI,因為這個問題太奇怪、太不自然了。我覺得大家最常做的可能都是一上線先說個你好,然後接下來說請說個笑話,對不對?

link |

26:39.840

你都是問這種問題啊,你不會問這種NLI的問題啊,這種NLI的問題太不自然了。所以這就是為什麼Chair GPT我覺得會成功的一個關鍵,因為只有它知道人類會怎麼玩這個模型,而連Google都不知道人類會怎麼玩這個模型。

link |

26:58.160

從Instruct GPT裡面我們就已經可以看到說,這個模型在給人類玩一玩,做reinforcement learning以後,就是可以屌打其他的模型,是人類會覺得這樣子的模型結果是最好的。

【生成式AI】大模型 + 大資料 = 神奇結果？(2/3)：到底要多少資料才夠