Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

那有的人的回應是,啊,今天太棒了。有的人對同樣一個輸入的回應是,啊,今天太糟了。那如果你直接拿這樣子的資料,一股腦倒進你的check bar裡面,train一個sequence to sequence model,那對check bar來說,他的訓練會非常的困難,因為你對他說,How is today?

link |

16:02.080

Today is awesome, and today is bad,都是正確答案。那他會不知道說,要產生哪一個答案是正確的,他可能會產生這兩句話的平均,那可能就是你期待以外的東西。

link |

16:15.820

那在control by condition這樣子的方法裡面,你會把response的特性也標註出來。那這邊是舉一個比較簡單的例子,你可能會標註說,這個response是正面的回覆,這個response是負面的回覆。

link |

16:37.400

那這邊是標註比較簡單的特性,那你也可以標註更複雜的東西,這邊是以比較簡單的標註為例。

link |

16:46.300

那講到這邊,你可能會想說,要對response產生這樣的標註,會不會很困難呢?會不會要請很多工讀生來做呢?

link |

16:54.060

今天也許未必需要,因為你可以找到現成的off-the-shelf的sentiment classifier這種句子正負面的分類器。那這是我們機器學習這門課的一個作業了,所以假設你有修機器學習這門課的話,你手上就有一個現成的句子正負面的分類器。

link |

17:14.700

直接把這些句子,直接把這些response丟到那個分類器裡面,你其實就知道它是正面的還是負面的。那這個前提是,你那個分類器訓練得非常好就是了。

link |

17:25.720

好,那今天呢,假設你要拿左邊這筆資料出來做訓練的時候,一般的訓練方法就是告訴你的sequence-to-sequence model說,

link |

17:36.560

你要輸入how is the day,你要讓輸出today is awesome的機率越大越好。但在control by condition這種方法裡面,你還會加一個condition,你把你現在這個response的標注變成network可以吃的形式。

link |

17:56.220

舉例來說,你可以先設定好說positive就用1來表示,negative就用0來表示。today is awesome是個positive的句子,所以我們今天我們的decoder在產生這個句子的時候,

link |

18:09.280

我們除了直接告訴它說,你應該產生這些句子,我們還會給它要產生出來的句子的標注,要產生的這個句子的特徵,告訴它說,現在我們要你產生一個正面的句子。

link |

18:22.000

如果我們要你產生一個正面的句子,也就是給decoder1這個數字,它就應該輸出today is awesome。

link |

18:30.360

假設現在sample到另外一筆資料,另外一筆資料是today is bad,那你要告訴機器說輸入today,how is today,那你輸出today is bad的機率越高越好。

link |

18:42.120

但告訴它說輸出today is bad的機率越高越好,你還要告訴它說,我現在給你一個數字0,你是在看到數字0的情況下,輸出today is bad的機率越高越好。

link |

18:54.320

所以今天對機器來說,你不是告訴它說看到同一個輸入,有可能會有不同的輸出,這樣你沒辦法訓練sequence to sequence model,它會很confused。

link |

19:04.960

而是告訴它說,看到how is today,且輸入1作為condition的時候,你就說today is awesome,看到how is today,輸入0作為condition的時候,你就輸出today is bad,用這個方法來訓練你的缺把。

link |

19:21.960

這樣子的缺把在訓練好之後,在真正使用它的時候,你對它說I love you,它會做什麼樣的回應呢?這取決於你給它什麼樣的condition,你自己決定condition是什麼,你給它不同condition,它就會有不同的回覆。

link |

19:41.800

以下其實是文獻中真實的例子,如果你train這種可以控制它輸出是正面還是負面的缺把,然後你對它說I love you,你知道有一個人對你說I love you,它對你告白,你是有千千百百種不同的回應的,取決於它是誰,取決於它是死臭酸宅還是型男,你的回應會有不同。

link |

20:05.440

所以如果今天這個control的部分,你輸入1,1就是正面的回覆,就會說I love you too,如果你輸入0,就會說I'm not ready to start a relationship,還沒有開始準備好要發展關係,但是只是沒有準備好跟你發展關係,跟別人是可以的,那這個就是用condition來進行control。

link |

20:31.200

像這樣子的研究,最早而且非常經典的一篇文章叫做Persona-Based Model,是2016年的文章,你可以想想看,這個也是一個上古神獸,也是非常有歷史性的、非常具有代表性的一篇文章。

link |

20:50.360

在Persona-Based Model裡面,它是用Twitter的資料訓練的,所以它今天收集了大量的對話,而且它知道每一句話是誰說的。

link |

21:02.560

所以今天在訓練一個sequence-to-sequence model的時候,假設它現在知道說它的response是Bob說的,那今天除了要你的sequence-to-sequence model輸出跟對話裡面的response越接近越好以外,你也會給你的decoder現在這句話是誰說的資訊。

link |

21:25.520

你會告訴這個checkbox說,如果你現在這句話是Bob說的,那你問它說,Where do you live?你問Bob說,Where do you live?Bob就會說一定的。

link |

21:36.580

那如果今天放別人的話,他住在不同的地方,他就會有不同的答覆。

link |

21:42.620

但是,怎麼把人物,怎麼把Twitter上的一個人,比如說,這個不是Bob,我剛才是講的Bob,這個是Rob,怎麼把Rob變成一個decoder的輸入呢?

link |

21:59.100

那在Persona-based model裡面,它是把每一個Twitter上的人都用一個向量來表示,所以Rob也是一個向量,其他每一個人物也都是一個向量。

link |

22:15.100

而這個向量是自動學出來的,所以Rob用什麼樣的向量來代表,是自動學出來的。你會把Rob的向量作為decoder的輸入,讓decoder輸出Rob可能會講話。

link |

22:31.800

這個是Persona-based model,它可以讓機器模仿不同的Twitter上的人說話。那以下是這篇Paper裡面真實的一些例子,就是你現在有了這種Persona-based model以後,對你的Bot說,Where is your hometown?

link |

22:51.540

那如果是一個general的Bot,如果你直接用sequent-to-sequent model,沒有這種condition的話,那這個Bot會說,I was born in Canada。所以感覺Twitter上是不是加拿大人特別多啊?

link |

23:04.340

所以問你說是哪一個hometown的時候,明明每個人住的地方不一樣,但他就是說他住在加拿大。不是問他住的地方,而是問他家鄉在哪裡,問他家鄉在哪裡的時候,家鄉在加拿大的人感覺最多。

link |

23:18.300

所以今天sequent-to-sequent model選擇回答說,家鄉是在加拿大。但是如果你今天可以給機器人物的話,今天你用這種Persona-based model,讓機器在學習的時候,它可以模仿不同的人說話。

link |

23:34.940

這邊就給了機器十個不同的人,十個不同的Twitter上的人的ID,然後今天這個Persona-based model,輸入不同的人就給出不同的答覆。有的人住在,有的人的hometown是Texas,有的人是LA,有的人是英國。

link |

23:54.680

或者是說,What company do you work for?那如果是baseline的話,他回答就怪怪的,I work for company,回答等於沒回答。

link |

24:06.060

那如果是不同的人物的話,那就有各式各樣的答覆了,有的人說,I work in a cafe,有的人說,I work at a gas station。

link |

24:16.580

也有一些比較奇怪的答覆,這邊作者特別標了一個警字號,代表說他覺得這個答覆有問題。

link |

24:24.980

或者是,你今天對機器說,What did you have for dinner?那如果今天沒有Persona的話,機器會說,I have fish and chips,那看起來吃fish and chips的人最多,Twitter上吃這個人的最多。

link |

24:39.600

那如果今天給機器不同的人物的話,讓他模仿不同人物的話,他就有不同的答覆,有的人是吃fish and chips,有的人吃chicken chips,有的人吃pizza,有的人吃Mexican food,有的人吃salad,每個人吃的東西都不一樣。

link |

24:56.880

接下來,我們要講說,我們如何操控Chatbot的輸出呢?我們如何把某種condition拿來操控Chatbot的輸出呢?

link |

25:11.560

在前面的例子裡面,我們都把network化成是說,我們把condition用某種方法做encoding,比如說正面就是1,負面就是0,或者是每一個Twitter上的speaker都是一個向量。

link |

25:28.960

那我們今天把這個向量當做decoder,每一個timestamp的輸入。那其實有其他的方法可以來操控一個generator的輸出,那一個知名的方法叫做conditional transformer language model,

link |

25:49.780

它也是有湊梗的,它的縮寫就是ctlr,就是鍵盤上面的ctrl鍵。那這個ctrl,它是怎麼操控一個句子的呢?

link |

26:02.040

那其實ctrl這篇原始文章,它並沒有做任何跟Chatbot有關係的事情,它是希望control一個language model的輸出。

link |

26:12.840

那你知道,你train好一個language model的時候,你要這個language model產生句子的時候,它就亂生一些句子嘛,你也沒有辦法控制它產生什麼樣的句子,你也沒有辦法控制它說特定領域的話,或者是模仿特定的風格。

link |

26:31.080

而conditional transformer language model就是希望可以控制language model的輸出。

link |

26:38.660

那像這樣子的方法,等一下會看到例子,它是可以被用在Chatbot上的。

link |

26:46.860

那這個ctrl是怎麼做的呢?它在這篇paper裡面,作者收集了非常大量的文章,這些文章來自於各式各樣不同的domain,包括Wikipedia,Books,Review,等等等等。

link |

27:03.420

然後今天呢,我們在訓練language model的時候,我們知道說一般你訓練language model就是你收集到一大堆的token sequence,那叫機器學習,

link |

27:15.520

even前面已經看到token sequence預測下一個token sequence,但在ctrl裡面,它會在每一個token sequence的前面再加上一個ctrl code,告訴你說現在我們要產生什麼樣的句子,而它的ctrl code是什麼樣的東西呢?

link |

27:36.300

其實就是一個詞彙,假設這個句子是從書這個domain來的,那我在產生這個句子的開頭,我就加上Books這個詞彙,Books這個token,然後告訴機器說,看到Books這樣子的token,你接下來就應該輸出這樣子的句子。

link |

27:55.880

甚至還有更狂的,它有一些文章是來自於網頁,所以它有那個文章的網址,所以它今天要產生這段文字的時候,就是先給它一個網址,告訴它說看到這樣子的網址,你就應該輸出這樣子的文字,這個就是ctrl。

link |

28:17.320

以下是ctrl那篇paper裡面一些真實的例子,舉例來說,一般我們在使用language model產生文字的時候,你就給你的language model幾個詞彙,接下來讓language model把完整的句子寫完。

link |

28:33.820

舉例來說,現在你對language model說a knife,接下來language model就要自己編一個故事,說一把刀怎樣怎樣。但是在ctrl裡面,你會給你要輸出的句子一個ctrl code,你會告訴機器說,現在我們的句子的開頭是a knife,那順便告訴你說,你應該寫一個恐怖故事。

link |

28:59.020

這個horror應該是reddit上面的一個版,它也有從reddit上面爬資料,所以reddit上面的每一個版也當作一個domain,那horror版就是其中一個reddit上的版,那現在就告訴機器說,你要產生一個像是horror版上那些網友會寫的文章,所以機器就會使用a knife作為開頭寫一個恐怖故事。

link |

29:25.080

但是如果你換另外一個ctrl code,你在a knife前面寫的詞彙是review,告訴機器說,你現在要寫一段像是review的文章,那機器就會說,a knife它是一種工具,然後這一把刀它會做出好的事情,順便給個評價,還說這把刀我給它的評分是4.0,它確實寫了一則review出來。

link |

29:50.740

或者是,如果你要輸出my neighbor is 為開頭的文章,那你給機器不同的ctrl code,它就輸出不同的結果。

link |

30:00.740

relationship應該也是reddit上面的關係版,如果是像是關係版上的文章的話,它就會說,my neighbor is a jerk。如果是legal版上的文章的話,它就會說,我的鄰居正在威脅要告我,因為我不讓他用我的游泳池,接下來會怎樣,不知道,寫了一個很長的文章。

link |

30:31.740

你也可以用輸入連結,輸入網址的方式,來控制現在要輸出什麼樣的文章。舉例來說,你給control這個model一個網址,對它來說這個網址就是一段文字,它讀了這段文字,它就產生以下的新聞。

link |

30:52.740

這段文字理論上是US President見到了British Prime Minister,是US President跟British Prime Minister會面的新聞。

link |

31:04.740

但是有趣的地方是,他修改了連結裡面的日期,居然就可以改變文章的內容。本來連結的日期是07年,所以這個時候US President,就是George Bush,他把07改成14,那output就出現Obama,他把14改成18,output就出現Trump。

link |

31:31.740

所以他還學到了一些這個社會的知識,他知道說,不同時期的新聞裡面出現的美國總統,應該就是不同的人。

link |

31:42.740

在這一系列,讓機器學習怎麼control它的輸出的文章裡面,一個特別常用的,今日比較知名具代表性的Corpus,叫做Persona Chat,這是一個Corpus,希望你可以拿這個Corpus來訓練你的Chatbot。

link |

32:08.740

這個Corpus的目標是訓練Chatbot能夠根據某種人設,得出符合這個人設所應該說的話。Persona Chat裡面的對話,長得像是這個樣子。

link |

32:24.740

一般你可以拿來訓練Dialogue Corpus,就只會給你下面這邊,給你一堆人的對話。但是Persona Chat這個Corpus,除了會給你這些對話以外,它還會告訴你這個對話者,有一個Persona 1,他的人設是什麼,那Persona 2,他的人設是什麼。

link |

32:40.740

希望你的Chatbot可以根據這個Corpus,它可以學會怎麼根據人設,產生符合人物設定的對話。這樣子的Corpus是怎麼收集的呢?這個是Facebook AI跟Mira做的,他們怎麼知道說這個對話裡面每一個人物的人設是什麼呢?

link |

32:59.740

他們其實是反過來收集的,並不是先有對話再去標註這個對話裡面的人物的人設,而是先設定好兩人的人設,然後找兩個工讀生來,去那個AMT上找兩個人來,要求他們根據這個人設進行對話。

link |

33:18.740

所以人設是事先設定好的,第一個人就拿到這樣的人設,說你要扮演一個喜歡Ski,然後你的老婆不再愛你,這個怎麼這麼慘,怎麼這麼慘的人設。

link |

33:32.740

然後你喜歡Mexican food,然後你喜歡吃Cheetos,然後另外一個Persona 2,第二個人他要扮演一個有四個小孩的不知道是父親還是母親,然後你喜歡看Game of Thrones。

link |

33:45.740

然後接下來Persona 1跟Persona 2,這兩個人就開始對話,他們要在字裡行間顯露出他們的人設,今天要求這兩個工讀生在對話的時候,要盡量根據自己的人設說話。

link |

34:02.740

所以第一個人就說Hi,第二個人就說Hello,How are you today? 然後第一個人就說I'm good,Thank you,這個有點怪了,因為他老婆不再愛他,他應該不會說I'm good,他應該很慘。

link |

34:15.740

不過一般禮貌上,人家問你說你今天過得如何,不管你過得好還是不好,在禮貌上都會說I'm good。

link |

34:21.740

第二個人就說,我的小孩跟我,我們要看Game of Thrones。這個跟第一次見面的人講這樣是有點突兀,不過他要趕快顯示出他的人設,趕快說我有小孩,而且我要看Game of Thrones。

link |

34:37.740

然後第一個人就說,你的小孩幾歲?人設裡沒這段,不過就可以隨便編,他的小孩十到二十一歲,順便趕快透露說他有四個小孩。然後第一個人就說,I do not have children at the moment,他沒有小孩,因為他老婆不再愛他,沒有小孩。

link |

34:54.740

然後人物二就說,那你可以把所有的爆米花都吃掉,二試圖安慰一下一,這樣可能只會讓一的心情更低落而已。然後一講,這不是真的人設,這都是編的,他們都只是在演戲而已。

link |

35:10.740

一就說,而且我可以吃掉所有的Cheetos,他趕快顯示說他喜歡吃Cheetos。所以這個對話就是這樣,就是兩個人試圖根據人設講出符合這個人設的對話。今天如果你想要訓練ChetBar有根據人設講出符合人設對話的能力的話,你通常會使用Persona Chat這個Corpus。

link |

35:33.740

那怎麼解Persona Chat這樣的問題呢?有一個特別有趣的解法叫做Transfer-Transfer,這個是什麼東西呢?

link |

35:44.740

它是Transfer-Transformer的縮寫,它故意不把Transformer完整的寫出來,這樣念起來就像是Transfer-Transfer,這樣有點一語雙關的感覺,把同樣的詞彙重複兩次的感覺,類似猜猜拳用疊字的感覺。

link |

36:03.740

那現在怎麼讓機器學會根據自己的人物設定來講話呢?那這篇Paper的解法其實就是簡單粗暴,直接把這些人設當作一個句子丟到GPT-2裡面就結束了,這些人設就是一個巨大Language Model最開始的輸入。

link |

36:27.740

你給這個巨大Language Model一段人設,I like to ski,然後接下來再給它一段輸入,說How are you today?

link |

36:37.740

那期待這一個Language Model再經過一點,再經過用這個Corpus,用Persona Chat這個Corpus裡面的資料微調以後,可以得到符合一開始給它這個人設的Response。

link |

36:50.740

那因為今天在Persona Chat的Corpus裡面,人設這個東西是由多個句子所組成的,但是這個人設的句子的順序並不重要。

link |

37:04.740

所以今天實際上在Train這個Transfer Transform的時候,作者會刻意把這個Persona的句子順序打亂,還用各種不同的Persona的句子順序去Train它的GPT-2,這樣可以做到類似Data Augmentation的效果。

link |

37:22.740

第三個要跟大家分享的方法是,如果我們只有Monologue的時候,怎麼做Control Checkbar的Output這樣的事情呢?

link |

37:37.740

第三個方法的狀況是這個樣子的,在剛才我們前面講的方法裡面,我們都需要收集一些對話,這些對話裡面需要包含我們所要的某些特性。

link |

37:53.740

你希望你的Checkbar講話像某種人物設定,那你就得要有這種人物設定的對話才能夠訓練你的Checkbar。但是很多時候,我們有可能只有Monologue,也就是獨白,我們很有可能只有某一個角色的獨白。

link |

38:13.740

在這個情況下,我們怎麼讓我們的Checkbar它的回覆像是某種角色呢?舉例來說,你希望你的Checkbar講話像是川普,可是你可能沒有辦法收集到太多川普跟其他人的對話。

link |

38:31.740

但是在網絡上,你可能可以收集到很多川普的演講,所以你有很多川普自己講話的獨白,你可能沒有他跟其他人的對話,但是你有很多川普講過的句子,那期待透過這些川普講過的句子,你可以讓你的Checkbar輸出的Output比較像是川普說的話。

link |

38:52.740

這就是第三個方法想要達成的目標。在這種Monologue Only的情況下,你怎麼讓你的Checkbar講話像是某種角色呢?我們先講三個比較直覺的做法。

link |

39:09.740

第一個最直覺的做法就是,今天你要求你的Checkbar在進行回覆的時候不要自己產生句子,而是一定要從Monologue裡面產生句子。

link |

39:23.740

假設你今天要讓你的Checkbar講話像是川普,你收集了一大堆川普的演講稿,那你今天讓你的Checkbar回話的時候,一定要從川普的演講稿裡面挑一個句子出來回話,那你的Checkbar講的話可能就會讓使用者覺得,嗯,有點像是川普。

link |

39:40.240

那像這樣的方法對那種有口頭禪的人物也許是特別有用。舉例來說,卑鄙原之助,你跟他講什麼,他都講卑鄙原之助。他不管你對他講什麼,只要回答卑鄙原之助,然後再搓一下手,就很像是卑鄙原之助會說的話了。

link |

40:01.240

那還有另外一個方法呢,叫做Multiply。另外一個方法是說,我們現在只有Monologue的Data,所以沒辦法拿來訓練Checkbar,怎麼辦呢?我們拿這些Monologue的Data來訓練一個Language Model。

link |

40:16.240

Monologue的Data只有一大堆的句子,訓練Checkbar不行,訓練Sequence-to-Sequence Model不行,但可以拿來訓練一個Language Model。那接下來呢,你再拿這個Language Model來影響你的Checkbar的速度,什麼意思呢?

link |

40:33.740

Checkbar就是一個Sequence-to-Sequence Model,那在做Sequence-to-Sequence Model的時候,你往往會做Bin Search,選出一個分數最高的句子。那你能不能在Bin Search的時候,在算分數的時候,不只參考原來Sequence-to-Sequence Model算出來的機率,也參考一下用Monologue訓練出來的Language Model算出來的機率。

link |

40:59.740

用Monologue訓練出來的Language Model算出來的機率,來微調你現在Sequence-to-Sequence Model會輸出的句子。那期待Sequence-to-Sequence Model最後在輸出句子的時候,可以選一個句子,這個句子比較像是Monologue裡面會出現的句子。

link |

41:17.740

第三招是我覺得特神奇的,叫做Pseudodata。它怎麼做呢?它說,你只有Monologue是吧?舉例來說,你只有川普的講稿,你只知道他會說Make America Great Again跟I Want to Build a Wall。

link |

41:32.740

接下來,你訓練一個反向的Chatbot,一般正向的Chatbot是輸入一個句子,輸出一個回應。訓練一個反向的Chatbot,這個反向的Chatbot根據大量資料訓練出來的是給你一個回應,預測應該有什麼樣的輸入。

link |

41:49.740

舉例來說,當有一個人的回覆是Make America Great Again的時候,那到底人家跟他說了什麼話,他會講這句話呢?可能人家跟他說了,What is your goal in life?你人生目標是什麼?那他回答就是Make America Great Again。

link |

42:05.740

或者說,什麼時候有一個人會說I Want to Build a Wall呢?也許有人跟他說,你現在想做什麼的時候,他就會說I Want to Build a Wall。你用這個反向的Chatbot,你就可以把Monologue的Corpus轉變成Dialogue的Corpus,這樣你就可以套用我們剛才在Approach 1或Approach 2講的方法來訓練你的model,

link |

42:27.740

來訓練你的可以吃Persona作為輸入的model,可以扮演不同角色的Chatbot。

link |

42:36.740

還有另外一個做法是說,你現在有大量的讀白,那你就用那些讀白訓練一個Sequence to Sequence的model。

link |

42:47.740

那怎麼用讀白訓練Sequence to Sequence的model呢?這個Sequence to Sequence的model其實是一個Autoencoder,就輸入一個句子,要輸出一模一樣的句子。

link |

42:58.740

然後同時另外一邊呢,你在訓練一個Chatbot,他也是一個Sequence to Sequence的model,但是跟這邊Autoencoder不一樣的地方,他是有人跟他說一句話,他要得到一個回覆。

link |

43:09.740

那上面這個Sequence to Sequence的model是用大量不同人的資料train的,下面這個Autoencoder是用單一一個角色的monologue train出來的。

link |

43:20.740

但是你在訓練的時候,你要求這個Sequence to Sequence的model decoder跟這個Autoencoder的decoder,他們的參數要直接被tie在一起,他們要用一模一樣的參數。

link |

43:31.740

這樣可以達成什麼效果呢?這樣就可以達成說,因為這個decoder在訓練的時候,你會要求他常常輸出monologue裡面的句子。

link |

43:40.740

那所以今天這個Sequence to Sequence的model在答覆的時候,就會傾向於output比較像是monologue裡面有的句子。

link |

43:48.740

那這招其實跟我們剛才講的multiply,train a language model做rescoring這句這樣子的方法,其實是有異曲同工之妙啦。

link |

43:57.740

那還有另外一個做法,這個做法是,你有monologue data,那我們就用這些monologue data去訓練一個classify。

link |

44:06.740

這個classify的作用是給他一個句子,他可以判斷說這個句子像不像是monologue裡面有的句子,像不像是從這個monologue裡面sample出來的句子。

link |

44:19.740

就是你已經有monologue的句子,你只要可能再去找另外一堆句子當做next example,你就可以訓練一個classify。

link |

44:27.740

這個classify給他一個句子,他會決定說他像不像是monologue裡面的句子。

link |

44:32.740

那假設你的monologue是川普的演講,那這個classify就會判斷說這個句子像不像是川普會說的話。

link |

44:38.740

然後接下來呢,你去update你的sequence-to-sequence model,也就是checkbox的參數,那現在update的目標是要去騙過這個classify,讓classify覺得說這個sequence-to-sequence model的輸出像是monologue裡面的句子。

link |

44:55.740

那這個地方你可能會需要用到rl,為什麼你會需要用到rl呢?因為今天你的sequence-to-sequence model輸出是discrete。

link |

45:05.740

它就像是rl裡面的action一樣,它是discrete的,所以通常可能會用rl的algorithm來調你的sequence-to-sequence model。

link |

45:14.740

你可能會把classify的輸出當作是reward,classify說現在輸入的句子越像是monologue,你的reward就越大,然後你的sequence-to-sequence model就用rl的方法去maximize他可以從classify得到的reward。

link |

45:32.740

或者是你也可以把它當作像game一樣來check,你的checkbox,sequence-to-sequence model就是generator,這classify就是discriminator。

link |

45:41.740

那你要訓練generator去騙過discriminator,那discriminator也會update,那generator也會update,他們就iterative的update,讓彼此越來越強。

link |

45:50.740

但是實際上在做的時候,還是有一些額外的限制是需要注意的。

link |

45:58.740

什麼意思呢?你今天如果只單純的去update你的sequence-to-sequence model,要這個sequence-to-sequence model去騙過classify的話,最後可能會得到什麼結果呢?

link |

46:12.740

如果你今天是用川普的data,那可能到時候不管你說什麼,他都會說make America great again,他就不管input了,他就不想做對話了,反正他只要輸出一個像是monologue裡面的句子,就可以騙過classify,就結束了。

link |

46:27.740

所以他可能講來講去,都是monologue裡面的句子完全無視你的輸入,那這個顯然是我們不要的。

link |

46:36.740

所以怎麼解這個問題呢?那就有各式各樣不同的方法,那在這邊我們就不細講,那我們就講一些直覺上你完全可以想到的解法。

link |

46:45.740

你可能會說,我在update我的參數的時候下一些限制,我要求參數update的量越小越好,這當作是另外一個reward,你不可以讓參數的update量太多。

link |

46:59.740

或者是你另外train一個sequence-to-sequence model,那你要求說現在output的句子用另外一個sequence-to-sequence model算起來,機率不能太低,這代表說你現在的缺乏不可以產生太過前言不對後語的句子。

link |

47:13.740

你產生出來的句子跟前面的句子接起來還是有一些合理性的,對另外一個general缺乏來說輸出這個句子也應該是可能的,也應該是一個合理的回覆。

link |

47:24.740

那這個問題其實很像是cycle game會遇到的問題,因為我們剛才說你完全可以把這個training就當作是一個game,所以這是generator,這是discriminator。

link |

47:35.740

我們都在train cycle game的時候,你一定要再做cycle consistency,所以這邊你完全可以加上cycle consistency,你再train另外一個sequence-to-sequence model,必須要根據這個response回溯,猜出原來的輸入是什麼。

link |

47:51.740

那如果你今天的sequence-to-sequence modeltrain到後來只會說make America great again,那今天他就沒有辦法猜出說原來的輸入是什麼。

link |

48:00.740

所以你也可以用cycle game的概念再去train另外一個reconstruction的network,試圖從這個response裡面reconstruct原來的輸入。

link |

48:09.740

那這邊就舉一個具體的例子,假設你今天的monologue都是正面的句子,那你就可以讓這個機器學會都說正面的話變成一個樂觀缺乏,都是說正面的話,你說什麼他都會說一些正面的話來回覆你。

link |

48:27.740

就是訓練出一個sentiment classifier,這個sentiment classifier給一個句子可以判斷說這個句子是正面的還是負面的。

link |

48:36.740

因為在你的monologue裡面已經有很多正面的句子了嘛,所以你已經有一大堆正面的句子,所以你可以train一個classifier判斷說一個句子是正面的還是負面的。

link |

48:46.740

那所以如果是負面的句子,today is bad,丟到sentiment classifier裡面它output的分數就會很低,然後接下來你可能再用RL的做法去訓練你的sequence to sequence model,要求sequence to sequence model調整參數,以便輸出一個句子,這個句子是可以讓sentiment classifier的輸出分數越高越好,也就是sentiment classifier覺得現在輸的句子越像是一個正面的句子。

link |

49:13.740

那你今天的sequence to sequence model可能就會把today is bad的bad改成good,它如果把bad改成good的話,丟到sentiment classifier裡面就會得到比較高的分數。

link |

49:25.740

那我們在下面這邊有說過說,我們就是要給我們的sequence to sequence model一些constraint,所以它不會把整個句子統統改掉,它不會為了讓sentiment classifier認為這個句子是正面的,就不管輸出什麼它都說wonderful, wonderful, wonderful, good, good, good, good, good。不會這樣,它不會只輸出一堆正面的字彙。

link |

49:45.740

因為你有限制這個sequence to sequence model,不可以調太多,所以它只可能只會把today is bad的這個bad,特別會影響sentiment classifier這些字彙,改成正面的字彙。

link |

49:57.740

那這個是用monologue data來訓練你的缺把。那以下是一個真正的demo,從文獻裡面擷取下來的例子。你今天如果一堆positive的句子,你就可以訓練一個樂觀缺把,他總是講正面的話。

link |

50:16.740

所以有人對他說,I'm less interested in the how-to and more in the what and why of the things we build,這個人就說了一套他自己的想法。

link |

50:28.740

那如果是一般的sequence to sequence model,就否定這個人,it's not a good thing,但如果是一個樂觀缺把,因為他知道他要講正面的話,才能得到reward,他就會說,oh, it's a good one,就隨便亂讚美一下。

link |

50:42.740

或有一個人說,always learning and self-improvement is a huge turn-on for me。那如果是一般的缺把,就會說,I'm not sure if I can see you in a relationship,人看到這句話,一定勃然大怒。但如果是正面的缺把的話,就會說,I love you so much。

link |

51:01.740

這是另外一個文獻上的例子,就是想辦法讓缺把說話像是Big Bang Theory裡面的六個主要角色。

link |

51:14.740

這邊只有用這六個角色的monologue data,也就是說把這六個角色有講過的台詞拿出來訓練缺把,讓缺把講出像這些台詞的話,並沒有用到六人行裡面的對話,就只有拿這些角色曾經說過的話來訓練缺把,讓缺把來模仿這六個角色說過的話。

link |

51:39.740

那如果是這樣訓練的話,用我們剛才講的加一個classify訓練的方法,如果你現在對機器說Do you like him?那一般的缺把,他的回答會是No, just stop。

link |

51:52.740

你喜不喜歡他呢?男生的他?然後這個一般的回答就不,不喜歡。那如果是Howard呢?Howard說No, I'm sorry。

link |

52:02.740

如果是Leonard呢?Leonard也說No, Leonard也不喜歡男生的他。如果是Rush呢?Rush會說他是個好孩子。

link |

52:15.740

那如果是Sheldon會說他真的是一個好朋友。如果是Penny的話會說He's a cool kid。如果是Bernadette的話會說He's my man。

link |

52:28.740

那這個到底合不合理?我對這個Big Bang Theory沒那麼熟,所以很難說這個合理還是不合理,反正訓練出來的結果就是這個樣子就是了。

link |

52:37.740

那還有一個可以操控你的model產生句子的方法,叫做Plot and Play Language Model。

link |

52:47.740

那Plot and Play Language Model其實跟我們剛才講的另外訓練一個classifier去操控你的sequence-to-sequence model的想法其實是非常非常類似的,在概念上、精神上類似,但實作的方法不太一樣。

link |

53:08.740

那因為它們非常的類似,所以我就把這個Plot and Play Language Model放在這邊,那就是告訴大家說有這個東西,有這個操控Language Model輸出的方法。

link |

53:19.740

那你會發現說這個Plot and Play Language Model正好跟剛才講的那個Control是一體兩面,它們都是在操控Language Model的輸出,但是它們用的方法截然不同。

link |

53:31.740

像剛才講的那個Control那個方法,它是用一個Control Code來操控Language Model,那現在這個Plot and Play Language Model它是完全不同的方法,它這邊畫了一個非常傳神的比喻,這個傳神的比喻是這樣子的。

link |

53:47.740

GPT-2就像是一個大象,它碩大無朋,那我們訓練一個小小的Classifier,這個小小的Classifier就像是一個老鼠,那它透過Gradient Descent,這個是大象的江神來操控GPT-2這樣子的龐然大物。

link |

54:07.740

那Plot and Play Language Model的細節就留給大家自己去研究,那我們就是把論文放在這邊,讓你知道說有這麼一篇文章,你可以自己去研究。

link |

54:18.740

那我這邊就很快的講一下它的大概念就好,它大概念就是我們來訓練一個Attribute Model,那Attribute Model其實就是我們剛才看到的Classifier。

link |

54:27.740

那我們可以用這個Classifier來操控我們Language Model的輸出,怎麼用這個Classifier來操控Language Model的輸出呢?原來Language Model如果沒有這個Classifier,它今天已經看到Chicken跟Test,那它會輸出什麼樣的句子呢?

link |

54:45.740

它可能會輸出OK,這個雞腸起來還可以,但是如果你要求它要輸出正面的句子,會怎麼樣呢?今天這個Plot and Play Language Model,它會改變Language Model裡面的Latent Representation,其實它改變的是Key跟Value的值。

link |

55:06.740

Key跟Value就是Transformer裡面的Latent Representation,可以說它是改變Latent Representation的值,它期待改變Latent Representation的值,改變以後可以讓這個Attribute Model的Output越大越好。

link |

55:20.740

如果這個Attribute Model是一個Sentimental Classifier,就是希望輸出的句子可以越正面越好。那如果你有這樣的Sentimental Classifier,那你Update你的Latent Representation以後,那OK可能就會變成Delicious。

link |

55:36.740

這個Plot and Play Model一個特別的地方,就是我們剛才在講這種操控Chain Bar輸出的時候,我們說我們要用RL去改這個Sequence-to-Sequence Model的參數,那很容易一不小心就把整個Model都改壞掉了。

link |

55:51.740

這個Plot and Play Model一個神奇的地方,就是它完全沒弄動到Language Model本身的參數,它只改Language Model Latent Representation的輸出而已,至於它實際上是怎麼做到的,就讓大家參考論文的文獻。

link |

56:08.740

它還附了一個非常有趣的圖,我們就很簡單的講一下這個圖。這個圖的意思是說,在這個圖上,紅色的等高線代表越往右邊是你產生出來的句子,會被Sentimental Classifier覺得越是正面的。

link |

56:26.740

藍色的區域,在藍色區域中間的是比較符合文法的句子,藍色區域之外的是不符合文法的句子。那你就會期待說,假設你原來的句子在這邊,被修改了以後不要完全按照讓句子變正面的等高線走,因為它整個就會壞掉。

link |

56:44.740

像我們剛才講說,如果你在用那個RL要讓你的Chepa output正面的句子的時候,你不可以只用RL,你不可以只考慮Classifier的output,因為你只考慮Classifier的output,Chepa就會講出奇奇怪怪的話,只為了騙過Classifier。

link |

57:01.740

那這邊的道理完全是一樣的,你走這個等高線的方向,雖然可以讓輸出的句子,你的Attribute Model在這邊就是Sentimental Classifier覺得越來越正面,但是你會讓你的句子壞掉,你會偏離這個藍色的區域。

link |

57:16.740

所以你要想辦法控制一下,你今天你的句子就算是變得比較正面的時候,還是要落在這個藍色的區域裡面,這個就是Language Model的精神。

link |

57:28.740

那有關這種操控Chepa輸出下一步的研究是什麼呢?我認為下一步的研究是這樣。

link |

57:38.740

那今天我們可以做的事情是操控Chepa的輸出,比如說讓它總是說正面的話,但是這真的是我們要的嗎?

link |

57:48.740

舉例來說,假設有一個人說,啊,我的老闆實在是一個很糟糕的人,那Chepa一個總是說正面話的Chepa,他就會回答說,哦,那不錯啊,聽起來就很糟糕,感覺是在敷衍或者是嘲諷。

link |

58:01.740

所以總是輸出某種類型的句子,並不一定是一件好事。所以怎麼辦呢?我們應該是要讓Chepa輸出好的句子。

link |

58:14.740

我們應該要讓Chepa輸出的句子是可以讓它的對話者也變得正面的,也就是我們可以改變一下我們的目標。

link |

58:24.740

Chepa本身說什麼並不重要,它本身說的句子是否正面並不重要,但是我們希望跟Chepa對話的人看到Chepa的回覆以後,人的回覆會變得正面。

link |

58:36.740

這樣講起來好像有點複雜,我們就舉一個最具體的例子。假設你現在對Chepa說,我的老闆很糟糕,Chepa的回答是,哦,你的老闆真的是很糟糕,我也想要毆打他。

link |

58:49.740

那人呢這個時候就會給正面的回覆,哦,你太棒了,謝謝你聽我說話。那Chepa講的這句話不是正面的,但我們現在並不在意Chepa本身的回覆是什麼樣子,我們只期待Chepa講出這句話以後,人的回覆變得正面。

link |

59:06.740

也就是說,我們不只是操控Chepa,下一步的研究應該是操控Chepa去操控人的回覆,讓人講出比較好的句子,讓人的生活變得更好。這個是下一步Controllable Chepa的研究重點。

link |

59:25.740

好,那今天呢就是講了三個方法,一個是直接調,另外一個是Control by Condition,第三個是只有MonoLog的時候要怎麼辦。

link |

59:36.740

那我們就在這邊休息一下,我們大概五分鐘後再回來。

[DLHLP 2020] Controllable Chatbot