Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

那要怎麼訓練這種做摘要的model呢?那你就需要一個sequence-to-sequence的model,那你的輸入,假設你的輸入是語音的話,你可以先用語音辨識把它轉成文字,如果輸入是文字,那如果你的文章是文字的,那就直接把word sequence丟到sequence-to-sequence model裡面。

link |

01:26:20.000

那sequence-to-sequence model用encoder呢,去理解這個文章以後呢,把encoder的輸出丟給decoder。那今天一般的這種做summarization的sequence-to-sequence的model,它的training必須要是supervised,你必須要告訴machine說,看到這篇document,你要輸出什麼樣的summary。

link |

01:26:42.000

那你收集的data要夠多,你才能夠得到合理的結果。那舉例來說,你通常要百萬篇以上的文章跟它對應的summary,你才能夠train這種sequence-to-sequence的summarization的model。

link |

01:26:56.000

那要收集上百萬篇的training data其實是非常困難的,在某些test等可以做到,在很多test也不能夠做到。舉例來說,在新聞裡面,我們通常可以把新聞的title直接就當成是summary。那每一篇新聞本身就有title,你要收集三百萬篇新聞也不是問題,那你就可以用大量的data來train這個sequence-to-sequence的model。

link |

01:27:16.000

那在其他的application,比如說你想要摘要上課的錄音,或者是你要摘要NBA,這樣可能就比較困難一點。所以我們希望可以有unsupervised的attractive的summarization。

link |

01:27:31.000

怎麼樣做到unsupervised的summarization呢?那這邊構想是,我們先run一個sequence-to-sequence的model,這個sequence-to-sequence的model它用的是一篇文章,它的output就是短的句子,那希望它的output可以被當作summary的結果來使用。

link |

01:27:50.000

然後再run另外一個sequence-to-sequence的model,這第二個sequence-to-sequence的model,它是吃短的句子輸出原來的文章。那今天在training的時候,我們希望run這個概念就跟autoencoder是一模一樣的。

link |

01:28:07.000

就input一個文章,把它縮短,然後希望可以從這個縮短的version變回原來長的文章。在訓練的時候,你就是minimize輸入跟輸出的reconstruction的error,你希望輸入跟輸出越接近越好。

link |

01:28:29.000

那如果今天中間的這個短文,它可以reconstruct原來的長文,那代表它包含了原來的長文章裡面多塑造的字句,那你就可以把這個短的句子當作是摘要來看。

link |

01:28:43.000

那在training的時候,它就是一個autoencoder,輸入長的文章,輸出也是一模一樣長的文章。但它不是一般的autoencoder,一般的autoencoder,你得輸入一個high-dimensional的vector,把它做dimensional reduction,然後再把dimensional reduction的結果變回原來high-dimensional的vector,這是一般的autoencoder。

link |

01:29:04.000

還有另外一種autoencoder叫sequence-to-sequence的autoencoder,因為一個sequence把它變成一個code,這個code也是一個vector,再把這個vector變回原來的sequence。

link |

01:29:14.000

那這邊它是sequence-to-sequence-to-sequence autoencoder,它就是把一個長的sequence變成一個短的sequence,再把短的sequence變回長的sequence,所以它是sequence-to-sequence-to-sequence autoencoder。

link |

01:29:31.000

那在train的時候,我們知道說sequence-to-sequence-to-sequence model,它就是有sample的process,所以有sample的process,今天這兩個sequence-to-sequence-to-sequence model合起來是不能為分的。

link |

01:29:42.000

不過沒關係,反正你就用剛才講的reinforcement learning的方法,硬train就對了,硬train,你就把reconstruction error當作loss,然後train,用reinforcement learning的方法硬train下去就結束了。

link |

01:29:55.000

但是這樣可能會有一個問題,假設今天長的輸入是臺灣大學,那machine可能就會想要把它縮寫,但是machine不一定會把它縮寫成臺大,可能把它縮寫成灣學,反正只要第二個sequence-to-sequence-to-sequence model可以把灣學再解回臺灣大學就可以了。

link |

01:30:15.000

但是人看到這個東西,他就會非常的害怕,他就會非常困惑,他就不知道machine在講什麼,他就覺得說machine發明了新的語言是密謀要統治人類。

link |

01:30:26.000

大家都記得Facebook不是之前就release說什麼machine發明了新的語言是密謀要統治人類,你可能會覺得說這個這麼荒謬,真的有人相信嗎?還真有人相信!我跟很多人talk過,很多人是真的相信的,這讓我覺得非常的擔心。

link |

01:30:45.000

所以我們要避免這種狀況發生,那怎麼辦呢?我們要加一個discriminator,這個discriminator的工作就是給他一個句子,給他一個word sequence,他判斷說這個word sequence是人寫的word sequence還是機器產生的word sequence。

link |

01:31:05.000

這個discriminator他並不需要真的看過summary,只要給他大量人寫的句子,然後他說人寫的句子長什麼樣,之後他就可以去判斷說一個句子是不是人寫出來的句子。

link |

01:31:18.000

然後在training的時候,discriminator要做的事情就是要想辦法讓這個discriminator覺得他產生的句子是人寫出來的。所以在這整個model裡面要minimize的事情,對這個第一號sequence to sequence model來說,一方面要讓輸入的長文跟輸出的長文越接近越好。

link |

01:31:47.000

同時他又希望說中間的這個短文,他產生出來的這個短文是discriminator覺得是人寫的句子。

link |

01:31:56.000

那可能discriminator發現說,哦,彎學是一個很奇怪的東西,也許縮寫成什麼大字比較合理的,那第一個sequence to sequence model就會知道說台灣大學應該要縮寫成台大。

link |

01:32:09.000

好,那這邊就是一些例子,接下來就是給大家看一些Machine真正可以做出來的例子。舉例來說,你輸入的文章是澳大利亞晶片子山國家簽署了反興奮劑雙邊協議,那人寫的摘要是澳大利亞晶片子山國簽署反興奮劑協議,機器寫的摘要是澳大利亞加強體育競賽之外的藥品檢查。

link |

01:32:32.000

其實這是一個蠻typical的例子,大部分機器產生output都是可以做到這個等級的。但是你仔細想一下,其實在unsupervised case的情況下,機器它產生output的時候其實是頗為保守的。

link |

01:32:46.000

你會發現說它output的這些句子、這些詞彙通常就是原來input的document裡面有的詞彙。舉例來說,澳大利亞出現在這個地方,加強體育競賽之外的藥品檢查出現在這個地方。

link |

01:33:04.000

所以機器通常做的事情就是從原來的文章裡面選一些詞彙出來,然後把一些它覺得可能比較不重要的東西,這種詞綴字把它刪掉,然後組成新的句子。

link |

01:33:16.000

這個是一個比較typical的結果,現在有一個找到一個比較強的,輸入是中華民國2011年委員會今天接到1992年冬季奧運會邀請函。人寫的摘要是1992年冬季奧運會也邀我參加。

link |

01:33:30.000

今天機器產生的output是奧委會接獲冬季奧運會邀請函。所以機器自己學到說奧林匹克委員會的縮寫就是奧委會。

link |

01:33:41.000

可能在training data裡面有很多X委會X委會,它就學到說什麼什麼委員會就可以縮寫成什麼委會,它就自己學到這個東西。

link |

01:33:52.000

當然它有一些失敗的例子,舉例來說這個是印度尼西亞蘇門達臘島發生豪雨,人寫的句子是摘要是印尼水災造成六成死亡。

link |

01:34:03.000

機器寫的是印尼門洪水氾濫導致塌嶼,結果不管塌嶼是什麼,印尼門是什麼,印尼門就是印度尼西亞蘇門的縮寫。

link |

01:34:15.000

機器覺得說印度尼西亞蘇門的縮寫就是印尼門,可是training data裡面有很多羅森門、通俄門之類的,所以它就覺得說印度尼西亞蘇門應該縮寫成印尼門。

link |

01:34:26.000

當然也有少部分是整個就爛掉了,舉例來說這個是安徽省合肥市最近為領導幹部下基層做了新規例一律清車重檢,機器產生的output就是合肥領導幹部下基層作稿迎來送往規定一律檢。

link |

01:34:42.000

一律清車重檢就縮寫成一律檢,其實也有人用類似的技術來做video的summarization,這邊就把reference列給大家參考。

link |

01:34:55.000

還有用類似的技術,細節我們就不講了,有人做unsupervised translation,我們過去做translation當然都會用sequence-to-sequence model,比如說你要中翻譯,收集一大堆的中文,每一個中文你都找人去寫了他英文的翻譯,收集百萬句以後都要給機器去translate。

link |

01:35:16.000

但現在可以做unsupervised translation,你只要一堆中文一堆英文,然後不需要是pair的,網路上爬一堆英文的句子爬一堆中文的句子,兩堆不需要pair,然後用game的技術就可以硬train一個translator。

link |

01:35:34.000

我就把reference留在這邊給大家參考,技術的部分我們就不細講了,我唯一想要跟大家講的就是他到底可以做到什麼樣的performance,這個是文件上可以做到的成果。

link |

01:35:49.000

橫線是unsupervised translation可以做到的結果,縱軸是blue scope,用blue scope來衡量,越來越好,大家都知道blue scope是什麼了。這個曲線是supervised方法的performance,橫軸是使用的training data的量。

link |

01:36:09.000

那unsupervised的方法他用的training data量是10的7次方的句子,不過是unpair,是沒有pair的。因為是沒有pair所以你要用多少data都可以啦,在今天unsupervised的情況下collect data並不是太大的effort。

link |

01:36:25.000

而如果是supervised的情況下collect data就會是一個effort。那在supervised的情況下當你的data從10的4次方的pair的句子一直進步到10的7次方的pair的句子的時候,你的performance當然是越來越好的。

link |

01:36:40.000

但你會發現說,你用unsupervised的方法performance是可以逼近10的5次方比training data的performance。也就是說,你今天如果要跟unsupervised的方法performance比比,你要收集10的5次方,也就是1萬個pair的句子,才能夠跟unsupervised的performance一樣好。

link |

01:37:04.000

那最後呢,我要跟大家講的是文字上的text style的transfer。那我們在座位裡面有要求大家做image的style transfer。image style transfer,文件滿坑滿谷,隨便google就是一大堆,所以我們應該是很貼心的做出來。

link |

01:37:20.000

我們這邊講文字的style transfer。我這邊要舉的例子呢,是用personalized的chatbot做例子。也就是說,我們希望未來的chatbot是有個性的。舉例來說,你假設你想要做一個虛擬女友,那你會希望你的女友是有個性的,比方說她是傲嬌的個性,或者是她是病嬌的個性等等。

link |

01:37:42.000

所以你會希望你的chatbot是personalized的。那我們現在可以做到的事情,當然要做出什麼傲嬌的屬性的chatbot這個還太不困難。

link |

01:37:51.000

那現在至少可以做到說,我們希望我們的chatbot,他的回答都是正面的。你可以想像說同樣的技術你可以用在其他的地方,比如說希望chatbot的回答都是傲嬌的等等。

link |

01:38:03.000

那我們現在,什麼叫做chatbot的回答都是正面的呢?舉例來說你問他說,How was your day today?那chatbot其實可以回答各式各樣不同的回答。

link |

01:38:16.000

舉例來說他可以說,他今天過得很糟,但是我們希望他是一個樂觀開朗的chatbot,如果你問他說,今天過得怎麼樣的話,他就要回答說,我過得很好。那這個怎麼做呢?這邊有兩個不同的體系的方法。

link |

01:38:34.000

一個方法是,我們有一個sequence-to-sequence model,我們直接去改sequence-to-sequence model的參數,希望這個sequence-to-sequence model的output永遠都是正面的。

link |

01:38:47.000

那另外一個系列的方法是,我們不要去動那個sequence-to-sequence model,好不好,那個sequence-to-sequence model都不是你的,就是off the shelf的網路上載下來的,動不了他的參數。但是我們另外一個transformation的network,這個network做的事情是,不管這個chatbot回答的output是什麼,我們一定把它轉成正向的。

link |

01:39:09.000

這個chatbot我們就不要動他了,可能是別人的,我們動不了他,但是不管他說什麼,就通通把它轉成正面的句子。

link |

01:39:18.000

那有什麼樣的方法呢?我們先來講第一個,Persona-based的方法。Persona-based的方法我記得很久以前就有了,好像15年還16年就有了。而這個Persona-based的方法也是要去改這個sequence-to-sequence model的參數,希望sequence-to-sequence model的output總是正面的。

link |

01:39:39.000

Persona-based的方法是說,假設我們training data裡面有一個data的peers告訴我們,看到how is today,你就要回答today is awesome,然後你有一個sentimental classifier,那這個sentimental classifier會吃你的response的結果,你就先把response的結果丟給sentimental classifier,讓他判斷說現在要繼續output的response是正向還是負向。

link |

01:40:06.000

那這個sentimental classifier如果它是input句子越正面,它output的值就越接近1。那這個sentimental classifier你可以去另外把它check,反正你很容易可以收集到大量的data,然後有人去label說哪些句子是正面,哪些句子是負面,然後哪些大量的data你就可以訓練好那個現成的sentimental classifier。

link |

01:40:25.000

如果你有修另外一門我的ML的話,我們有機會用作業就是訓練一個sentimental classifier,你就假設你把你那個作業的結果拿來這邊用一下就是了。好,今天你的這個SQL to SQL model它在產生output的時候,它會不只是看現在input的句子,它還會看這個sentimental classifier的output,一起去產生最後的response。

link |

01:40:49.000

所以如果你今天的output是today is awesome,它就會看到這個0.9以後,它就輸入這個0.9以後輸出today is awesome。如果今天的輸出是today is bad,你就input0.1以後讓它輸出today is bad。

link |

01:41:03.000

所以Machine就會學到說,如果輸入的數字是大的,靠近1的就輸出正向的句子,靠近0的就輸出負向的句子。最後實際上呢,你在做testing的時候,你要怎麼讓它變成一個樂觀的buff呢?

link |

01:41:19.000

如果你都輸入,譬如說它input是I love you,如果你把這個黑色的數字設一個接近1的詞,它回答就會變成是正面的,就變成I love you too。如果輸入接近一個字,0.0,它就輸出I'm not ready to start a relationship。

link |

01:41:37.000

它沒有辦法跟你開始一個關係,但跟別人其實是可以的。你今天就是只要缺乏輸出off response的時候,你永遠把這個黑色的數字設成1,你就會得到一個樂觀的buff。

link |

01:41:51.000

但如果設成0,它就會變成一個悲觀的buff。那另外一個方法是用reinforcement learning的技術。那怎麼reinforcement learning的技術呢?用reinforcement learning的技術,我們就需要給Machine的response一個分數嘛。

link |

01:42:08.000

所以我們就把現在Machine的response丟給Sentimental Classifier,那Sentimental Classifier會給它一個分數,說現在這個句子有多真相。那Machine就把Sentimental Classifier的output當作report,它希望它產生的句子,Sentimental Classifier覺得它越正面越好。

link |

01:42:27.000

那用的方法跟我們今天在這份投影片一開始用reinforcement learning的方法是一模一樣的。只是現在evaluate不是人來看,是拿Sentimental Classifier來看。其他的技術,細節量,其他用的技術都是一模一樣的。

link |

01:42:45.000

好,那接下來Network就會去調整它的sequence-to-sequence model,就會調整它的參數,它希望它產生出來的句子可以讓Sentimental Classifier的output值越大越好,也就是sequence-to-sequence model可以得到的reward越大越好。

link |

01:43:03.000

好,現在已經講了兩個方法,第三個方法是trace一個transformation的network,把input,不管input是什麼樣的句子,通通改成正向的句子。

link |

01:43:16.000

那這個技術叫做ply-and-play,在文字在影像上已經有很多實作的成果,也做得非常成功。那其實這個方法跟我們剛才看到那個智能的photoshop是非常像的,我們剛才不是講了智能的photoshop嗎?這個ply-and-play的方法其實就是智能的photoshop用的方法。

link |

01:43:35.000

好,怎麼做呢?你先trace一個sequence-to-sequence的model,你可以把一個sentence變成一個code,你可以把一個code變成sentence。

link |

01:43:47.000

接下來,當你的圈碼有一個response的時候,把這個response丟到encoder裡面讓它變成一個code,然後接下來把這個code做一些修改,把原來的code變成新的code,然後再把新的code丟到encoder裡面產生新的response。

link |

01:44:07.000

然後我們希望這個新的response丟到sentence的classifier裡面,它最後的output越正面越好。那我們剛才在講那個智能photoshop的時候,我們說有好幾個constraint,一個是你現在希望你新的圖片符合使用者給你的限制,另外一方面希望新的圖片不要和舊的圖片差太多。

link |

01:44:26.000

那這邊用的技術是一模一樣的,我們希望把舊的code變成新的code,這個新的code它滿足兩個條件,一個是把新的code變成句子以後這個句子send to classifier覺得它是正向,另一方面這個新的code跟原來的code又不要差太多。

link |

01:44:46.000

第四個方法就是train一個cycle game,我們今天在這個課程一開始的時候我們就講了cycle game,你只要有兩堆netcard,比如說真實的圖片跟半圖的圖,你就沒辦法互轉。

link |

01:44:59.000

同樣的技術你可以用在各種不同的application上,不是只有影像可以用,語音也可以用,你有一堆男生的聲音,有一堆女生的聲音,用cycle game就可以男轉女,女轉男。

link |

01:45:09.000

你有一堆正面的句子,有一堆負面的句子,用cycle game就正向轉負向,負向轉正向。

link |

01:45:16.000

舉例來說這個是真的machine訓練出來的結果,把負向的句子都轉成正面的句子,你跟他說I miss you,他就說I love you,你跟他說I don't love you,他就變成I love you,你說I cannot do that,他就變成I can do that,你說It's a bad day,他就變成It's a good day。

link |

01:45:32.000

這還有一個很強的,說Sorry for doing such a horrible thing, I will get a 6 for doing a great thing。當然他其實也會犯錯,比如說我發現他沒有學到sick的相反,就是healthy,你要說My dog is sick,還是說My doggie is my doggie,也不知道在做什麼。

link |

01:45:47.000

這個東西其實還蠻有用的,比如說你覺得你的老闆講話很機的話,你就可以在你的耳機裡面裝個這個系統,他責罵你的話都會變成讚美你的話,你的日子就會過得很開心。

link |

01:45:59.000

這邊是比較一些不同的方法,我可以很快的講過去。

link |

01:46:06.000

這邊比較了不同的技術,這邊比較的方法是用人序衡量,人會給他五個等級的分數,從最差到最好,然後把這個分數normalize成0到1之間,0代表最差,1代表最好。

link |

01:46:23.000

我們這邊從三個不同的面向來evaluate一個缺霸,這三個不同的面向,第一個是coherent,希望缺霸的回覆是真的有回覆原來的輸入。

link |

01:46:36.000

你並不希望說今天不管輸入什麼,缺霸的output都是今天很好,今天很好,今天很好,根本就沒有回答到使用者輸入的問題,不是我們要的,我們希望缺霸的輸出也是要回覆使用者的輸入。

link |

01:46:49.000

第二個是今天缺霸的output有沒有正向,這個就是我們本來要做的事。

link |

01:46:54.000

最後就是我們希望缺霸的輸出的句子還是要回覆文法,我們不希望他只是輸出一大堆很正面的詞彙,原來不管說什麼他的輸出都是棒棒棒棒棒棒棒棒棒這樣子,你希望他的輸出也是一個符合文法的句子。

link |

01:47:10.000

我們先看原來的sequence-to-sequence model,如果你看原來的sequence-to-sequence model的話,它的coherence是很高的,至少比其他方法都要高。

link |

01:47:21.000

如果你看sentiment的話,它本來就不是特別正向,它就輸入一般的句子,所以不是特別正向。如果你看文法的話,最高分是1分,它的文法是0.999分,所以幾乎所有的人都覺得這個sequence-to-sequence model的output文法是完全正確的。

link |

01:47:40.000

其實今天如果你訓練的data有超過百萬句以上的話,基本上我們訓練師不太會犯文法的錯誤,所以基本上sequence-to-sequence model的output文法基本上都會是對的。

link |

01:47:52.000

接下來就是做一下textile transfer,讓缺霸用output正面的句子。

link |

01:48:00.000

第一個第一組方法是直接去改那個sequence-to-sequence model,讓它的output的句子總是正面的。

link |

01:48:10.000

我們比較persona-based的方法跟reinforced learning的方法,我們會發現說,如果在sentiment的分數上,這兩個方法其實相差不大。

link |

01:48:19.000

如果看coherence跟grammar的話,reinforced learning的方法是最強的,它在這三個不同的評比上,只有在sentiment的部分是跟persona-based的方法差不多。

link |

01:48:31.000

在coherence跟grammar上面,則是persona-based的方法會輸掉。

link |

01:48:41.000

其實persona-based的方法有一個很大的問題,就是說我們今天在產生response的時候,我們會輸入一個數字嗎?

link |

01:48:49.000

如果是負面的句子,輸入就是0。

link |

01:48:52.000

你本來期待說我現在改成輸入是1,它就是正面的句子,但事情並沒有這麼簡單。

link |

01:48:58.000

很多狀況是你改成輸入是1,那正面的句子是什麼?你沒有教過它啊,它結果就爛掉了,還是產生一個怪怪的東西,爛掉了文法的東西。

link |

01:49:07.000

所以reinforced learning比較不會這樣,所以reinforced learning看起來是persona-based的方法要強。

link |

01:49:14.000

剩下三個方法是直接去改缺碼的algorithm,缺碼講什麼就把它改成正面的。

link |

01:49:20.000

那這邊有一個transformation-level的方法沒有講過,發現不太work,所以就沒有講。

link |

01:49:25.000

那如果比較plot-and-play的方法跟cycle-game的方法,你會發現說cycle-game的方法是遠勝plot-and-play的方法。

link |

01:49:33.000

舉例來說我們看這個文法的部分,cycle-game的方法文法比較不會壞掉,plot-and-play的方法很容易你一動那個code,output的句子整個就壞掉了,整個文法就不對了。

link |

01:49:44.000

所以cycle-game是在文法上相較於plot-and-play比較強,跟reinforced learning差不多,reinforced learning跟cycle-game在文法中最強。

link |

01:49:53.000

如果比正向的程度的話,因為cycle-game這些方法都是直接改缺碼的輸出,因為它的input已經被限制住了,所以有時候它沒有辦法真的對句子做太大的更動,所以它沒有辦法像reinforced learning的方法output那麼正面的句子。

link |

01:50:10.000

如果是就上下文的關係來看的話,cycle-game其實是最強的,它產生出來的output跟輸入的句子是最能夠回答輸入的句子。

link |

01:50:23.000

這是一些分數,我們看一些真實的例子。舉例來說,假設現在輸入是,I'm just less interested in the how-to and more in what and why the feeds we build.那steeper to steeper model的回答就是,It's not a good feed.那使用者看了就會覺得說,他的想法被否定了,就被送了。

link |

01:50:40.000

那如果是persona-based的方法跟IL的方法會回答,I'm interested in this or it's a good one.而如果是plot and play它就說,It's not a wrong feed.而如果是cycle-game就說,It's a good feed.一個是把good改成wrong,一個是把not直接拿掉,都有把負面的句子轉成正面的句子。

link |

01:51:00.000

另外一個例子是,現在使用者輸入是,Always learning and still improving.It's a huge turn-on for me, so believe me, I'm the same.那steeper to steeper的model回答是,I'm not sure if I can see you in a relationship.使用者看了一定會勃然大怒。

link |

01:51:16.000

那plot and play它就爛掉了,I can see you in a special,不知道在做什麼。plot and play很容易這樣,改了一個code文法就壞了。那cycle-game它會把not去掉,變成I'm sure if I can see you in a relationship,這個句子略為怪怪的。

link |

01:51:35.000

那如果是persona-based的方法就說,You are gonna have a word with your mother.不知道為什麼要提到人家媽媽,變成奇怪。如果是IL方法的話,它回答是I love you so much,人看了就會很高興。

link |

01:51:51.000

那今天就講到這邊,我們就下課。

GAN Lecture 3 (2017): Improving Sequence Generation by GAN