Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

那蔡英文和馬英九雖然是不同的input,但是為了要讓最後在output的地方得到一樣的output,那你就必須在讓中間的hidden layer做一些事情。中間的hidden layer必須要學到說,這兩個不同的詞彙,必須要把它們project到,必須要通過這個weight的轉換以後,必須要通過這個參數的轉換以後,把它們對應到同樣的空間。

link |

15:56.000

在input進入hidden layer之前,必須把它們對應到接近的空間,這樣子我們最後在output的時候,它們才能夠有同樣的機率。

link |

16:06.000

所以,當我們learn一個prediction model的時候,考慮一個world context這件事情,就自動地被考慮在這個prediction的model裡面。所以我們把這個prediction model的第一個hidden layer拿出來,我們就可以得到我們想要找的這種world embedding的特性。

link |

16:26.000

那你可能會想說,如果只用wi-1去predict wi,好像學得太弱,就算是人給一個詞彙要predict下一個詞彙,感覺也很難,因為如果只看一個詞彙,下一個詞彙的可能性是千千萬萬的。

link |

16:44.000

那怎麼辦呢?你可以拓展這個問題,比如說你可以拓展說,我希望machine learn的是input前面兩個詞彙,wi-2跟wi-1,然後predict下一個word wi,你可以輕易地把這個model拓展到n個詞彙。

link |

17:06.000

那一般我們如果你真的要認這樣的word vector的話呢,你的input可能通常是至少十個詞彙,你這樣才能夠認出比較reasonable的結果,只input一個或者是兩個,這都太少了。

link |

17:19.600

但我們這邊用input兩個word當作例子,那你可以輕易地把這個model拓展到十個word。那這邊要注意的地方事情是這樣子的,本來如果是一般的neural network,你就把input wi-2和wi-1的one of n calling的vector,把它接在一起,變成一個很長的vector,直接丟到neural network裡面當作input就可以了。

link |

17:47.440

但是實際上呢,你在做的時候,你會希望這個wi-2的word vector跟它相連的位置,和wi-1相連的位置,它們是被tie在一起的。

link |

18:02.800

所謂的tie在一起的意思是說,wi-2的第一個dimension跟第一個hidden layer的第一個neural它們中間連的位置,和wi-1的第一個dimension和第一個hidden layer的neural它們之間連的位置,這兩個位置必須是一樣的。

link |

18:24.080

所以我這邊故意用同樣的顏色來表示它。這個dimension它連到這個的位置,跟這個第一個dimension連到這邊的位置,它必須是一樣的。

link |

18:36.800

所以我這邊故意用同樣的顏色來表示它,然後這個dimension它連到它的位置,跟它連到它的位置,必須是一樣的,以此類推,以此類推,以此類推。

link |

18:46.960

這樣就讓大家知道我的意思。為什麼要這樣做呢?一個顯而易見的理由是說,如果我們不這麼做,

link |

19:04.960

你把同一個word放在wi-2的位置,跟放在wi-1的位置,通過這個transform以後,它得到的embedding就會不一樣。

link |

19:22.960

如果你必須要讓這一組weight和這一組weight是一樣的,那你把一個word放在這邊,通過這個transform,跟把一個weight放在這邊,通過transform,它們得到的weight才會是一樣的。

link |

19:36.480

當然另外一個理由你可以說,我們做這件事情的好處是,我們可以減少參數量,因為input這個dimension很大,它是十萬維,所以這個feature vector就在你這邊是五十維,它還是一個碩大無窮的matrix。

link |

19:52.080

這個有一個你已經覺得夠卡了,所以有兩個更是吃不消,更何況說我們現在input往往是十個word,所以如果我們強迫讓所有的one-off encoding後面接的weight是一樣的,那你就不會隨著你的context的增長而需要更多的參數。

link |

20:12.960

或許我們用formulation來表示會更清楚一點。現在假設wi-2的one-off encoding就是x2,wi-1的one-off encoding就是x1,那它們的長度都是v的絕對值,長度我這邊都寫成v的絕對值。

link |

20:34.560

那這個hidden layer的input,我們把它寫成一個vector z,而z的長度是z的絕對值。

link |

20:47.280

那我們把這個x i-2跟x i-1有什麼樣的關係呢?z它等於x i-2乘以w1加上x i-1乘以w2,你把x i-2乘以w1加上x i-1乘以w2,你會得到這個z。

link |

21:09.360

那現在這個w1跟w2呢,它們都是一個z乘上v dimension的一個weight matrix,那在這邊我們做的事情是,我們強制讓w1要等於w2,要等於一個一模一樣的matrix w。

link |

21:26.880

所以呢,我們今天實際上在處理這個問題的時候呢,你可以把x i-2跟x i-1直接先加起來,因為w1跟w2是一樣的,你可以把w提出來,你可以把x i-1跟x i-2先加起來,再乘上w的這個transform就會得到z。

link |

21:47.800

那你今天如果要得到一個word的vector的時候,你就把一個word1的分encoding乘上這個w,你就可以得到那個word的word embedding。

link |

22:00.760

那這邊會有一個問題就是,我們在實作上,如果你真的自己要實作的話,你怎麼讓這個w1跟w2它們的weight一定都要一樣呢?而事實上我們在這個train CNN的時候,也有一樣類似的問題。

link |

22:23.320

我們在train CNN的時候,我們也要讓某一些參數它們的weight必須是一樣的,那怎麼做呢?這個做法是這樣子,假設我們現在有兩個weight,wi跟wj,那我們希望wi跟wj它的weight是一樣的,那怎麼做呢?

link |

22:45.860

首先你要給wi跟wj一樣的initialization,在訓練的時候給它們一樣的初始值,接下來你計算wi對你最後cos的範圍分,然後update wi,然後你計算wj對cos的範圍分,然後update wj。

link |

23:07.040

那你可能會說,wi跟wj如果它們對c的範圍分是不一樣的,那做了update以後,它們的值不就不一樣了嗎?所以如果你只有列這樣的式子,wi跟wj經過一次update以後,它們的值就不一樣了,initialize值一樣也沒有用。

link |

23:24.260

那怎麼辦呢?我們就把wi再減掉wj對c的範圍分,把wj再減掉wi對c的範圍分,也就是說wi有這樣的update,wj也要有一個一模一樣的update,wj有這樣的update,wi也要有一個一模一樣的update。

link |

23:47.160

如果你用這樣的方法的話,你就可以確保wi跟wj它們是在這個update的過程中,在訓練的過程中,它們的weight永遠都是被拼在一起的,永遠都是一樣的。

link |

24:00.920

好,那要怎麼訓練這個network呢?這個network的訓練完全是unsupervised的,也就是說你只要collect一大堆文字的data,collect文字的data很簡單,就寫個程式上網去爬就好,比如說寫個程式爬一下八卦版的data,你就可以爬到一大堆文字這樣,然後接下來你就可以train你的model,怎麼train呢?

link |

24:28.100

比如說你這邊有個句子就是,潮水退了就知道誰沒穿褲子,你就讓你的model,你會讓你的neural network input潮水跟退了,然後希望它的output就是舊,那你會希望你的output跟舊的這個cross entropy,舊也是用one-off encoding來表示的,所以你希望你的network的output跟舊的one-off encoding是minimize cross entropy,然後再來就input退了跟舊,

link |

24:55.960

然後希望它的output跟知道越接近越好,然後output舊跟知道,然後就希望它跟誰越接近越好,那剛才講的只是最基本的型態,那其實這個prediction-based model可以有種種的變形,那目前我還不確定說在各種變形之中哪一種是比較好的,

link |

25:20.920

感覺它的performance在不同的task上互有勝負,所以很難說哪一種方法是一定是比較好的,那有一招叫做continuous back-of-word sebo,那sebo是這樣子的,sebo是說,我們剛才是說拿前面的詞彙去predict接下來的詞彙,

link |

25:40.940

那sebo的意思是說,我們拿某一個詞彙的context去predict中間這個詞彙,我們拿wi-1跟wi-1去predict wi,用wi-1跟wi-1去predict wi,那skipware是說,我們拿中間的詞彙去predict接下來的context,

link |

26:02.020

我們拿wi去predict wi-1跟wi-1,也就是given中間的word,我們要去predict它的周圍會是長什麼樣子,那假如這邊大家有問題嗎,假如這邊常常會有人問我一個問題,

link |

26:21.020

假設你有讀過word vector相關的文獻的話,你可能會說,其實這個network它不是定的,雖然常常有人在講deep learning的時候,大家都會提到word vector,把它當做deep learning的一個application,

link |

26:36.020

但是如果你真的有讀過word vector的文獻的話,你會發現說,這個neural network它不是定的,它其實就是一個hidden layer,它其實就是一個linear的hidden layer,了解嗎,就是這個neural network它只有一個hidden layer,

link |

26:51.020

所以你把word input以後,你就得到word embedding,那你就直接再從那個hidden layer就可以得到open,它不是定的,為什麼呢,為什麼常常有人問我這個問題,那為了回答這個問題,我邀請了Thomas Nikolov來台灣玩,

link |

27:09.020

Thomas Nikolov就是propose word vector的作者,所以如果你有問我word vector的toolkit的話,你可能有聽過他的名字,那就問他說,為什麼這個model不是定的呢,他給了我兩個答案,他說首先第一個就是,他並不是第一個propose word vector的人,在過去就有很多這樣的概念,

link |

27:30.020

那他最famous的地方是,他把他寫的一個非常好的toolkit放在網路上,那他在他的QR code裡面看他的code的話,他有種種的tip,所以你自己做的時候你是做不出他那個performance的,他是一個非常非常強的engineer,他有各種他自己直覺的sense,

link |

27:48.020

所以你自己做,你做不出他那個performance,你用他的toolkit跑出來的performance,就是特別好,所以他這是一個他非常厲害的地方,那他說在他之前其實就有很多人做過word vector要提出類似的概念,他說他寫的,他有一篇word vector的文章跟toolkit,他想要verify的最重要的一件事情是說,過去其實其他人就是用tip的,

link |

28:15.020

那他想要講的是說,其實這個test不用tip就做得起來了,那不用tip的好處就是減少運算量,所以他可以跑很大量很大量很大量的data,那我就聽他這樣講,我就想起來說,其實過去確實是有人已經做過word vector,過去確實已經有做過word vector這件事情,只是那些結果沒有紅起來,

link |

28:38.020

那我記得說我大學的時候就看過類似的paper了,我大學的時候就有看過,其實就是一樣就是predict,就是任一個prediction model predict下一個word的做法,只是那個時候是tip的,你知道在我大學的時候那個時候tip的也還不紅,然後看那篇paper的時候他裡面最後講說,我train了這個model,我花了三周,然後我沒有辦法把實驗跑完,所以結果不是很好這樣子,就其他方法他可以跑很多個iteration,

link |

29:06.020

然後我就想說這個neural network的方法,我跑了五個iteration,五個epa,花了三周,我實在做不下去了,就沒有特別好,然後我就想說這什麼荒謬的做法這樣,但是現在運算量不同了,所以現在要做這些事情都沒有問題。

link |

29:23.020

其實像word embedding這個概念在語音界是大概2010年的時候開始紅起來的,那個時候我們把它叫做continuous的language model,而一開始的時候也不是用neural network來得到這個word embedding,因為neural network運算量比較大,所以一開始並不是選擇neural network,而是用一些其他方法來,一些比較簡單的方法來得到這個word embedding,只是大家後來逐漸發現說,用neural network得到的結果才是最好的。

link |

29:51.020

過去其他不是neural network的方法就逐漸的式微,通通都變成neural network based的方法了。

link |

29:57.020

我還有一個勵志的故事,就是Thomas Mikolov那個word vector paper不是非常famous嗎,他citation搞不好都有一萬,他說他第一次投那篇paper的時候,他先投到一個我已經忘記名字了,很小很小的會,assembly of 70%,然後就被reject了,然後他還得到了一個comment就是,這個是什麼東西,我覺得這個東西一點用都沒有,所以這是一個非常勵志的故事。

link |

30:27.020

好,那我們知道說word vector可以得到一些有趣的特性,我們可以看到說呢,如果你把同樣類型的東西的word vector擺在一起,比如說我們把這個Italy跟它的首都Rome擺在一起,我們把Germany跟它首都Berlin擺在一起,我們把這個Japan跟它首都Tokyo擺在一起,你會發現說它們之間是有某種固定的關係的。

link |

30:57.020

或者是你把一個動詞的三態擺在一起,你會發現說這個動詞的三態,同一個動詞的三態,它們中間有某種固定的關係成為這個三角形。

link |

31:09.020

而所以從這個word vector裡面,你可以discover你不知道的word和word之間的關係。比如說,還有人發現說,如果你今天把兩個word,word vector和word vector之間兩兩相減,這個結果是把word vector和word vector之間兩兩相減,然後project到一個two-dimensional的space上面,

link |

31:31.020

那你會發現說,在這一區,如果今天word vector兩兩相減,它得到的結果是落在這個位置的話,那這兩個word,word vector之間,它們就有比如說某一個word是包含於某一個word之間的關係。

link |

31:47.180

比如說,你把海豚跟會轉彎的白海豚相減,它的vector落在這邊。比如說,你把演員跟主角相減,落在這邊。你把工人跟木匠相減,落在這邊。你把職員跟售貨員相減,落在這邊。

link |

32:06.660

你把羊跟公羊相減,落在這邊。就如果某一個東西是屬於另外一個東西的話,你把它們兩個word vector相減,它們的這個結果會是很類似的。

link |

32:17.380

那所以用word vector的這個概念呢,我們可以做一些簡單的推論。舉例來說,因為我們知道說,比如說heart的word vector減掉heart的word vector,會很接近beaker的word vector減掉beak的vector,或是rome的vector減掉italy的vector,會很接近berlin的vector減掉germany的vector,或是queen的vector減掉queen的vector,會很接近uncle的vector減掉end的vector。

link |

32:42.980

如果有人問你說,羅馬之於義大利,就好像是berlin之於什麼,智力測驗都會考這樣的問題。機器可以回答這種問題的,怎麼做呢?

link |

32:52.660

因為我們知道說,今天這個問題的答案germany,它的vector會很接近berlin的vector減掉rome的vector加italy的vector。因為這四個word vector中間有這樣的關係,所以你可以把germany放在一邊,把另外三個vector放在右邊,所以germany的vector會接近berlin的vector減掉rome的vector再加上italy的vector。

link |

33:15.380

所以如果你要回答這個問題,假設你不知道答案是germany的話,那你要做的事情就是計算berlin的vector再減掉rome的vector再加italy的vector,然後看看它跟哪一個vector最接近,你可能得到的答案就是germany。

link |

33:32.660

這邊有一個word vector的demo,就是讓機器讀了大量ptt的文章以後,word vector還可以做很多其他事情,比如說你可以把不同語言的word vector把它拉在一起。

link |

33:52.900

如果你今天有一個中文的copen,有一個英文的copen,你各自去分別去train一組word vector,你會發現說中文跟英文的word vector它是完全沒有任何的關係的,它們的每一個dimension對應的含義並沒有任何關係,為什麼?

link |

34:11.700

因為你要trainword vector的時候,它憑藉的就是上下文之間的關係,所以如果今天你的copen裡面沒有中文跟英文的句子混雜在一起,沒有中文跟英文的詞彙混雜在一起,那machine就沒有辦法判斷中文的詞彙跟英文的詞彙它們之間的關係。

link |

34:30.500

但是今天假如你已經事先知道說,某幾個中文的詞彙和某幾個英文的詞彙它們是對應在一起的,你先得到一組中文的vector,再得到一組英文的vector,接下來你可以再任一個model它把中文和英文對應的詞彙,比如說我們知道加大對應到enlarge,下疊對應到full。

link |

34:53.860

你把對應的詞彙通過這個projection以後,把它們project在space上面的同一個點,在這個圖上這個綠色,然後下面又有這個綠色的英文的代表是已經知道對應關係的中文和英文的詞彙。

link |

35:13.300

如果你做這個transform以後,接下來有新的中文的詞彙跟新的英文的詞彙,你都可以用同樣的projection把它們project到同一個space上面。

link |

35:24.060

比如說你就可以自動知道說,中文的降低跟英文的reduce,它們都應該落在差不多的位置等等,你就可以自動做到類似翻譯這樣子的效果。

link |

35:43.580

這個embedding不只限於文字,你也可以對影像做embedding。這邊有一個很好的例子,這個例子是這樣做的,它說我們先已經找到一組word vector,比如說dog的vector、horse的vector、auto的vector和cat的vector,它們分佈在空間上是這樣的位置。

link |

36:04.380

接下來你認一個model,它是input一張image,output是一個跟word vector一樣dimension的vector,你會希望說狗的vector就散佈在狗的周圍,馬的vector就散佈在馬的周圍,車輛的vector就散佈在auto的周圍。

link |

36:22.380

假設有一些image,你是已經知道它們是屬於哪一類的,你已經知道說這個是狗、這個是馬、這個是車,你可以把它們project到它們所對應到的word vector附近。

link |

36:35.180

這個東西有什麼用呢?假如你今天有一個新的image進來,比如說這個東西,它是個貓,但是你不知道它是什麼貓,機器不知道它是什麼貓,但是你通過它們的projection,把它project到這個space以上以後,神奇的事,你就會發現它可能就在貓的附近,那你的machine就會自動知道說這個東西叫做貓。

link |

36:57.180

你知道我們一般在做影像分類的時候,大家都已經有做過這個作業3,這是一個影像分類的問題,在做影像分類的問題的時候,你的machine其實很難去處理新增加的,它沒有辦法看過的object。

link |

37:13.180

舉例來說,在作業3裡面,我們就是先已經定好10個class,你認出來的model就是只能分這10個class,那如果今天有一個新的東西,不在這10個class裡面,你的model是完全無能為力的,它根本不知道它叫做什麼。

link |

37:29.180

但是如果你用這個方法的話,就算有一張image是你在training的時候你沒有看過的class,比如說貓的這個image,它從來都沒有看過,但是如果貓的這個image可以project到cat的vector附近的話,你就會知道說這張image叫做cat。

link |

37:47.180

你可以做到這件事的話,就好像是machine先閱讀了大量的文章以後,它知道說每一個詞彙指的是什麼意思,它知道說狗、貓、馬它們之間有什麼樣的關係,它透過閱讀大量的文章先了解詞彙間的關係。

link |

38:06.180

接下來在看image的時候,它就可以根據它已經閱讀得到的知識去mapping每一個image所應該對應的東西,這樣就算是它看到它沒有看過的東西,它也可能可以把它的名字叫出來。

link |

38:19.180

剛才講的都是word的embedding,也可以做document的embedding,也就不只是把一個word變成一個vector,也可以把一個document變成一個vector。

link |

38:34.180

那怎麼把一個document變成一個vector呢?最簡單的方法我們之前已經講過了,就是把一個document變成一個back of word,然後用autoencoder,你就可以認出這個document的semantic embedding。

link |

38:50.180

但光這麼做是不夠的,我們光用back of word來描述一篇document是不夠的,為什麼呢?因為我們知道說詞彙的順序代表了很重要的含義。舉例來說,這邊有兩個詞彙,有兩個句子。

link |

39:07.180

一個是white blood cell destroying an infection,另外一個是infection destroying white blood cell。這兩句話,如果你看它的back of word的話,它們的back of word是一模一樣的,因為它們都有出現這六個詞彙,只是順序是不一樣。

link |

39:27.180

但是因為它們的順序是不一樣的,所以上面這句話,白血球消滅了傳染病,這個是positive,下面這句話,它是negative。雖然說它們有同樣的back of word,它們在語意上完全是不一樣。

link |

39:41.180

所以光只是用back of word來描述一篇document是非常不足的,那麼back of word會失去很多重要的information。

link |

39:58.180

那怎麼做呢?我們這邊就不細講了,這邊就列了一大堆reference給大家參考。上面這三個方法是unsupervised,也就是說你只要collect一大堆的document,你就可以讓它自己去學。

link |

40:13.180

下面這幾個方法算是supervised,因為在這些方法裡面,你需要對每一個document進行額外的label。你不用label說每一個document它對的vector是什麼,但是你要給它其他的label才能夠認這些vector。

link |

40:30.180

所以下面不算完全是unsupervised。那我把reference列在這邊給大家參考。

ML Lecture 14: Unsupervised Learning - Word Embedding