Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

接下來,你把not very good,也就是整個sentence的embedded,丟到一個function g裡面,然後g的output告訴你說,那g的output就是sentiment。假設你今天定義五個sentiment,從非常positive++到非常negative減減的話,那output就有五個dimension。

link |

10:03.000

那麼接下來呢,我們會有training data,也就是training data告訴你說,這個sentence,它的sentiment是屬於哪一個class,比如說not very good,它是屬於減這個class。

link |

10:17.000

那你就可以根據這個reference跟output的差距,一路back propagate回來,把g跟f通通都train起來。那如果你這麼做的話,希望你train出來的f就可以做到我們剛才說的事情。

link |

10:35.000

比如說看到not,就把另外一個vector轉向,看到very,就強化另外一個vector。好,講到這邊,大家有問題嗎?那你趕快懷疑說,這個f到底應該要長什麼樣子?

link |

10:52.000

我再強調一次,這個東西它就是一個network,你可以把它的computational graph畫出來,那你在做這個gradient的時候,你就從reference跟output的difference這邊一路算下來,就可以把整個network裡面的f、g的參數都自動求出來。

link |

11:10.000

只要自動學的,你不用去設定它。但是這個f應該要長什麼樣子呢?最簡單的樣子就是我們把藍色的vector跟黃色的vector串接在一起,

link |

11:27.000

你就把它當作只有一個layer的neural network,把a跟b串接在一起,乘上一個參數w,參數w是要學出來的,再通過一個activation function得到這個綠色的output。

link |

11:42.000

但是如果這樣做的話,你可能沒有辦法得到特別好的結果,因為一個問題就是,我們現在在考慮的是a和b之間的interaction,我們希望a的每一個component對b的component會有,就a和b的component他們之間是要互相影響。

link |

12:01.000

如果你只是這麼做的話,那你的這個綠色的dimension,你的這個綠色的vector裡面的每一個dimension,都是a的某一些component加上b的某一些component的值。

link |

12:13.000

但是他沒有辦法做到,像我們剛才說的,如果是看到not就把另外一個vector轉向,看到very就把另外一個vector強化這件事情。

link |

12:22.000

你要做到轉向或強化,你可能需要的是相乘的關係,如果只有相加的關係,可能是不夠的。所以今天,你可能需要設計更複雜的function。

link |

12:35.000

今天下面講的這個network叫做recursive neural tensor network,它是一個recursive network,而它裡面的每一個component的function f,它有tensor network在裡面。這個tensor network做的事情是什麼呢?

link |

12:52.000

除了我們剛才已經看到的這個部分以外,它會做另外一件事情,把這個藍色跟黃色的vector串起來變成一個vector,這個vector乘上一個vector w,乘上一個matrix w,再把這個matrix w乘上x的transpose,乘上同一個vector的transpose。

link |

13:16.000

我們假設這個叫做x,這個叫做w,這個叫做x的transpose,如果你這麼做的話,你會得到什麼呢?如果你把這個vector乘上這個matrix,再乘上這個平坦的vector,你得到的其實是一個scalar,對吧?

link |

13:33.000

你得到的是一個scalar,如果你熟悉線性代數的話,這邊的dimension是1,這邊的dimension是1,所以這三個東西乘起來,它們是一個scalar。

link |

13:43.000

這個scalar的數值是什麼呢?如果你真的乘一下,你就會知道說,這個scalar的數值就是submission over所有的ij,這個ij就是你把這個x這個vector裡面取兩個component出來,就是Cn取2取兩個component出來,一個index是i,一個index是j。

link |

14:08.000

然後你把indexi的value乘上indexj的value,最後再乘上這個matrixw裡面的wij,然後再把所有的可能,這邊應該不是Cn取2,應該是n平方,再把這個n平方項通通加起來,那你就得到這個scalar。

link |

14:33.000

所以在這裡面,你就會得到相乘的關係,假如這個xi是來自於藍色這個vector,xj是來自於黃色這個vector,你就可以得到藍色的vector和黃色的vector相乘的關係。

link |

14:47.000

不過這樣你得到的只有一個scalar,而這邊得到的是一個二維的,假設這邊是兩個dimension,這邊是兩個dimension,這個matrix是2x4,2x4的matrix,那你這邊得到的是二維的vector,那這邊只有一個scalar,配不起來。

link |

15:05.000

那怎麼辦呢?把這件事情再做一次,但是這一次的這個matrix是不一樣的,上面這個黑色裡面的點都是黑色的w,下面這個點都是黃色的w,他們的數值是不一樣的。

link |

15:19.000

所以你再做一次同樣的運算,把x乘上這個w,再乘上這個x,你得到的是另外一個scalar,把這兩個scalar串在一起,你就得到一個vector,然後你最後再經過相加以後,你就得到最後這個綠色的vector。

link |

15:35.000

其實這個f它可以很複雜,然後你可以自己去設計它。那以下是在文獻上面,根據我們剛才在前一頁看到的recursive的這個neural tensor network所得到的結果。

link |

15:51.000

那這個task做的就是sentiment的analysis,那在那個task裡面,sentiment就被分成五種,而且有一個demo的system在網路上,來看看說這個model做起來是怎麼樣。

link |

16:05.000

那像它有很多不同的版本,在那個neural tensor network propose之前,其實還有另外一個版本,這個版本是metric vector recursive network,那這個版本其實我覺得聽起來比剛才講的那個tensor network還要更有道理一點。

link |

16:24.000

但是在文獻上比較起來,這個方法performance是比較差的,但是我們可以看看它當時設計的時候是有一些想法在裡面。

link |

16:36.000

這個model設計的想法是這樣子,這個vector其實包含了兩個部分,就是一個word的embedding它其實包含了兩個部分,一部分是這個word本身的意思,另外一部分是這個word如果跟其他的word去做compose的時候,它去如何影響其他的word。

link |

16:58.000

所以一個wordembedding包含了兩種意思,一個是它本身的意思,一個是如果它要影響別人的時候,它會怎麼影響別人。

link |

17:06.000

所以今天這整個function f它很複雜,我們用一個很大的框框來表示它。

link |

17:14.000

今天一個vector進來的時候它被拆成兩部分,一部分是一個vector A,這個部分代表了這個詞彙它原來的意思,另外剩下的部分被排成一個matrix大A,這個大A代表說這個word如果要影響別人的話,它會如何影響別人。

link |

17:33.000

黃色這個vector也做一樣的事情,一部分變成一個vector B,另外一部分變成一個matrix大B。至於哪一部分要變成vector,哪一部分要變成matrix,這個就是事先決定好的。

link |

17:46.000

這個又遇到一個老梗的問題就是,你怎麼知道這個vector的前兩維它代表了word本身上的意思,後面四維代表了它如何影響別人呢?這個問題我們上次上課的時候已經有講過了。

link |

18:03.000

這是一個充滿哲學性的問題,它並不是因為它代表了如何影響別人,所以我們才說它是屬於它,才把它變成一個matrix,而是因為我們把它變成一個matrix,所以最後認出來它會去影響別人。

link |

18:26.000

這樣大家聽得懂嗎?你可以回去慢慢去體悟這個想法。

link |

18:31.000

我們現在有了這個vector A,我們要把這個藍色的vector跟黃色的vector組合在一起的時候,它們就會互相影響。

link |

18:45.000

所以藍色的vector這個word,藍色的這個詞彙,它本來的意思A就會被大B這個matrix所影響,得到了另外一個意思。

link |

19:02.000

如果今天這個B呢,它也會被大A這個matrix所影響,所以它又得到了另外一個意思。比如舉例來說,如果你今天你input的這個詞彙是not,那另外一個詞彙是good,那你可以想像說not本身其實沒有什麼意思。

link |

19:20.000

所以小A這個vector它可能是一個zero的vector,而B呢,good它本身有意思,所以今天這個vector可能就是代表了一個positive的information。

link |

19:32.000

接下來如果我們看這個matrix的話,good它可能不會去影響別人,所以good的這個matrix它就是identity的,它跟別人相稱後不會去影響別人。

link |

19:45.000

而A這個matrix呢,它可能就是-1乘上identity,因為其他詞彙加上not的意思會變相反,所以這個A就會是-1乘上identity。

link |

19:58.000

所以你把A的這個matrix拿去乘別人,它的意思就變了。你把B這個matrix拿去乘別人,它的意思可能就會原來差不多。

link |

20:06.000

接下來呢,你就把這兩個vector接在一起,乘上W,得到output,這個output就代表not good這個詞彙的意思。

link |

20:16.000

然後你再把這兩個matrix接在一起,再乘上另外一個matrix,再得到,這個W跟Wm都是參數,它們是要被認出來。

link |

20:27.000

你把這個Wm乘上這個長方形的matrix,那就得到另外一個matrix,然後這個東西就變成這個very good這個詞彙要影響別人的matrix。

link |

20:41.000

最後呢,你再把這個vector跟這個matrix拉平,就變成這個function的output。

link |

20:49.000

所以這個matrix vector recursive network,它中間的運算是很複雜的,它用了很多human knowledge,你覺得說這些vector應該要怎麼互相影響在裡面。

link |

21:02.000

還有另外一個更複雜的架構叫tree的LSTM,我們之前有講說LSTM是這樣子,我們有一個function,

link |

21:12.000

那這個function呢,它會input一個h,input一個m,然後會得到另外一個h,得到另外一個m。

link |

21:21.000

你當然可以把h跟m組合起來變成一個比較長的vector,然後說LSTM就是input一個比較長的vector,得到另外一個比較長的vector。

link |

21:28.000

但這個h跟m呢,它扮演了不同的角色,h代表了這個比較,h的input跟output呢,它的差別會很大,m的input跟output差別是比較小的,所以LSTM可以記得long term memory。

link |

21:42.000

那你一樣可以有一個tree的版本的LSTM,什麼叫tree的版本的LSTM呢?

link |

21:49.000

你只是把這邊的f換成LSTM,LSTM的input就要有兩種vector,m跟h,但這邊的f呢,它有兩條input,一個是從左下角的f來,另外一個是從右下角的f來。

link |

22:08.000

那這些左下角跟右下角的f呢,它們也是常用的LSTM,它們都會output一個h,input一個m,所以上面這個f呢,它就是input h1跟m1是左下角這個f的output,跟input h2、m2是右下角這個f的output。

link |

22:25.000

把它們組合起來以後呢,得到h3跟m3,那你就反覆apply這個LSTM,在這個structure裡面,你就得到了這個tree的LSTM。

link |

22:36.000

那除了sentiment analysis以外呢,這種recursive的structure啊,它還有很多application。

link |

22:44.000

那基本上如果你今天要處理的是sentence的話,只要你想,基本上,今天如果你要處理的東西是一個sequence,而這個sequence的某種它背後的結構你是知道的,

link |

22:57.000

比如說語言,你完全,你通常可以找到一個synthetic parser得到這個句子背後的架構,那你就可以apply這種recursive的network。

link |

23:07.000

那recursive network跟這個recurrent network比起來是比較強調的dependent,說你後面那個structure有多make sense。

link |

23:15.000

比如說把這種recursive network拿來apply數學式,它的performance就會遠勝這個recurrent network,因為數學式的structure是很明確的。

link |

23:25.000

語言上的話就是小贏,因為你的synthetic parser也不見得完全是正確的。

link |

23:32.000

那它可以做別的事,比如說可以拿來偵測說兩個句子是不是換句話說,講的是不是同樣的意思。

link |

23:43.000

怎麼做呢?你就說我有兩個recursive network,它們的參數是一樣的。

link |

23:48.000

把sentence1丟進去recursive network,你得到一個整個sentence的embedding,把sentence2丟到一個recursive network得到另外一個embedding,

link |

23:57.000

把這兩個embedding丟到一個neural network裡面去,這個neural network做的事情就是判斷說這兩個句子有什麼樣的關係。

link |

24:04.000

比如說它們的關係是換句話說還是它們的意思是相反的等等,就把換句話說當作一個class,相反當作一個class。

link |

24:14.000

那就收集很多data,也就是收集很多句子的pair,然後把它們的關係label好,接下來backpropagation train,

link |

24:20.000

你就會把這個n跟下面兩個recursive network都train出來,接下來你就可以把它拿來偵測兩個sentence之間的關係。

link |

24:27.000

那以下就是一個paper的例子,比如說它知道說a woman is slicing a potato跟a woman is cutting a potato的意思是一樣的。

link |

24:36.000

那這邊數字代表說network偵測它們的意思是一樣的程度,或者是如果你把它倒裝,potato are being sliced by a woman,machine也知道說就算是倒裝,它的意思也是一樣。

link |

24:50.000

好,那講到這邊,大家有問題嗎?沒有嗎?我本來想要講的。

Recursive Network