back to index
【機器學習2021】自注意力機制 (Self-attention) (上)

link |
我們要講另外一個常見的Network架構
link |
這個架構叫做Self-Attention
link |
而這個Self-Attention想要解決的問題是什麼呢?
link |
我們的Network的input都是一個項量
link |
不管是在預測YouTube觀看人數的問題上啊
link |
而且這個輸入的項量的數目是會改變的呢?
link |
每次我們model輸入的sequence的數目
link |
那有什麼樣的例子是輸入是一個sequence
link |
那你的vector set的大小就不一樣
link |
最簡單的做法是one-half的encoding
link |
apple就是100, bag就是010, cat就是001
link |
有另外一個方法叫做word embedding
link |
如果你把word embedding畫出來的話
link |
那word embedding是怎麼得到的呢?
link |
可以載到一種東西叫做word embedding
link |
我們需要把一個項量的sequence
link |
social network就是一個graph
link |
所以一個social network
link |
可以在drug discovery上面
link |
你可以用one-half vector來表示
link |
你可以用one-half vector
link |
那就是一個classification的問題
link |
假設你今天要做的是pos tagging
link |
沒有給大家一個完整的sequence
link |
或者是如果是social network的話
link |
我們就說sentiment analysis
link |
sentiment analysis是什麼呢
link |
sentiment analysis就是
link |
sentiment analysis的技術
link |
這個是sentiment analysis
link |
positive or negative
link |
sequence-to-sequence的任務
link |
sequence-to-sequence的作業
link |
就是sequence-to-sequence的任務
link |
也是一個sequence-to-sequence的任務
link |
這也是一個sequence-to-sequence的任務
link |
它又叫做sequence labeling
link |
要給sequence裡面的每一個項量
link |
那要怎麼解sequence labeling的問題呢
link |
我們就拿個fully connected的network
link |
然後雖然這個輸入是一個sequence
link |
fully connected的network裡面
link |
然後fully connected的network
link |
regression還是classification
link |
對fully connected network來說
link |
既然fully connected的network
link |
讓fully connected的network
link |
比如說上下文的context的資訊呢
link |
一起丟到fully connected的network
link |
fully connected的network
link |
所以你要過strong baseline
link |
你就可以輕易地過strong baseline
link |
你的fully connected network
link |
來考慮整個input sequence的
link |
Self-Attention這個技術
link |
那Self-Attention是怎麼運作的呢
link |
Self-Attention的運作方式就是
link |
Self-Attention會吃一整個
link |
怎麼考慮一整個sequence的資訊
link |
丟進fully connected的network
link |
你這個fully connected的network
link |
這個就是Self-Attention
link |
我這個Self-Attention的輸出
link |
通過fully connected network以後
link |
得到fully connected network的輸出
link |
fully connected network的輸出
link |
再做一次Self-Attention
link |
fully connected network
link |
再過一次Self-Attention
link |
整個input sequence的資訊
link |
fully connected network
link |
所以你可以把fully connected network
link |
跟Self-Attention交替使用
link |
fully connected network
link |
然後你可以再用Self-Attention
link |
然後交替使用Self-Attention
link |
跟fully connected network
link |
就是Attention is all you need
link |
Transformer這樣的network架構
link |
那Transformer就是變形金剛
link |
Transformer我們今天還不會講到
link |
Attention is all you need
link |
那其實像Self-Attention
link |
Attention is all you need
link |
只是不見得叫做Self-Attention
link |
比如說叫做Self-Matching
link |
不過是Attention is all you need
link |
把Self-Attention這個module
link |
那Self-Attention是怎麼運作的呢
link |
Self-Attention的input
link |
可能是你整個network的input
link |
某個hidden layer的output
link |
它是某個hidden layer的output
link |
Self-Attention要output
link |
考慮了整個input的sequence
link |
決定A1的regression數值的時候
link |
這個Self-Attention的module
link |
過一個activation function
link |
也是用在transformer裡面的方法
link |
你計算出他們的attention的分數
link |
用attention score alpha
link |
activation function都行
link |
那得到這個alpha prime以後
link |
我們就要根據這個alpha prime
link |
每一個V都乘上alpha prime
link |
這個alpha prime得到的值很大
link |
那我們今天在做weighted sum以後