Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

OK,所以如果你等一下你把我課之後的Structure Learning的部分聽完,你可以Map到Graphical Model的部分,你會發現我講的其實就是,其實Graphical Model就是一種Structure Learning,只是在Graphical Model裡面的時候,我們把F of X Y換成機率,但其實講的是一樣的事情。

link |

12:47.000

講的是一樣的事情,那些什麼Belief Network啊,Mark of Random Field啊,他們講的其實是一樣的事情,他們也都是去找一個Evaluation Function,只是他們Evaluation Function是個機率。

link |

13:02.000

那用機率有什麼壞處呢?有一些壞處啊,我個人其實比較喜歡用F of X Y勝過機率,因為用機率一個壞處就是,有時候東西說機率很怪,你說我們做搜尋,那X是查詢詞,然後Y是一個搜尋的結果,然後要衡量這個搜尋結果跟查詢詞,共同出現的機率,我覺得很怪,有時候不太能夠接受。

link |

13:28.000

然後再來就是,機率會有一個Constraint,就是Summation over 1,對,所有的X Y Summation over 1,但你現在是一個有Structure的東西,X Y都是一個很大的Space,你怎麼,要做這個Summation很難,你會搬著石頭砸自己的腳這樣子。

link |

13:47.000

就是你把機率的東西引進來,然後要Normalize,要把它變成一個機率,然後結果你花大部分的時間在想辦法把它做Normalization,那何不不要做Normalization呢?

link |

13:58.000

那做機率有一個好處,就是它是Meaningful的,機率你比較容易了解,想像它是什麼樣的東西。那其實還有另外一個東西叫做Energy Model,你可能有聽過Energy Model。

link |

14:17.000

Energy Model,這是那個Yann Larkin提出來的,我在下面有附一下Yann Larkin的Energy Model的一些說明給大家參考。其實Energy Model講的也是Structure Learning,那在差不多的時間點,世界上有很多不同的人都提出了類似的想法,提出了類似的Framework,他們合起來就是這邊這個Unified的Structure Learning的Framework。

link |

14:40.000

它們兩個其實是一樣的東西,什麼Graphical Model,Structure Learning,Structure SVM,Energy Based Model,它們的Framework都是一樣,就好像說同樣的東西,在獵人裡面叫做獵人,在海賊王裡面叫做霸氣,在Toy裡面叫做查克拉,它們其實是一樣的東西。

link |

14:56.000

好,那這個Framework聽起來好像很厲害,那其實要做這個Framework,你要解三個問題,我知道快下課了,所以我就很快的帶過這三個問題。

link |

15:11.000

第一個問題是F of X Y長什麼樣?你很難想像F of X Y到底應該長什麼樣,現在input是image,input是image加上一個bumping box,這F of X Y應該長什麼樣?input是一個keyword跟一個list,這F of X Y應該長什麼樣?

link |

15:29.000

再來就是荒唐的inference的問題,怎麼解argmax這個問題,這個Y它可是很大的,比如說你要做object detection,就窮取所狠的bumping box,這件事情做得到嗎?

link |

15:45.000

第三個問題是training,training的時候的principle就是我們希望正確的X跟Y的pair可以大過其他的,正確的XY的pair大過其他的,這個training是可以完成的,只要你解出這三個問題,你就可以做structured learning的發問,要獲得三張神之卡就可以成為新一代的法老王一樣。

link |

16:11.000

地震警報,現在有地震嗎?沒有喔!其實我覺得game可能就是解這三個問題的solution,所以你可能看不出來game跟這個有什麼關係,但他們是有關係的,我覺得game好像就是看到解這三個問題的曙光這樣子。

link |

16:37.000

其實這三個問題,你在別的地方是有聽過的,如果你有修過數位語音處理的時候,李明山老師在講HMM的時候,他有說HMM有三個問題,其實這三個問題就是general的structured learning的三個問題,他不是只用在HMM上,他可以用在任何structured learning的發問上。

link |

16:59.000

事實上這個東西,我們也可以把它跟DNNlink在一起,我們之前講的Feed Forward Network,你好像停著覺得說跟現在講的structured learning沒有關係,是有關係的,之前講的東西就是structured learning的一個special case,怎麼說呢?我們現在說我要做手寫數字辨識,input一個image,把它分成十類。

link |

17:21.000

那我的這個F長什麼樣子呢?我的F長這樣,我先把X丟進一個DNN,得到一個vector叫做N of X,接下來我在input Y,這個Y是一個vector,做手寫數字辨識的時候,Y是一個十維的vector,它只有一維是1,其他都是0,它分別代表十個不同的數字,然後把這個Y跟N of X算cross entropy。

link |

17:47.000

Negative的cross entropy就是F of XY,那你的整個F就是input X跟Y,output就是這一個字。

link |

17:58.000

然後接下來在testing的時候,在inference的時候,你就說我現在要做手寫數字辨識,我窮取十個所有可能的辨識結果,雖然說窮取所有可能的辨識結果,其實才十個,十個可能的辨識結果,每一個都帶進去這個function裡面,看哪一個辨識結果是可以讓F of XY最大的,它就是我的辨識結果。

link |

18:23.000

哪一個辨識結果可以讓F of XY最大的,其實如果你是用cross entropy來定義這兩個vector之間的差距的話,你就看說現在哪一個digit,它對應的dimension,它的值最大,它就是那個辨識的結果。

link |

18:41.000

所以這件事情跟我們之前在train neural network用cross entropy做loss function的時候做的事情其實是一模一樣,所以我們之前講的東西是structure learning的一個special case。

link |

18:55.000

你可以定出,其實事實上我們一直講說我們做的是F of括號X output Y,實際上那個問題也可以想成我們找了一個大F,input XY,output就是一個number,evaluate XY,有多compact,有多相容。

link |

19:13.000

那這個argmax這個問題,因為在classification裡面,我們的Y太少了,才看有幾個class就有幾個Y,這是可以窮取的,那找max其實就是窮取的那個行為,它是可以輕易做到。

link |

19:28.000

剩下的部分我們就留給去年。

Structured Learning 1: Introduction