Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

或者是,這年頭大家都一直在說AlphaGo,如果你要做一個可以下圍棋的machine的話,其實你需要的也就是找一個function,這個function的輸入是圍棋上19x19路的棋盤的盤勢,你告訴機器說,在這19x19的棋盤上,哪些位置有黑子,哪些位置有白子,然後機器就告訴你說,接下來下一步應該落子在哪裡。

link |

11:13.000

或者是你要做聊天機器人,那你需要的也是一個function,這個function的輸入就是使用者的input,它的輸出就是機器的回應。

link |

11:25.000

那以下我們先很簡短的跟大家說明怎麼樣找出這個function,而找出這個function的framework是什麼呢?我們以影像辨識為例,我們要找一個function,輸入一張圖片,它告訴我們說圖片裡面有什麼樣的東西。在做這件事,它的起手式是你要先準備一個function的set,這個function的set裡面有成千上萬的function。

link |

11:53.000

舉例來說,這個function的set裡面有一個f1,你給它看一隻貓,它就告訴你輸出貓,給它看一隻狗,它就輸出狗。有一個functionf2,它很怪,你給它看貓,它說是猴子,你給它看狗,它說是蛇。

link |

12:05.000

你要準備一個function set,這個function set裡面有成千上萬的function。這件事情講起來有點抽象,你可能會很懷疑說,這怎麼回事,怎麼準備成千上萬的function,我怎麼把成千上萬的function收集起來變成一個function的port呢?這個我們之後會再講。總之,我們先假設你手上有一個function的set,其實這個function的set就叫做model。

link |

12:29.000

有了這個function的set以後,接下來第二步機器要做的事情是,它有一些訓練的資料。這些訓練資料告訴機器說,一個好的function,它的輸入輸出應該長什麼樣子,有什麼樣的關係。

link |

12:46.000

你告訴機器說,現在在這個影像辨識的問題裡面,如果看到這個猴子的圖,你要輸出猴子,看到貓的圖就要輸出貓,看到狗的圖就要輸出狗,這樣才是對的。

link |

13:00.000

只有這些訓練資料,你拿出一個function,機器就可以判斷說,這個function是好的還是不好的。機器可以判斷一個function,根據訓練資料判斷一個function是好的還是不好的。

link |

13:16.000

舉例來說,在這個例子裡面,顯然F1它比較符合訓練資料的敘述,比較符合訓練資料給我們的知識,所以F1看起來是比較好的,F2看起來是一個很荒謬的function。

link |

13:30.000

以下這個,我們今天講的這個task,叫做supervised,這個學習的情境,其實叫做supervised learning,如果你告訴machine,function的input和output,這個叫做supervised learning,之後我們會講到其他不同的learning scenario。

link |

13:48.000

現在機器有辦法決定一個function的好壞,然後光能夠決定一個function的好壞是不夠的,因為在你的function pool,在function set裡面,它有成千上萬的function,它有無窮無盡,幾乎是無窮,它有無窮的function,不可生孰的function。

link |

14:06.000

所以我們需要一個有效率的演算法,這個有效率的演算法,可以從function的set裡面,挑出最好的function,一個一個function來衡量它好不好,太花時間了,實際上做不到,所以我們需要有一個好的演算法,去從function的set裡面,挑出一個最好的function。

link |

14:25.000

這個最好的function,我們把它寫作F star,找出這個F star以後,接下來我們就希望拿它來做一些事情,我們就可以拿它來做影像的辨識,輸入一張在training data裡面沒有看過的貓,然後希望它的輸出也是貓。

link |

14:42.000

大家可能會問說,怎麼讓機器,它學的時候還沒有看過這隻貓,那你怎麼知道說,在測試的時候找出來這個最好的function F star,可以正確辨識這隻貓呢?這個就是在我們訓練裡面非常重要的問題,就是機器有沒有G1版3的能力,這個我們之後再講。

link |

15:02.000

左邊這個部分叫做training,就是學習的過程,右邊這個部分叫做testing,學好以後,你就可以拿它來做應用,這個是testing。

link |

15:13.000

所以在整個Machine Learning的framework裡面,整個Machine Learning分成了三個步驟,第一個步驟就是,找一個function,定出一個function的set。

link |

15:23.000

第二個步驟就是,讓Machine可以衡量一個function是好還是不好。第三個步驟是,讓Machine有一個自動的方法,有一個好的演算法,可以調出最好的function。

link |

15:36.000

所以機器學習到這邊,我們就說完了這樣子,也許這整個學習的課你都不需要聽了。所以機器學習就是三個步驟。當然這三個步驟其實異常的簡化了整個process,講說機器學習只有三個步驟。

link |

15:55.000

像我講說,如果我們要把大象塞進冰箱,其實也是三個步驟。這個大家知道嗎?就是你怎麼把大象塞進冰箱,就是把門打開,把大象趕進去,然後把門關起來,然後就結束了這樣子。

link |

16:08.000

所以說機器學習只有三個步驟,其實就好像是說,把大象放進冰箱也只需要三個步驟,意思是一樣的。

link |

16:16.000

接下來的時間我們要講一下,在這門課裡面,你可以學到哪些和機器學習相關的技術。這個是這學期的learning map,看起來是有點複雜的,我們一塊一塊來解釋。

link |

16:30.000

我們先從這個圖的左上角開始。這個圖的左上角是regression,什麼是regression?regression是一種machine learning的task,當我們說我們要做regression的時候,意思是說,我們今天要machine找出來的function,它的輸出是一個scanner,是一個數值,是一個real number,這個叫做regression。

link |

16:55.000

舉例來說,在作業一裡面,我們會要你做pm2.5的預測,也就是說,你要找一個function,這個function的輸出就是未來某一個時間,舉例來說,明天上午的pm2.5。

link |

17:09.000

那pm2.5是一個數值,是一個number,所以這個是一個regression的problem。機器要判斷說,今天這個function要輸出明天上午的pm2.5,你要給它一些資訊,它沒有辦法憑空猜出來,你要給它一些額外的資訊,它才能夠猜出明天上午的pm2.5。

link |

17:33.000

那你給它的資訊可能是今天上午的pm2.5,昨天上午的pm2.5等等,所以這就是一個function,它吃的是我們給它的過去的pm2.5的資料,它輸出的是預測未來的pm2.5。

link |

17:48.000

那你要訓練這種machine,如同我們剛才在講machine learning的framework裡面講的,你要準備一些訓練資料,什麼樣的訓練資料?你就告訴它說,今天根據我們過去的從政府的open data上所收集下來的資料,9月1號上午的pm2.5是這個樣子,9月2號是這個樣子,9月3號是這個樣子。

link |

18:11.000

所以一個好的function,輸入這樣子的pm2.5,它應該輸出這樣的pm2.5,給它9月12號pm2.5,9月13號pm2.5,它應該輸出9月14號的pm2.5。

link |

18:23.000

你收集到夠多這種data,你就可以訓練一個可以做氣象預報的系統。

link |

18:28.000

好,剛才講的是regression,那接下來要講的是classification,分類的問題。這個regression和classification的差別就是,我們要機器輸出的東西的類型是不一樣的。

link |

18:43.000

在regression裡面機器輸出的是一個數值,在classification裡面機器輸出的是,假設classification的問題要分成兩種,一種叫做binary的classification,二元的分類。在二元分類裡面我們要讓機器輸出的就是是或否,yes或no。

link |

19:00.000

那另外一類classification的problem叫motor class的classification,在motor class的classification裡面機器要做的事情是它要做一個選擇題,你等於是給它數個選項,每一個選項就是一個類別,它要從數個類別裡面選擇正確的類別,這叫motor class的classification。

link |

19:20.000

好,那我們就為binary和motor class的classification分別舉個例子。舉例來說,Gmail有做spam filtering這件事,它會自動偵測出垃圾郵件,幫你把它放到垃圾郵件夾裡面。

link |

19:34.000

它怎麼做到這件事呢?其實我們需要的就是一個function,這個function的輸入就是一封email,當然要怎麼讓一個function吃一個email當作輸入,是你要自己想看看的,這個我們未來再講。

link |

19:46.000

那這個function吃一個email當作輸入,它的輸出就是這封email是垃圾郵件還是不是垃圾郵件。你要訓練這樣的function怎麼做?很簡單,你就給它一大堆的data,告訴它說現在輸入這封郵件,你應該說它是垃圾郵件,輸入這一封郵件,你應該說它不是垃圾郵件。

link |

20:10.000

你給它夠多的這種資料去學,它就可以自動找出一個可以偵測垃圾郵件的function。

link |

20:17.000

那multiclass classification這邊舉一個文章分類的例子,現在網路上有非常多的新聞,也許沒有人會把所有的新聞看完,那你希望機器自動幫你把新聞做分類,怎麼做呢?

link |

20:30.000

你需要的是一個function,它的輸入是一個新聞,輸出就是這個新聞屬於哪一個類別。你可以想成說每一個類別就是一個選項,政治是一個選項,經濟是一個選項,體育是一個選項。技巧做的事情就是解這個選擇題。

link |

20:45.000

你要訓練這種機器,你就告訴它說,你準備很多訓練資料,包括這篇文章叫做體育,這篇文章你要選政治,這篇文章你要選財經,之後給它新的文章,希望它就可以給你正確的結果。

link |

21:01.000

剛才講的都是你要怎麼去解的任務。再來要講的是,在解任務的過程中,第一步就是要選一個function set,選不同的function set,你會得到不同的結果。

link |

21:16.000

選不同的function set就是選不同的model,model很多種,舉例來說,最簡單的是linear的model,我們會花很多時間focus在nonlinear的model上面,在nonlinear的model裡面,其中一個大家最耳熟,今日最耳熟能詳的就是deep learning。

link |

21:36.000

所謂的deep learning的意思是說,之後我們會再細講deep learning的內容,今天你只要知道說,在做deep learning的時候,我們的function是特別複雜的,所以它可以做特別複雜的事。

link |

21:51.000

複雜的事,舉例來說,它可以做影像的辨識,這個特別複雜的function,它可以描述這個pixel和它的class之間的關係,你要找這樣的function,你就是準備一堆訓練資料,給機器去學就可以了。

link |

22:08.000

那用deep learning的技術,你也可以讓機器學會下圍棋,在下圍棋這個test裡面,下圍棋這個test其實就是一個分類的問題,只是這個分類的問題我們需要一個很複雜的function,給它的輸入是一個棋盤的盤式,輸出就是下一步應該落子的位置。

link |

22:29.000

那我們知道說,今天這一個棋盤上就是有19x19的位置是你可以落子的,所以今天下圍棋這件事情,你就可以把它想成是一個19x19個類別的分類問題,或者是你可以把它想成是一個有19x19個選項的選擇題。

link |

22:50.000

那你要怎麼訓練機器讓它學會下圍棋呢?你要收集訓練資料,告訴機器說,現在這個function的輸入輸出分別應該是什麼,看到某樣的盤式,我們應該輸出什麼樣的output。

link |

23:08.000

那怎麼收集這種資料呢?你可以從人類過去下的棋譜裡面收集這樣的資料。舉例來說,你收集了靖騰光和射青春下的那一盤棋的棋譜。

link |

23:21.000

在那一盤棋裡面,射青春出手先下5-5,然後大家就偶爾非常的訝異,然後靖騰光次手再下天元,大家又更加訝異,然後射青春第三手再下5-5,大家就非常非常的訝異。

link |

23:37.000

所以你有了這樣一個棋譜以後呢,你就告訴我們訓說,如果現在棋盤上有人落子在5-5,那下一步你就落子在天元。如果現在在5-5和天元都已經有子了,那你就落子在另外一個5-5的位置,然後你給他更多的棋譜,他就可以學會怎麼下圍棋了。

link |

24:01.000

除了deep learning以外,還有很多其他的machine learning的model,它也是non-linear的model。如同我剛才講的,這學期會請吳佩源老師來幫我們講SDN。

link |

24:16.000

剛才我們講的都是supervised learning,supervised learning的問題是我們需要大量的training data,這些training data告訴我們說一個我們要找的function,它的input和output間有什麼樣的關係。

link |

24:33.000

這個function的output我們常叫做label,所以常會聽到說做機器學習要大量的label,指的就是說,如果我們用的是supervised learning的技術,我們是要讓機器在supervised learning的這種情境下做學習,我們需要告訴機器function的input和output是什麼。

link |

24:50.000

output往往沒有辦法用很自然的方式取得,我們必須要憑著人工的力量把它標註出來,這些function的output我們叫做label,你要找到這種label,往往需要很大量的effort。

link |

25:04.000

那有沒有辦法減少label需要的量呢?那是有辦法的,舉例來說,有另外一個scenario叫做semi-supervised learning,那semi-supervised learning的意思是說,舉例來說,假設你今天想要讓機器鑑別貓和狗的不同,你想要做一個分類器,輸入一張圖片,它告訴你說是貓還是狗。

link |

25:25.000

那你有少量的貓和狗的label的data,但是同時你又有大量的unlabeled data,你有一大堆貓和狗的圖片,但是你沒有力氣去告訴機器說哪些是貓,哪些是狗。

link |

25:40.000

那在semi-supervised learning的技術裡面,這些沒有label的data,它可能也是對學習有幫助的,這個我們之後會講說,為什麼這些沒有label的data對學習會有幫助。

link |

25:55.000

那另外一個減少data用量的方向是transfer learning,所謂的transfer learning的意思是說,假設一樣我們要做貓和狗的分類問題,我們也一樣只有少量的有label的data,但是我們現在有大量的data,這些另外大量的data,這些大量的data,它可能有label也可能沒有label,但是它跟我們現在要考慮的這個問題是沒有什麼特別的關係的,我們要分辨的是貓和狗的不同。

link |

26:22.000

但是你這邊有一大堆其他動物的圖片,動畫的圖片,這個是涼宮春日,這個是御坂美琴,你有這一大堆不相干的圖片,它到底可以帶來什麼樣的幫助,這個就是transfer learning要講的問題。

link |

26:38.000

好,那更進階的是unsupervised learning,在unsupervised learning裡面,顧名思義我們就是希望機器學到無私自通,如果在完全沒有任何label的情況下,到底機器可以學到什麼樣的事情。

link |

26:58.000

舉例來說,如果我們給機器看大量的文章,要收集大量的文章很容易,網路上隨便爬,八卦版隨便爬一爬就有了,讓機器看過大量的文章以後,它到底可以學到什麼事情,它能不能夠學會每一個詞彙的意思。

link |

27:18.000

那要讓機器學會每一個詞彙的意思,你可以想成是我們要找一個function,然後你把一個詞彙丟進去,比如說你把apple丟進這個function裡面,機器要輸出告訴你說這個詞彙是什麼意思,也許它用一個向量來表示這個詞彙的各種不同的特性不同的attribute。

link |

27:37.000

但現在假如是一個unsupervised learning的問題,你現在只有一大堆的文章,也就是說你只有詞彙,你只有function的輸入,沒有任何的輸出,那你到底要怎麼解決這個問題?

link |

27:50.000

或者是我們舉另外一個unsupervised learning的例子,假設我們今天帶機器去動物園,讓它看一大堆的動物,它能不能夠在看了一大堆動物以後,它就學會自己創造一些動物。那這個都是真實的例子,這是從Bianca Ferro的投影片上載下來的,機器看了大量的動物以後,它就可以自己畫一些狗出來,像它畫的有眼睛長在身上的狗,還有乳牛狗這樣子。

link |

28:19.000

那像這樣的task,它也是一個unsupervised learning的法本,你的function的輸入呢,不知道是什麼,可能是某一個code它代表了要輸出的圖片的特性,那輸出是一張圖片,那你給機器看到的只有非常大量的圖片。

link |

28:38.000

只有function的output,沒有function的input,在這個情況下,機器怎麼學會自己生成新的圖片,那這個是我們之後會再cover的問題。

link |

28:49.000

好,那接下來呢,我們剛才講的是不同的learning的scenario,那在machine learning,在machine學習的任務上,我們講了regression的法本,講了transformation的法本。那其實還有一類的問題是你比較少聽過的,這類的問題呢,叫做structure learning。

link |

29:12.000

那什麼是structure learning呢?在structure learning裡面,我們要機器輸出的是一個有結構性的東西,就剛才在regression的法本裡面機器輸出只是數字,在分類的問題裡面機器只是輸出一個選項,它選一個選項。

link |

29:29.000

在structure learning的法本裡面,機器要輸出的是一個複雜的物件,舉例來說,在語音辨識裡面,機器的輸入是聲音訊號,輸出是一個句子,那句子是由很多詞彙拼湊而成,它是一個有結構性的object。

link |

29:46.000

或者是說,在機器翻譯裡面,你說一句話,然後你輸入中文,你希望機器翻成英文,那機器的輸出也是一個句子,這也是有結構性的東西。或者是說,你今天要做的是,比如說人臉辨識,你給機器拍一張圖片,它要知道說,最左邊這是長門,中間這個是涼宮春日。

link |

30:09.000

最右邊這個是,不是每個人都知道,這個是昭比奈十九流。然後它要把這些東西標出來,這也是一個structure learning的法本。

link |

30:23.000

我知道說,其實多數人可能都聽過regression,也聽過classification,你可能不見得有聽過structure learning,通常教授說到,甚至有教授書就直接寫說,machine learning就是兩大類的問題,regression的法本,還有classification的法本。

link |

30:40.000

但是,說machine learning只有regression和classification的法本,就好像告訴你說,這個是我們所熟知的世界,它有五大洲,但事實上,這個只是真實的世界的一個小部分而已。

link |

30:55.000

真正的世界其實是這個樣子的。這個是暗黑大陸,可是我們這輩子永遠也到不了的。那structure learning就像是暗黑大陸一樣,這裡面還有很多很多問題是人們還沒有探究的。

link |

31:12.000

事實上,最近有一個很潮的技術叫做GAN,它唸起來其實更像是個案式聲音,所以路上常常會聽到有人一直講個案式聲音,其實在討論這個技術。

link |

31:27.000

像這個技術其實就是一個新的structure learning的方法,這個我們之後也會提到。其實最後還有一個現在大家都非常耳熟能詳的,就是reinforcement learning了。

link |

31:42.000

所謂reinforcement learning的意思是什麼呢?這個reinforcement learning,現在大家都或多或少都知道它,至少知道它是一個很潮的東西。但這個reinforcement learning,即使是一個發展很久的問題,它絕對不是一個新的技術。

link |

32:00.000

最近會比較受到重視的一開始,是因為這個DeepMind拿reinforcement learning的技術去玩Atari的遊戲,去玩一些小遊戲。小遊戲上可以碰電人類,他們現在都很厲害,可以發到Nature上面去。

link |

32:17.000

另外第二個大家都知道的例子,就是AlphaGo,我們都知道AlphaGo裡面有用到reinforcement learning的技術。那reinforcement learning的技術是什麼呢?我們把它和supervised learning的技術比較起來的話是這個樣子。

link |

32:31.000

在supervised learning的技術裡面,我們會告訴機器正確答案是什麼。舉例來說,假設你要用supervised的方法來訓練一個聊天機器人,那你的訓練方式是這樣,你給機器人data這樣,你就告訴機器說,現在使用者說了hello,你就說hi,現在使用者說了byebye,你就說goodbye。

link |

32:53.000

機器有一個人當他的家教,在他旁邊手把手的教他每一件事情,這個是supervised learning。那reinforcement learning是什麼呢?在reinforcement learning裡面,我們沒有告訴機器正確的答案是什麼。機器所擁有的只有一個分數,就是他做的好還是不好。

link |

33:14.000

舉例來說,我們現在要用reinforcement learning的方法來訓練一個聊天機器人的話,那他訓練的方法會像是這樣,你就把機器放到線上,讓他跟隨便進來的客人對話,然後講了半天以後,最後人就勃然大怒,就把電話掛掉了。

link |

33:33.000

那機器就學到一件事情就是,嗯,剛才做錯了。他不知道哪邊做錯了,他必須要自己回去想一想說到底要如何改進。是一開始就不應該打招呼嗎?還是中間不應該罵髒話了,什麼之類的。

link |

33:47.000

他不知道,他mirror到他只知道自己做得不好,他就要回去反省檢討看看到底是哪一步做得不好。可是機器要在reinforcement learning的情況下學習,他是需要比較強的intelligence。所以這個supervised learning就是learning from teacher,機器有老師,老師會告訴他每一個問題的答案。

link |

34:08.000

那reinforcement learning呢,他是learning from critic,他是從評價中去學習的。他只知道他做得好不好,但他不知道他哪裡做得好,他不知道他哪裡做得不好,他也沒有正確的答案。

link |

34:23.000

那reinforcement learning這麼受到重視就是,他比較符合我們人類真正的學習的情境嘛,對不對?這是你在學校裡面的學習,老師告訴你每個問題的答案,這是在真實社會中的學習,你沒有一個正確的答案,你只有知道你做得好還是做得不好而已。如果機器可以做到reinforcement learning,那他確實是比較intelligent。

link |

34:44.000

那或者是我們用alpha go來當作例子的話,下圍起來當作例子的話,supervised learning就是告訴機器說,看到這個盤勢你就下5-5,看到這個盤勢你就下3-3。reinforcement learning就是機器就是跟一個對手互下,就下了好幾把一手以後,最後贏了,他就知道說,嗯,這一局其實下得不錯。

link |

35:06.000

但是到底是哪一步是關鍵的位置讓他可以贏,他其實不知道,他只知道贏了或者是輸了。我們知道說alpha go其實是用supervised learning加上reinforcement learning的方法去學的,機器先從棋譜,棋譜就是他的老師,有棋譜就可以做supervised的學習,但是棋譜不用很多,所以從棋譜做supervised的學習以後,接下來他會做reinforcement learning,讓他學得更好。

link |

35:35.000

但是reinforcement learning也需要一個對手,那你說讓人來當對手的話,人太慢了,人又沒有辦法跟機器下很多盤棋,所以機器的對手是另外一個機器,大家都知道說alpha go就是自己跟自己下棋,然後不斷的進步,但是就是在reinforcement learning的這個步驟,機器不是跟人下棋,他的對手是另外一個機器。

link |

35:59.000

最後在這個圖上,大家注意一下不同的方塊,我是用不同的顏色來表示,同樣的顏色代表說今天不同的方塊指的是同一個類型的事情,這邊的藍色的方塊指的是scenario,指的是學習的情境。

link |

36:22.000

通常學習的情境是你沒有辦法自己控制的,舉例來說,為什麼我們要reinforcement learning,就是因為我們沒有data做supervised learning,所以我們才做reinforcement learning。

link |

36:36.000

然後我知道reinforcement learning現在聽起來很吵,因為它用在alpha go裡面,所以現在什麼樣的task你有用到reinforcement learning,你就可以到處亂講一些什麼,這個alpha go已經去了,alpha go已經敗了,其實就是用reinforcement learning的技術就是說alpha go已經什麼東西,所以就會變成說好像要用reinforcement learning比較吵。

link |

36:57.000

所以之前比如說有學生去面試,然後那公司就問,人家問他說你做什麼,他說我這個是一個supervised learning的task,人家說你怎麼做reinforcement learning呢,reinforcement learning就是比較厲害的。

link |

37:07.000

那這個時候你就應該要強暴他說,如果我今天可以做supervised learning的task,我其實就不應該做reinforcement learning的task,就reinforcement learning是我們沒有辦法做supervised learning的task的時候,我們才做reinforcement learning。

link |

37:23.000

如果你面試這樣講,你大概就不會被錄取就是了。

link |

37:27.000

所以這邊是不同的scenario,那不同的scenario的話不是你自己可以控制,看你的手上有什麼樣的data,決定你有什麼樣的scenario。

link |

37:38.000

那紅色的是指你的task你要解的問題,那你要解的這個問題隨著你要找的function的output的不同,有regression,有test location,有structure learning。

link |

37:53.000

所以今天在不同的情境下,你都有可能要解這個task,解這個task,解這個task。