Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

接下來,再套中間這個藍色框框裡面的結論,一次我們說我們有一個D-Train,它可以滿足代入任何的Threshold,D-Train上的Loss跟D-O上的Loss都很接近。所以D-Train上的Loss、D-Train上用H-O算出來的Loss跟D-O上用H-O算出來的Loss,它們是很接近的,最多就差一個二分之Delta。

link |

40:12.000

所以我們得到這個式子,L-H-O-D-Train加二分之Delta,它就會小於等於L-H-O-D-O加二分之Delta,再加二分之Delta。

link |

40:22.000

所以我們得到一個式子,就把兩個二分之Delta加起來變成Delta。所以我們得到的式子是L-H-Train-D-O,小於等於L-H-O-D-O加上Delta。

link |

40:33.000

再整理一下,我們就可以得到上面藍框框的式子。那如果這個地方你沒有辦法跟上的話,也無所謂啦,你就記得說,怎麼樣讓理想跟現實比較接近?

link |

40:44.000

要找到一個具有代表性的D-Train,不管是哪一個Threshold、哪一個H,在D-Train上量跟D-O上量都差不多,那我們就可以讓理想跟現實很接近。

link |

40:57.000

推導就在下面這三個式子裡面。

link |

41:03.000

剛才最開始說我們的目標是理想跟現實要很接近,那現在我們的目標是,我們要Sample到一個好的Training Data,

link |

41:13.000

這個好的Training Data,不管帶入什麼樣的H,在D-Train上,在這個Training Data上算出來的Loss,跟真正所有資料上面算出來的Loss,它的差距要小於等於某一個很小的數值,叫做Epsilon。

link |

41:31.000

那我這邊把二分之Delta換成Epsilon,那只是為了之後不要再寫除二這件事,希望不要造成大家的困擾。

link |

41:39.000

所以我們現在知道說,你要怎麼讓理想跟現實很接近,那就要看你Sample到什麼樣的訓練資料,要看你有沒有含著金湯匙出生,含著金湯匙出生,那理想跟現實就很接近了。

link |

41:53.000

接下來我們要問的問題就是,那我們沒有含著金湯匙出生的機率有多大呢?

link |

42:01.000

我們如果隨便Sample一組訓練資料,隨便Sample一組D-Train,Sample出來,上面這個數值不滿足,沒有辦法讓理想跟現實接近的機率到底有多大呢?

link |

42:16.000

如果這個機率很大,那我們就要小心了,我們的理想跟現實差很遠的,如果機率很小,那就恭喜你,我們理想跟現實是很接近的。

link |

42:25.000

那以下的討論,這邊要強調一下,以下的討論跟模型沒有關係,所以它適用於Deep Learning或者是其他的模型。

link |

42:37.000

那再來呢,以下的討論對於資料本身的分佈並沒有假設,我們並沒有對資料假設說它一定要是Gaussian Distribution。

link |

42:47.000

最後呢,以下的討論跟Loss Function是沒有關係的,它適用於任何Loss Function。

link |

42:55.000

所以今天雖然我們在討論的一直是一個二元分類的問題,但你完全可以把今天的討論直接套到Regression上面。

link |

43:04.000

因為你知道這個Classification跟Regression的差距只是Loss Function不同啊,Classification上面你可能會用Cross Entropy作為你的Loss,Regression上面你可能會用NSE作為你的Loss。

link |

43:17.000

那今天等一下的討論跟Loss Function是沒有關係的,所以它可以不只用在分類上,它也可以用在Regression上面。

link |

43:25.000

所以以下要講的這個機器學習的原理,它是一個非常一般化的原理,它可以用在很多不同的情境下。

link |

43:34.000

好,那我們現在的主題是什麼呢?我們現在的主題就是沒有含著金湯匙出生的機率到底有多大呢?

link |

43:44.000

Sample到一組壞的訓練資料的機率到底有多大呢?

link |

43:49.000

以下我們用一個點來代表一組訓練資料。注意一下哦,在這個圖示裡面,一個點不是一筆資料哦,一個點是一組訓練資料。

link |

44:00.000

那藍色的點代表好的訓練資料,可以讓理想跟現實接近的訓練資料。

link |

44:07.000

橙色的點代表壞的訓練資料,會讓理想跟現實有差距的訓練資料。

link |

44:13.000

好,再強調一次,現在每一個點不是一筆資料,而是一組訓練資料。

link |

44:20.000

比如說,我們剛才Sample過一個好的訓練資料,叫做D圈1,在這個圖上它就是一個點。

link |

44:26.000

我們剛才Sample到一組很壞的訓練資料,叫做D圈2,它也是圖上的一個點。

link |

44:33.000

好,那假設我們每一個訓練資料都有被Sample到的機率。

link |

44:41.000

如果我們可以把這邊每一個橙色的點的機率,通通都算出來進行加總,

link |

44:49.000

我們就知道我們Sample到壞的訓練資料的機率有多少。

link |

44:55.000

那我們當然希望這個橙色的點,它所佔的總機率,在Sample所有的資料裡面佔的總機率越小越好。

link |

45:07.000

好,那怎麼計算這些橙色的點所佔有的機率總共有多大呢?

link |

45:14.000

直接一個點一個點算,顯然是很麻煩的,不知道要怎麼做。

link |

45:20.000

那這邊有一個方法來估測橙色的點所佔的機率有多少。

link |

45:26.000

怎麼估測呢?我們先回憶一下什麼叫做一個Data Set D圈,它是不好的。

link |

45:33.000

如果你可以找得到任何一個H,這個H可以讓在D圈上算出來的Loss跟D2上算出來的Loss大過Excel,那這個訓練資料就是不好的。

link |

45:49.000

那前幾個投影片裡面我們是正面的定義怎麼樣叫做一個好的訓練資料,

link |

45:55.000

就是對所有的H而言,在Trending Set上算出來的Loss跟所有資料上算出來的Loss是夠接近的,叫做好。

link |

46:04.000

那前面定義好是說所有的H都要滿足,那現在反過來不是好就是壞,什麼叫做壞的訓練資料?

link |

46:13.000

就是找到一個,哪怕只有一個,找得到一個H,讓訓練資料上算出來的Loss跟所有資料上算出來的Loss有足夠的差距,

link |

46:23.000

就叫做這個資料是不好的。

link |

46:26.000

所以每一個H,每一個壞的資料後面一定有至少一個H把它弄壞。

link |

46:38.000

那我們這個圖示的意思就是H1它弄壞了這些資料,就是說H1這一個Threshold,這一個參數,這一個數值,它會讓這一些Trending的Data跟所有的Data的差距超過Excel。

link |

46:58.000

然後H2會讓這九個訓練資料它的Loss,這個H2在這九個訓練資料上,它的Loss會跟所有的訓練資料D2差距大於Excel。

link |

47:13.000

然後H3它很厲害,它弄壞了這麼多的訓練資料,這一些訓練資料當用H3計算Loss的時候,跟H3在所有資料上計算的Loss會超過Excel。

link |

47:28.000

所以每一個橙色的點至少會被一個H,某一個H晃到。當然有可能說同一個資料集它會被好幾個不同的H弄壞,這些事情是有可能發生的。

link |

47:48.000

但是總之每一個壞的資料集至少會被一個H弄壞,那被多的H弄壞也叫壞的資料集,被一個H弄壞也叫壞的資料集。

link |

47:59.000

好,那我們就要進入在接下來的推導了。所以我們現在把被H弄壞的這些訓練資料的機率,我們這邊就用比較簡單的文字來表示它。

link |

48:16.000

我們說某一個訓練資料是差的因為H1的時候,就代表說這個訓練資料是被H1弄壞。那我們把這個黃色框框裡面的這一些訓練資料的機率加起來,叫做P of D trend是差的因為H1的關係。

link |

48:39.000

然後這一些訓練資料的機率加起來,叫做P of D trend是差的因為H2的關係。

link |

48:47.000

現在知道訓練資料是差的出現的機率,等於這邊所有框框裡面框到的機率的union的連擊,對不對?你窮取所有的H,然後計算出資料集是差的因為H的機率。

link |

49:13.000

然後把所有的H統統union起來,當然因為它們有overlap的地方啦,所以你不是直接加起來,你是union起來,那你會等於資料集是差的機率,你會等於D trend是差的機率。

link |

49:29.000

但是呢,我們今天如果要考慮這個overlap的地方,顯然是很麻煩的,我們有點難以考慮這個overlap的地方。所以我們取一個upper bound,我們不知道怎麼考慮overlap的地方,那我們就把union改成summation。

link |

49:50.000

我們把H1這些範圍加H2這些範圍加H3的這些範圍不取連擊而直接相加,如果直接相加的話,這些重複的地方就是如果某個資料集會被好幾個H弄壞,那就會被重複計算到,所以它是一個upper bound。

link |

50:14.000

所以我們知道說,今天我們sample到我們拿到差的資料集的機率,它會小於等於summation over所有可能的H,然後呢,把這一個H會弄壞的資料集它的機率全部加起來,然後summation over所有可能的H,那這是我們拿到壞的資料集的upper bound。

link |

50:41.000

講到這邊,大家有沒有問題要問呢?

link |

51:11.000

會不會那一堆的p,我以為p是0到1之間的機率,那如果有100個加起來會不會超過1?

link |

51:19.000

超過1,對不對?你說你這邊隨便把union改成summation,會不會超過1?如果是union的話,顯然是不會超過1的嘛,那summation有可能會超過1,有可能會,所以當超過1的時候,這個理論就完全沒有用了。

link |

51:34.000

所以實際上,通常你算出來都會超過1,所以這個理論沒什麼用。

link |

51:44.000

你問的問題很好,會超過1。

link |

51:51.000

好,那如果沒有問題的話,那我們就繼續下去囉。

link |

51:59.000

好,那接下來的問題就是,我們能不能夠算出給定某一個H,會被它弄壞的那些D圈出現的機率呢?

link |

52:13.000

我們能不能夠計算出這一項呢?

link |

52:16.000

可以的,等一下我們只講觀念,不講證明,雖然這個證明理論上你在機率統計那門課應該是學過的啦,但我們這邊只講觀念。

link |

52:27.000

好,我們來回憶一下,什麼叫做D圈是差的?因為H的關係。

link |

52:34.000

什麼意思呢?就是如果我今天拿H來在D圈上計算Low,相較於H拿在D0上計算Low,它的差距大於Epsilon,我們說這個叫做D圈是差的。

link |

52:51.000

好,那我們再來看一下,回憶一下大L是怎麼算出來的?大L是D裡面的每一筆訓練資料計算出來的小L的平均。

link |

53:05.000

好,那我們現在用一個三角形來代表某一筆資料用某一個H計算出來的Low。

link |

53:18.000

那今天所謂的H在D0上面計算出來的Low是什麼呢?

link |

53:25.000

就是我們在很多很多筆,在所有我們可以收集到的宇宙間,所有可能收集到的資料上面,都去計算小L,再去平均,就是這個H在D0上面的Low。

link |

53:39.000

好,那這個是LHD0這一項,那LHD圈這一項呢?我們記得D圈是哪來的?D圈是從D0裡面sample出來的。

link |

53:52.000

所以當我們在算H在D圈上面的Low的時候,實際上我們做的事情就是從全世界所有資料的Low裡面sample一些Low出來,sample一些小L出來做平均,就是H在D圈上算出來的Low。

link |

54:13.000

所以你在所有的資料上面算出來的小L的平均就是H在D0上算出來的Low。你在部分sample到的資料上面算出來的Low的平均就是H在D圈上面的Low。

link |

54:28.000

而這兩個東西啊,他們顯然會有可能是蠻接近的,對不對?因為這裡下面的這些數值就是從上面這些數值裡面sample出來的。但是他們到底有多接近呢?

link |

54:46.000

這個你其實在機率與統計那一門課學過了,那我們就不講你可能已經知道的東西,我們直接告訴你結論。那假設你已經忘記機率與統計你學過什麼的話,你就記得結論。

link |

55:01.000

這邊的結論是什麼?這邊的結論是,這個就是Hofding的Inequality。D圈被某一個H弄壞的機率,它有一個upper bound,有一個上界。

link |

55:17.000

這個上界小於等於兩倍的exponential,負兩倍的n乘以ε平方。那這邊有一個前提是,我們要假設Loss它的值是介於0到1之間,上面那個式子才會成立啦。

link |

55:34.000

那我剛才有說Loss其實沒有什麼限制,那這邊還是有一個限制啊,需要介於0到1之間。但是對於Loss的function長什麼樣子,你是可為的不可為的,是identity還是cross entropy還是regression,這點是沒有限制的,只對它數值的範圍有限制。

link |

55:51.000

n是什麼?n是訓練資料的數目,就是在D圈裡面的訓練資料的數目就是N。

link |

56:01.000

所以我們現在知道一件事,我們現在知道說,某一個H把D圈弄壞的機率小於等於兩倍的exponential,負2nε平方。

link |

56:15.000

好,那接下來呢,你就是把兩倍的exponential,負2nε平方,代進去。所以變成小於等於,因為這個東西是它的一個上界啦,所以小於等於summation over所有的H,兩倍的exponential,負兩倍的nε平方。

link |

56:33.000

那你發現啦,兩倍的exponential,負兩倍的nε平方跟H是沒有關係的,對不對?這個雖然說summation over所有的H,但是summation裡面的東西跟H是沒有關係的。

link |

56:46.000

所以我們可以直接看一下,我們有多少的H,我們的大H裡面總共有多少個可能的選擇,把它直接乘到兩倍的ε,負2nε平方前面。

link |

57:01.000

所以我們現在,我們已經得到我們的結論,就是一個training set,它會壞掉的機率有多少呢?

link |

57:10.000

小於等於你可以選擇的function的數目,就是H,大H的絕對值,乘上兩倍的exponential,負兩倍的nε平方。

link |

57:23.000

那怎麼讓這個sample到的data是壞的的機率變低呢?怎麼讓dtrain是差的機率變低呢?

link |

57:35.000

那你就要看一下這個式子了,怎麼讓這個機率變低呢?

link |

57:40.000

那就看看這個式子裡面有什麼,Excel是你自己訂的啦,就看你希望現實跟理想有多接近嘛,Excel是你自己訂的。

link |

57:47.000

但n跟H是你可以調的,我們今天如果讓n越大,那sample到壞資料的機率就越低。

link |

57:57.000

n是什麼?n是訓練資料的數目,所以知道訓練資料的數目越多,一個training set裡面訓練資料的數目越多,你sample到壞資料的機率就越低。

link |

58:11.000

然後另外一個是,假設這個H的絕對值越小,那sample到壞資料的機率也越低。

link |

58:19.000

所以假設你有一個比較小的H,你讓可以選擇的function的數目變少的話,那sample到壞資料的機率也會跟著變低。

link |

58:34.000

好,那這邊是圖示一下,當你把n調大的時候,會得到什麼樣的效果。

link |

58:41.000

因為你把n調大的時候,那實際上做的事情就是讓每一個H可以弄壞的training data變少了。

link |

58:51.000

當我們把n調大的時候,一個H要把某一個training set弄壞的難度就增加了。

link |

58:59.000

所以當你把n調大的時候,每一個H他可以弄壞的training data set就變小了。

link |

59:06.000

所以整體而言,比較差的sample到差的training data set的機率就變小了。

link |

59:12.000

那另外一方面,如果我們今天把大H的絕對值變小,那達到什麼樣的效果呢?

link |

59:20.000

每一個H他們管的範圍還是一樣,但是當我們把H的數目變小的時候,我們也可以讓差的data set、壞的data set被sample到的機率變小。

link |

59:33.000

所以n跟H他們從兩個不同的方向,讓差的data set被sample到的機率變小。

link |

59:40.000

好,那這邊我們就可以跟大家舉一個例子,看一下這個式子是怎麼運作的。

link |

59:48.000

假設現在大H是1萬,我們剛才說我們的threshold就從1設到1萬,總共只有1萬個可能。

link |

59:57.000

n training data我們說就是100筆,就是抓100隻動物來,然後標註他是寶可夢還是數碼寶貝。

link |

01:00:08.000

Excelon是你自己決定的,就是你要求說什麼叫做好的訓練資料,好的訓練資料就是任何的H在訓練資料上算出來的Loss跟所有資料上算出來的Loss要小於等於Excelon,也就是小於等於0.1。

link |

01:00:28.000

把這個H,把這個n,把這個Excelon如果都帶進去的話,你算出來的數值是多少呢?算一下,小於等於2707啦。

link |

01:00:39.000

這個機率,sample到壞的機率,sample到壞data的機率,小於等於2707。

link |

01:00:46.000

所以這個式子就是一個幹話,他什麼都沒有說,他告訴你有,你sample到差的機率就是小於等於2707。

link |

01:00:54.000

這個理論推導出來的結果,這種狀況非常常發生。

link |

01:01:01.000

所以你會發現說,你真的在做機器學習的時候,幾乎沒有人會特別把這些理論拿出來在實際的資料上面進行計算,因為你算出來往往都是大於1的數值。

link |

01:01:16.000

但他只是試圖去解釋機器學習的原理,告訴你說這個model的complexity跟訓練資料到底對結果造成什麼影響。

link |

01:01:25.000

那他是一個upper bound,他是一個上界,這個上界離實際的數值差距往往非常的巨大。

link |

01:01:34.000

所以在實際的應用上,你很難把這個理論派上用場。

link |

01:01:39.000

我這邊隨便舉一個例子,哇,這個機率大過1,等於什麼都沒有講。

link |

01:01:44.000

不過我們今天怎麼讓壞的訓練資料被sample到的機率變小呢?增加訓練資料的數目。

link |

01:01:53.000

所以發現說,增加訓練資料的數目其實是非常有效的。

link |

01:01:57.000

當我們把訓練資料從100筆增加到500筆的時候,sample到壞資料的機率就小於等於0.91了。

link |

01:02:06.000

如果我們今天把資料增加到1000筆的時候,sample到壞的資料的機率就變得非常低,0.00004。

link |

01:02:14.000

sample到壞資料的機率就變得非常低了。

link |

01:02:17.000

但是這邊只是一個例子而已。

link |

01:02:21.000

你可以想見說,在一般的情境下,在正常的模型上,比如說你作業1用的模型上,這個h它是非常非常巨大的一個數字。

link |

01:02:32.000

所以你真的帶到這個不等式裡面去計算,你往往算出來的上界都是大於1的。

link |

01:02:39.000

這邊我們也可以換另外一個方式來問這個問題。

link |

01:02:44.000

有人可以問說,如果我今天希望壞的資料被sample到的機率小於等於某一個小的數值delta,那我需要準備多少筆訓練資料才夠呢?

link |

01:02:59.000

這個題目你就可以這樣做。

link |

01:03:02.000

你想要這個sample到壞資料的機率小於等於delta,那如果你要保證這件事成立,那你就要讓它的上界,就是h的絕對值乘以兩倍的exponential-2nx²,你就要讓這個上界小於等於delta。

link |

01:03:18.000

然後你再把這個式子做一下組裝以後,把這些項目做一下左右對調以後,你可以推導出你需要多少的訓練資料呢?

link |

01:03:28.000

訓練資料的數目需要大於等於兩倍的exponential-2nx²分之log兩倍的h的絕對值除以delta。

link |

01:03:38.000

這個結果非常的合理,非常的直觀。

link |

01:03:42.000

假設你今天希望這件事情sample到壞資料的機率越低越好,那你的n就得越大越好。

link |

01:03:52.000

如果你今天對於什麼叫做理想跟現實的要求非常的龜毛,你希望exponential很小,那你的n也要越大越好。

link |

01:04:01.000

如果你今天的模型很複雜,就是這個大h的值越大,那你n的訓練資料量也要越大越好。

link |

01:04:09.000

所以我們推出n要大於等於兩倍exponential-2nx²分之log兩倍的h除以delta。如果代進去數值的話,h是1萬,delta是0.1,我們希望抽到壞資料的機率應該小於0.1。

link |

01:04:26.000

然後我們對於exponential的要求是0.1,那算出來n要大於等於610。

link |

01:04:32.000

也就是說假設你的訓練資料裡面有大過610隻的寶可夢加數碼寶貝的話,那你抽到壞資料的機率就小於10%,小於0.1了。

link |

01:04:46.000

這邊我們又遇到了一個問題,在這個式子裡面有一個h的絕對值,我們說這個h的絕對值是什麼?

link |

01:04:54.000

它是你有可能選擇的function的數目,但你仔細想一想,在剛才的例子裡面,我們說h就是1,2,3到1萬,它是離散的,總共只有1萬個可能。

link |

01:05:09.000

但是一般在train network的時候,就算不是train network,就算只是linear model的時候,我們的參數不是都是連續的嗎?如果參數是連續的,那這個h的絕對值不是應該是無窮大嗎?

link |

01:05:26.000

如果它是無窮大的話,那這個式子還有什麼用呢?那你就只是推出說sample到差的data的機率小於等於無窮大而已,這句話有講跟沒有講是一樣的。

link |

01:05:37.000

如果要回答這個問題,有兩個回答的方向,第一個回答方向就是告訴你說,世界上沒有真正連續的東西,對不對?

link |

01:05:48.000

在這個數位的世界裡面,在電腦裡面,所有的計算其實都是discrete的,所有的計算都是離散的,對不對?

link |

01:05:59.000

你在表示一個參數的時候,在你表面上覺得它是連續的,但它的精度還是有限的啊,你用8個bit,16個bit,32個bit來描述一個數值,你的精度終究是有限的。

link |

01:06:14.000

所以這個h還是可以數的,就算是你號稱說你用的參數是連續的,但這個連續不是真正的連續,它其實還是離散的,所以h的速度還是算得出來的,只是非常大而已。

link |

01:06:30.000

所以這是第一個解釋的方法,那希望你不要覺得這個解釋的方法太牽強,希望這個解釋的方法可以稍微說服你說這個式子偶爾還是有機會可以派上用場的。

link |

01:06:43.000

好的,另外一個真正的解釋的方法是什麼呢?有一個東西叫做VC Dimension,它是另外一個方法來計算一個參數是continuous的模型的複雜程度。

link |

01:06:59.000

所以就算有一個模型,它的參數是連續的,並不代表它的複雜程度就是無窮大,還是有辦法估計的,那這個描述一個模型複雜程度的指標就叫VC Dimension。

link |

01:07:16.000

那這一門課我們並不會提到VC Dimension,那如果你想要知道VC Dimension是什麼,你可以收看林宣田老師的機器學習,你會更深入的了解怎麼評量一個模型的複雜程度。

link |

01:07:27.000

好,那我們剛才已經看到說,怎麼讓理想跟現實比較接近呢?要嘛是增加訓練資料,要嘛是減低模型的複雜程度。

link |

01:07:38.000

增加訓練資料,它的副作用就是你要耗費比較大的成本,你往往沒有辦法自己決定說你的訓練資料要用多少。

link |

01:07:48.000

那如果在課堂上作業的訓練資料是給定的,所以這個部分你是沒有辦法自己決定的,那你會把所有給定的資料通通都用上,但你沒辦法用更多。

link |

01:07:59.000

今天在現實的application中,你在一個公司工作,你可能以為大公司收集資料都很容易,其實也不一定啦,大公司不見得收集資料很容易,

link |

01:08:09.000

尤其是假設你的主管對機器學習沒有那麼了解,你就跟他說我們今天先花個一百萬收集資料吧,他就告訴你機器自己會學習,收什麼訓練資料。

link |

01:08:18.000

你說他一百萬訓練資料,你就要保證說進步正確率要變2%以上,不然你不准收訓練資料,就遇到各式各樣的卡啦,所以訓練資料不是你想收就可以收的。

link |

01:08:30.000

另外一方面,H倒是你可以自己決定的,所以從這個角度看來,如果我們要讓現實跟理想越接近越好,這個H好像應該要越小越好喔。

link |

01:08:41.000

但H越小越好,會遇到什麼樣的問題呢?H太小的話會遇到什麼樣的問題呢?

link |

01:08:50.000

如果你想想看,H太小會有什麼樣的副作用?當我們說一個訓練資料是好的意思的時候,我們指的是什麼?我們指的是理想跟現實是接近的。

link |

01:09:05.000

當我們說D圈是好的的時候,意味著不管是哪一個H,D圈上算出來的Loss跟D2上算出來的Loss都很接近。

link |

01:09:14.000

然後這個條件可以告訴我們說,在D2上,不管你是用H2算,還是用H圈算,你算出來的Loss,他們的差距都會小於等於一個小的數值,叫做Delta。

link |

01:09:30.000

所以當我們說一個訓練資料是好的的時候,我們其實意思是說,用這個訓練資料上面所算出來的Loss,用這個訓練資料所找出來的H圈,在D2上面跟最好的這個H2,他的Loss的差距沒有太大。

link |

01:09:50.000

但是當我們把這個H的絕對值弄得很小的時候,會發生什麼事情呢?注意一下這個HO是哪來的。HO是所有大H裡面的小H,可以讓D2上面算出來的Loss,最小的那個H,叫做HO。

link |

01:10:09.000

當我們把H調得很小的時候,你可以選擇的小H就非常有限了。當你可以選擇的小H非常有限的時候,你就沒有辦法讓HO在D2上面算出來的Loss真的很小。

link |

01:10:25.000

當你可以選擇的H有限的時候,你沒有辦法真的找到一個很好的HO,他在D2上面算出來的Loss很小。

link |

01:10:37.000

所以當有很小的H的時候意味著什麼?意味著你的理想崩壞了,你的理想根本就是壞掉的東西。

link |

01:10:44.000

所以這個時候你就算是讓現實跟理想很接近,那理想這個壞掉的東西,那你拿到的其實也是一個壞掉的東西。

link |

01:10:51.000

好,講到這裡呢,我們發現我們陷入了一個兩難。如果我們想要讓理想跟現實比較接近的話,我們需要比較大的N,比較小的H的絕對值。

link |

01:11:09.000

但是通常我們比較難收集到比較大量的N,通常N不是你可以自己決定的。也許你就會想說,為了讓理想跟現實比較接近,你選了一個比較小的大H,讓你可以選擇的function的數量比較少。

link |

01:11:30.000

但是如果你選擇了一個比較小的大H,會造成什麼問題呢?選擇比較小的大H雖然可以讓理想跟現實比較接近,但他可能會造成你的理想直接崩壞。

link |

01:11:44.000

如果你的理想崩壞的話,就算現實跟一個崩壞的理想接近,那也是一個崩壞的現實,那也不是我們要的。

link |

01:11:52.000

如果用圖像化的方法來說明的話,左邊是大的大H,右邊是小的大H。

link |

01:12:02.000

當你有比較大的大H的時候,你的理想會是比較好的,你的HO在DO上面會算出比較小的Loss。如果你只有比較小的大H,那HO在DO上面就可能會算出比較大的Loss。

link |

01:12:25.000

但是另外一方面,假設我們考慮理想與現實間的距離,如果今天有比較大的H,那理想與現實間的差距就會比較明顯。

link |

01:12:40.000

也就是說,你的Htrend在DO上面算出來的Loss很有可能會遠大於HO在DO上算出來的Loss。

link |

01:12:50.000

另外一方面,如果今天的H比較小的話,那理想與現實間的差距就會比較小。

link |

01:12:57.000

那你在Htrend在DO上面算出來的Loss可能就會比較接近HO在DO上算出來的Loss。

link |

01:13:04.000

那是因為這個理想已經崩壞了,所以就算現實跟理想接近也沒有什麼用。

link |

01:13:10.000

看來我們陷入了一個兩難。怎麼辦呢?有沒有可能魚與熊掌都兼得呢?

link |

01:13:20.000

有沒有可能我們想辦法讓HO在DO上面算出來的Loss可以小,而同時理想與現實又是接近的,

link |

01:13:32.000

同時Htrend算在DO上面的結果又要接近HO算在DO上面的結果呢?

link |

01:13:40.000

有沒有可能讓魚與熊掌可以兼得呢?

link |

01:13:45.000

是沒有可能的。這個可以讓魚與熊掌兼得的辦法就是深度學習。

link |

01:13:53.000

那至於深度學習怎麼做到這件事情,我們下回分解。

【機器學習 2022】再探寶可夢、數碼寶貝分類器 — 淺談機器學習原理