Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

好,設完這個A以後,就結束了,你就把loss定義出來,然後update你的model,這個update的過程就跟gradient descent是一模一樣的,你會去計算大L的gradient,前面乘上learning rate,然後拿這個gradient去update你的model,就把θi-1update成θi。

link |

24:31.000

但是這邊有一個神奇的地方是,一般的training,在我們到目前為止的training,data collection都是在for回圈之外的。

link |

24:43.000

比如說,我有一堆資料,然後把這堆資料拿來做training,拿來updatemodel很多次,然後最後得到一個收斂的參數,然後拿這個參數來做testing。

link |

24:54.000

但在RL裡面不是這樣,你發現收集資料這一段居然是在for回圈裡面的。假設這個for回圈,你打算跑400次,那你就得收集資料400次。

link |

25:11.000

或者是我們用一個圖像化的方式來表示,這個是你收集到的資料,就是你觀察了某一個actor,他在每一個state執行的action,然後接下來你給予一個評價,要用什麼評價,要用哪一個版本,這個是你自己決定的。

link |

25:28.000

你給予一個評價,說每一個action是好或不好。你有了這些資料、這些評價以後,拿去訓練你的actor。你拿這些評價,可以定義出一個loss,然後你可以更新你的參數一次。

link |

25:42.000

但是有趣的地方是,你只能更新一次而已。一旦更新完一次參數以後,接下來你就要重新去收集資料了。更新一次參數以後,你就要重新收集資料,才能更新下一次參數。

link |

26:01.000

這就是為什麼RLR往往的訓練過程非常花時間。收集資料這件事情,居然是在復活圈裡面的。你每次更新完一次參數以後,你的資料就要重新再收集一次,再去更新參數。

link |

26:17.000

更新完一次以後,又要再重新收集資料。如果你參數要更新400次,那你的資料就要收集400次。這個過程顯然非常花時間。

link |

26:28.000

那你接下來就會問說,為什麼會這樣呢?為什麼我們不能夠一組資料就拿來update模型update400次,然後就結束了呢?為什麼每次update完我們的模型參數以後,update完network參數以後,就要重新再收集資料呢?

link |

26:47.000

這邊一個比較簡單的比喻是,一個人的食物可能是另外一個人的毒藥。這些資料是由SEDA i-1所收集出來的,這是SEDA i-1跟環境互動的結果,這個是SEDA i-1的經驗。

link |

27:09.000

這些經驗可以拿來更新SEDA i-1,可以拿來update SEDA i-1的參數,但它不一定適合拿來update SEDA i-1的參數。

link |

27:22.000

或者是我們舉一個具體的例子,這個例子來自奇魂的第八集。大家看過奇魂吧,我應該就不需要解釋奇魂的劇情了吧。這個是靜騰光,他在跟佐維下棋。靜騰光就下一步,在小馬步飛。

link |

27:42.000

小馬步飛具體是什麼,我其實也沒有非常的確定,但這邊有解釋一下。棋子斜放一個叫做小馬步飛,斜放好幾格叫做大馬步飛。

link |

27:52.000

靜騰光下完棋以後,佐維就說,這個時候不要下小馬步飛,而是要下大馬步飛。靜騰光說,為什麼要下大馬步飛呢?我覺得小馬步飛也不錯啊。

link |

28:06.000

這個時候佐維就解釋了,如果大馬步飛有100手的話,小馬步飛只有99手。接下來是重點,之前走小馬步飛是對的,因為小馬步飛的後續比較容易預測,也比較不容易出錯。

link |

28:23.000

但是大馬步飛的下法會比較複雜,但是阿光假設想要變強的話,他應該要學習下大馬步飛,或者是阿光變得比較強以後,他應該要下大馬步飛。

link |

28:36.000

同樣的一個行為,同樣是做下小馬步飛這件事,對不同棋力的棋士來說,也許他的好是不一樣的。對於比較弱的阿光來說,下小馬步飛是對的,因為他比較不容易出錯。

link |

28:56.000

但對於已經變強的阿光來說,應該要下大馬步飛比較好,下小馬步飛反而是比較不好的。所以同一個action,同一個行為,對於不同的actor而言,他的好是不一樣的。

link |

29:15.000

所以今天假設我們用θi-1收集了一堆的資料,這個是θi-1的trajectory,這些資料只能拿來訓練θi-1,不能拿這些資料來訓練θi。

link |

29:33.000

為什麼不能拿這些資料來訓練θi呢?因為假設就算是同θi-1跟θi,他們在S1都會採取A1好了,但之後到了S2以後,他們可能採取的行為就不一樣了。

link |

29:50.000

所以假設今天θi是看θi-1的trajectory,那θi-1會執行的trajectory跟θi會採取的行為根本就不一樣了。

link |

30:04.000

所以你拿θi-1接下來會得到的reward來評估θi接下來會得到的reward,其實是不合適的。如果再回到剛才棋魂的那個例子,同樣是假設這個A1就是下小馬步飛。

link |

30:21.000

對於變強以前的阿光,這是一個合適的走法,但是對於變強以後的阿光,他可能就不是一個合適的走法。所以今天我們在收集資料來訓練你的θ的時候,

link |

30:36.000

你要注意,收集資料的那個actor要跟被訓練的那個actor最好就是同一個。當你的actor更新以後,你就最好要重新去收集資料。這就是為什麼Gradient Descent非常花時間的原因。

link |

31:07.000

剛才我們說,要被訓練的actor要拿來跟環境互動的actor最好是同一個。當我們訓練的actor跟互動的actor是同一個的時候,這種叫做unpolicyed learning。

link |

31:35.980

我們剛才示範的那個policy gradient的整個algorithm,它就是unpolicyed learning。但是還有另外一種狀況叫做off-policyed learning。off-policyed learning我們今天就不會細講。

link |

31:50.980

off-policyed learning期待能夠做到的事情是,我們能不能夠讓要訓練的那個actor還有跟環境互動的那個actor是分開的兩個actor呢?我們要訓練的actor能不能夠根據其他actor跟環境互動的經驗來進行學習呢?

link |

32:10.980

off-policyed learning有什麼好處呢?有一個非常顯而易見的好處。我們剛才說,θi-1收集到的這些資料不能拿來訓練θi,如果你是unpolicyed learning的話。

link |

32:22.980

但是有一些比較特別的方法,它是off-policyed learning,它可以想辦法讓θi去根據θi-1所收集的資料來進行學習。

link |

32:34.980

雖然θi跟θi-1是不一樣的,它們能力是不一樣的,但是我們可以用一些方法來讓θi可以根據θi-1所收集到的資料、所收集到的互動的結果進行學習。

link |

32:47.980

這樣的好處就是,你就不用一直收集資料了。剛才說reinforcement learning,一個很卡的地方就是,每次更新一次參數就要收集一次資料。

link |

32:57.980

你看助教的示範歷程是更新400次參數,400次參數相較於你之前trained的network可能沒有很多,但我們要收集400次資料,跑起來也已經是很卡了。

link |

33:06.980

如果我們可以收一次資料,就update參數很多次,這樣不是很好嗎?所以off-policy,它有不錯的優勢。

link |

33:15.980

但是off-policy要怎麼做呢?我們這邊就不細講。有一個非常經典的off-policy的方法叫做proximal policy optimization,縮寫式PPO,這個是今天蠻常使用的一個方法。

link |

33:29.980

它也是一個蠻常使用的方法。今天這個off-policy的重點是什麼呢?off-policy的重點就是,你在訓練的那個network要知道自己跟別人之間的差距,它要有意識地知道說它跟環境互動的那個actor是不一樣的。

link |

33:51.980

至於細節,我們就不細講。我有留上課錄影的連結在投影片的下方,等一下大家如果有興趣的話再自己去研究PPO。

link |

34:01.980

如果要舉個比喻的話,就好像是你去問克里斯·伊凡,就是美國隊長,怎麼追一個女生。克里斯·伊凡就告訴你說,他就示範給你看,他就是actor to interact,他就是負責去示範的那個actor。

link |

34:16.480

他說,他只要去告白,從來沒有失敗過。但是你要知道說,你跟克里斯·伊凡其實還是不一樣的。人帥真好,人醜吃草。你跟克里斯·伊凡是不一樣的,所以克里斯·伊凡可以採取的招數,你不一定能夠採取,你可能要打一個折扣。

link |

34:38.060

這個就是off-policy的精神,你的actor to trend要知道actor to interact跟他是不一樣的。所以actor to interact示範的那些經驗,有些可以採納,有些不一定可以採納。至於細節怎麼做,過去的上課錄影留在這邊給大家參考。

link |

35:01.320

還有另外一個很重要的概念,叫做exploration。exploration指的是什麼呢?我們剛才有講過說,我們今天的這個actor,他在採取行為的時候,他是有一些隨機性的。

link |

35:20.780

而這個隨機性其實非常重要,很多時候你隨機性不夠,你會trend不起來。為什麼呢?舉一個最簡單的例子,假設你一開始初始的actor,他永遠都只會向右移動,他從來都不會知道要開火。

link |

35:41.160

如果他從來沒有採取開火這個行為,你就永遠不知道開火這件事情到底是好還是不好。唯有今天某一個actor去試圖做開火這件事得到reward,你才有辦法去評估這個行為好或不好。

link |

35:57.960

假設有一些action從來沒被執行過,那你根本就無從知道這個action好或不好。所以你今天在訓練的過程中,這個拿去跟環境互動的actor,他本身的隨機性是非常重要的。

link |

36:13.480

你其實會期待說,跟環境互動的這個actor,他的隨機性可以大一點,這樣我們才能夠收集到比較多的、比較豐富的資料,才不會有一些狀況他的reward是從來不知道的。

link |

36:27.180

那為了要讓這個actor的隨機性大一點,甚至你在training的時候,你會刻意加大他的隨機性。比如說actor的output不是一個distribution嗎,有人會刻意加大這個distribution的entropy,讓他在訓練的時候比較容易sample到那些機率比較低的行為。

link |

36:46.560

或者是有人會直接在這個actor他的參數上面加noise,直接在actor參數上面加noise,讓他每一次採取的行為都不一樣。

link |

36:57.300

好,那這個就是exploration。那exploration其實也是RL training的過程中一個非常重要的技巧。如果你在訓練的過程中,你沒有讓network盡量去試不同的action,你很有可能也會train不出好的結果。

link |

37:12.020

好,那我們來看一下,其實這個PPO這個方法,DeepMind跟OpenAI都同時提出了PPO的想法。那我們來看一下DeepMind的PPO的demo的影片,它看起來是這樣子的。

link |

37:42.020

好,那我們來看一下DeepMind的PPO的demo的影片,它看起來是這樣子的。

link |

38:12.020

好,那我們來看一下DeepMind的PPO的demo的影片,它看起來是這樣子的。

link |

38:42.020

好,那我們來看一下DeepMind的PPO的demo的影片,它看起來是這樣子的。

link |

39:12.020

好,那這個是DeepMind的PPO,那就是可以用PPO這個方法,用這個reinforcement learning的方法,去learn什麼蜘蛛型的機器人或人型的機器人做一些動作,比如說跑起來或者是蹦跳或者是跨過圍牆等等。

link |

39:35.020

好,那接下來是OpenAI的PPO,它這個影片就沒有剛才那個槽,它沒有那個配音,不過我幫它配個音好了。

link |

39:45.020

這個影片我叫它修機器學習的你,我修了一門課叫做機器學習,但在這門課裡面有非常多的障礙,我一直遇到挫折。

link |

39:59.020

那個紅色的球是baseline,這個baseline一個接一個永遠都不會停止。

link |

40:07.020

然後呢,我train一個network很久啊,我colab就掉線了,train了三個小時,model不見了,但我仍然是爬起來繼續的向前。

link |

40:18.020

我想開一個比較大的模型,看看可不可以train得比較好一點,但是結果發生什麼事情呢?out of memory啊,那個圈圈一直在轉啊,它就是不跑啊,怎麼辦啊,怎麼辦啊,但我還是爬起來繼續向前。

link |

40:35.020

結果private set跟public set的結果不一樣啊,真的是讓人覺得非常的生氣。

link |

40:55.020

那講到這邊呢,正好告一個段落,那其他部分呢,我們就只好下週再講啦。那其實呢,到目前為止講的東西,其實做作業也算是蠻足夠的。

link |

41:08.020

好,那今天就感謝大家線上收聽,那正好也已經快到六點了。

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) – Policy Gradient 與修課心情