Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

但你可能會問說,這個訓練資料哪來的?這個我們等一下再講,訓練資料哪來的。所以你就收集一大堆的資料,這個跟train一個image classifier很像的,這個s你就想成是image,這個a hat你就想成是label,只是現在有的行為是想要被採取的,有的行為是不想要被採取的,你就收集一堆這種資料。

link |

41:35.000

你就可以去定義一個loss function,有了這個loss function以後,你就可以去訓練你的actor,去minimize這個loss function,就結束了,你就可以訓練一個actor,期待他執行我們的行為,期待他執行的行為是我們想要的。

link |

41:53.000

而你甚至還可以更進一步,你可以說每一個行為並不是只有好或不好,並不是有想要執行跟不想要執行而已,它是有程度的差別的,有執行了非常好的,有nice to have的,有有點不好的,有非常差的。

link |

42:13.000

所以剛才我們是說每一個行為就是要執行、不要執行,這是一個binary的問題,我們就用正負1來表示。

link |

42:23.000

但是現在我們改成每一個s跟a的pair,它有對應的一個分數,這個分數代表說我們多希望機器在看到s1的時候執行a1 hat這個行為。

link |

42:40.000

比如說這邊第一筆資料跟第三筆資料,我們分別是定正1.5跟正0.5,就代表說我們期待機器看到s1的時候它可以做a1 hat,看到s3的時候它可以做a3 hat,但是我們期待它看到s1的時候做a1 hat的期待更強烈一點,比看到s3做a3 hat的期待更強烈一點。

link |

43:06.000

那我們希望它在看到s2的時候不要做a2 hat,我們期待它看到sn的時候不要做a1 hat,而且我們非常不希望它在看到sn的時候做a1 hat。

link |

43:20.000

有了這些資訊,你一樣可以定義一個loss function,你只是在原來的cross entropy前面,本來cross entropy前面要嘛是正1要嘛是負1,現在改成乘上a1這一項。

link |

43:40.000

告訴它說,有一些行為我們非常期待actor去執行,有一些行為我們非常不期待actor去執行,有一些行為如果執行的是比較好的,有一些行為希望盡量不要執行比較好,但就算執行了也許傷害也沒有那麼大。

link |

43:57.000

所以我們透過這個an來控制說每一個行為我們多希望actor去執行,然後接下來有了這個loss以後,一樣train一個theta,train下去,你就找到一個theta star,你就有一個actor,它的行為是符合我們期待的。

link |

44:12.000

接下來的難點就是,要怎麼定出這一個a呢?這個就是我們接下來的難點,就是我們接下來要面對的問題。

link |

44:24.000

我們還有另外一個要面對的問題是,怎麼產生這個s跟a的pair呢?怎麼知道在s1的時候要執行a1,或在s2的時候不要執行a2呢?這個也是等一下我們要處理的問題。

link |

44:54.000

25分的時候再回來。

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟