Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

這個論文是假設它不是已經發表文章,然後學生來跟我提這個想法,我一定不會讓它走,我覺得這不可能會work的,這是一個不可能會實踐的想法,不可能會成功的。這個想法感覺有一個巨大的瑕疵,但不知道為什麼它是work的,而且還曾經一度得到state of the art的結果。Deep learning就是這麼神奇。

link |

13:15.000

在語音的部分,你也完全可以使用Self-supervised learning的概念,你完全可以試著訓練語音版的Bird。

link |

13:29.000

那怎麼訓練語音版的Bird呢?你就看看文字版的Bird是怎麼訓練的,比如說做填空題,語音也可以做填空題。

link |

13:38.000

語音也可以預測接下來會出現的內容,像GPT就是預測接下來要出現的token,那語音你也可以叫模型預測接下來會出現的聲音訊號,所以你也可以做語音版的GPT。

link |

13:55.000

不管是語音版的Bird,語音版的GPT,其實都已經有很多相關的研究成果了。不過其實在語音上,相較於文字處理的領域,還是有一些比較缺乏的東西。

link |

14:09.000

我認為現在很缺乏的一個東西,就是像Groove這樣的Benchmark corpus。在自然語言處理的領域,在文字上有Groove這個Corpus。我們在這一門課的剛開頭,這個投影片的剛開頭就告訴你說,有一個基準的資料庫叫做Groove,它裡面有九個NLT的任務。

link |

14:31.000

今天你要知道Bird做得好不好,就讓它去跑那九個任務,再去平均,那代表這個Self-supervised learning模型的好壞。但在語音上,到目前為止,還沒有類似的基準的資料庫。

link |

14:46.000

所以我們實驗室就跟其他的研究團隊共同開發了一個語音版的Groove,我們叫做Superb。它是Speech Processing Universal Performance Benchmark的縮寫。你知道今天你做什麼模型都一定要硬湊梗才行,所以這邊也是要硬湊一個梗,把它叫做Superb。

link |

15:07.000

其實我們已經準備得差不多了,網站都已經做好了,等其他團隊的人看過以後就可以上線了。現在雖然還沒有上線,但是再過一陣子你應該就可以找到相關的連結。

link |

15:21.000

在這個基準語料庫裡面包含了十個不同的任務,語音其實有非常多不同的面向。很多人講到語音相關的技術,都只知道語音辨識,把聲音轉成文字。但這並不是語音技術的全貌,語音其實包含了非常豐富的資訊。

link |

15:41.000

它除了有內容的資訊,就是你說了什麼,還有其他的資訊,舉例來說,這句話是誰說的?這個人說這句話的時候,他的語氣是什麼樣?還有這句話背後,他到底有什麼樣的語意?

link |

15:56.000

所以我們準備了十個不同的任務,這個任務包含了語音不同的面向,包括去檢測一個模型,它能夠識別內容的能力,識別誰在說話的能力,識別它是怎麼說的能力,甚至是識別這句話背後語意的能力。

link |

16:13.000

從全方位來檢測一個Self-supervised learning的模型,它在理解人類語言上的能力。而且我們還有一個Toolkit,這個Toolkit裡面就包含了各式各樣的Self-supervised learning的模型,還有這些Self-supervised learning的模型,它可以做的各式各樣語音的下游的任務,我把連結放在這邊給大家參考。

link |

16:38.000

講這些,只想告訴大家說,Self-supervised learning的技術不是只能被用在文字上,在影像上、在語音上,都仍然有非常大的空間可以使用Self-supervised learning的技術。

link |

16:54.000

Self-supervised learning的部分,這個Berg和GVT,我們就講到這邊。

【機器學習2021】自督導式學習 (Self-supervised Learning) (四) – GPT的野望