Hung-yi Lee's Lectures(台大李宏毅老師系列課程)

還有一個神奇的做法是用語音合成的技術,就是你收集到一大堆人講的句子,你也知道他們講的句子的內容是什麼,然後你就用Google小姐把這些句子統統都念一遍,然後你就可以訓練一個sequence to sequence的模型,把所有人的聲音都轉成Google小姐的聲音。Google確實有一篇paper做了類似的事情。

link |

20:30.380

也許在實際上更實用的是直接用unparalleled data來進行訓練。我們每一個語者都有一些聲音,但他們念的句子不見得是一樣的,甚至他們說的語言都不是一樣的。

link |

20:48.940

在這種狀況下,我們有沒有辦法讓機器學會把某個人的聲音轉成另外一個人的聲音呢?其實是有可能的。

link |

20:58.020

我們知道在影像上,今天有很多很多的研究是在做image style transfer,就是怎麼把一張圖片的風格轉成另外一張圖片的風格,而把一個人的聲音轉成另外一個人的聲音,或把一種emotion轉成另外一種emotion。

link |

21:16.800

這樣子的任務,像這樣voice conversion的任務,其實很像是一種audio style transfer。image style transfer已經研究得滿坑滿谷了,你可以從image style transfer那邊借一些技術來用在audio style transfer上面。

link |

21:33.540

所以你會發現說,在unparalleled data的voice conversion裡面的這些技術,其實你都在image style transfer上面曾經看過,只是我們做語音的人從image style transfer那邊借一些來用在audio style transfer上面。

link |

21:47.380

它有兩個可能的方向,一個是feature disentangle,另外一個是直接轉換。feature disentangle是什麼意思呢?

link |

21:56.860

聲音訊號裡面包含了很多不同面向的資訊,一個聲音訊號裡面,它可能有包含了內容的資訊,也就是文字的資訊,它可能有包含了語者的資訊,它可能有包含了背景的雜訊等等,它包含了很多很多的資訊。

link |

22:17.440

feature disentangle的想法是說,我們能不能夠把這些混在一起的資訊把它分離開來,舉例來說,我們有沒有可能把一段聲音訊號裡面的文字的資訊跟語者的資訊把它分離開來,接下來我們只要把語者的資訊替換掉,我們就可以做到voice conversion這件事。

link |

22:38.060

像這樣的技術,不是只能夠用在語者上,如果你有辦法把,比如說accent,把口音的資訊提取出來,把口音的feature替換掉,那你就可以做到accent的轉換。

link |

22:52.560

如果你可以把情緒的部分提取出來,把情緒的部分替換掉,你就可以做到情緒的轉換。看你想轉什麼,你就要把什麼樣的資訊把它解離出來,把它disentangle出來。

link |

23:05.800

以下在講這個技術的時候,我們都用語者來給大家當作例子,不過同樣的技術是可以用在其他種類的voice conversion上的,不見得只侷限於speaker的conversion,不見得只侷限於語者的轉換。

link |

23:23.380

feature disentangle要怎麼使用它呢?我們這邊以語者的轉換為例,我們假設說我們可以訓練出一個content的encoder,給它一段聲音訊號,它會把這段聲音訊號裡面只跟文字內容有關的部分把它提取出來。

link |

23:44.120

我們有一個speaker的encoder,給它一句話,它無視這個內容的資訊,它只把這句話跟語者特徵有關的部分把它提取出來。

link |

23:56.360

接下來,我們會需要一個decoder,這個decoder做的事情是,你給它content encoder的輸出,給它內容的資訊,你給它speaker encoder的輸出,給它語者的資訊。根據這句話的內容,根據這個語者的資訊,它會用這個語者的聲音訊號,它會用這個語者的特徵念出這段話的內容,這個是decoder做的事情。

link |

24:21.460

如果你可以訓練出這樣子的encoder,這樣子的encoder,跟這樣子的decoder,接下來你只要把這個speaker encoder的輸入換掉,換成別的句子,換成別的語者的句子,你就可以做到voice conversion。

link |

24:36.940

舉例來說,你給speaker encoder這邊聽星源結衣的聲音,它就提取出星源結衣這個語者的特徵,你把這個星源結衣的語者特徵丟給decoder,decoder就可以用星源結衣的聲音念出content encoder output的這句話的內容,這個是feature disentangle的基本概念。

link |

24:59.420

可是我們要怎麼訓練出這樣子的encoder跟這樣子的decoder呢?這邊使用的方式、這邊使用的技術,它的本質上非常像是autoencoder,但是它必須要比autoencoder再多使用一些其他的方法,才能夠讓content encoder跟speaker encoder引口不一樣的東西。

link |

25:21.440

這樣feature disentangle的做法,它最基本的做法是說,我們收集了一大堆的聲音訊號,接下來我們認一個autoencoder,decoder的部分就跟autoencoder一樣,但是encoder的部分我們會有好幾個。

link |

25:37.940

那我們期待這些encoder可以引口到不同的資訊,content encoder就只抽content的資訊,speaker encoder就只抽speaker的資訊,把content encoder的資訊跟speaker encoder的資訊丟給decoder以後,decoder就合出聲音訊號,而我們希望輸入跟輸出。

link |

25:54.140

在訓練的時候,我們就希望輸入跟輸出的聲音越接近越好。訓練的時候,像是一個autoencoder,但不一樣的地方是,我們encoder有好幾個,而我們希望不同的encoder就去處理不同的資訊。

link |

26:10.020

但是問題是,我們怎麽讓其中一個encoder只抽content的資訊,另外一個encoder只抽speaker的資訊呢?如果只是像一般的autoencoder一樣,end-to-end thread,輸入一段聲音訊號,中間輸出什麽也不管它,然後把中間輸出的latent representation轉回原來的聲音訊號,那沒有什麽理由content encoder跟speaker encoder要照你想象的一個引口content、一個引口speaker。

link |

26:35.980

所以怎麽辦呢?你需要加一些額外的東西。你需要加什麽樣額外的東西呢?那這邊就有一系列不同的做法。

link |

26:49.160

在這系列的做法裏面,最早開始做的,就我所知,應該是中研院的王興明老師跟他的學生黃信德做的成果。他們的做法是什麽樣呢?他們的做法是說,我們也不要認什麽speaker encoder了。

link |

27:06.540

我們假設我們今天在訓練的時候,我們訓練資料裏面每一句話是誰說的,這件事我們是知道的,我們知道說這句話是語者A說的,另外一句話是語者B說的。

link |

27:19.920

那我們就不要認speaker encoder了,我們直接說,每一個speaker就是由一個one-half vector來表示。如果今天是speakerA,它對應的speaker的code就叫做E0,如果是speakerB就是0E。

link |

27:39.380

所以對decoder來說,它就是把這個speaker encoder的資訊,但其實你也沒有speaker encoder,你也不用認speaker encoder,這個network完全不需要,它就把這個speaker的資訊,把這個one-half vector直接讀進去,然後再讀content encoder的output,然後就合成出聲音訊號。

link |

27:57.860

在訓練的時候,就像是一個auto encoder一樣,輸入一段聲音訊號,然後要輸出一模一樣的聲音訊號。但是對decoder來說,因為它已經知道了語者的聲音訊號,它已經知道說這個語者是誰,也許對content encoder來說,它就不需要encode語者的聲音訊號。

link |

28:19.000

對decoder來說,它已經知道這個語者是誰,所以content encoder就不需要提供語者的聲音訊號,希望藉由這樣的方法,content encoder就會無視語者的資訊,它只把content相關的部分抽出來。

link |

28:32.180

當然,你可能會去問說,直接使用這樣子的方法做訓練,也許也會有一些語者的資訊藏在content encoder的輸出裡面,也許沒有辦法保證content encoder可以完全把speaker的資訊濾掉,只保留content的資訊。

link |

28:49.180

確實,在這樣子的整個模型架構裡面並沒有這樣的保證,但是如果你可以好好的調整你的模型,比如說feature的dimension的寬度的話,其實這樣一個跟後來的方法比較起來相對簡單的做法,其實也是會給你很不錯的結果的。

link |

29:05.900

但是像這樣子,不train speaker的encoder,每一個speaker就只用一個vector來表示它的方法,會有什麼樣的問題呢?它的一個侷限就是,你沒有辦法合出新的speaker的聲音。

link |

29:22.560

假如今天你要合成出來的speaker,你要把A的聲音轉成比如說Z的聲音,而Z的聲音在你的訓練資料裡面一次都沒有出現過,你的訓練資料裡面根本就沒有Z的聲音,那你就不知道要給decoder什麼樣的code,你就沒有辦法合出Z的聲音。

link |

29:40.260

所以用這種one-half-vector的方法的時候,你有幾個speaker,你這邊就要開一個幾維的向量。假設你的訓練資料裡面有十個speaker,那你就是開一個十維的向量,每一個speaker用一個one-half-vector來表示。

link |

29:52.860

如果有第十一個speaker進來,那你必須要重訓整個模型。如果第十一個speaker聲音需要在訓練的時候是從來沒有聽過的,那你就沒有辦法合第十一個speaker的聲音,這是這個方法的侷限。

link |

30:06.220

那怎麼辦呢?還有一些其他的做法。舉例來說,你的speaker encoder可以事先pre-train好,就有一些其他的方法可以得到這個encoder,這個encoder是吃一段聲音訊號就輸出一個向量,而這個向量就代表了語者的特徵。

link |

30:26.220

像這樣子代表語者特徵的向量,有一系列經典的做法,包括i-vector、d-vector、x-vector等等。我們今天先不細講這些vector是什麼,之後我們講到語者驗證的時候,還會再提到這些vector。

link |

30:40.780

總之,你可以找到一些pre-trained的model,其實這些東西都是publicly available,網絡上download就有的。你可以在網絡上download到一些encoder,這些encoder就輸入一段聲音訊號,它輸出直接就是一個vector,這個vector就代表了這個語者說話的特徵。

link |

30:58.220

而這個speaker encoder到時候在train的時候,也許你就不train它,也許你就只稍稍微調它就好了,這樣你就可以確保這個speaker encoder輸出的會是語者的特徵。因為這個speaker encoder它可能也是一個network,如果你今天用d-vector或x-vector的話,那你的speaker encoder也是一個network。

link |

31:17.300

就算是你給這個speaker encoder聽它從來沒有聽過的人的聲音,它也有機會抽出一個向量,這個向量正好就代表了這個新的語者的聲音的特徵。

link |

31:28.580

這個是speaker encoder的部分,那content encoder的部分,我們有沒有辦法確保這個content encoder它抽出來的資訊就是只跟文字有關、只跟語音的內容有關呢?這個也是有可能的。

link |

31:46.020

一個常見的做法是直接把一個語音辨識系統塞在content encoder這個地方,你把一個語音辨識系統當作你的content encoder來用。

link |

31:57.300

如果你把你的一個一個語音辨識系統塞在這個地方,我們這個語音辨識系統做的事情就是給它一段聲音,把跟文字無關的地方就拿掉,只輸出文字。

link |

32:07.400

所以如果你的content encoder就是一個語音辨識的系統,那你就可以確保這個content encoder它引扣的資訊只有文字。

link |

32:16.300

不過如果你要讓這個content encoder跟這個decoder可以joint地一起訓練的話,那你的content encoder可能不能是一個一般的語音辨識系統,因為一般的語音辨識系統輸出是文字啊,那如果這邊輸出是文字,那你沒有辦法丟掉decoder,然後最後又做end-to-end的訓練。

link |

32:35.100

所以一個常見的做法是說,記不記得我們在講HMM的時候,我們說HMM也可以加deep learning,怎麼加deep learning,你train一個deep的network,這個network吃一個acoustic feature,接下來它就predict說這個acoustic feature屬於每一個state的機率。

link |

32:54.260

所以你其實可以把這個DNN直接就搬過來當作你的content encoder,這個content encoder輸出就是每一個state的機率,你把每一個state的機率就當作content encoder的輸出放在這個地方,那這個每一個state的機率會把語者的特性去掉,只保留文字相關的資訊,然後再丟給decoder。

link |

33:17.620

所以如果你用這種pre-train的方法,你可以pre-traincontent encoder,你可以pre-trainspeaker encoder,最後可能再end-to-end的微調一下,那其實你就會得到非常不錯的結果。

link |

33:28.820

今天如果你想要做一個商用的系統的話,也許這一頁投影片用的技術,裡面的技術會是你比較想要優先嘗試的。

link |

33:38.700

那當然還有一些其他的想法,舉例來說,你可以加上end來讓你的content encoder不要encode speaker的資訊,你可以train一個discriminator,這個discriminator它的工作就是一個speaker的classifier,也就是給它一個content encoder輸出的向量,它去判斷說這個向量是來自於哪一個語者。

link |

34:05.340

而你的content encoder要做的事情就是想辦法去騙過你的discriminator,也就是你的speaker classifier,而你的speaker classifier跟content encoder它們是交替訓練的,就跟一般的game的訓練是一樣的,你的speaker classifier跟content encoder是交替訓練的。

link |

34:24.140

然後希望說如果content encoder可以成功地騙過speaker classifier,代表說content encoder輸的這個向量裡面沒有任何語者的資訊,代表content encoder輸出沒有任何語者的資訊,所以它可以騙過你的discriminator,也就是speaker classifier,它可以把所有語者的資訊去掉,只保留文字的資訊。

link |

34:45.900

這個是adversarial training的部分。接下來我們要講的方法是,你其實有可能透過設計network的架構,讓它做你想做的事,讓它encode你想encode的東西,你可以透過設計network的架構,讓content encoder去encodecontent的資訊,讓speaker encoder去encodespeaker的資訊。

link |

35:13.420

透過給content encoder跟speaker encoder不同的network架構,讓其中一個會去encodecontent的資訊,讓另外一個學到encodespeaker的資訊。

link |

35:23.420

這件事情要怎麼做到呢?這邊就舉一個例子,以下所講的技術,其實在image的style transfer上面已經有人用過了,我們這邊只是把image style transfer那邊有人驗證過的技術拿來用在語音上,看看是不是也可以讓machine在語音上學到featured disentangle。

link |

35:48.620

那怎麼讓content encoder去encodecontent的資訊呢?這邊加了一個instant normalization,那在content encoder裡面加一個instant normalization的好處是什麼呢?這個instant normalization可以幫助我們去掉speaker的資訊,那instant normalization怎麼去掉speaker的資訊呢?我們先來看一下instant normalization做的事情是什麼。

link |

36:14.220

那你這邊的encoder,它的架構就像是LAS裡面的encoder,就像是sequence-to-sequence model裡面的encoder,裡面可能就是很多層的CNN,那CNN加上instant normalization是怎麼運作的呢?

link |

36:33.900

首先input是聲音訊號,然後你會用1D的convolution去掃過這個聲音訊號得到一排數值,那這是第一個filter得到的一排數值,那你會有另外一個filter也得到一排數值,通過一組filter以後,每一小塊聲音訊號都會變成一個vector,所以聲音訊號通過一個1D convolutional的layer以後,你會得到一個vector sequence。

link |

37:03.420

那instant normalization就作用在這個vector sequence上面,instant normalization做的事情是什麼呢?它會對這些vector的同一個dimension做normalization,它會計算出這些vector同一個dimension的mean跟variance,然後把這個dimension的mean減掉,把variance除掉。

link |

37:25.820

那所以通過instant normalization以後,這些vector的同一個dimension,它的mean都會是0,它的variance都會是1,那像這樣子的normalization的方式,我們以前也常常apply在你的model的input feature上,只是現在不是apply在input feature上,現在是apply在,現在是把這個normalization用在你的encoder的hidden layer上面。

link |

37:51.660

那為什麼這樣子的normalization有機會把speaker的特性去掉呢?因為你可以想像說,我們在CNN裡面,在1D convolutional裡面,每一個filter其實就是抓聲音訊號的某一種pattern,所以這邊每一個row都代表說聲音訊號裡面某一種特徵有沒有出現。

link |

38:21.580

那如果我們想得簡單一點,也許有一些filter它就是抓高頻的資訊,也許有一些filter它就是抓比較低頻的資訊。如果男生的聲音訊來,那低頻的filter它的輸出會比較大,高頻的filter輸出比較小。女生的聲音訊來,那高頻的filter輸出的值比較大,低頻的filter輸出的值比較少。

link |

38:45.420

但是我們透過這個normalization的方法,讓所有的filter它的mean都是0,variance是1,那就等於是把這個語者的特徵去掉了。

link |

38:56.460

假設我們知道說,每一個filter就是抓某一種聲音的特徵,那如果聲音訊號裡面有某一種特徵,那某一個filter輸出的值就會特別大。但透過這個normalization,讓所有的filter它們的輸出mean都是0,variance都是1,那就沒有filter的值是特別大,那你就把聲音裡面的特徵把它去掉了。

link |

39:17.740

所以,用這個incentivization可以去掉speaker的資訊。接下來,我們怎麼讓這個speaker encoder去encode speaker的資訊呢?

link |

39:31.500

我們希望當我們把speaker encoder的輸出丟給decoder當作輸入的時候,這個speaker encoder對decoder的影響會影響在speaker的層面上。

link |

39:47.940

我們透過一個叫做adaptive incentivization的方法,把speaker encoder的輸出加到decoder裡面。我們期待這個adaptive incentivization會讓這個speaker encoder的輸出只會影響decoder輸出的時候跟語者有關的資訊,而不會影響content的資訊。

link |

40:10.500

等一下會解釋這個adaptive incentivization是什麼。其實,把這些embedding加到decoder裡面的方式有百百種,每篇論文寫的都不太一樣,那我今天也還沒有辦法告訴你說,怎麼樣把這種encoder輸出的東西接到decoder裡面是最好的。

link |

40:30.700

所以,我們在作業裡面會有一題問你說,你現在用的模型,它是用什麼方法把encoder的輸出加到decoder裡面去的?你可以自己多讀論文,看看有什麼樣的方式。

link |

40:42.160

我們來看一下adaptive incentivization是怎麼運作的。在decoder裡面,也有incentivization。在decoder裡面,我們也會對這個CNN輸出的每一個row做normalization去掉語者的資訊。

link |

40:59.620

那去掉語者的資訊以後,decoder怎麼輸出有某一個語者的資訊呢?這要從encoder那邊過來。