国产爱久久久精品_看**视频一一级毛片_91啪国自产中文字幕在线_国内精品伊人久久久久妇

網(wǎng)絡(luò)消費(fèi)網(wǎng) >  5G > > 正文
2019深度學(xué)習(xí)語音合成指南
時間:2022-01-30 10:22:01

雷鋒網(wǎng)AI科技評論編者按:人工合成人類語音被稱為語音合成。這種基于機(jī)器學(xué)習(xí)的技術(shù)適用于文本轉(zhuǎn)換語音(text-to-speech)、音樂生成、語音生成、語音支持設(shè)備、導(dǎo)航系統(tǒng)以及為視障人士提供無障礙服務(wù)。

在這篇文章中,我們將研究基于深度學(xué)習(xí)而進(jìn)行的研究或模型框架。

在我們正式開始之前,我們需要簡要概述一些特定的、傳統(tǒng)的語音合成策略:拼接和參數(shù)化。

拼接方法,需要使用大型數(shù)據(jù)庫中的語音來拼接生成新的可聽語音。在需要不同語音風(fēng)格的情況下,必須使用新的音頻數(shù)據(jù)庫,這極大的限制了這種方法的可擴(kuò)展性。

參數(shù)化方法則是用一條記錄下的人的聲音以及一個含參函數(shù),通過調(diào)節(jié)函數(shù)參數(shù)來改變語音。

這兩種方法代表了傳統(tǒng)的語音合成方法。現(xiàn)在讓我們來看看使用深度學(xué)習(xí)的新方法。為了探索當(dāng)前流行的語音合成方法,我們研究了這些:

●WaveNet: 原始音頻生成模型

●Tacotron:端到端的語音合成

●Deep Voice 1:實(shí)時神經(jīng)文本語音轉(zhuǎn)換

●Deep Voice 2:多說話人神經(jīng)文本語音轉(zhuǎn)換

●Deep Voice 3:帶有卷積序列學(xué)習(xí)的尺度文本語音轉(zhuǎn)換

●Parallel WaveNet:快速高保真語音合成

●利用小樣本的神經(jīng)網(wǎng)絡(luò)語音克隆

●VoiceLoop:通過語音循環(huán)進(jìn)行語音擬合與合成

●利用梅爾圖譜預(yù)測上的條件WaveNet進(jìn)行自然TTS合成

WaveNet:原始音頻生成模型

這篇文章的作者來自谷歌。他們提出了一種能產(chǎn)生原始音頻波的神經(jīng)網(wǎng)絡(luò)。他們的模型是完全概率的和自回歸的,在英語和漢語的text-to-speech上都取得了最先進(jìn)的結(jié)果。

文章鏈接: https://arxiv.org/abs/1609.03499

圖1

WaveNET是基于PixelCNN的音頻生成模型,它能夠產(chǎn)生類似于人類發(fā)出的聲音。

圖2

在這個生成模型中,每個音頻樣本都以先前的音頻樣本為條件。條件概率用一組卷積層來建模。這個網(wǎng)絡(luò)沒有池化層,模型的輸出與輸入具有相同的時間維數(shù)。

圖3

在模型架構(gòu)中使用臨時卷積可以確保模型不會違反數(shù)據(jù)建模的順序。在該模型中,每個預(yù)測語音樣本被反饋到網(wǎng)絡(luò)上用來幫助預(yù)測下一個語音樣本。由于臨時卷積沒有周期性連接,因此它們比RNN訓(xùn)練地更快。

使用臨時卷積的主要挑戰(zhàn)之一是,它們需要很多層來增加感受野。為了解決這一難題,作者使用了加寬的卷積。加寬的卷積使只有幾層的網(wǎng)絡(luò)能有更大的感受野。模型使用了Softmax分布對各個音頻樣本的條件分布建模。

圖4

這個模型在多人情景的語音生成、文本到語音的轉(zhuǎn)換、音樂音頻建模等方面進(jìn)行了評估。測試中使用的是平均意見評分(MOS),MOS可以評測聲音的質(zhì)量,本質(zhì)上就是一個人對聲音質(zhì)量的評價一樣。它有1到5之間的數(shù)字,其中5表示質(zhì)量最好。

圖5

下圖顯示了1-5級waveNet的語音質(zhì)量:

圖6

Tacotron:端到端的語音合成

這篇文章的作者來自谷歌。 Tacotron是一種端到端的生成性文本轉(zhuǎn)化語音的模型,可直接從文本和音頻對合形成語音。Tacotron在美式英語上獲得3.82分的平均得分。Tacotron是在幀級生成語音,因此比樣本級自回歸的方法更快。

文章鏈接:https://arxiv.org/abs/1703.10135

這個模型是在音頻和文本對上進(jìn)行的訓(xùn)練,因此它可以非常方便地應(yīng)用到新的數(shù)據(jù)集上。Tacotron是一個seq2seq模型,該模型包括一個編碼器、一個基于注意力的解碼器以及一個后端處理網(wǎng)絡(luò)(post-processing net)。如下框架圖所示,該模型輸入字符,輸出原始譜圖。然后把這個譜圖轉(zhuǎn)換成波形圖。

圖7

下圖顯示了CBHG模塊的結(jié)構(gòu)。它由1-D卷積濾波器,highway networks和雙向GRU(Gated Recurrent Unit)組成。

圖8

將字符序列輸入編碼器,編碼器將提取出文本的順序表示。每個字符被表示為一個獨(dú)熱向量嵌入到連續(xù)向量中。然后加入非線性變換,再然后加上一個dropout,以減少過度擬合。這在本質(zhì)上減少了單詞的發(fā)音錯誤。

模型所用的解碼器是基于內(nèi)容注意力的tanh解碼器。然后使用Griffin-Lim算法生成波形圖。該模型使用的超參數(shù)如下所示。

圖9

下圖顯示了與其他替代方案相比,Tacotron的性能優(yōu)勢。

圖10

Deep Voice 1:實(shí)時神經(jīng)文本到語音合成

這篇文章的作者來自百度硅谷人工智能實(shí)驗室。Deep Voice是一個利用深度神經(jīng)網(wǎng)絡(luò)開發(fā)的文本到語音的系統(tǒng).

文章鏈接:https://arxiv.org/abs/1702.07825

它有五個重要的組成模塊:

●定位音素邊界的分割模型(基于使用連接時間分類(CTC)損失函數(shù)的深度神經(jīng)網(wǎng)絡(luò));

●字母到音素的轉(zhuǎn)換模型(字素到音素是在一定規(guī)則下產(chǎn)生單詞發(fā)音的過程);

●音素持續(xù)時間預(yù)測模型;

●基頻預(yù)測模型;

●音頻合成模型(一個具有更少參數(shù)的WaveNet變體)。

圖11

字母到音素模型將英文字符轉(zhuǎn)換為音素。分割模型識別每個音素在音頻文件中開始和結(jié)束的位置。音素持續(xù)時間模型預(yù)測音素序列中每個音素的持續(xù)時間。

基頻模型預(yù)測音素是否發(fā)聲。音頻合成模型則綜合了字母到音素轉(zhuǎn)換模型、音素持續(xù)時間模型、基頻預(yù)測模型等的輸出進(jìn)行音頻合成。

以下是它與其他模型的對比情況:

圖12

Deep Voice 2:多說話人神經(jīng)文本語音轉(zhuǎn)換

這篇文章是百度硅谷人工智能實(shí)驗室在Deep Voice上的二次迭代。他們介紹了一種利用低維可訓(xùn)練說話人嵌入來增強(qiáng)神經(jīng)文本到語音的方法,這可以從單個模型產(chǎn)生不同的聲音。

該模型與DeepVoice 1有類似的流水線,但它在音頻質(zhì)量上卻有顯著的提高。該模型能夠從每個說話人不到半個小時的語音數(shù)據(jù)中學(xué)習(xí)數(shù)百種獨(dú)特的聲音。

文章鏈接:https://arxiv.org/abs/1705.08947

作者還介紹了一種基于WaveNet的聲譜到音頻的神經(jīng)聲碼器,并將其與Taco tron結(jié)合,代替Griffin-Lim音頻生成。這篇文章的重點(diǎn)是處理多個說話人而每個說話人的數(shù)據(jù)有非常少的情況。模型的架構(gòu)類似于Deep Voice 1,訓(xùn)練過程如下圖所示。

圖13

Deep Voice 2和Deep Voice 1之間的主要區(qū)別在于音素持續(xù)時間模型和頻率模型的分離。 Deep Voice 1有一個用于聯(lián)合預(yù)測音素持續(xù)時間和頻率曲線的單一模型; 而在Deep Voice 2中,則先預(yù)測音素持續(xù)時間,然后將它們用作頻率模型的輸入。

Deep Voice 2中的分割模型使用一種卷積遞歸結(jié)構(gòu)(采用連接時間分類(CTC)損失函數(shù))對音素對進(jìn)行分類。Deep Voice 2的主要修改是在卷積層中添加了大量的歸一化和殘余連接。它的發(fā)聲模型是基于WaveNet架構(gòu)的。

從多個說話人合成語音,主要通過用每個說話人的單個低維級說話人嵌入向量增強(qiáng)每個模型來完成的。說話人之間的權(quán)重分配,則是通過將與說話人相關(guān)的參數(shù)存儲在非常低維的矢量中來實(shí)現(xiàn)。

遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的初始狀態(tài)由說話人聲音的嵌入產(chǎn)生。采用均勻分布的方法隨機(jī)初始化說話人聲音的嵌入,并用反向傳播對其進(jìn)行聯(lián)合訓(xùn)練。說話人聲音的嵌入包含在模型的多個部分中,以確保能考慮到每個說話人的聲音特點(diǎn)。

圖14

接下來讓我們看看與其他模型相比它的性能如何:

圖15

Deep Voice 3:利用卷積序列學(xué)習(xí)將文本轉(zhuǎn)換為語音

文章鏈接:https://arxiv.org/abs/1710.07654

這篇文章的作者提出了一種全卷積字符到譜圖的框架,可以實(shí)現(xiàn)完全并行計算。該框架是基于注意力的序列到序列模型。這個模型在LibriSpeech ASR數(shù)據(jù)集上進(jìn)行訓(xùn)練。

這個模型的結(jié)構(gòu)能夠?qū)⒆址⒁羲亍⒅匾舻任谋咎卣鬓D(zhuǎn)換成不同的聲碼器參數(shù),其中包括Mel波段光譜圖、線性比例對數(shù)幅度譜圖、基頻譜圖、譜包絡(luò)圖和非周期性參數(shù)。然后將這些聲碼器參數(shù)作為音頻波形合成模型的輸入。

圖16

模型的結(jié)構(gòu)由以下幾個部分組成:

●編碼器:一種全卷積編碼器,可將文本特征轉(zhuǎn)換為內(nèi)部學(xué)習(xí)表示。

●解碼器:一種全卷積因果解碼器,以自回歸的方式解碼學(xué)習(xí)表示。

●轉(zhuǎn)換器:一種全卷積后處理網(wǎng)絡(luò),可預(yù)測最終的聲碼器參數(shù)。

對于文本預(yù)處理,作者的處理方式包括:大寫文本輸入字符,刪除標(biāo)點(diǎn)符號,以句號或問號結(jié)束每句話,并用表示停頓長度的特殊字符替換空格。

下圖是該模型與其他替代模型的性能比較。

圖17

關(guān)鍵詞:

版權(quán)聲明:
    凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品,版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
    除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外,其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考并自行核實(shí)。
熱文

網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
 

Copyright © 2000-2020 www.fnsyft.com All Rights Reserved.
 

中國網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
 

聯(lián)系郵箱:920 891 263@qq.com

備案號:京ICP備2022016840號-15

營業(yè)執(zhí)照公示信息

国产爱久久久精品_看**视频一一级毛片_91啪国自产中文字幕在线_国内精品伊人久久久久妇

        中文天堂在线一区| 奇米精品一区二区三区在线观看| 美女视频免费一区| 久久久精品国产免大香伊| 亚洲va欧美va天堂v国产综合| 精品免费99久久| 亚洲综合精品久久| 成人短视频下载| 亚洲午夜精品网| 久久久久九九视频| 日韩av中文字幕一区二区三区| 91欧美一区二区| 欧美中文字幕一区| 国产精品夫妻自拍| 国产在线精品一区二区不卡了| 国产精品卡一卡二| 91精品国产综合久久久久久久久久| 亚洲另类在线一区| jizzjizzjizz欧美| 日本电影欧美片| 成人欧美一区二区三区在线播放| 国产美女av一区二区三区| 最新热久久免费视频| 日韩精品资源二区在线| 天堂成人国产精品一区| 国产欧美一区二区精品仙草咪| 欧美日韩免费不卡视频一区二区三区| 国产精品福利av | 亚洲午夜日本在线观看| 久久午夜国产精品| 精品一区二区三区的国产在线播放| 中文av字幕一区| 日韩欧美国产一区在线观看| 香蕉久久夜色精品国产使用方法 | 欧美日韩综合色| 亚洲欧洲综合另类| 91在线一区二区| 欧美三级电影网站| 香蕉加勒比综合久久| 国产精品视频第一区| 精品国产在天天线2019| 蜜乳av一区二区| 一区二区三区免费| 国产精品色一区二区三区| 国产成人精品网址| 91福利社在线观看| 一区二区不卡在线播放| 国产喷白浆一区二区三区| 日韩三级视频在线观看| 另类小说色综合网站| 一区二区三区四区乱视频| 欧美激情中文不卡| 成人av一区二区三区| 欧美日韩黄色一区二区| 视频在线观看91| 亚洲另类春色国产| 中文字幕日本不卡| 久久色在线视频| 日韩一区国产二区欧美三区| 麻豆免费看一区二区三区| 夜夜嗨av一区二区三区网页| 国产精品亲子伦对白| 91麻豆国产香蕉久久精品| 欧美一区二区三区四区久久 | 亚洲最大的成人av| 中文字幕电影一区| 欧美国产一区在线| 91视频一区二区三区| 欧美成人精品高清在线播放| 国产在线精品免费av| 欧美艳星brazzers| 蜜桃av噜噜一区| 一本到高清视频免费精品| 亚洲123区在线观看| 亚洲精品视频自拍| 亚洲欧美另类小说| 国产精品成人免费在线| 中文字幕一区二区三区在线播放| 国产亚洲一区二区三区在线观看| 久久久久久久久97黄色工厂| 成人精品一区二区三区四区| 91精品国产黑色紧身裤美女| 激情文学综合插| 欧美日韩一二三| 精品一区二区三区免费| 欧美三级视频在线| 国内成人免费视频| 欧美视频在线播放| 国产揄拍国内精品对白| 欧美日韩一区二区三区在线| 久久成人羞羞网站| 欧美日韩高清一区二区三区| 久久97超碰国产精品超碰| 欧美亚日韩国产aⅴ精品中极品| 蜜臀国产一区二区三区在线播放| 在线观看免费成人| 久久99热国产| 欧美日韩久久不卡| 国产成人啪免费观看软件| 日韩一区二区三区在线| k8久久久一区二区三区| 久久久国产精华| 久久久精品国产免费观看同学| 国产欧美精品一区二区三区四区 | 亚洲福利视频导航| 丝袜诱惑制服诱惑色一区在线观看| 香蕉加勒比综合久久| 美女性感视频久久| 欧美日韩精品二区第二页| 国产精品资源在线观看| 日韩美女主播在线视频一区二区三区| 99精品视频在线观看免费| 国产欧美久久久精品影院| 国产精品久久久爽爽爽麻豆色哟哟| 亚洲日本电影在线| 亚洲综合激情另类小说区| 日本午夜一区二区| 在线成人小视频| eeuss影院一区二区三区| 欧美激情自拍偷拍| 亚洲欧美日韩国产成人精品影院| 偷拍一区二区三区四区| 欧美亚洲禁片免费| 成人一区二区三区视频在线观看 | 欧美天堂亚洲电影院在线播放| 国产白丝精品91爽爽久久| 久久久久久亚洲综合| 中文字幕一区二区三区在线播放| 亚洲综合免费观看高清完整版在线| 午夜精彩视频在线观看不卡| 国产美女久久久久| 久久九九久久九九| 亚洲人成影院在线观看| 日欧美一区二区| 884aa四虎影成人精品一区| 91色porny蝌蚪| 亚洲三级在线观看| 婷婷中文字幕一区三区| 豆国产96在线|亚洲| 久久久精品tv| 亚洲色图在线看| 蜜桃av噜噜一区二区三区小说| 日韩一区二区三区在线| 亚洲国产精华液网站w | 在线一区二区三区做爰视频网站| 国产高清一区日本| 国产女同性恋一区二区| 亚洲综合丁香婷婷六月香| 国产在线精品一区二区三区不卡| 久久久久青草大香线综合精品| 亚洲美女一区二区三区| 黑人精品欧美一区二区蜜桃| 久久精品人人做人人综合 | 国产资源在线一区| 国产婷婷一区二区| 亚洲夂夂婷婷色拍ww47| 国产成人高清视频| 中文字幕亚洲电影| 91久久国产最好的精华液| 成人丝袜高跟foot| 亚洲免费观看在线观看| 欧美日本乱大交xxxxx| 国产欧美一区二区三区在线老狼| 三级成人在线视频| 久久先锋影音av| 亚洲国产成人av网| caoporm超碰国产精品| 亚洲一区中文在线| 日韩色视频在线观看| 亚洲另类在线制服丝袜| 懂色av一区二区三区蜜臀| 一区二区三区在线观看国产| 91精品国产综合久久香蕉的特点| 国产精品成人网| 国产福利一区在线观看| 亚洲乱码中文字幕| 91精品国产综合久久香蕉麻豆| 亚洲欧美综合在线精品| 国产精一品亚洲二区在线视频| 中文字幕一区二区三| 欧美日韩精品电影| 综合久久国产九一剧情麻豆| 国产成人亚洲综合a∨猫咪| 亚洲欧美电影院| 欧美一区二区三区啪啪| 亚洲精品高清在线观看| 不卡视频免费播放| 午夜久久久久久久久久一区二区| 久久午夜电影网| 欧美影片第一页| 中文字幕一区不卡| 丁香桃色午夜亚洲一区二区三区| 亚洲国产精品综合小说图片区| 精品国产髙清在线看国产毛片| 亚洲二区在线视频| 国产丝袜欧美中文另类| 国产在线麻豆精品观看| 亚洲一区二区三区三| 久久综合九色综合97婷婷女人 | 自拍偷拍亚洲欧美日韩|