網絡消費網 >  科技 > > 正文
        擊敗OpenAI!谷歌公布20億參數通用語音模型 支持100多語種檢測翻譯
        時間:2023-03-08 10:16:47

        谷歌語音模型USM目前已支持100多種語音自動識別。


        (相關資料圖)

        編譯 | 吳菲凝

        編輯 | 李水青

        智東西3月7日報道,根據谷歌官網,谷歌的通用語音模型USM目前已實現升級,支持100多個語種內容的自動識別檢測。

        去年11月,谷歌曾計劃創建一個支持1000個語種的AI模型USM。谷歌將其描述為“最先進的通用語音模型”,擁有20億個參數,經過涵蓋1200萬小時的語音、280億個句子和300多個語種數據集的預訓練。

        USM的強大效果目前已在Youtube的字幕生成中展現出來,可自動翻譯和檢測如英語、漢語等主流語種,還能識別出阿薩姆語這種小眾語種,可以說“精通方言”。

        根據谷歌博客,與OpenAI的大型通用語音模型Whisper相比,USM的數據訓練時長更短,錯誤率更低。

        01.可自動檢測翻譯100+語種

        USM面臨兩大挑戰

        當微軟和谷歌還在為誰家的AI聊天機器人更智能而爭論不休時,我們需要清楚,語音模型的用途遠不止于此。

        外媒The Verge的記者稱,除了相傳將在今年的I/O開發者大會中展示的20多款AI驅動產品之外,谷歌目前還在朝著更高目標邁進——構建一個支持1000種語種的機器學習模型。

        在周一發布的更新中,谷歌分享了更多有關USM的信息,谷歌稱,這是構建支持1000種語言的通用語音模型的“關鍵第一步”。

        USM已被YouTube用于生成字幕,它還支持自動語音識別(ASR),可自動檢測和翻譯語言,不僅包括普通話、英語等廣泛使用的語言,還包括阿姆哈拉語、宿務語、阿薩姆語等冷門語言。

        目前,谷歌稱USM可支持檢測100多個語種,并將作為構建更大的系統的“基礎”。不過,這項技術似乎還有些遙遠,谷歌在I/O開發者大會期間對阿拉伯語的錯誤表述就已證明。

        谷歌研究院科學家張宇(Yu Zhang)和軟件工程師詹姆斯·秦(James Qin)在谷歌博客上發文稱,為了實現USM這個雄心勃勃的目標,他們目前需要解決ASR面臨的兩個重大挑戰。

        一是傳統的學習方法的缺乏可擴展性。語音技術擴展到多語種的一個基本挑戰是需要足夠的數據來訓練高質量的模型,使用傳統方法時,需要手動將音頻數據進行標記,既耗時又價格高昂,對于那些小眾冷門的語種而言,也更難找到預先存在的來源收集。因此,研究院后續準備將傳統學習方法轉變為自我監督學習,利用純音頻來收集數據。

        二是在擴大語言覆蓋范圍和質量的同時,模型必須以計算效率更高的方法來改進。這就要求學習算法更加靈活、高效、泛化。這些算法需要使用來源廣泛的數據,并在不用完全訓練的情況下更新模型,再推廣到新的語言中。

        02.三個步驟降低識別錯誤率

        擊敗OpenAI

        據該團隊發表的論文稱,USM使用的是標準的編碼器-解碼器架構,其中解碼器是CTC、RNN-T和LAS,編碼器使用的是Conformer或卷積增強變換器。其中,Conformer使用的關鍵組件是Conformer塊,由注意力模塊、前饋模塊和卷積模塊組成,應用一系列Conformer塊和投影層以最終嵌入。

        據論文顯示,對于USM的訓練共分為三個步驟。

        第一步是使用BEST-RQ來對涵蓋數百種語種的語音音頻進行自我監督學習,已經在多語言任務上展示了最先進的結果,在使用了大量的無監督音頻數據后的證明結果是有效的。

        第二步需要使用多目標監督預訓練來整合來自于其他文本數據的信息。該模型引入了一個額外的編碼器模塊來輸入文本,并引入額外層來組合語音編碼器和文本編碼器的輸出,并在未標記語音、標記語音和文本數據上聯合訓練模型。

        最后一步需要USM對下游任務進行微調,包括ASR(自動語音識別)和AST(自動語音翻譯)。

        USM的整體培訓渠道

        對于USM的有效性,團隊通過Youtube Caption的多語言語音數據進行微調來驗證。

        受監督的Youtube數據包括有73種語種,每個語種的數據不到3000小時。盡管監督的數據有限,但USM在73個語種當中實現了平均低于30%的單詞容錯率(WER),與當前內部最先進的模型相比降低了6%。與進行了近40萬小時數據訓練的大型模型Whisper相比,USM的錯誤率更低,它在18個語種中的解碼錯誤率僅有32.7%,而Whisper有40%。

        在WER低于40%的情況下,USM在其支持的語言上優于Whisper

        在公開可用的數據上,與Whisper相比,USM在CORAAL(非裔美國人使用的英語)、SpeechStew和FLEURS這三個語言數據集上都顯示出了更低的單詞容錯率。

        在ASR基準上比較USM(有或沒有域內數據)和Whisper的結果。

        對于語音翻譯,團隊在CoVoST數據集上微調USM,在有限的監督數據上實現了最好的性能。為了評估模型性能的廣度,他們根據資源可用性將CoVoST數據集中的語言分為高、中、低三類,并計算每個部分中的BLEU分數(機器翻譯評價指標),根據最終展示出的結果,USM在所有細分市場上的表現都優于Whisper。

        他們認為,谷歌若想實現連接全球信息并使每個人都能自由訪問的愿景,USM的開發將會是關鍵的一步,USM的基礎模型框架和訓練通道已經打下了一個基礎,他們要做的就是在此基礎上將語音模型擴展至1000種語言。

        03.結語:AI突破語言障礙

        助全球打破信息繭房

        目前,USM已支持100多個語種,未來將持續擴展到1000多個,屆時將會吸引到更大一部分用戶進行體驗,真正實現將信息分發到全球各個角落。

        信息時代,科技進步將會進一步幫助各個國家地區的語言和文化突破地域的限制,很大程度上解決信息繭房帶來的困擾。

        關鍵詞:

        版權聲明:
            凡注明來網絡消費網的作品,版權均屬網絡消費網所有,未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明"來源:網絡消費網"。違反上述聲明者,本網將追究其相關法律責任。
            除來源署名為網絡消費網稿件外,其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考并自行核實。
        熱文

        網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
         

        Copyright © 2000-2020 www.fnsyft.com All Rights Reserved.
         

        中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
         

        聯系郵箱:920 891 263@qq.com

        備案號:京ICP備2022016840號-15

        營業執照公示信息

        青青青亚洲精品国产| 亚洲日本va在线观看| 亚洲偷自拍另类图片二区| 亚洲精品自拍视频| 亚洲日本va午夜中文字幕一区| 亚洲精品无码久久久影院相关影片| 亚洲情a成黄在线观看| 亚洲精品乱码久久久久久不卡| 亚洲а∨天堂久久精品| 亚洲精品成人久久久| 亚洲午夜精品久久久久久浪潮 | 亚洲AV无码乱码在线观看牲色| 国产亚洲精品2021自在线| 国产亚洲精品国产福利在线观看 | 亚洲AV无码一区二区二三区入口| 国产V亚洲V天堂A无码| 亚洲国产精品SSS在线观看AV| 久久亚洲精品成人777大小说| 亚洲天堂一区二区三区| 亚洲国产成人超福利久久精品| 亚洲a视频在线观看| 中文字幕在线观看亚洲日韩| 亚洲国产成人久久精品软件| 国产精品亚洲精品日韩动图| 婷婷亚洲天堂影院| AV在线亚洲男人的天堂| 亚洲欧洲无码AV电影在线观看| 亚洲va中文字幕无码久久| 亚洲日本在线观看| 亚洲人成电影青青在线播放| 四虎必出精品亚洲高清| 亚洲AV无码成人网站在线观看| 国产亚洲情侣久久精品| 久久亚洲中文字幕精品一区四| 亚洲精品少妇30p| 久久亚洲sm情趣捆绑调教| 亚洲a视频在线观看| 国产亚洲欧美在线观看| 红杏亚洲影院一区二区三区| 亚洲高清专区日韩精品| 亚洲最新黄色网址|