AI自動生成的字幕,能離譜到什么程度?
不僅把“螃蟹”(crab)誤聽成“廢話”(crap),當場爆粗:
甚至還能把“玉米”(corn)給翻譯成p*rn……
關鍵在于,這些是AI給兒童節目自動生成的字幕。
被AAAI 2022收錄的一篇新研究發現,在7013個兒童視頻中,接近40%的節目出現了少兒不宜或臟話等詞匯。
甚至在一個113集的兒童機器人學習欄目中,AI就“爆粗”了103次,平均接近一集一次!
對此,油管(YouTube)在接受《連線》采訪時回應:
我們為13歲以下的兒童開發了YouTube Kids,這個APP會關閉字幕生成功能。
但如果真有字幕需求的話,如何才能想辦法減少這種AI生成錯誤?
一起來看看。
亞馬遜谷歌都很“祖安”
先來看看這篇論文的調查結果。
研究人員一共從油管上選出了24個兒童頻道,分別記錄了這些頻道的播放量和訂閱量。
可以看出,這些篩選出來的視頻播放量基本都達到了百萬級,訂閱人數也同樣不少。
然后,研究人員分別試了一下谷歌和AWS(亞馬遜網頁服務)的字幕生成效果。
結果顯示,AI字幕的“少兒不宜”率可謂離譜:
在7013個視頻中,谷歌AI出現錯誤字幕的次數達到2768次,接近40%。
亞馬遜的AI字幕錯誤率還要更高,達到了3672次,超過52%。
具體來說,兩個AI分別容易在這些“不太恰當”的字詞上出錯:
圖左亞馬遜,圖右谷歌
在這些數據集中,有一些詞語又尤為“少兒不宜”,例如一些罵人的臟詞:
經過作者們人工檢查(例如確認原視頻是否真的說了臟話),發現AI主要容易在以下幾種情況中出錯:
背景音樂嘈雜
說話者為嬰兒
說話者為兒童
說話者以英語為第二語言
說話者在唱歌
包括但不限于這些情況
那么,有沒有什么辦法減少這種情況發生呢?
語序連貫的錯誤更容易修復
研究人員提出了一個新的數據集,利用近音字詞來構建禁忌詞的“替換”備選。
例如,對于crap這一可能出現的“粗口”,研究人員就給它設置了crab、craft等讀音相似的字詞,便于AI在搞錯時進行替換。
具體來說,他們在BERT、XLM、XLNet等NLP模型上,針對“完形填空”任務進行了重新訓練,也就是用[MASK]遮住部分單詞,讓AI來填寫對應的內容。
結果顯示,在語序正常、前后文案有邏輯的視頻中,AI替換的準確率更高(藍色為正確替換詞):
然而在一些邏輯不強的文案中,成功替換的效果就沒有那么好了:
最終,Megatron和Levenshtein等模型展現出了最好的修復效果,分別給亞馬遜AI帶來了超過25%的正確修復率,給谷歌AI帶來了超過28%的修復率。
看來AI在字幕生成能力上還是任重道遠啊。
關鍵詞:
網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
Copyright © 2000-2020 www.fnsyft.com All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
亚洲色精品VR一区区三区| 久久久久亚洲精品天堂久久久久久| 国产国拍亚洲精品福利 | 国产成人综合亚洲亚洲国产第一页 | 亚洲av综合色区| 亚洲人成图片小说网站| 亚洲一区二区女搞男| 亚洲情XO亚洲色XO无码| 亚洲人成中文字幕在线观看| 亚洲中文字幕无码中文字在线| 亚洲最大激情中文字幕| 亚洲最大激情中文字幕| 亚洲国产精品嫩草影院在线观看| 亚洲精品无码Av人在线观看国产| 浮力影院亚洲国产第一页| 狠狠亚洲婷婷综合色香五月排名| 亚洲日韩精品一区二区三区| 亚洲国产精品无码专区在线观看 | 亚洲三级高清免费| 亚洲人成色99999在线观看| 亚洲av无码专区在线电影| 亚洲AV无码之日韩精品| 国产精品亚洲视频| 亚洲国产精彩中文乱码AV| 亚洲成a人片在线观看中文动漫| 亚洲成人激情在线| 亚洲日本香蕉视频| 亚洲影院天堂中文av色| 激情小说亚洲色图| 亚洲综合色成在线播放| 国产亚洲精品美女久久久 | 老司机亚洲精品影院在线观看| 亚洲国产精品狼友中文久久久 | 国产亚洲精品精品国产亚洲综合| 亚洲人成人网站色www| 久久精品国产亚洲AV无码娇色| 亚洲国产成人精品久久| 亚洲熟伦熟女专区hd高清| 亚洲成年看片在线观看| 亚洲精品二区国产综合野狼| 久久久无码精品亚洲日韩按摩 |