網(wǎng)絡消費網(wǎng) >  科技 > > 正文
        全球觀速訊丨“耗盡”人類語言:ChatGPT還有多少數(shù)據(jù)可用?
        時間:2023-02-07 11:21:05

        ChatGPT是個通才,可以與各行各業(yè)的人們對話,因為它用來訓練的語言,來自整個網(wǎng)絡和人類所有的知識寶庫,并且建立在一個看似無所不包的知識體系之上。

        無論是ChatGPT之類的聊天機器人,還是其他的內容生成技術與應用,背后都是日益強大的學習和訓練的計算系統(tǒng),它們被稱為大型語言模型(LLM),動輒設置成千上萬億個參數(shù)。機器很難像人類一樣通過推理來進行有效的學習,所以機器學習的能力很大程度上依賴于海量的數(shù)據(jù)。


        【資料圖】

        但是,人類的語言是有限的,當計算機建立起越來越巨大的算力和強大的算法,自然語言作為“原料”供應,是不是終有一天像石油一樣,被人類開采枯竭?當前的機器學習模型依賴于不斷增長的巨大數(shù)據(jù)集,其發(fā)展趨勢是否可能會放緩?

        是的,語言數(shù)據(jù)資源是有限的,高質量的語言數(shù)據(jù)更是有限的。

        來自阿伯丁大學、麻省理工大學、圖賓根大學的Pablo Villalobos等6位計算機科學家,近日發(fā)布了一篇論文,名為《我們會用完數(shù)據(jù)嗎?機器學習中數(shù)據(jù)集縮放的局限性分析》。他們開發(fā)的概率模型,估算了2022年至2100年之間可用的語言和視覺數(shù)據(jù)的總量,估計了語言和視覺模型訓練數(shù)據(jù)集規(guī)模的演變趨勢,試圖發(fā)現(xiàn)由于可用數(shù)據(jù)耗盡而導致的趨勢的極限。

        目前絕大多數(shù)存量數(shù)據(jù)是用戶生成的,存儲在社交媒體平臺、博客、論壇等。有三個因素決定了在一個給定的時間段內產(chǎn)生多少內容:人口數(shù)量、互聯(lián)網(wǎng)滲透率、每個互聯(lián)網(wǎng)用戶產(chǎn)生的平均數(shù)據(jù)量。

        互聯(lián)網(wǎng)上的大部分文本數(shù)據(jù)對訓練大型語言模型(LLM)都沒有用,專業(yè)人士通常只使用高質量的數(shù)據(jù)來訓練模型,因為這是他們希望模型學習和效仿的語言類型。常見的高質量數(shù)據(jù)的來源是書籍、新聞文章、科學論文、維基百科和過濾后的網(wǎng)頁內容。這些數(shù)據(jù)源的一個共同特性是,它們經(jīng)過了質量和有用性的篩選。例如,在新聞、科學文章或開源代碼項目中,有用性必須由專業(yè)標準(如同行評議)的篩選產(chǎn)生。

        他們發(fā)現(xiàn),語言數(shù)據(jù)枯竭情況比視覺數(shù)據(jù)嚴峻得多。

        語言和視覺模型的數(shù)據(jù)存量的增長速度比訓練數(shù)據(jù)集的大小慢得多,所以如果按照目前的趨勢繼續(xù)下去,數(shù)據(jù)集最終會因為數(shù)據(jù)枯竭而停止增長。

        對于語言模型來說,數(shù)據(jù)耗盡的情況將在2030年到2040年之間發(fā)生。語言大模型的訓練數(shù)據(jù)主要來自互聯(lián)網(wǎng),現(xiàn)在的模型越做越大,已經(jīng)把網(wǎng)上能收集到的網(wǎng)頁數(shù)據(jù)用的差不多了,或者說隨著算力投入的進一步增加,基本上能夠把網(wǎng)絡上收集到的數(shù)據(jù)全部用盡。

        近在眼前的擔憂是,高質量語言數(shù)據(jù)在 2026 年之前耗盡。

        高質量數(shù)據(jù)增長的放緩是不可避免的,對于高質量的語言數(shù)據(jù)來說尤其如此。高質量的數(shù)據(jù)集通常包括了50%的用戶生成內容,15%~20%的書籍,10%~20%的科學論文,近10%的代碼和近10%的新聞。

        研究人員估算了數(shù)字化書籍、公共GitHub和科學論文中可用文本的全部數(shù)量,并假設其占據(jù)高質量數(shù)據(jù)集的30%到50%之間,從而預測出當前高質量語言數(shù)據(jù)的總存量為9萬億(即9e12,上下限大概為4.6萬億到17萬億)個單詞,每年增長率為 4% 到 5%。以高質量語言數(shù)據(jù)庫作為上限來預測語言數(shù)據(jù)集的增長,放緩發(fā)生得更早,在2026年之前。

        相比之下,低質量語言數(shù)據(jù)的存量在69萬億~7.1億億個單詞之間,當前增長率在6.41%至17.49%之間。其中,谷歌這樣資金雄厚的大公司可用的數(shù)據(jù)存量約為100萬億個單詞;所有科技公司可用的約為1000萬億個單詞;全人類擁有約1億億個單詞,也包括了所有的短信、電話和視頻會議等所產(chǎn)生的數(shù)據(jù)。低質量數(shù)據(jù)集先是隨著時間推移會快速增長,達到2030年后,增長會大幅放緩,直到耗盡數(shù)據(jù)存量。

        視覺數(shù)據(jù)的情況要復雜一些。

        現(xiàn)在互聯(lián)網(wǎng)上的存量視覺數(shù)據(jù)數(shù)量在8.1萬億到23萬億之間,目前的年增長率在8%左右,視覺模型數(shù)據(jù)耗盡的情況將在2030年到2060年之間發(fā)生,相對于語言模型來說,目前看起來情況還沒有那么嚴重。IDEA研究院計算機視覺與機器人研究中心講席科學家張磊博士認為,主要原因是視覺數(shù)據(jù)的維度和復雜度要更高,使得現(xiàn)有模型能夠使用的數(shù)據(jù)量和網(wǎng)上存在的數(shù)據(jù)量相比還有比較大的差距。

        “視覺數(shù)據(jù)更復雜,視覺方面的問題也更多樣化。現(xiàn)在的視覺大模型通常都是針對全圖(whole image)理解的預訓練,即模型只是針對全圖做分類或圖文檢索類的學習,但是視覺還有很多細粒度的問題,比如物體檢測、視覺分割等,大模型學到的全圖表征用于細粒度問題也會性能遞減。這些困難使得視覺模型還不能簡單地用增加數(shù)據(jù)的方法來解決。”

        張磊博士還強調,視覺模型繼續(xù)增加數(shù)據(jù)量,獲得的增益也會逐漸變小,這也需要視覺算法方面的進一步改進,因此,視覺大模型目前還沒有達到單純增加數(shù)據(jù)提高效果的階段,還有更多的問題需要研究。

        如果未來數(shù)據(jù)效率提升,大模型用更少的數(shù)據(jù)就能實現(xiàn)相同的功能;如果證明縮放定律是錯誤的,即使數(shù)據(jù)效率沒有額外的提升,或許還有更好的方法來使用更少的數(shù)據(jù);如果通過遷移學習,多模態(tài)模型可能被證明比單一模態(tài)的模型表現(xiàn)得更好,這將有效地增加數(shù)據(jù)存量,從而擴大所有數(shù)據(jù)模態(tài)存量的組合。

        合成數(shù)據(jù)將來是一個重要的數(shù)據(jù)來源,這一點受到最近騰訊發(fā)布的AIGC報告的極度看好。MIT科技評論將AI合成數(shù)據(jù)列為2022年10大突破性技術之一;Gartner也預測稱,到2030年合成數(shù)據(jù)將徹底取代真實數(shù)據(jù),成為訓練AI的主要數(shù)據(jù)來源。

        此外,一些非自然語言的數(shù)據(jù)也會大量產(chǎn)生。例如,如果大規(guī)模采用自動駕駛汽車將導致空前數(shù)量的道路視頻記錄;如果擁有充足的預算(如有政府或大公司的參與),也許能夠增加數(shù)據(jù)的產(chǎn)出,特別是在針對特定領域的高質量數(shù)據(jù)。

        目前一個問題仍在擺在眼前:更多的數(shù)據(jù)難道一定就會“喂養(yǎng)”出更好的模型嗎?也不一定。正如前文張磊博士所說的,“目前視覺模型的相關困難還不能簡單地用通過增加數(shù)據(jù)的方法來解決。”

        關鍵詞:

        版權聲明:
            凡注明來網(wǎng)絡消費網(wǎng)的作品,版權均屬網(wǎng)絡消費網(wǎng)所有,未經(jīng)授權不得轉載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的,應在授權范圍內使用,并注明"來源:網(wǎng)絡消費網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關法律責任。
            除來源署名為網(wǎng)絡消費網(wǎng)稿件外,其他所轉載內容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考并自行核實。
        熱文

        網(wǎng)站首頁 |網(wǎng)站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
         

        Copyright © 2000-2020 www.fnsyft.com All Rights Reserved.
         

        中國網(wǎng)絡消費網(wǎng) 版權所有 未經(jīng)書面授權 不得復制或建立鏡像
         

        聯(lián)系郵箱:920 891 263@qq.com

        備案號:京ICP備2022016840號-15

        營業(yè)執(zhí)照公示信息

        人人狠狠综合久久亚洲高清| 亚洲国产一区二区三区在线观看| 亚洲欧洲另类春色校园小说| 国产亚洲人成A在线V网站| 亚洲熟妇自偷自拍另欧美| 亚洲人妖女同在线播放| 亚洲国产午夜电影在线入口| 亚洲综合久久1区2区3区 | 亚洲日本一区二区| 国产亚洲精品无码成人| 国产亚洲色婷婷久久99精品| 亚洲熟妇av一区二区三区漫画| 国产亚洲AV手机在线观看| 自拍偷自拍亚洲精品第1页| 日本亚洲国产一区二区三区| 日本亚洲国产一区二区三区| 亚洲精品国精品久久99热一| 亚洲国产精品成人精品无码区 | 国产人成亚洲第一网站在线播放| 亚洲制服丝袜第一页| 中文字幕无码亚洲欧洲日韩| 中文日韩亚洲欧美制服| 亚洲国产成人AV在线播放| 99亚洲乱人伦aⅴ精品| 亚洲成a人片在线观看久| 亚洲熟妇少妇任你躁在线观看无码| 亚洲一级特黄大片无码毛片| 中文字幕亚洲一区二区va在线| 亚洲动漫精品无码av天堂| 亚洲乱亚洲乱淫久久| 亚洲明星合成图综合区在线| 亚洲香蕉久久一区二区三区四区| 亚洲色大成网站www久久九| 337p日本欧洲亚洲大胆人人| 亚洲精品tv久久久久| 亚洲精品少妇30p| 日韩精品一区二区亚洲AV观看| 亚洲国产成人精品电影| 亚洲AV无码成人专区| 亚洲av成人中文无码专区| 亚洲一区二区三区国产精品|