環(huán)球關(guān)注：TikTok亂拳打死老師傅：硅谷還在發(fā)論文產(chǎn)品已經(jīng)上線

時(shí)間：2022-08-16 09:48:52

原標(biāo)題：TikTok亂拳打死老師傅：硅谷大廠還在發(fā)論文，它產(chǎn)品已經(jīng)上線了

突然間，AI 文字轉(zhuǎn)圖片成為了全球科技業(yè)的一大流行技術(shù)趨勢(shì)。

幾周前我們報(bào)道了“新一代梗圖之王” DALL·E mini，一個(gè)腦洞十分清奇的文字轉(zhuǎn)圖片 AI 小工具。當(dāng)時(shí)我們也提到，包括谷歌、OpenAI 等大公司和頂級(jí)研究機(jī)構(gòu)都在開(kāi)發(fā)相關(guān)模型，就連時(shí)尚雜志《COSMO》都采用 AI 來(lái)設(shè)計(jì)雜志封面。

【資料圖】

圖片來(lái)源：COSMO 雜志

然而令許多人沒(méi)想到是：

就在各家硅谷大廠斥巨資研發(fā)、砸了無(wú)數(shù)的人力、發(fā)了無(wú)數(shù)的論文，卻還在測(cè)試相關(guān)技術(shù)的時(shí)候，TikTok 居然異軍突起，首先把 AI 文字轉(zhuǎn)圖片做到了產(chǎn)品里，而且直接交到了全球十億用戶的手上……

亂拳打死老師傅，中國(guó)速度太快了

在 TikTok 的特效菜單下，最近增加了一個(gè)名叫“AI 綠幕” (AI Greenscreen) 的新選項(xiàng)。

點(diǎn)擊這個(gè)選項(xiàng)，然后在屏幕中間的對(duì)話框里輸入一段文字描述，只用不到5秒的時(shí)間，TikTok 就可以根據(jù)文字描述生成一張豎版畫(huà)作，用作短視頻的背景：

圖片來(lái)源：硅星人截圖

TikTok 用的這個(gè)文字轉(zhuǎn)圖片模型，還是非常簡(jiǎn)單的。硅星人測(cè)試了幾個(gè)含義大相徑庭的提示，生成的圖片可以說(shuō)都十分的“迷幻"，沒(méi)有任何寫(xiě)實(shí)色彩。

但這并不是缺點(diǎn)缺點(diǎn)——正相反，生成結(jié)果具有非常強(qiáng)的水彩/油畫(huà)感覺(jué)，風(fēng)格遷移 (style transfer) 的痕跡明顯，而且用的顏色也都鮮亮明快，給人一種耳目一新的感受。

圖片來(lái)源：TechCrunch 截圖

我特別想單獨(dú)說(shuō)一下我自己生成的兩張圖片：

下圖左邊的提示字段是知名游戲“最后生還者”。生成結(jié)果的辨識(shí)度太高了，這不正是游戲主角 Ellie 被泥漿血水浸濕的頭發(fā)嗎？

右圖更有意思，提示是“轟炸”：我完全沒(méi)有想到如此“不和諧”的字段，TikTok 的模型居然生成的結(jié)果卻相當(dāng)?shù)摹白郧ⅰ?，特別是圖中的“轟炸機(jī)”反而看起來(lái)像是代表和平的“白鴿”——是否你也能讀出一點(diǎn)諷刺的意味？

圖片來(lái)源：硅星人截圖

當(dāng)然話說(shuō)回來(lái)，這些只是我自己的解讀和感受，絕不可能是模型的“本意”。但是有趣的藝術(shù)作品不正應(yīng)該是這樣嘛，讓人能夠發(fā)現(xiàn)一些巧妙的“彩蛋”，甚至浮想聯(lián)翩，解讀出另外的含義。

從這一角度，我還是非常認(rèn)可 TikTok 目前部署的這個(gè)模型的。

模型的質(zhì)量也值得一提。The Verge、TechCrunch 等美國(guó)媒體測(cè)試了一些特殊的敏感字段，AI 綠幕生成結(jié)果更加抽象了，顯示出字節(jié)部署的模型在爭(zhēng)議字段上可能已經(jīng)做出了提前規(guī)避。

要知道 AI 文字生成圖片本來(lái)就不是簡(jiǎn)單的技術(shù)，避免爭(zhēng)議/道德風(fēng)險(xiǎn)更是一項(xiàng)相當(dāng)復(fù)雜的工作。

圖片來(lái)源：The Verge 截圖

正如文章前面提到，谷歌、OpenAI 等巨頭公司和知名機(jī)構(gòu)開(kāi)發(fā)的 AI 文字生成圖片模型，目前都處于剛剛發(fā)布或者小范圍測(cè)試，還在“紙上談兵”的階段。

這邊 TikTok 不僅很快跟進(jìn)推出了同類模型，更厲害的是已經(jīng)將其投放到全球十億用戶量級(jí)別的產(chǎn)品里了。

本來(lái)以為 AI 藝術(shù)創(chuàng)作的潮流還是幾個(gè)硅谷大廠在引領(lǐng)，沒(méi)想到字節(jié)跳動(dòng)居然“亂拳打死老師傅”——必須給中國(guó)互聯(lián)網(wǎng)科技公司的工作速度和質(zhì)量點(diǎn)贊了。

AI創(chuàng)作成潮流，硅谷大廠擠破頭

早在2020年，全球知名的人工智能基礎(chǔ)科研機(jī)構(gòu) OpenAI 發(fā)布了一個(gè)名為 GPT-3 語(yǔ)言模型。當(dāng)時(shí) OpenAI 的論文題為“Language Models are Few-Shot Learners ” ，直接點(diǎn)出了超大規(guī)模語(yǔ)言模型在多種非訓(xùn)練人物上具備強(qiáng)大、快速的學(xué)習(xí)和掌握能力。

GPT-3 也完全沒(méi)令人失望，在小范圍開(kāi)放測(cè) 試 A PI 之后，外界人士用它開(kāi)發(fā)出了各種各樣神奇的 demo，展示了寫(xiě)段子、翻譯公式、解數(shù)學(xué)題、完成用戶界面設(shè)計(jì)、生成財(cái)務(wù)報(bào)表等能力。

“AI 文字生成圖片” 也是這些能力的其中一項(xiàng)。

圖片來(lái)源：硅星人

包括 O pen AI、谷歌、 Midjourney、Stability AI 等一眾大小公司，已經(jīng)開(kāi)發(fā)出了多個(gè) 文字轉(zhuǎn)圖片生成模型，展示出神經(jīng) 網(wǎng)絡(luò)模型具備令人驚訝的藝術(shù)創(chuàng)作能力。

從 AI 文字轉(zhuǎn)圖片生成技術(shù)開(kāi)始得到公眾關(guān)注，到今天各路大廠和小公司擠破頭也要摻和，各種不開(kāi)放的、開(kāi)放的、收費(fèi)和免費(fèi)的模型層出不窮……也就過(guò)去了一年左右的時(shí)間。

在這些模型當(dāng)中，OpenAI 的 DALL·E 是最著名的一款。該模型一代于2021年推出，今年剛剛更新到了二代。用戶只需提供自然語(yǔ)言描述，模型就能夠生成非常寫(xiě)實(shí) (photorealisitic) 的圖片。

圖片來(lái)源：OpenAI

除了從零開(kāi)始生成全新照片，DALL·E 2 還有更多功能，適合現(xiàn)實(shí)中多種藝術(shù)工作場(chǎng)景。

比如它的編輯能力，可以在一張已經(jīng)存在的照片中，在用戶任選的位置“刪除”或者“添加”物體，并且編輯后的效果仍然很寫(xiě)實(shí)：

圖示：在照片的不同位置添加“火烈鳥(niǎo)”。圖片來(lái) 源：OpenAI

再比如 DALL·E 2 還具備“啟發(fā)”的能力，能夠根據(jù)一張已經(jīng)給定的圖片，生成風(fēng)格近相同的新照片：

圖片來(lái)源：OpenAI

順便一提：有個(gè)跟 OpenAI 沒(méi)關(guān)系的第三方開(kāi)發(fā)者，自己仿著 DALL·E 做了一個(gè)圖片生成模型，還給免費(fèi)開(kāi)放了，取名為 DALL·E mini。

結(jié)果這個(gè)“仿制品”比正品還受歡迎，在社交網(wǎng)絡(luò) Twitter 上專門(mén)搬運(yùn)這個(gè)模型生成的奇怪圖片的賬號(hào)，粉絲量都破了百萬(wàn)。甚至逼得 OpenAI 專門(mén)出來(lái)澄清跟它沒(méi)關(guān)系，要求開(kāi)發(fā)者做出改變?，F(xiàn)在這個(gè)免費(fèi)小工具已經(jīng)改名為 Craiyon 了。

（聽(tīng)說(shuō)此事之后，粉絲們還做了一張梗圖，嘲笑 OpenAI 那邊還在控制測(cè)試權(quán)限，這邊 DALL·E mini 早就給全網(wǎng)玩嗨了……）

圖片來(lái)源：FALSEKNEES

而在硅谷大廠的行列當(dāng)中，現(xiàn)在谷歌是已知?jiǎng)幼髯羁斓?，?DALL·E 2 出來(lái)不久后也發(fā)布了自己的模型，名為 Imagen。

就像 DALL·E 的根源是語(yǔ)言超大模型 GPT-3，Imagen 的根源也是谷歌開(kāi)發(fā)的泛用型超大語(yǔ)言模型 T5。至于 Imagen 的這個(gè)命名，其實(shí)是圖片 (image) +生成 (generate) 的混成詞。

圖片來(lái)源：Google Research

雖然做的比 DALL·E 晚，同樣作為硅谷知名 AI 研究型公司的谷歌，還是非常不服 OpenAI 的，宣稱找人做了一堆同類模型的盲測(cè)，結(jié)果是受試者更喜歡 Imagen 生成的結(jié)果，認(rèn)為其在“生成質(zhì)量”和“文字描述還原度”上都更勝一籌。

——當(dāng)然，究竟是 DALL·E 2 和 Imagen 誰(shuí)的生成結(jié)果更好，還是一個(gè)很主觀的，見(jiàn)仁見(jiàn)智的事情。在技術(shù)實(shí)現(xiàn)上，這兩家其實(shí)大同小異，都是用了 Diffusion（擴(kuò)散）模型生成，然后再用 Super-Resolution（超分辨率) 技術(shù)來(lái)讓生成結(jié)果更加清晰。

圖片來(lái)源：Google Research

還有更多規(guī)模更小的新創(chuàng)公司也在做 AI 圖片生成和藝術(shù)創(chuàng)作這件事。

其中一家比較有意思的公司就是 Midjourney，其創(chuàng)始人是原知名動(dòng)作感應(yīng)技術(shù)公司 Leap Motion 創(chuàng)始人 David Holz；公司的投資人和顧問(wèn)團(tuán)隊(duì)更是相當(dāng)強(qiáng)大，都是蘋(píng)果、特斯拉、AMD、GitHub 等知名公司的核心人物。

Midjourney 跟 OpenAI、谷歌的寫(xiě)實(shí)方向背道而馳，而是在抽象、藝術(shù)性、獨(dú)特風(fēng)格之間尋求某種巧妙的結(jié)合點(diǎn)，這也是這家公司和其模型比較特別之處。另外 Midjourney 開(kāi)放模型技術(shù)的做法也很“年輕化”，不是發(fā)布 API 和文檔，而是把服務(wù)接口做到了聊天軟件 Discord 里。

圖片來(lái)源：Midjourney

說(shuō)完這些比較知名的公司，再來(lái)看一家名不見(jiàn)經(jīng)傳，但是和 TikTok 一樣出手極快的美國(guó)公司：Stability AI。

這家公司總部位于硅谷 Los Altos，在上周剛剛發(fā)布了一個(gè)可以免費(fèi)使用的 AI 圖片生成產(chǎn)品 Stable Diffusion。

圖片來(lái)源：Stability AI

Stable Diffusion 和前面介紹的幾個(gè)寫(xiě)實(shí)派模型沒(méi)有太大不同。但是和產(chǎn)品、公司名稱里的“穩(wěn)定”正相反，這個(gè)模型在有害/爭(zhēng)議字段的處理上，可以說(shuō)完全沒(méi)有任何作為。而又因?yàn)楫a(chǎn)品是完全免費(fèi)提供給公眾的，已經(jīng)有很多用戶用它制作 deepfake、暴力、恐怖主義、虛假新聞圖片等有害的內(nèi)容了……

最近大半年，AI 圖片生成已經(jīng)成為了一個(gè)名副其實(shí)的科技行業(yè)“熱詞”，只是沒(méi)想到，Open AI 和谷歌做了這么多年，卻被 TikTok 給悄無(wú)聲息地跑贏了。接下來(lái)，應(yīng)該會(huì)有更多的科技公司也參與其中，不少全民應(yīng)用背后的大廠估計(jì)又要忙活著把這項(xiàng)技術(shù)加到產(chǎn)品中了。

關(guān)鍵詞：

延伸閱讀:

版權(quán)聲明：
凡注明來(lái)網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來(lái)源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來(lái)源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考并自行核實(shí)。

熱文