ChatGPT幕后的真正大佬……

時(shí)間：2023-02-27 11:09:42

ChatGPT紅得發(fā)紫，強(qiáng)得讓人類心悸，但在它的背后，還隱藏著一位真正的大佬。

可以說(shuō)，與它相比，ChatGPT其實(shí)只是它的一個(gè)跟班小弟。

(資料圖)

或者說(shuō)，只是它掌控家族中的一個(gè)比較靚的仔。

這位大佬自2017年問(wèn)世以來(lái)，隱約已成為AI領(lǐng)域的基石王者。

它的名字叫做——Transformer。

一、Chat不重要，GPT才重要

先拆解一下ChatGPT，它由Chat與GPT兩部分組成。

聊天不重要，GPT才重要。

那什么是GPT，它的全英文是Generative Pre-trained Transformer。

翻譯過(guò)來(lái)就是——生成式預(yù)訓(xùn)練的變形金剛。

先問(wèn)ChatGPT——你是誰(shuí)？

我是誰(shuí)，它是這樣解釋的：

GPT是基于Transformer架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型，可以生成自然語(yǔ)言文本。Transformer是基于自注意力機(jī)制的深度學(xué)習(xí)模型架構(gòu)，它在自然語(yǔ)言處理領(lǐng)域中得到了廣泛的應(yīng)用，如機(jī)器翻譯、文本分類和生成模型等。

GPT是基于Transformer模型的改進(jìn)版本，主要是針對(duì)生成任務(wù)進(jìn)行了優(yōu)化，通過(guò)預(yù)訓(xùn)練學(xué)習(xí)自然語(yǔ)言的語(yǔ)義和語(yǔ)法規(guī)律，進(jìn)而生成高質(zhì)量的文本。

因此，GPT可以看作是Transformer模型在生成任務(wù)上的一個(gè)應(yīng)用擴(kuò)展。

短短的自我介紹中，ChatGPT就四次提到Transformer。

Transformer模型結(jié)構(gòu)圖，圖/Google Research

Transformer到底是什么，讓ChatGPT如此迷戀？

這只變形金剛，到底是只什么怪獸？

二、強(qiáng)大的變形金剛Transformer

Transformer的定義清晰明了：

是用于自然語(yǔ)言處理（NLP）的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

在Transformer出現(xiàn)之前，人工智能研究領(lǐng)域百家爭(zhēng)鳴。

Transformer出現(xiàn)之后，格局開(kāi)始變了，開(kāi)始打壓如日中天的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）。

Transformer架構(gòu)使用了注意力機(jī)制，能夠處理長(zhǎng)序列的依賴關(guān)系。

這讓它具有以下明顯優(yōu)點(diǎn)：

? 并行計(jì)算：由于自注意力機(jī)制的引入，Transformer可以實(shí)現(xiàn)并行計(jì)算，加快訓(xùn)練速度。

? 長(zhǎng)序列處理：相比傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)，Transformer可以處理更長(zhǎng)的序列，這是由于自注意力機(jī)制可以學(xué)習(xí)到全局的序列信息。

? 模塊化結(jié)構(gòu)：Transformer由編碼器和解碼器兩部分組成，每部分都包含了多層相同的模塊，這種模塊化結(jié)構(gòu)使得Transformer更易于擴(kuò)展和調(diào)整。

Transformer在各種任務(wù)中的表現(xiàn)，也將不斷得到改善和優(yōu)化，發(fā)展日新月益。

自2017年推出之后， Transformer已經(jīng)形成了自己的家族體系。

基于GPT架構(gòu)，ChatGPT就隱藏在GPT-3的后面。

現(xiàn)在你就明白，它為什么叫變形金剛了。

它的確是可以演變成各種不同的角色，而且個(gè)個(gè)都挺厲害。

三、統(tǒng)一自然語(yǔ)言NLP

人工智能的一大研究方向，首先是自然語(yǔ)言處理NLP領(lǐng)域。

自從Transformers出現(xiàn)后，全球NLP領(lǐng)域的人工智能的工程師們望風(fēng)景從。

Transformers在該領(lǐng)域的進(jìn)展所向披靡，不可阻擋，原因如下：

? 模型大小和訓(xùn)練數(shù)據(jù)規(guī)模的增加：大規(guī)模的Transformers模型，如GPT-3.5、bert、T5等，有些模型參數(shù)量達(dá)到千億級(jí)別，具有更強(qiáng)表達(dá)能力。

? 多語(yǔ)言和跨語(yǔ)言應(yīng)用：由于Transformers模型具有更強(qiáng)泛化能力，因此可以被應(yīng)用于多語(yǔ)言和跨語(yǔ)言任務(wù)，如機(jī)器翻譯、跨語(yǔ)言文本分類等。

? 與其他模型的結(jié)合和拓展：與其他模型結(jié)合使用，如結(jié)合卷積神經(jīng)網(wǎng)絡(luò)（CNN）或循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）進(jìn)行多模態(tài)學(xué)習(xí)等。

? 解釋性和可解釋性：隨著越來(lái)越多的機(jī)器學(xué)習(xí)算法被應(yīng)用于實(shí)際場(chǎng)景，對(duì)于模型的解釋性和可解釋性要求也越來(lái)越高。

LLM成長(zhǎng)的時(shí)間線，圖/amatriain.net

在自然語(yǔ)言處理NLP領(lǐng)域，總體的趨勢(shì)是：LSTM/CNN→Transformer。

NLP領(lǐng)域分為兩大不同類型的任務(wù)：

? 理解類人工智能

? 生成式人工智能

這兩個(gè)領(lǐng)域的研發(fā)，已經(jīng)收斂到了兩個(gè)不同的預(yù)訓(xùn)練模型框架里：

? 自然語(yǔ)言理解，技術(shù)體系統(tǒng)一到了以Bert為代表的“雙向語(yǔ)言模型預(yù)訓(xùn)練+應(yīng)用Fine-tuning”模式；

? 自然語(yǔ)言生成類任務(wù)，其技術(shù)體系則統(tǒng)一到了以GPT為代表的“自回歸語(yǔ)言模型（即從左到右單向語(yǔ)言模型）+Zero /Few Shot Prompt”模式。

而這兩大模型都是基于Transformers，而且兩者也出現(xiàn)了技術(shù)統(tǒng)一趨向。

在自然語(yǔ)言處理NLP這個(gè)領(lǐng)域，Transformer基本上已經(jīng)一統(tǒng)天下。

以至于那些還沉迷于CNN，RNN的工程師被警告：

放棄戰(zhàn)斗吧，向Transformer投降！

四、藏不住的野心：統(tǒng)一計(jì)算機(jī)視覺(jué)CV

除了NLP，人工智能的另一分支是計(jì)算機(jī)視覺(jué)CV。

Transformer最開(kāi)始，只是專注于自然語(yǔ)言的處理。NLP曾經(jīng)落后于計(jì)算機(jī)視覺(jué)，但是Transformer的出現(xiàn)迅速地改變了現(xiàn)狀。

一出生就風(fēng)華正茂，用來(lái)形容Transformer毫不為過(guò)。它催生了一大批舉世矚目的模型，達(dá)到了令人類不安的程度。

隨著Transformer統(tǒng)一了NLP，計(jì)算機(jī)視覺(jué)領(lǐng)域顯然受到了啟發(fā)。

一直沉迷于CNN神經(jīng)網(wǎng)絡(luò)中的科學(xué)家，開(kāi)始想知道Transformer是否可以在計(jì)算機(jī)視覺(jué)方面取得類似的效果。

不試不知道，一試嚇一跳。

Transformer在計(jì)算機(jī)視覺(jué)領(lǐng)域同樣治療效果明顯：

? 圖像分類

ViT（Vision Transformer）是一種將Transformer應(yīng)用于圖像分類的模型。在ImageNet等基準(zhǔn)數(shù)據(jù)集上取得了與卷積神經(jīng)網(wǎng)絡(luò)（CNN）相媲美的結(jié)果。

圖/Google Research

? 目標(biāo)檢測(cè)

DETR（DEtection TRansformer）是基于Transformer的目標(biāo)檢測(cè)模型。DETR在COCO數(shù)據(jù)集上取得了與 Faster R-CNN 方法相當(dāng)?shù)慕Y(jié)果。

? 語(yǔ)義分割

Transformer可以用于語(yǔ)義分割任務(wù)，其中每個(gè)像素被視為一個(gè)token。在Cityscapes、ADE20K和COCO-Stuff等數(shù)據(jù)集上取得了領(lǐng)先的結(jié)果。

以上例子都是Transformer的應(yīng)用，它在計(jì)算機(jī)視覺(jué)領(lǐng)域也是虎視耽耽。

五、花8分鐘時(shí)間，拆解Transformer這只變形金剛

Transformer為何如此強(qiáng)大，我們花8分鐘來(lái)解剖它。

以下內(nèi)容來(lái)自Jay Alammar：

Transformers可以被看做一個(gè)黑盒，以文本翻譯中的法-英翻譯任務(wù)為例，這個(gè)黑箱接受一句法語(yǔ)作為輸入，輸出一句相應(yīng)的英語(yǔ)。

那么在這個(gè)黑盒子里面都有什么呢？

里面主要有兩部分組成：Encoder 和 Decoder。

輸入一個(gè)文本的時(shí)候，該文本數(shù)據(jù)會(huì)先經(jīng)過(guò)一個(gè)叫Encoders的模塊，對(duì)該文本進(jìn)行編碼。然后將編碼后的數(shù)據(jù)再傳入一個(gè)叫Decoders的模塊進(jìn)行解碼，解碼后就得到了翻譯后的文本。

Encoders為編碼器，Decoders為解碼器。

細(xì)心的同學(xué)可能已經(jīng)發(fā)現(xiàn)了，上圖中的Decoders后邊加了個(gè)s，那就代表有多個(gè)編碼器了唄，沒(méi)錯(cuò)，這個(gè)編碼模塊里邊，有很多小的編碼器，一般情況下，Encoders里邊有6個(gè)小編碼器，同樣的，Decoders里邊有6個(gè)小解碼器。

在編碼部分，每一個(gè)的小編碼器的輸入，是前一個(gè)小編碼器的輸出。而每一個(gè)小解碼器的輸入，不光是它的前一個(gè)解碼器的輸出，還包括了整個(gè)編碼部分的輸出。

那每一個(gè)小編碼器里邊又是什么呢？

放大一個(gè)encoder，發(fā)現(xiàn)里邊的結(jié)構(gòu)是一個(gè)自注意力機(jī)制+一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。

先來(lái)看下Self-attention是什么樣子的。

通過(guò)幾個(gè)步驟來(lái)解釋：

(1) 首先，Self-attention的輸入就是詞向量，即整個(gè)模型的最初的輸入是詞向量的形式。自注意力機(jī)制，顧名思義就是自己和自己計(jì)算一遍注意力，即對(duì)每一個(gè)輸入的詞向量，我們需要構(gòu)建Self-attention的輸入。

(2) 接下來(lái)就要計(jì)算注意力得分了，這個(gè)得分是通過(guò)計(jì)算Q與各個(gè)單詞的K向量的點(diǎn)積得到的。以X1為例，分別將Q1和K1、K2進(jìn)行點(diǎn)積運(yùn)算，假設(shè)分別得到得分112和96。

(3) 將得分分別除以一個(gè)特定數(shù)值8（K向量的維度的平方根，通常K向量的維度是64）這能讓梯度更加穩(wěn)定。

(4) 將上述結(jié)果進(jìn)行softmax運(yùn)算得到，softmax主要將分?jǐn)?shù)標(biāo)準(zhǔn)化，使他們都是正數(shù)并且加起來(lái)等于1。

(5) 將V向量乘上softmax的結(jié)果，這個(gè)思想主要是為了保持我們想要關(guān)注的單詞的值不變，而掩蓋掉那些不相關(guān)的單詞。

(6) 將帶權(quán)重的各個(gè)V向量加起來(lái)，至此，產(chǎn)生在這個(gè)位置上（第一個(gè)單詞）的Self-attention層的輸出，其余位置的Self-attention輸出也是同樣的計(jì)算方式。

將上述的過(guò)程總結(jié)為一個(gè)公式就可以用下圖表示：

Self-attention層到這里就結(jié)束了嗎？

還沒(méi)有，論文為了進(jìn)一步細(xì)化自注意力機(jī)制層，增加了“多頭注意力機(jī)制”的概念，這從兩個(gè)方面提高了自注意力層的性能。

第一個(gè)方面，它擴(kuò)展了模型關(guān)注不同位置的能力，這對(duì)翻譯一下句子特別有用，因?yàn)槲覀兿胫馈癷t”是指代的哪個(gè)單詞。

第二個(gè)方面，它給了自注意力層多個(gè)“表示子空間”。對(duì)于多頭自注意力機(jī)制，不止有一組Q/K/V權(quán)重矩陣。

經(jīng)過(guò)多頭注意力機(jī)制后，就會(huì)得到多個(gè)權(quán)重矩陣Z，我們將多個(gè)Z進(jìn)行拼接就得到了Self-attention層的輸出：

上述我們經(jīng)過(guò)了self-attention層，我們得到了self-attention的輸出，self-attention的輸出即是前饋神經(jīng)網(wǎng)絡(luò)層的輸入，然后前饋神經(jīng)網(wǎng)絡(luò)的輸入只需要一個(gè)矩陣就可以了，不需要八個(gè)矩陣，所以我們需要把這8個(gè)矩陣壓縮成一個(gè)，我們?cè)趺醋瞿兀恐恍枰堰@些矩陣拼接起來(lái)然后用一個(gè)額外的權(quán)重矩陣與之相乘即可。

最終的Z就作為前饋神經(jīng)網(wǎng)絡(luò)的輸入。

接下來(lái)就進(jìn)入了小編碼器里邊的前饋神經(jīng)網(wǎng)模塊了。

然后在Transformer中使用了6個(gè)encoder，為了解決梯度消失的問(wèn)題，在Encoders和Decoder中都是用了殘差神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，即每一個(gè)前饋神經(jīng)網(wǎng)絡(luò)的輸入，不光包含上述Self-attention的輸出Z，還包含最原始的輸入。

上述說(shuō)到的encoder是對(duì)輸入（機(jī)器學(xué)習(xí)）進(jìn)行編碼，使用的是自注意力機(jī)制+前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，同樣的，在ecoder中使用的也是同樣的結(jié)構(gòu)。

以上，就講完了Transformer編碼和解碼兩大模塊，那么我們回歸最初的問(wèn)題，將“Je suis etudiant”翻譯成“I am a student”，解碼器輸出本來(lái)是一個(gè)浮點(diǎn)型的向量，怎么轉(zhuǎn)化成“I am a student”這兩個(gè)詞呢？

這個(gè)工作是最后的線性層接上一個(gè)Softmax，其中線性層是一個(gè)簡(jiǎn)單的全連接神經(jīng)網(wǎng)絡(luò)，它將解碼器產(chǎn)生的向量投影到一個(gè)更高維度的向量（logits）上。

假設(shè)我們模型的詞匯表是10000個(gè)詞，那么logits就有10000個(gè)維度，每個(gè)維度對(duì)應(yīng)一個(gè)惟一的詞的得分。之后的Softmax層將這些分?jǐn)?shù)轉(zhuǎn)換為概率。選擇概率最大的維度，并對(duì)應(yīng)地生成與之關(guān)聯(lián)的單詞作為此時(shí)間步的輸出就是最終的輸出啦！

假設(shè)詞匯表維度是6，那么輸出最大概率詞匯的過(guò)程如下：

以上就是Transformer的框架了，但是還有最后一個(gè)問(wèn)題，我們都知道RNN中的每個(gè)輸入是時(shí)序的，是又先后順序的，但是Transformer整個(gè)框架下來(lái)并沒(méi)有考慮順序信息，這就需要提到另一個(gè)概念了：“位置編碼”。

Transformer中確實(shí)沒(méi)有考慮順序信息，那怎么辦呢，我們可以在輸入中做手腳，把輸入變得有位置信息不就行了，那怎么把詞向量輸入變成攜帶位置信息的輸入呢？

我們可以給每個(gè)詞向量加上一個(gè)有順序特征的向量，發(fā)現(xiàn)sin和cos函數(shù)能夠很好的表達(dá)這種特征，所以通常位置向量用以下公式來(lái)表示：

六、Transformer，在AI領(lǐng)域能形成大統(tǒng)一理論嗎？

從以上技術(shù)可以看出：Transformer是通用深度學(xué)習(xí)模型。

它的適用性非常強(qiáng)，原因在于它的自注意力機(jī)制（self-attention mechanism），可以更好地處理序列數(shù)據(jù)。

那這里就要談一個(gè)更前沿的技術(shù)：跨模態(tài)。

也就是人工智能領(lǐng)域，能否創(chuàng)造一個(gè)可以處理語(yǔ)言、文字、圖片、視頻的大統(tǒng)一模型。

如果在物理世界，那就有點(diǎn)像愛(ài)因斯坦追求的“大統(tǒng)一理論”。

在跨模態(tài)應(yīng)用中，Transformer模型通常使用圖像和文本特征作為輸入信息。

? 使用自注意力機(jī)制來(lái)學(xué)習(xí)兩個(gè)模態(tài)之間的關(guān)系。

? 使用多模態(tài)自注意力機(jī)制（multi-modal self-attention）來(lái)處理多個(gè)模態(tài)之間的關(guān)系。

Transformer應(yīng)用于跨模態(tài)任務(wù)的效果非常好，在跨模態(tài)上取得成功的幾個(gè)例子：

CLIP：CLIP是一種使用Transformer的聯(lián)合訓(xùn)練框架，同時(shí)使用圖像和文本來(lái)預(yù)訓(xùn)練模型。該模型能夠?qū)⒆匀徽Z(yǔ)言描述和圖像聯(lián)系起來(lái)，在多個(gè)視覺(jué)推理任務(wù)上取得了非常出色的表現(xiàn)。

DALL-E：DALL-E是OpenAI發(fā)布的一個(gè)模型，該模型通過(guò)預(yù)訓(xùn)練得到了非常強(qiáng)大的生成能力，在生成包括飛行的大象、色彩斑斕的沙漏等具有挑戰(zhàn)性的圖像時(shí)表現(xiàn)出色。

通過(guò)DALL-E生成的圖像

AI繪畫(huà)的老玩家一定知道這兩個(gè)產(chǎn)品。

Transformer在各個(gè)方向上齊頭并進(jìn)，形成了龐大的Transformer家族。

那么，Transformer會(huì)在AI領(lǐng)域能形成大統(tǒng)一理論嗎？

現(xiàn)在得出這樣的結(jié)論為時(shí)過(guò)早，AI領(lǐng)域應(yīng)用非常復(fù)雜，需要結(jié)合各種技術(shù)和算法才能解決，期待單一的模型解決所有問(wèn)題，有點(diǎn)難。

但人類對(duì)于AGI的期待，又是實(shí)實(shí)在在的。

七、記住那些無(wú)名的技術(shù)英雄

Transformer如此強(qiáng)大，仍然沒(méi)有幾個(gè)人知道。就算是背后站著谷歌這樣的巨人，同樣被大眾忽略。

此時(shí)光芒四射的ChatGPT，連太陽(yáng)的光輝都能夠遮蓋。可實(shí)際上，沒(méi)有Transformer的開(kāi)源，就沒(méi)有ChatGPT。

從技術(shù)譜系上來(lái)看，ChatGPT只是Transformer家族中的一員。其它譜系的成員，同樣表現(xiàn)優(yōu)秀且杰出。

如果一定要說(shuō)未來(lái)誰(shuí)能引領(lǐng)人工智能世界，我更相信是Transformer而非ChatGPT。

這里引出來(lái)另一個(gè)問(wèn)題，我們不能只看到成功的山姆·阿爾特曼（Sam Altman），還要看到ChatGPT后面更多的技術(shù)英雄。例如：

Ashish Vaswani等人：提出自注意力機(jī)制Transformer模型；

Bradly C. Stadie等人：提出RLHF這種人類反饋機(jī)制；

Ilya Sutskever， Oriol Vinyals等人：提出Seq2Seq模型；

EleutherAI團(tuán)隊(duì)：創(chuàng)建GPT-Neo模型的社區(qū)項(xiàng)目，是GPT-3的一個(gè)分支。

Hugging Face團(tuán)隊(duì)：開(kāi)發(fā)了PyTorch和TensorFlow庫(kù)。

Brown等人：在GPT-3論文中提出了新穎的訓(xùn)練策略。

圖/amatriain.net

這樣的人還有很多，也許他們只是充滿著理想主義的科學(xué)家、工程師、數(shù)學(xué)家和程序員，他們?cè)谏虡I(yè)上毫無(wú)追求，也不是最后的名利收割者。

但是，我們需要記住這些人。

當(dāng)我看著Transformer那張經(jīng)典的技術(shù)原理圖時(shí)，莫名會(huì)有一種心悸，甚至百感交集，這里面容納了上千上萬(wàn)智者的心血啊。真的美，又真的讓人痛。對(duì)知識(shí)的追求，千折百回，這是我們?nèi)祟愖钪档抿湴恋钠焚|(zhì)吧。

當(dāng)你看到Transformer的原理圖時(shí)，你會(huì)感動(dòng)嗎？

本文來(lái)自微信公眾號(hào)：量子學(xué)派（ID：quantumschool），作者：十七進(jìn)制

關(guān)鍵詞： transformer self-attention

延伸閱讀:

版權(quán)聲明：
凡注明來(lái)網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來(lái)源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來(lái)源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考并自行核實(shí)。

熱文