網絡消費網 >  科技 > > 正文
        【天天時快訊】60行代碼就能構建GPT!網友:比之前的教程都要清晰
        時間:2023-02-19 13:08:10

        Pine 發自 凹非寺

        量子位 | 公眾號 QbitAI

        現在只用60行代碼,就能從0構建GPT了!


        (資料圖片僅供參考)

        想當初,前特斯拉前AI總監的minGPT和nanoGPT也都還要300行代碼。

        這個60行代碼的GPT也有名字,博主將它命名為PicoGPT

        不過和此前minGPT和nanoGPT的教程不同,今天要講的這個博主的教程,更側重于代碼實現部分,模型的權重則用已經訓練好的。

        對此,博主解釋稱這篇教程的重點在于提供一個簡單且易于破解的完整技術介紹

        這對還不理解GPT背后概念的盆友,算是非常友好了。

        還有網友稱贊,這篇博客介紹得非常清晰,第一部分尤為如此。

        這篇介紹GPT模型的文章太好了,它比我之前看到的介紹都要清晰,至少在第一部分討論文本生成和取樣是這樣的。

        目前,此項目在GitHub上標星已破百,HackerNews上的點擊量也即將破千。

        從GPT是什么講起

        在介紹之前,還是需要說明一下,這篇教程不是完全零門檻,需要讀者提前熟悉Python、NumPy以及一些基本的訓練神經網絡。

        教程的重點聚焦在技術介紹上,統共有六大部分:

        什么是GPT?

        按照慣例,在正式構建GPT之前得先對它做一些基本介紹,教程從輸入/輸出、生成文本以及訓練三個部分分別來講GPT是如何工作的。

        在這趴,博主附上代碼,甚至還用了一些比喻來讓讀者們更好地理解GPT。

        舉個栗子

        ,在輸入這一部分,作者將句子比作一條繩子,tokenizer則會將其分割成一小段一小段(單詞),被稱作token。

        又比如說,在生成文本這part介紹自動回歸時,博主直接貼上代碼:

        def generate(inputs, n_tokens_to_generate):

        for _ in range(n_tokens_to_generate): # auto-regressive decode loop

        output = gpt(inputs) # model forward pass

        next_id = np.argmax(output[-1]) # greedy sampling

        inputs = np.append(out, [next_id]) # append prediction to input

        return list(inputs[len(inputs) - n_tokens_to_generate :]) # only return generated ids

        input_ids = [1, 0] # "not" "all"

        output_ids = generate(input_ids, 3) # output_ids = [2, 4, 6]

        output_tokens = [vocab[i] for i in output_ids] # "heroes" "wear" "capes"

        在每次迭代中,它會將預測的token追加回輸入,這個預測未來值并將其添加回輸入的過程就是GPT被描述為自動回歸的原因。

        60行代碼怎么運行?

        了解完GPT的基本概念之后,就直接快進到了如何在電腦上運行這個PicoGPT。

        博主先是甩出了他那只有60行的代碼:

        import numpy as np

        def gpt2(inputs, wte, wpe, blocks, ln_f, n_head):

        pass # TODO: implement this

        def generate(inputs, params, n_head, n_tokens_to_generate):

        from tqdm import tqdm

        for _ in tqdm(range(n_tokens_to_generate), "generating"): # auto-regressive decode loop

        logits = gpt2(inputs, **params, n_head=n_head) # model forward pass

        next_id = np.argmax(logits[-1]) # greedy sampling

        inputs = np.append(inputs, [next_id]) # append prediction to input

        return list(inputs[len(inputs) - n_tokens_to_generate :]) # only return generated ids

        def main(prompt: str, n_tokens_to_generate: int = 40, model_size: str = "124M", models_dir: str = "models"):

        from utils import load_encoder_hparams_and_params

        # load encoder, hparams, and params from the released open-ai gpt-2 files

        encoder, hparams, params = load_encoder_hparams_and_params(model_size, models_dir)

        # encode the input string using the BPE tokenizer

        input_ids = encoder.encode(prompt)

        # make sure we are not surpassing the max sequence length of our model

        assert len(input_ids) + n_tokens_to_generate < hparams["n_ctx"]

        # generate output ids

        output_ids = generate(input_ids, params, hparams["n_head"], n_tokens_to_generate)

        # decode the ids back into a string

        output_text = encoder.decode(output_ids)

        return output_text

        if name == "__main__":

        import fire

        fire.Fire(main)

        然后從克隆存儲庫,安裝依賴項等步驟一步步教你如何在電腦上運行GPT。

        其中,還不乏一些貼心的小tips,比如說如果使用的是M1 Macbook,那在運行pip install之前,需要將requments.txt中的tensorflow更改為tensorflow-macos。

        此外,對于代碼的四個部分:gpt2,generate,main以及fire.Fire(main),博主也有做詳細解釋。

        等到代碼能夠運行之后,下一步博主就準備詳細介紹編碼器、超參數(hparams)以及參數(params)這三部分了。

        直接在筆記本或者Python會話中運行下面這個代碼:

        from utils import load_encoder_hparams_and_params

        encoder, hparams, params = load_encoder_hparams_and_params("124M", "models")

        Bingo!一些必要的模型和tokenizer文件就直接下載到model/124M,編碼器、hparams和params也能直接加載。

        更具體的內容這里就不多說了,教程的鏈接已經附在文末。

        一些基礎神經網絡層的介紹

        這一趴涉及到的知識就更加基礎了,因為下一趴是實際GPT自身的架構,所以在此之前,需要了解一些非特定于GPT的更基本的神經網絡層

        博主介紹了GeLU、Softmax函數以及Layer Normalization和Linear。

        GPT架構

        終于!這部分要來講GPT自身的架構了,博主從transformer的架構引入。

        △transformer架構

        GPT的架構只使用了transformer中的解碼器堆棧(即圖表的右邊部分),并且其中的的“交叉注意”層也沒有用到。

        △GPT架構

        隨后,博主將GPT的架構總結成了三大部分:

        文本 + 位置嵌入

        變壓器解碼器堆棧

        下一個token預測頭

        并且還將這三部分用代碼展示了出來,是醬紫的:

        def gpt2(inputs, wte, wpe, blocks, ln_f, n_head): # [n_seq] -> [n_seq, n_vocab]

        # token + positional embeddings

        x = wte[inputs] + wpe[range(len(inputs))] # [n_seq] -> [n_seq, n_embd]

        # forward pass through n_layer transformer blocks

        for block in blocks:

        x = transformer_block(x, block, n_head=n_head) # [n_seq, n_embd] -> [n_seq, n_embd]

        # projection to vocab

        x = layer_norm(x, ln_f) # [n_seq, n_embd] -> [n_seq, n_embd]

        return x @ wte.T # [n_seq, n_embd] -> [n_seq, n_vocab]

        再后面,就是關于這三部分的更多細節……

        測試構建的GPT

        這部分將全部的代碼組合在一起,就得到了gpt2.py,統共有120行代碼,刪除注釋和空格的話,就是60行。

        然后測試一下!

        python gpt2.py \

        "Alan Turing theorized that computers would one day become" \

        --n_tokens_to_generate 8

        結果是這樣的:

        the most powerful machines on the planet.

        成功了!

        一些后續補充

        最后一部分,博主也總結了這短短60行代碼的不足:非常低效!

        不過他還是給出了兩個可以讓GPT變高效的方法:

        同時地而不是順序地執行注意力計算。

        實現 KV 緩存。

        此外,博主還推薦了一些訓練模型、評估模型以及改進架構的方法和教程。

        關鍵詞: inputs params

        版權聲明:
            凡注明來網絡消費網的作品,版權均屬網絡消費網所有,未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明"來源:網絡消費網"。違反上述聲明者,本網將追究其相關法律責任。
            除來源署名為網絡消費網稿件外,其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考并自行核實。
        熱文

        網站首頁 |網站簡介 | 關于我們 | 廣告業務 | 投稿信箱
         

        Copyright © 2000-2020 www.fnsyft.com All Rights Reserved.
         

        中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
         

        聯系郵箱:920 891 263@qq.com

        備案號:京ICP備2022016840號-15

        營業執照公示信息

        亚洲人成网站影音先锋播放| 亚洲国产精品18久久久久久| 4444亚洲国产成人精品| 精品亚洲成A人无码成A在线观看 | 亚洲国产综合精品中文第一| 亚洲成年人啊啊aa在线观看| 久久亚洲精品成人无码网站 | 亚洲hairy多毛pics大全| 人人狠狠综合久久亚洲88| 亚洲真人无码永久在线观看| 亚洲欧洲一区二区| 亚洲AV永久青草无码精品| 亚洲GV天堂无码男同在线观看| 亚洲色无码专区一区| 亚洲美女一区二区三区| 亚洲中文字幕无码一区二区三区| 亚洲乱人伦中文字幕无码| 亚洲欧美日韩综合久久久| 亚洲精品国产第一综合99久久 | 亚洲AV无码专区电影在线观看| 国产亚洲综合一区柠檬导航| 亚洲成AV人片在线播放无码| 亚洲精品福利视频| 亚洲视频在线观看视频| 亚洲无限乱码一二三四区| 国产亚洲精品国产| 亚洲av无码国产精品夜色午夜| 西西人体44rt高清亚洲| 中文字幕在线亚洲精品| 国产亚洲精品国产福利在线观看| 亚洲中文字幕久久精品无码2021| 婷婷亚洲久悠悠色悠在线播放| 久久久国产精品亚洲一区| 亚洲va久久久噜噜噜久久天堂| 亚洲精品私拍国产福利在线| 亚洲成人黄色网址| 亚洲色偷偷色噜噜狠狠99网| 国产成人久久精品亚洲小说| 国产亚洲成归v人片在线观看| 亚洲熟女精品中文字幕| 精品亚洲av无码一区二区柚蜜|