首頁 > 新聞 > 智能 > 正文

此「錯」并非真的錯：從四篇經(jīng)典論文入手，理解 Transformer 架構(gòu)圖「錯」在何處環(huán)球時訊

2023-06-13 14:22:38來源：ZAKER科技

選自 Ahead of AI

作者：Sebastian Raschka

(資料圖片)

機器之心編譯

編輯：馬梓文

從四篇論文入手，Sebastian 再談 Transformer 架構(gòu)圖。

前段時間，一條指出谷歌大腦團隊論文《Attention Is All You Need》中 Transformer 構(gòu)架圖與代碼不一致的推文引發(fā)了大量的討論。

對于 Sebastian 的這一發(fā)現(xiàn)，有人認為屬于無心之過，但同時也會令人感到奇怪。畢竟，考慮到 Transformer 論文的流行程度，這個不一致問題早就應(yīng)該被提及 1000 次。

Sebastian Raschka 在回答網(wǎng)友評論時說，「最最原始」的代碼確實與架構(gòu)圖一致，但 2017 年提交的代碼版本進行了修改，但同時沒有更新架構(gòu)圖。這也是造成「不一致」討論的根本原因。

隨后，Sebastian 在 Ahead of AI 發(fā)布文章專門講述了為什么最初的 Transformer 構(gòu)架圖與代碼不一致，并引用了多篇論文簡要說明了 Transformer 的發(fā)展變化。

以下為文章原文，讓我們一起看看文章到底講述了什么：

幾個月前，我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》，積極的反饋非常鼓舞人心！因此，我添加了一些論文，以保持列表的新鮮感和相關(guān)性。

同時，保持列表簡明扼要是至關(guān)重要的，這樣大家就可以用合理的時間就跟上進度。還有一些論文，信息量很大，想來也應(yīng)該包括在內(nèi)。

我想分享四篇有用的論文，從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中，但我也在這篇文章中單獨來分享它們，以便那些之前已經(jīng)閱讀過理解大型語言模型的人更容易找到它們。

On Layer Normalization in the Transformer Architecture ( 2020 )

雖然下圖（左）的 Transformer 原始圖（https://arxiv.org/abs/1706.03762）是對原始編碼器 - 解碼器架構(gòu)的有用總結(jié)，但該圖有一個小小的差異。例如，它在殘差塊之間進行了層歸一化，這與原始 Transformer 論文附帶的官方 ( 更新后的）代碼實現(xiàn)不匹配。下圖（中）所示的變體被稱為 Post-LN Transformer。

Transformer 架構(gòu)論文中的層歸一化表明，Pre-LN 工作得更好，可以解決梯度問題，如下所示。許多體系架構(gòu)在實踐中采用了這種方法，但它可能導(dǎo)致表征的崩潰。

因此，雖然仍然有關(guān)于使用 Post-LN 或前 Pre-LN 的討論，也有一篇新論文提出了將兩個一起應(yīng)用：《 ResiDual: Transformer with Dual Residual Connections》（https://arxiv.org/abs/2304.14802），但它在實踐中是否有用還有待觀察。

圖注：圖源 https://arxiv.org/abs/1706.03762 ( 左 & 中 ) and https://arxiv.org/abs/2002.04745 ( 右）

Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks ( 1991 )

這篇文章推薦給那些對歷史花絮和早期方法感興趣的人，這些方法基本上類似于現(xiàn)代 Transformer。

例如，在比 Transformer 論文早 25 年的 1991 年，Juergen Schmidhuber 提出了一種遞歸神經(jīng)網(wǎng)絡(luò)的替代方案（https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922），稱為 Fast Weight Programmers ( FWP ) 。FWP 方法涉及一個前饋神經(jīng)網(wǎng)絡(luò)，它通過梯度下降緩慢學習，來編程另一個神經(jīng)網(wǎng)絡(luò)的快速權(quán)值的變化。

這篇博客 ( https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2 ) 將其與現(xiàn)代 Transformer 進行類比，如下所示 :

在今天的 Transformer 術(shù)語中，F(xiàn)ROM 和 TO 分別稱為鍵 ( key ) 和值 ( value ) 。應(yīng)用快速網(wǎng)絡(luò)的輸入稱為查詢。本質(zhì)上，查詢由快速權(quán)重矩陣 ( fast weight matrix ) 處理，它是鍵和值的外積之和 ( 忽略歸一化和投影 ) 。由于兩個網(wǎng)絡(luò)的所有操作都是可微的，我們通過加法外積或二階張量積獲得了端到端可微主動控制的權(quán)值快速變化。因此，慢速網(wǎng)絡(luò)可以通過梯度下降學習，在序列處理期間快速修改快速網(wǎng)絡(luò)。這在數(shù)學上等同于 ( 除了歸一化之外 ) 后來被稱為具有線性化自注意的 Transformer ( 或線性 Transformer ) 。

正如上文摘錄所提到的，這種方法現(xiàn)在被稱為線性 Transformer 或具有線性化自注意的 Transformer。它們來自于 2020 年出現(xiàn)在 arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》（https://arxiv.org/abs/2006.16236）以及《Rethinking Attention with Performers》（https://arxiv.org/abs/2009.14794）。

2021 年，論文《Linear Transformers Are Secretly Fast Weight Programmers》（https://arxiv.org/abs/2102.11174）明確表明了線性化自注意力和 20 世紀 90 年代的快速權(quán)重編程器之間的等價性。

圖源：https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

Universal Language Model Fine-tuning for Text Classification ( 2018 )

這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發(fā)布一年后寫的，并沒有涉及 transformer，而是專注于循環(huán)神經(jīng)網(wǎng)絡(luò)，但它仍然值得關(guān)注。因為它有效地提出了預(yù)訓(xùn)練語言模型和遷移學習的下游任務(wù)。雖然遷移學習已經(jīng)在計算機視覺中確立，但在自然語言處理 ( NLP ) 領(lǐng)域還沒有普及。ULMFit（https://arxiv.org/abs/1801.06146）是首批表明預(yù)訓(xùn)練語言模型在特定任務(wù)上對其進行微調(diào)后，可以在許多 NLP 任務(wù)中產(chǎn)生 SOTA 結(jié)果的論文之一。

ULMFit 建議的語言模型微調(diào)過程分為三個階段 :

1. 在大量的文本語料庫上訓(xùn)練語言模型；

2. 根據(jù)任務(wù)特定的數(shù)據(jù)對預(yù)訓(xùn)練的語言模型進行微調(diào)，使其能夠適應(yīng)文本的特定風格和詞匯；

3. 微調(diào)特定任務(wù)數(shù)據(jù)上的分類器，通過逐步解凍各層來避免災(zāi)難性遺忘。

在大型語料庫上訓(xùn)練語言模型，然后在下游任務(wù)上對其進行微調(diào)的這種方法，是基于 Transformer 的模型和基礎(chǔ)模型 ( 如 BERT、GPT-2/3/4、RoBERTa 等 ) 使用的核心方法。

然而，作為 ULMFiT 的關(guān)鍵部分，逐步解凍通常在實踐中不進行，因為 Transformer 架構(gòu)通常一次性對所有層進行微調(diào)。

Gopher 是一篇特別好的論文（https://arxiv.org/abs/2112.11446），包括大量的分析來理解 LLM 訓(xùn)練。研究人員在 3000 億個 token 上訓(xùn)練了一個 80 層的 2800 億參數(shù)模型。其中包括一些有趣的架構(gòu)修改，比如使用 RMSNorm ( 均方根歸一化 ) 而不是 LayerNorm ( 層歸一化 ) 。LayerNorm 和 RMSNorm 都優(yōu)于 BatchNorm，因為它們不局限于批處理大小，也不需要同步，這在批大小較小的分布式設(shè)置中是一個優(yōu)勢。RMSNorm 通常被認為在更深的體系架構(gòu)中會穩(wěn)定訓(xùn)練。

除了上面這些有趣的花絮之外，本文的主要重點是分析不同規(guī)模下的任務(wù)性能分析。對 152 個不同任務(wù)的評估顯示，增加模型大小對理解、事實核查和識別有毒語言等任務(wù)最有利，而架構(gòu)擴展對與邏輯和數(shù)學推理相關(guān)的任務(wù)從益處不大。

圖注：圖源 https://arxiv.org/abs/2112.11446

原文鏈接：https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

關(guān)鍵詞：

責任編輯：hnmd003