此「錯」并非真的錯:從四篇經(jīng)典論文入手,理解 Transformer 架構(gòu)圖「錯」在何處 環(huán)球時訊
選自 Ahead of AI
作者:Sebastian Raschka
(資料圖片)
機器之心編譯
編輯:馬梓文
從四篇論文入手,Sebastian 再談 Transformer 架構(gòu)圖。
前段時間,一條指出谷歌大腦團隊論文《Attention Is All You Need》中 Transformer 構(gòu)架圖與代碼不一致的推文引發(fā)了大量的討論。
對于 Sebastian 的這一發(fā)現(xiàn),有人認為屬于無心之過,但同時也會令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個不一致問題早就應(yīng)該被提及 1000 次。
Sebastian Raschka 在回答網(wǎng)友評論時說,「最最原始」的代碼確實與架構(gòu)圖一致,但 2017 年提交的代碼版本進行了修改,但同時沒有更新架構(gòu)圖。這也是造成「不一致」討論的根本原因。
隨后,Sebastian 在 Ahead of AI 發(fā)布文章專門講述了為什么最初的 Transformer 構(gòu)架圖與代碼不一致,并引用了多篇論文簡要說明了 Transformer 的發(fā)展變化。
以下為文章原文,讓我們一起看看文章到底講述了什么:幾個月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,積極的反饋非常鼓舞人心!因此,我添加了一些論文,以保持列表的新鮮感和相關(guān)性。
同時,保持列表簡明扼要是至關(guān)重要的,這樣大家就可以用合理的時間就跟上進度。還有一些論文,信息量很大,想來也應(yīng)該包括在內(nèi)。
我想分享四篇有用的論文,從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中,但我也在這篇文章中單獨來分享它們,以便那些之前已經(jīng)閱讀過理解大型語言模型的人更容易找到它們。
On Layer Normalization in the Transformer Architecture ( 2020 )
雖然下圖(左)的 Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對原始編碼器 - 解碼器架構(gòu)的有用總結(jié),但該圖有一個小小的差異。例如,它在殘差塊之間進行了層歸一化,這與原始 Transformer 論文附帶的官方 ( 更新后的) 代碼實現(xiàn)不匹配。下圖(中)所示的變體被稱為 Post-LN Transformer。
Transformer 架構(gòu)論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構(gòu)在實踐中采用了這種方法,但它可能導(dǎo)致表征的崩潰。
因此,雖然仍然有關(guān)于使用 Post-LN 或前 Pre-LN 的討論,也有一篇新論文提出了將兩個一起應(yīng)用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實踐中是否有用還有待觀察。
圖注:圖源 https://arxiv.org/abs/1706.03762 ( 左 & 中 ) and https://arxiv.org/abs/2002.04745 ( 右)Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks ( 1991 )
這篇文章推薦給那些對歷史花絮和早期方法感興趣的人,這些方法基本上類似于現(xiàn)代 Transformer。
例如,在比 Transformer 論文早 25 年的 1991 年,Juergen Schmidhuber 提出了一種遞歸神經(jīng)網(wǎng)絡(luò)的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為 Fast Weight Programmers ( FWP ) 。FWP 方法涉及一個前饋神經(jīng)網(wǎng)絡(luò),它通過梯度下降緩慢學習,來編程另一個神經(jīng)網(wǎng)絡(luò)的快速權(quán)值的變化。
這篇博客 ( https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2 ) 將其與現(xiàn)代 Transformer 進行類比,如下所示 :
在今天的 Transformer 術(shù)語中,F(xiàn)ROM 和 TO 分別稱為鍵 ( key ) 和值 ( value ) 。應(yīng)用快速網(wǎng)絡(luò)的輸入稱為查詢。本質(zhì)上,查詢由快速權(quán)重矩陣 ( fast weight matrix ) 處理,它是鍵和值的外積之和 ( 忽略歸一化和投影 ) 。由于兩個網(wǎng)絡(luò)的所有操作都是可微的,我們通過加法外積或二階張量積獲得了端到端可微主動控制的權(quán)值快速變化。因此,慢速網(wǎng)絡(luò)可以通過梯度下降學習,在序列處理期間快速修改快速網(wǎng)絡(luò)。這在數(shù)學上等同于 ( 除了歸一化之外 ) 后來被稱為具有線性化自注意的 Transformer ( 或線性 Transformer ) 。
正如上文摘錄所提到的,這種方法現(xiàn)在被稱為線性 Transformer 或具有線性化自注意的 Transformer。它們來自于 2020 年出現(xiàn)在 arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv.org/abs/2009.14794)。
2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自注意力和 20 世紀 90 年代的快速權(quán)重編程器之間的等價性。
圖源:https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2Universal Language Model Fine-tuning for Text Classification ( 2018 )
這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發(fā)布一年后寫的,并沒有涉及 transformer,而是專注于循環(huán)神經(jīng)網(wǎng)絡(luò),但它仍然值得關(guān)注。因為它有效地提出了預(yù)訓(xùn)練語言模型和遷移學習的下游任務(wù)。雖然遷移學習已經(jīng)在計算機視覺中確立,但在自然語言處理 ( NLP ) 領(lǐng)域還沒有普及。ULMFit(https://arxiv.org/abs/1801.06146)是首批表明預(yù)訓(xùn)練語言模型在特定任務(wù)上對其進行微調(diào)后,可以在許多 NLP 任務(wù)中產(chǎn)生 SOTA 結(jié)果的論文之一。
ULMFit 建議的語言模型微調(diào)過程分為三個階段 :
1. 在大量的文本語料庫上訓(xùn)練語言模型;
2. 根據(jù)任務(wù)特定的數(shù)據(jù)對預(yù)訓(xùn)練的語言模型進行微調(diào),使其能夠適應(yīng)文本的特定風格和詞匯;
3. 微調(diào)特定任務(wù)數(shù)據(jù)上的分類器,通過逐步解凍各層來避免災(zāi)難性遺忘。
在大型語料庫上訓(xùn)練語言模型,然后在下游任務(wù)上對其進行微調(diào)的這種方法,是基于 Transformer 的模型和基礎(chǔ)模型 ( 如 BERT、GPT-2/3/4、RoBERTa 等 ) 使用的核心方法。
然而,作為 ULMFiT 的關(guān)鍵部分,逐步解凍通常在實踐中不進行,因為 Transformer 架構(gòu)通常一次性對所有層進行微調(diào)。
Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來理解 LLM 訓(xùn)練。研究人員在 3000 億個 token 上訓(xùn)練了一個 80 層的 2800 億參數(shù)模型。其中包括一些有趣的架構(gòu)修改,比如使用 RMSNorm ( 均方根歸一化 ) 而不是 LayerNorm ( 層歸一化 ) 。LayerNorm 和 RMSNorm 都優(yōu)于 BatchNorm,因為它們不局限于批處理大小,也不需要同步,這在批大小較小的分布式設(shè)置中是一個優(yōu)勢。RMSNorm 通常被認為在更深的體系架構(gòu)中會穩(wěn)定訓(xùn)練。除了上面這些有趣的花絮之外,本文的主要重點是分析不同規(guī)模下的任務(wù)性能分析。對 152 個不同任務(wù)的評估顯示,增加模型大小對理解、事實核查和識別有毒語言等任務(wù)最有利,而架構(gòu)擴展對與邏輯和數(shù)學推理相關(guān)的任務(wù)從益處不大。
圖注:圖源 https://arxiv.org/abs/2112.11446原文鏈接:https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure
THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com
責任編輯:hnmd003
相關(guān)閱讀
-
此「錯」并非真的錯:從四篇經(jīng)典論文入手,理解 Transformer 架構(gòu)圖「錯」在何處 環(huán)球時訊
選自AheadofAI作者:SebastianRaschka機器之心編譯編輯:馬梓文從四篇
2023-06-13 -
速遞!一圖解碼:安凱微開啟申購 ? 深耕芯片設(shè)計領(lǐng)域 ? 估值逾 190 倍
6月13日,安凱微(688620 SH)開啟申購,發(fā)行價達10 68元 股,發(fā)行市盈率
2023-06-13 -
金坤稀土永磁磁鐵助力三星 Galaxy Z Fold3 折疊屏手機實現(xiàn)穩(wěn)定固定和任意角度旋停
磁鐵是一種可以吸引金屬的磁石,在我們的日常生活中多用于吸附固定,另
2023-06-13
相關(guān)閱讀
-
此「錯」并非真的錯:從四篇經(jīng)典論文入手,理解 Transformer 架構(gòu)圖「錯」在何處 環(huán)球時訊
選自AheadofAI作者:SebastianRaschka機器之心編譯編輯:馬梓文從四篇
-
網(wǎng)上查車輛違章記錄的方式是什么?道路交通安全違法行為處理程序規(guī)定第十九條是什么?
在網(wǎng)上查到車輛違章的記錄的方法:進入瀏覽器搜索車輛違章記錄查詢,打開相應(yīng)網(wǎng)頁后,點擊查找違章查詢...
-
全球今亮點!代理數(shù)字人年入百萬?真商機還是「割韭菜」
「核心提示」可無限復(fù)制的數(shù)字人,能給直播間構(gòu)筑護城河嗎?數(shù)字人直播
-
速遞!一圖解碼:安凱微開啟申購 ? 深耕芯片設(shè)計領(lǐng)域 ? 估值逾 190 倍
6月13日,安凱微(688620 SH)開啟申購,發(fā)行價達10 68元 股,發(fā)行市盈率
-
金坤稀土永磁磁鐵助力三星 Galaxy Z Fold3 折疊屏手機實現(xiàn)穩(wěn)定固定和任意角度旋停
磁鐵是一種可以吸引金屬的磁石,在我們的日常生活中多用于吸附固定,另
-
創(chuàng)新引領(lǐng)未來,安保迪 HID 榮獲兩項行業(yè)大獎
深耕行業(yè)多年,安保迪HID與時俱進、銳意創(chuàng)新。在此,十分榮幸地與您分
-
Neuralink 估值 355 億,腦機接口沒有第二個“馬斯克” 環(huán)球快看點
(圖片來源:mixed-news)腦機接口技術(shù)又重新火爆了起來。埃隆·馬斯克
-
買房送奔馳 中介轉(zhuǎn)詐騙!韓國房地產(chǎn)市場愈發(fā)猙獰|短訊
財聯(lián)社6月13日訊(編輯馬蘭)全球房地產(chǎn)市場都在經(jīng)歷震蕩調(diào)整,而其中
-
美國 CPI 將迎歷史性回落?今晚請收好通往美聯(lián)儲議息夜的“門票”!|每日簡訊
財聯(lián)社6月13日訊(編輯瀟湘)盡管美聯(lián)儲今日起就將正式拉開為期兩天的
-
快看點丨美 ONE 批量制造“李佳琦”
圖片來源@視覺中國文|天下網(wǎng)商,作者|楊潔,編輯|黃天然我是李佳琦,你
-
看熱訊:懷疑被偷拍的川大女生,犯了什么法
這類案件中,女性的維權(quán)成本確實比較高,需要更全面、更有智慧地考慮問
-
設(shè)立有限責任公司應(yīng)當具備哪些條件?注冊公司的步驟是什么?
注冊公司的步驟如下:1、確定公司的形式是有限責任公司還是股份有限公司;2、確定公司的營業(yè)場所;3、撰寫...
-
新公司注冊流程及步驟是什么?新公司注冊流程是什么?
新公司注冊流程是:1、先向公司登記機關(guān)申請名稱預(yù)先核準;2、全體股東指定的代表或者共同委托的代理人向...
-
工傷保險條例第二十三條是什么內(nèi)容?申請勞動能力鑒定的流程是什么?
工傷認定下來以后那么就應(yīng)該申請勞動能力鑒定,可以由用人單位、員工本人或者近親屬向勞動能力鑒定委員...
-
社保怎么辦理?辦社??ǖ牧鞒淌窃趺礃拥模?/a>
辦社??ǖ牧鞒蹋河萌藛挝辉谏鐣U暇W(wǎng)上申報系統(tǒng)或社會保險經(jīng)辦機構(gòu)業(yè)務(wù)窗口核對信息;在職人員通過用人...
-
“建”證真實力:山西榆次建投·文華公館再領(lǐng)一城熱度
央廣網(wǎng)北京6月13日消息山西榆次建投·文華公館自開盤以來,備受市場歡
-
中華人民共和國勞動合同法第十七條是什么?勞動合同應(yīng)當具備哪些條款?
勞務(wù)合同必須具備以下條款才有效:1 用人單位相關(guān)信息;2 勞動者的身份信息;3 勞動合同期限;4 工作內(nèi)...
-
icp經(jīng)營許可辦理流程是什么?icp許可證的網(wǎng)上辦理流程是什么?
icp許可證的辦理流程如下:1、先登錄官網(wǎng)進行網(wǎng)上申請增值電信業(yè)務(wù)經(jīng)營許可證并說明類別;2、網(wǎng)上申請ICP...
-
申請專利的審核流程是怎么樣的?初步審查需要多長時間審核完畢?
專利審查流程如下:1、初步審查,自申請日起滿十八個月審查完畢;2、初步公告;3、實質(zhì)審查,自申請日起三...
-
湖南食品經(jīng)營許可證網(wǎng)上申請流程是什么?中華人民共和國食品安全法第三十五條內(nèi)容
湖南食品經(jīng)營許可證網(wǎng)上申請流程:打開湖南省食品藥品監(jiān)督管理局食品經(jīng)營許可管理系統(tǒng),提交申請材料,...
-
申請普通護照都需要哪些材料?辦理護照的流程是什么?
辦理護照的流程是:1、公民攜帶本人的居民身份證、戶口簿、近期免冠照片以及申請事由的相關(guān)材料;2、向公...
-
馬斯克pick的天才少年:14歲成SpaceX最年輕工程師,崗位年薪百萬,2歲啟蒙11歲上大學 要聞速遞
以及10-11歲這兩年,他還一直是他所在的社區(qū)大學的助教和STEM導(dǎo)師,并
-
外資公司注冊流程是怎么樣的?中華人民共和國外商投資法第三十一條內(nèi)容是什么?
外資企業(yè)設(shè)立流程:1、核準公司的名稱;2、申領(lǐng)外商投資企業(yè)批準證書;3、辦理工商注冊登記,領(lǐng)取營業(yè)執(zhí)照...
-
住房公積金管理條例第二十四條是什么內(nèi)容?職工符合哪些情形可以提取公積金?
提取北京市住房公積金的條件:1、職工需要購買、建造、翻建、大修自住住房的;2、職工正常離休、退休的;3...
-
營業(yè)執(zhí)照延期辦理流程是什么?中華人民共和國公司登記管理條例第二十九條內(nèi)容
營業(yè)執(zhí)照到期應(yīng)當提交申請書,營業(yè)執(zhí)照的正本以及副本等相關(guān)資料。根據(jù)相關(guān)法律規(guī)定,公司的營業(yè)執(zhí)照的...
-
當前快訊:泰康尊享一生年金保險f款可靠嗎?保障哪些方面?
可靠。泰康尊享一生年金保險f款是一款具有以下幾個特點的保險產(chǎn)品:長
-
泰康尊悅?cè)松杲鸨kU產(chǎn)品計劃可靠嗎?有什么保障?
可靠。泰康尊悅?cè)松杲鸨kU由泰康人壽保險股份有限公司提供,并已獲得
-
富德生命理財三號年金保險萬能型可靠嗎?好處有哪些? 環(huán)球看點
可靠。富德生命理財三號年金保險萬能型是由富德生命人壽推出的一款長期
-
支付寶福滿e生年金保險怎么樣?保障是什么?
還不錯。從承保公司來看,福滿e生年金保險由太平人壽保險股份有限公司
-
泰康財富人生c款終身年金保險條款有哪些?優(yōu)點是什么?
投保要求:這款年金保險適用于出生滿30天到55周歲的健康人群,只需要通
精彩推薦
閱讀排行
精彩推送
- 當前速讀:微軟游戲業(yè)務(wù)主管:為...
- 今日熱議:錦江電子科創(chuàng)板遞交申...
- Powered by AI
- 新款 15 英寸 MacBook Air 首發(fā)體驗新款
- 越鬧越僵 這回歐盟打算起訴谷歌...
- 環(huán)球最資訊丨亞馬遜在中國推出其...
- 英國投資 1 億英鎊,成立 AI...
- 2023年廣州黃埔區(qū)單位整租公租房...
- 全球微頭條丨信泰如意永享的養(yǎng)老...
- 世界資訊:信泰如意鑫享養(yǎng)老年金...
- 中郵年年好郵保一生c款年金保險...
- 環(huán)球新消息丨泰康永福人生年金保...
- 每日熱議!人壽國壽鑫尊寶年金保...
- 抖音旗下幸福里負責人王瀟已前往...
- 國道之行 從雪山奔向大海丨珠峰...
- 輔助生殖將正式進醫(yī)保
- 熱點聚焦:嫦娥六號將搭載歐方、...
- 華為開發(fā)者大會定檔 8 月 4 ...
- 速訊:紅米機皇?Redmi K60 Ul...
- Win32k 特權(quán)提升漏洞 PoC 公布
- 端午假期去香港?那你這篇文章你...
- 央行公開市場操作利率下降 10 ...
- 環(huán)球時訊:隔夜國際油價大跌拖累...
- FED 目標是錯的!諾獎得主:美...
- 互聯(lián)網(wǎng)泡沫破滅不會重演!知名投...
- 深圳網(wǎng)紅盤海德園第三次“日光”...
- 遷安生活垃圾焚燒發(fā)電項目SCR脫...
- 小狀元年金險哪里買?有什么不足...
- 天天時訊:渤海人壽i寶貝教育金...
- 渤海人壽i寶貝怎么樣?購買渠道...