基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學(xué)習(xí)揭秘|世界看熱訊
機器之心報道
編輯:馬梓文
本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內(nèi)部機制,以提高它們的可靠性和可解釋性。
(相關(guān)資料圖)
隨著大型語言模型(LLM)在使用和部署方面的不斷增加,打開黑箱并了解它們的內(nèi)部工作原理變得越來越重要。更好地理解這些模型是如何做出決策的,這對改進模型和減輕其故障(如幻覺或推理錯誤)至關(guān)重要。
眾所周知,最近 LLM 成功的一個重要因素是它們能夠從上下文中學(xué)習(xí)和推理。LLM 對這些上下文的學(xué)習(xí)能力通常歸功于 Transformer 架構(gòu),特別是自注意力塊的使用,其能夠仔細選擇輸入序列,進而推理出可信的下一個 token。此外,預(yù)測可能需要全局知識,如語法規(guī)則或一般事實,這些可能不會出現(xiàn)在上下文中,需要存儲在模型中。
我們不禁會疑問,為什么基于 Transformer 的模型非常擅長使用它們的上下文來預(yù)測新的 token,這種能力是如何在訓(xùn)練中產(chǎn)生的?帶著這些問題,來自 Meta AI 的研究者進行了深入的研究。他們通過研究合成設(shè)置下 Transformer 的學(xué)習(xí)機制,揭示了其全局和上下文學(xué)習(xí)的平衡,并將權(quán)重矩陣解釋為聯(lián)想記憶,為理解和優(yōu)化 Transformer 提供了基礎(chǔ)。
論文地址:https://arxiv.org/pdf/2306.00802.pdf首先要了解的是在訓(xùn)練過程中 Transformer 是如何發(fā)現(xiàn)這些能力的。為此,該研究引入了一個合成數(shù)據(jù)集,該數(shù)據(jù)集由二元語言模型生成的序列組成。然后,模型需要依靠上下文學(xué)習(xí)來對特定的二元序列進行良好的預(yù)測,而全局二元可以根據(jù)當前 token 的全局統(tǒng)計數(shù)據(jù)進行猜測。雖然單層的 Transformer 無法可靠地預(yù)測上下文二元,但該研究發(fā)現(xiàn)通過開發(fā)感應(yīng)頭(induction head)機制的雙層 Transformer 取得了成功,即擁有兩個注意力頭的 circuit,其允許 Transformer 從上下文 [ , a, b,, a ] 中預(yù)測 b,并且在 Transformer 語言模型中似乎無處不在。這種感應(yīng)頭(induction head)機制在 Transformer 語言模型中是普遍存在的,并且取得了成功。
更進一步的,為了更好的了解上下文機制是怎樣出現(xiàn)在訓(xùn)練過程中的,該研究在隨機初始化時凍結(jié)了一些層(包括嵌入和值矩陣)來進一步簡化模型架構(gòu)。這樣一來研究重點轉(zhuǎn)移到注意力和前饋機制,同時避免了學(xué)習(xí)表征的困難。與此同時,這種簡化還為單個權(quán)重矩陣引入了一個自然模型作為聯(lián)想記憶。自然模型可以通過它們的外積存儲輸入 - 輸出或鍵 - 值對嵌入。隨機高維嵌入由于其接近正交性而特別適合這種觀點。
總結(jié)而言,該研究的貢獻可概括為:
本文引入了一種新的合成設(shè)置來研究全局和上下文學(xué)習(xí):序列遵循二元語言模型,其中一些二元在序列中變化,而另一些不會。
本文將 Transformer 的權(quán)重矩陣視為學(xué)習(xí)存儲特定嵌入對的聯(lián)想記憶,并以此為任務(wù)推導(dǎo)出一個簡化但更可解釋的模型。
本文對訓(xùn)練動態(tài)進行了細致的實證研究:首先學(xué)習(xí)全局二元,然后以自上而下的方式學(xué)習(xí)適當?shù)挠洃洠纬筛袘?yīng)頭。
本文給出了訓(xùn)練動力學(xué)的理論見解,展示了如何通過在噪聲輸入中找到信號,在種群損失上進行一些自上而下的梯度步驟來恢復(fù)所需的聯(lián)想記憶。
方法介紹
接著該研究介紹了合成數(shù)據(jù)設(shè)置,這樣能夠仔細研究感應(yīng)頭機制在訓(xùn)練過程中的發(fā)展以及 Transformer 如何學(xué)習(xí)利用上下文信息的。
雙元數(shù)據(jù)模型:模型序列由一個通用的雙元語言模型(即馬爾可夫鏈)組成,每個序列的生成方式如下:
下圖 2 可視化了測試序列上的注意力圖,這表明該模型已經(jīng)學(xué)習(xí)了感應(yīng)頭機制。接著該研究介紹了 Transformer 聯(lián)想記憶觀點:因為幾乎正交的嵌入,權(quán)重矩陣表現(xiàn)為聯(lián)想記憶,將成對的嵌入存儲為其外積的加權(quán)和。研究引入了一個具有固定隨機嵌入的簡化 Transformer 模型,將用這種想法產(chǎn)生對學(xué)習(xí)動力學(xué)的精確理解。此外,該研究提出了一個有用的觀點,將 Transformer 中的模型權(quán)重視為高維嵌入向量的聯(lián)想記憶。感應(yīng)頭機制可以通過以下外積矩陣作為記憶來獲得,而其他所有權(quán)重則固定為隨機初始化狀態(tài):
實驗圖 3 研究了在迭代 300 次之前凍結(jié)不同層對訓(xùn)練動態(tài)的影響。
全局 vs 上下文學(xué)習(xí)。從圖 4(左 / 右)可以看出,當聯(lián)合訓(xùn)練所有層時,全局二元統(tǒng)計的學(xué)習(xí)速度往往比感應(yīng)頭更快,這可以從早期迭代中的 loss 和 KL 的快速下降中看出。此外,從圖 4(左)中看到,數(shù)據(jù)分布的變化會對上下文機制的學(xué)習(xí)速度產(chǎn)生重大影響。該研究觀察到以下情況可能會使上下文學(xué)習(xí)減慢: ( i ) 較少數(shù)量的觸發(fā)器 K, ( ii ) 僅使用少有的固定觸發(fā)器,以及 ( iii ) 使用隨機觸發(fā)器而不是固定觸發(fā)器。
該研究還在圖 4(中間)中顯示,在訓(xùn)練時將輸出 token 分布更改為二元分布會降低準確率,這表明,使用更多樣化的訓(xùn)練分布可以產(chǎn)生具有更好泛化準確率的模型,并且只需少量的額外訓(xùn)練成本。
更多研究內(nèi)容,請參考原論文。THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com
責(zé)任編輯:hnmd003
相關(guān)閱讀
-
基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學(xué)習(xí)揭秘|世界看熱訊
機器之心報道編輯:馬梓文本文旨在更好地理解基于Transformer的大型語
2023-06-22 -
ResponsibleTA 提升 LLM 可靠性,任務(wù)完成更安全、更高效 即時看
機器之心專欄機器之心編輯部AI智能助手照進現(xiàn)實。近幾個月,ChatGPT、G
2023-06-22
相關(guān)閱讀
-
基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學(xué)習(xí)揭秘|世界看熱訊
機器之心報道編輯:馬梓文本文旨在更好地理解基于Transformer的大型語
-
ResponsibleTA 提升 LLM 可靠性,任務(wù)完成更安全、更高效 即時看
機器之心專欄機器之心編輯部AI智能助手照進現(xiàn)實。近幾個月,ChatGPT、G
-
大地震下如何存活,蘋果三份 1986 年文檔公開(附下載地址)_即時看
IT之家6月22日消息,蘋果公司在主推iPhone和Mac的過程中,也制造了很多
-
信息:佳能即將發(fā)布 V100 相機,主打 vlog 市場?
根據(jù)網(wǎng)絡(luò)上的最新傳聞,佳能即將擴展其V系列視頻記錄相機。目前產(chǎn)品線
-
小長假第1天,A股迎來2個利好!節(jié)后的方向定了?|新動態(tài)
行情,沒有好壞,只有節(jié)奏,不要盯著大盤指數(shù)了,雖然我知道大多數(shù)人都
-
端午臨近 市場消費升溫
傳統(tǒng)習(xí)俗帶動端午花束熱賣,用艾草葉、玉簪葉、菖蒲葉等組成的裝飾花、
-
【世界新視野】氫穩(wěn)富氫水杯 H1 華為商城開啟眾測 快速科技制氫
【宅秘新聞】近日,氫穩(wěn)富氫水杯H1在華為商城開啟眾測活動,正式發(fā)售價
-
環(huán)球速訊:內(nèi)地買家攪動香港樓市,馮小剛離場凈賺 6000 萬港元,豪宅成交量大漲
本文來源:時代財經(jīng)作者:林心林內(nèi)地豪客再次攪動了香港樓市。圖片來源
-
全球今熱點:全國首部漸凍人康復(fù)系列片之《言語障礙康復(fù)》在崇川首發(fā)
交匯點訊6月16日下午,凝聚了崇川區(qū)幸福街道暖“凍”愛心聯(lián)盟所有成員
-
針對中國,一場“瘋狂騙局”在澳上演
在政府、右翼智庫、軍火工業(yè)和操縱公眾思維的媒體的共同壓制下,異見聲
-
iPhone SE 4 遙遙無期,平價 5G 蘋果手機或絕跡?_今熱點
巴克萊銀行分析師布萊恩柯蒂斯(BlayneCurtis)和湯姆奧馬利(TomO & 039;Malle
-
聚焦:白色手機消失了?安啦,數(shù)量不多,但還是有的
手機的配色越來越豐富,各種顏色和材質(zhì)的搭配讓手機變得更加個性化和時
-
諾蘭專訪:AI 不是原子彈,但將其捧上神壇最危險
這可能是英國著名導(dǎo)演克里斯托弗·諾蘭,發(fā)布新片最好的時機,沒有之一
-
河北格力旗艦店 618 盛大開業(yè) 充分展現(xiàn)了渠道改革下的市場活力-今日觀點
關(guān)注雷科技(leitech),這里有深扒爆料,這里有酷玩評測,還有良心家電I
-
天天新動態(tài):特斯拉的美國友商們?nèi)肴A,會被中國新勢力“卷”回老家嗎?
圖片來源@視覺中國文|電車通瘦田無人耕,耕開有人爭。繼本月初曝出美國
-
每日資訊:只買百萬醫(yī)療險有意義嗎?一年交多少錢?
有意義。雖然百萬醫(yī)療險在提供醫(yī)療保障方面具有一定的價值,夠買百萬醫(yī)
-
團體意外險怎么購買?多少錢?
購買團體意外險通常需要以下幾個步驟:選擇保險公司:首先,您需要選擇
-
扎克伯格不服馬斯克嘲諷,兩大科技領(lǐng)袖將上演籠斗大戲|消息
IT之家6月22日消息,在埃隆馬斯克最近在推特上發(fā)文說他愿意和扎克伯格
-
微軟確認 Xbox Series X 和 XGP 訂閱服務(wù)即將漲價
鈦媒體App6月22日消息,當?shù)貢r間周三,微軟全球傳播主管KariPerez在向
-
對話藍晶微生物:科學(xué)家建工廠,要做 game changer 就別無選擇
訪、文|凌梓郡衛(wèi)詩婕編輯|衛(wèi)詩婕江蘇鹽城濱海區(qū)矗立著高大的白色風(fēng)車
-
推特恢復(fù)向谷歌支付云服務(wù)費用 每日速訊
鈦媒體App6月22日消息,據(jù)市場消息,推特已經(jīng)恢復(fù)向谷歌云支付服務(wù)費用
-
高盛上調(diào)日本股市目標位,預(yù)計半年度財報可能有驚喜 熱資訊
高盛上調(diào)日本股市目標位,稱對于日本企業(yè)改革的預(yù)期以及相對于海外市場
-
全球熱訊:蘋果宣布推出 visionOS 軟件開發(fā)包,開發(fā)者下月可在 Vision Pro 硬件上測試 app
蘋果公司北京時間6月22日宣布推出visionOS軟件開發(fā)包(SDK),支持開發(fā)
-
視焦點訊!微軟在香港正式推出 Bing 聊天機器人
6月22日,據(jù)《香港經(jīng)濟日報》報道,微軟在香港正式推出Bing聊天機器人
-
美股牛市不穩(wěn)?高盛:若美經(jīng)濟步入衰退 標普 500 料大跌 23%|全球滾動
財聯(lián)社6月22日訊(編輯黃君芝)高盛(GoldmanSachs)在最新報告中表示
-
《秀我中國 | 新時代中國鄉(xiāng)村志(第四集):千年梯田 十年新生》
松花江網(wǎng),是經(jīng)國家互聯(lián)網(wǎng)信息辦公室批準的國家一類新聞網(wǎng)站,吉林省重
-
華貴人壽保險可信嗎?怎么買? 天天時訊
可信。監(jiān)管合規(guī)性:華貴人壽保險嚴格遵守監(jiān)管機構(gòu)的規(guī)章制度,按照法律
-
增額終身壽險定義是什么?有什么用?-焦點觀察
增額終身壽險是一種壽險,它與傳統(tǒng)的終身壽險相比,在保障的基礎(chǔ)上增加
-
太平百萬醫(yī)療優(yōu)缺點有哪些?一年交多少錢?-環(huán)球速訊
優(yōu)點:全面保障:太平百萬醫(yī)療保險提供了全面的醫(yī)療保障,覆蓋住院醫(yī)療
-
環(huán)球看熱訊:泰康健康有約終身重大疾病保險H款怎么樣?靠譜嗎?
泰康健康有約終身重大疾病保險H款是一款特定類型的重大疾病保險產(chǎn)品。
精彩推薦
閱讀排行
精彩推送
- 商業(yè)意外險的賠償范圍有哪些?一...
- 天璣曲面屏之王!vivo X90s 上...
- 谷歌幽默新廣告嘲笑 iPhone 過...
- 全球球精選!保護中國海外投資利...
- 天天信息:賈躍亭發(fā)文致歉!
- 天天快資訊丨微軟在香港正式推出...
- “超市界海底撈”董事長宣布退休...
- 高新區(qū)召開危化品重大事故隱患專...
- 每日消息!美國文學(xué)亨利詹姆斯課...
- 最新:百萬醫(yī)療保險購買流程是什...
- 速訊:泰康人壽逸安衛(wèi)年金險亮點...
- 平安百萬醫(yī)療電話是多少?電話投...
- 福祿康瑞2018重疾險20年后可以拿...
- 世界速讀:國壽康寧終身重大疾病...
- 周浩 在創(chuàng)新路上奮勇前行
- 今日播報!電力微網(wǎng)格織出居民“...
- 世界最資訊丨端午出游好去處,OP...
- 環(huán)球熱點!通用機器人里程碑?谷...
- 通訊!中國柔性 OLED 市占首超...
- 福特 CEO 嘲諷特斯拉 Cybertr...
- 三年虧損 614 億,東航“玩不...
- 理想吹響城市 NOA 號角:激光...
- 共享按摩椅,我一秒鐘都不想坐|...
- 每日看點!華為爆出大動作!將有...
- “中國天眼”發(fā)現(xiàn)迄今軌道周期最...
- 哪種百萬醫(yī)療險保證續(xù)保?續(xù)保流...
- 泰康人壽逸安衛(wèi)有什么投保規(guī)則?...
- tomo放療百萬醫(yī)療可以報銷嗎?百...
- 少兒百萬醫(yī)療保險推薦?有必要買...
- 每日資訊:水滴百萬醫(yī)療險保障范...