首頁 > 新聞 > 智能 > 正文

基于 Transformer 的大模型是如何運行的？Meta 從全局和上下文學(xué)習(xí)揭秘|世界看熱訊

2023-06-22 14:23:08來源：ZAKER科技

機器之心報道

編輯：馬梓文

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內(nèi)部機制，以提高它們的可靠性和可解釋性。

(相關(guān)資料圖)

隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內(nèi)部工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對改進模型和減輕其故障（如幻覺或推理錯誤）至關(guān)重要。

眾所周知，最近 LLM 成功的一個重要因素是它們能夠從上下文中學(xué)習(xí)和推理。LLM 對這些上下文的學(xué)習(xí)能力通常歸功于 Transformer 架構(gòu)，特別是自注意力塊的使用，其能夠仔細選擇輸入序列，進而推理出可信的下一個 token。此外，預(yù)測可能需要全局知識，如語法規(guī)則或一般事實，這些可能不會出現(xiàn)在上下文中，需要存儲在模型中。

我們不禁會疑問，為什么基于 Transformer 的模型非常擅長使用它們的上下文來預(yù)測新的 token，這種能力是如何在訓(xùn)練中產(chǎn)生的？帶著這些問題，來自 Meta AI 的研究者進行了深入的研究。他們通過研究合成設(shè)置下 Transformer 的學(xué)習(xí)機制，揭示了其全局和上下文學(xué)習(xí)的平衡，并將權(quán)重矩陣解釋為聯(lián)想記憶，為理解和優(yōu)化 Transformer 提供了基礎(chǔ)。

論文地址：https://arxiv.org/pdf/2306.00802.pdf

首先要了解的是在訓(xùn)練過程中 Transformer 是如何發(fā)現(xiàn)這些能力的。為此，該研究引入了一個合成數(shù)據(jù)集，該數(shù)據(jù)集由二元語言模型生成的序列組成。然后，模型需要依靠上下文學(xué)習(xí)來對特定的二元序列進行良好的預(yù)測，而全局二元可以根據(jù)當前 token 的全局統(tǒng)計數(shù)據(jù)進行猜測。雖然單層的 Transformer 無法可靠地預(yù)測上下文二元，但該研究發(fā)現(xiàn)通過開發(fā)感應(yīng)頭（induction head）機制的雙層 Transformer 取得了成功，即擁有兩個注意力頭的 circuit，其允許 Transformer 從上下文 [ , a, b,, a ] 中預(yù)測 b，并且在 Transformer 語言模型中似乎無處不在。這種感應(yīng)頭（induction head）機制在 Transformer 語言模型中是普遍存在的，并且取得了成功。

更進一步的，為了更好的了解上下文機制是怎樣出現(xiàn)在訓(xùn)練過程中的，該研究在隨機初始化時凍結(jié)了一些層（包括嵌入和值矩陣）來進一步簡化模型架構(gòu)。這樣一來研究重點轉(zhuǎn)移到注意力和前饋機制，同時避免了學(xué)習(xí)表征的困難。與此同時，這種簡化還為單個權(quán)重矩陣引入了一個自然模型作為聯(lián)想記憶。自然模型可以通過它們的外積存儲輸入 - 輸出或鍵 - 值對嵌入。隨機高維嵌入由于其接近正交性而特別適合這種觀點。

總結(jié)而言，該研究的貢獻可概括為：

本文引入了一種新的合成設(shè)置來研究全局和上下文學(xué)習(xí)：序列遵循二元語言模型，其中一些二元在序列中變化，而另一些不會。

本文將 Transformer 的權(quán)重矩陣視為學(xué)習(xí)存儲特定嵌入對的聯(lián)想記憶，并以此為任務(wù)推導(dǎo)出一個簡化但更可解釋的模型。

本文對訓(xùn)練動態(tài)進行了細致的實證研究：首先學(xué)習(xí)全局二元，然后以自上而下的方式學(xué)習(xí)適當?shù)挠洃洠纬筛袘?yīng)頭。

本文給出了訓(xùn)練動力學(xué)的理論見解，展示了如何通過在噪聲輸入中找到信號，在種群損失上進行一些自上而下的梯度步驟來恢復(fù)所需的聯(lián)想記憶。

方法介紹

接著該研究介紹了合成數(shù)據(jù)設(shè)置，這樣能夠仔細研究感應(yīng)頭機制在訓(xùn)練過程中的發(fā)展以及 Transformer 如何學(xué)習(xí)利用上下文信息的。

雙元數(shù)據(jù)模型：模型序列由一個通用的雙元語言模型（即馬爾可夫鏈）組成，每個序列的生成方式如下：

下圖 2 可視化了測試序列上的注意力圖，這表明該模型已經(jīng)學(xué)習(xí)了感應(yīng)頭機制。接著該研究介紹了 Transformer 聯(lián)想記憶觀點：因為幾乎正交的嵌入，權(quán)重矩陣表現(xiàn)為聯(lián)想記憶，將成對的嵌入存儲為其外積的加權(quán)和。研究引入了一個具有固定隨機嵌入的簡化 Transformer 模型，將用這種想法產(chǎn)生對學(xué)習(xí)動力學(xué)的精確理解。

此外，該研究提出了一個有用的觀點，將 Transformer 中的模型權(quán)重視為高維嵌入向量的聯(lián)想記憶。感應(yīng)頭機制可以通過以下外積矩陣作為記憶來獲得，而其他所有權(quán)重則固定為隨機初始化狀態(tài)：

實驗

圖 3 研究了在迭代 300 次之前凍結(jié)不同層對訓(xùn)練動態(tài)的影響。

全局 vs 上下文學(xué)習(xí)。從圖 4（左 / 右）可以看出，當聯(lián)合訓(xùn)練所有層時，全局二元統(tǒng)計的學(xué)習(xí)速度往往比感應(yīng)頭更快，這可以從早期迭代中的 loss 和 KL 的快速下降中看出。

此外，從圖 4（左）中看到，數(shù)據(jù)分布的變化會對上下文機制的學(xué)習(xí)速度產(chǎn)生重大影響。該研究觀察到以下情況可能會使上下文學(xué)習(xí)減慢： ( i ) 較少數(shù)量的觸發(fā)器 K， ( ii ) 僅使用少有的固定觸發(fā)器，以及 ( iii ) 使用隨機觸發(fā)器而不是固定觸發(fā)器。

該研究還在圖 4（中間）中顯示，在訓(xùn)練時將輸出 token 分布更改為二元分布會降低準確率，這表明，使用更多樣化的訓(xùn)練分布可以產(chǎn)生具有更好泛化準確率的模型，并且只需少量的額外訓(xùn)練成本。

更多研究內(nèi)容，請參考原論文。

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

關(guān)鍵詞：

責(zé)任編輯：hnmd003