首頁 > 新聞 > IT資訊 > 正文

報道：陳巍：GPT-4究竟會展現出怎樣的能力？

2023-03-16 14:35:09來源：中新經緯

中新經緯3月16日電題：GPT-4究竟會展現出怎樣的能力？

(相關資料圖)

作者陳巍中關村(000931)云計算產業聯盟、中國光學工程學會專家

3月14日，OpenAI發布了最新NLP(自然語言處理)大作“GPT-4”。GPT-4的技術報告里把OpenAI團隊作為唯一作者。參與項目的有數百人，堪稱新時代的AI登月工程。

能看明白圖梗的大型多模態模型

與ChatGPT稍有不同，GPT-4是一個大型多模態模型(輸入圖像和文本，文本輸出)。其中GPT是生成式預訓練模型的縮寫。大型多模態模型可以廣泛用于對話系統、文本摘要和機器翻譯。一般情況下，大型多模態模型包括額外的視覺語言模型組件(VLM)。

GPT-4實際上是在2022年8月完成訓練的，直到2023年3月14日才發布。在發布之前，OpenAI一直在對該模型進行對抗性測試和改進。GPT-4的內容窗口能支持多達32000個token(令牌)。

但更為有趣的是，GPT-4已經能看懂一些圖梗了，不再僅僅是對話助手。當然，這離大家期待的看懂視頻還有一段距離。

據OpenAI介紹，雖然目前GPT-4在現實場景中的能力可能不如人類，但在各種專業和學術考試上表現出明顯超越人類水平的能力，包括大家熟悉的GRE考試，堪稱考試小能手。

這對孩子們是不是一個壞消息？例如，GPT-4在模擬律師考試中，分數排在應試者的前10%左右。GPT-4也優于現有的其他語言模型。相比之下，GPT-3.5的得分則在倒數10%附近。如果GPT-4來做中國的高考卷，是不是能上北大清華了？

GPT-4技術特征和不足

與ChatGPT類似，GPT-4也是一種基于Transformer的大模型，支持多國語言，經過預訓練可以預測或自動生成文本。

OpenAI表示，對GPT-4而言，訓練后的對齊(Alignment)是提高性能和改善體驗的關鍵。從技術上看，人類反饋強化學習(RLHF)微調仍然是GPT-4的要點。考慮到LLM(第四代大型語言模型)領域的競爭格局和GPT-4等大型模型的安全隱患，OpenAI暫時還未公布GPT-4的模型架構、模型大小、訓練技術。

相對于GPT-3.5和其他大語言模型，GPT-4在復雜任務上表現出更可靠、更有創意，并且能夠處理更細微的指示的關鍵特征。GPT-4可以接受文本和圖像提示，并允許用戶指定任何視覺或語言任務。例如，GPT-4可以在給定由分散的文本和圖像組成的輸入的情況下反饋文本輸出(例如自然語言、代碼等)。在帶有文本和照片的文檔、圖表或屏幕截圖方面，GPT-4 也駕輕就熟。此外，GPT-4包括few-shot和思維鏈提示。對于公眾來說，圖像輸入仍然是僅供內部研究預覽，并不公開。而且，這次GPT-4直接整合入Bing搜索引擎之中。

GPT-4也有一些不足，例如仍然會一本正經地胡說八道，上下文連續對話輪次有限，并且無法從經驗中學習。因此如果不對GPT-4的使用進行安全性限制，GPT-4可能會產生大量的認知偏差、虛假信息，甚至侵犯個人隱私。另外，由于數據集時效的原因，GPT-4缺乏對2021年9 月之后的事件的了解。GPT-4有時會犯一些簡單的推理錯誤，也可能會像人類一樣在技術難題上出現錯誤，例如GPT-4可能在生成的代碼中引入安全漏洞。

訓練價值和安全性技術表現如何？

OpenAI表示，在過去2年的GPT-4研發中，超算和訓練技術表現出至關重要的價值。OpenAI與Azure的超算團隊一起，共同設計了針對大模型訓練的超級計算機，為GPT-4的訓練提供了關鍵的算力支撐和研發加速。OpenAI在GPT-4技術報告中，甚至把Supercomputing lead(超級計算領導)和Infrastructure lead(基礎設施領導)的排名放在了預訓練模型團隊的最前面。

OpenAI的團隊從理論基礎層面進行優化，改進了GPT-3.5的一些bug，使得GPT-4能夠前所未有地進行穩定高速的訓練。這方面可以看出OpenAI團隊的數學和計算理論功底。

從技術報告描述的模型訓練過程來看，GPT-4的訓練與GPT-3.5類似。包括SFT(有監督微調)的預訓練、基于RLHF(人類反饋強化學習)的獎勵模型訓練和強化學習的PPO(近端策略優化)算法微調。與之前的GPT模型不同的是，OpenAI使用基于規則的獎勵模型(RBRM) 在PPO微調期間向GPT-4提供額外的獎勵信號。

OpenAI投入了大量資源來提高GPT-4的安全性和一致性。包括引入專家進行對抗性測試和紅隊測試，模型輔助的安全流水線以及安全指標的改進。OpenAI引入的安全專家達到了50多人，覆蓋AI一致性風險、網絡安全、生物風險等領域。

與ChatGPT一樣，OpenAI使用強化學習和人類反饋 (RLHF) 來微調模型的行為，以產生更符合用戶意圖的響應。但當給定不安全的輸入時，模型可能會生成不良內容，例如提供有關犯罪的建議。另外，模型也可能對安全輸入變得過于謹慎，拒絕無害的請求。

GPT-4的安全流水線包括兩個主要部分：一組額外的安全相關 RLHF訓練提示，以及基于規則的獎勵模型(RBRM)。RBRM是一組zero-shot GPT-4 分類器。這些分類器在RLHF微調期間為GPT-4策略模型提供額外的獎勵信號，以正確的輸出行為為目標進行訓練，例如拒絕生成有害內容或不拒絕無害的請求。(中新經緯APP)

責任編輯：孫慶陽

編輯：郭晉嘉

關鍵詞：

責任編輯：hnmd003