首頁 > 新聞 > IT資訊 > 正文

        報道:陳巍:GPT-4究竟會展現出怎樣的能力?

        2023-03-16 14:35:09來源:中新經緯  

        中新經緯3月16日電 題:GPT-4究竟會展現出怎樣的能力?


        (相關資料圖)

        作者 陳巍 中關村(000931)云計算產業聯盟、中國光學工程學會專家

        3月14日,OpenAI發布了最新NLP(自然語言處理)大作“GPT-4”。GPT-4的技術報告里把OpenAI團隊作為唯一作者。參與項目的有數百人,堪稱新時代的AI登月工程。

        能看明白圖梗的大型多模態模型

        與ChatGPT稍有不同,GPT-4是一個大型多模態模型(輸入圖像和文本,文本輸出)。其中GPT是生成式預訓練模型的縮寫。大型多模態模型可以廣泛用于對話系統、文本摘要和機器翻譯。一般情況下,大型多模態模型包括額外的視覺語言模型組件(VLM)。

        GPT-4實際上是在2022年8月完成訓練的,直到2023年3月14日才發布。在發布之前,OpenAI一直在對該模型進行對抗性測試和改進。GPT-4的內容窗口能支持多達32000個token(令牌)。

        但更為有趣的是,GPT-4已經能看懂一些圖梗了,不再僅僅是對話助手。當然,這離大家期待的看懂視頻還有一段距離。

        據OpenAI介紹,雖然目前GPT-4在現實場景中的能力可能不如人類,但在各種專業和學術考試上表現出明顯超越人類水平的能力,包括大家熟悉的GRE考試,堪稱考試小能手。

        這對孩子們是不是一個壞消息?例如,GPT-4在模擬律師考試中,分數排在應試者的前10%左右。GPT-4也優于現有的其他語言模型。相比之下,GPT-3.5的得分則在倒數10%附近。如果GPT-4來做中國的高考卷,是不是能上北大清華了?

        GPT-4技術特征和不足

        與ChatGPT類似,GPT-4也是一種基于Transformer的大模型,支持多國語言,經過預訓練可以預測或自動生成文本。

        OpenAI表示,對GPT-4而言,訓練后的對齊(Alignment)是提高性能和改善體驗的關鍵。從技術上看,人類反饋強化學習(RLHF)微調仍然是GPT-4的要點。考慮到LLM(第四代大型語言模型)領域的競爭格局和GPT-4等大型模型的安全隱患,OpenAI暫時還未公布GPT-4的模型架構、模型大小、訓練技術。

        相對于GPT-3.5和其他大語言模型,GPT-4在復雜任務上表現出更可靠、更有創意,并且能夠處理更細微的指示的關鍵特征。GPT-4可以接受文本和圖像提示,并允許用戶指定任何視覺或語言任務。例如,GPT-4可以在給定由分散的文本和圖像組成的輸入的情況下反饋文本輸出(例如自然語言、代碼等)。在帶有文本和照片的文檔、圖表或屏幕截圖方面,GPT-4 也駕輕就熟。此外,GPT-4包括few-shot和思維鏈提示。對于公眾來說,圖像輸入仍然是僅供內部研究預覽,并不公開。而且,這次GPT-4直接整合入Bing搜索引擎之中。

        GPT-4也有一些不足,例如仍然會一本正經地胡說八道,上下文連續對話輪次有限,并且無法從經驗中學習。因此如果不對GPT-4的使用進行安全性限制,GPT-4可能會產生大量的認知偏差、虛假信息,甚至侵犯個人隱私。另外,由于數據集時效的原因,GPT-4缺乏對2021年9 月之后的事件的了解。GPT-4有時會犯一些簡單的推理錯誤,也可能會像人類一樣在技術難題上出現錯誤,例如GPT-4可能在生成的代碼中引入安全漏洞。

        訓練價值和安全性技術表現如何?

        OpenAI表示,在過去2年的GPT-4研發中,超算和訓練技術表現出至關重要的價值。OpenAI與Azure的超算團隊一起,共同設計了針對大模型訓練的超級計算機,為GPT-4的訓練提供了關鍵的算力支撐和研發加速。OpenAI在GPT-4技術報告中,甚至把Supercomputing lead(超級計算領導)和Infrastructure lead(基礎設施領導)的排名放在了預訓練模型團隊的最前面。

        OpenAI的團隊從理論基礎層面進行優化,改進了GPT-3.5的一些bug,使得GPT-4能夠前所未有地進行穩定高速的訓練。這方面可以看出OpenAI團隊的數學和計算理論功底。

        從技術報告描述的模型訓練過程來看,GPT-4的訓練與GPT-3.5類似。包括SFT(有監督微調)的預訓練、基于RLHF(人類反饋強化學習)的獎勵模型訓練和強化學習的PPO(近端策略優化)算法微調。與之前的GPT模型不同的是,OpenAI使用基于規則的獎勵模型(RBRM) 在PPO微調期間向GPT-4提供額外的獎勵信號。

        OpenAI投入了大量資源來提高GPT-4的安全性和一致性。包括引入專家進行對抗性測試和紅隊測試,模型輔助的安全流水線以及安全指標的改進。OpenAI引入的安全專家達到了50多人,覆蓋AI一致性風險、網絡安全、生物風險等領域。

        與ChatGPT一樣,OpenAI使用強化學習和人類反饋 (RLHF) 來微調模型的行為,以產生更符合用戶意圖的響應。但當給定不安全的輸入時,模型可能會生成不良內容,例如提供有關犯罪的建議。另外,模型也可能對安全輸入變得過于謹慎,拒絕無害的請求。

        GPT-4的安全流水線包括兩個主要部分:一組額外的安全相關 RLHF訓練提示,以及基于規則的獎勵模型(RBRM)。RBRM是一組zero-shot GPT-4 分類器。這些分類器在RLHF微調期間為GPT-4策略模型提供額外的獎勵信號,以正確的輸出行為為目標進行訓練,例如拒絕生成有害內容或不拒絕無害的請求。(中新經緯APP)

        本文由中新經緯研究院選編,因選編產生的作品中新經緯版權所有,未經書面授權,任何單位及個人不得轉載、摘編或以其它方式使用。選編內容涉及的觀點僅代表原作者,不代表中新經緯觀點。

        責任編輯:孫慶陽

        編輯:郭晉嘉

        關鍵詞:

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        推薦閱讀

        亚洲国产精品一区二区久| 亚洲VA中文字幕不卡无码| 久久亚洲精品国产精品| 亚洲人成影院在线无码按摩店| 亚洲av无码乱码在线观看野外| 色天使色婷婷在线影院亚洲| 色婷婷六月亚洲综合香蕉| 亚洲人成电影网站色www| 亚洲熟伦熟女专区hd高清| 亚洲国产日韩综合久久精品| 国产成人精品日本亚洲直接 | 亚洲一久久久久久久久| 激情五月亚洲色图| 亚洲熟妇无码AV不卡在线播放| 亚洲成人激情小说| 亚洲色大18成人网站WWW在线播放 亚洲色大成WWW亚洲女子 | 亚洲AV成人一区二区三区在线看| 亚洲av乱码一区二区三区香蕉| 亚洲免费在线视频观看| 亚洲AV成人影视在线观看| 亚洲乱理伦片在线观看中字| 亚洲AV无码片一区二区三区| 伊人久久亚洲综合影院| 亚洲一级特黄大片在线观看| 亚洲天堂免费在线视频| 亚洲午夜未满十八勿入网站2| 亚洲αv久久久噜噜噜噜噜| 亚洲狠狠综合久久| 亚洲国产精品网站久久| 亚洲 日韩 色 图网站| 亚洲第一街区偷拍街拍| 国产亚洲综合一区二区三区| 亚洲伊人成无码综合网| 亚洲国产婷婷六月丁香| 久久亚洲国产成人精品性色| 亚洲jjzzjjzz在线观看| 亚洲精品无码少妇30P| 亚洲精品A在线观看| 亚洲成Av人片乱码色午夜| 18gay台湾男同亚洲男同| 国产精品亚洲精品观看不卡|