首頁 > 新聞 > IT資訊 > 正文

        GPT-4震撼發(fā)布,有哪些變化?

        2023-03-15 14:31:59來源:TechWeb  

        今天凌晨OpenAI正式推出了NLP大作,GPT-4。目前,ChatGPT的Plus訂閱用戶已經(jīng)可以使用GPT-4,其他用戶需要排隊申請內(nèi)測。我們根據(jù)GPT-4官方提供的技術文檔,來看看都有哪些變化。


        (資料圖片僅供參考)

        本文將以OpenAI GPT-4 技術報告為基礎,介紹GPT-4的特征和訓練信息。

        GPT-4是一個多模態(tài)大型語言模型,即支持圖像和文本輸入,以文本形式輸出;擴寫能力增強,能處理超過25000個單詞的文本;更具創(chuàng)造力,并且能夠處理更細微的指令。

        我們從官網(wǎng)上就可以看到,ChatGPT和GPT-4的示范,效果貌似已經(jīng)顯著拉開了。誰更智能一目了然…

        問:

        Andrew:上午11點-下午3點有空

        Joanne:中午-下午2點有空、下午3點半-下午5點有空

        Hannah:中午有半小時的時間,下午4-6點有空

        給這仨人安排個30分鐘的會議,有哪些選擇?

        答:

        ChatGPT:會議可以在下午4點開始

        GPT-4:會議可以在中午12點開始

        報告指出了GPT-4的發(fā)展進度,這是一個大規(guī)模、多模態(tài)的模型,它可以接受圖像和文本輸入,并產(chǎn)生文本輸出。雖然在許多現(xiàn)實世界的場景中能力不如人類,但在各種專業(yè)和學術基準上表現(xiàn)出人類水平的表現(xiàn)。例如,它通過了模擬的律師考試,分數(shù)在應試者的前10%左右;相比之下,GPT-3.5的分數(shù)則在后10%左右。

        GPT-4是一個基于Transformer的模型,經(jīng)過預先訓練,可以預測文檔中的下一個標記。訓練后的調(diào)整過程使對事實的遵守程度得到改善。

        這個項目的一個核心部分是開發(fā)基礎設施和優(yōu)化方法,讓這些方法在廣泛的范圍內(nèi)有可預測的行為。這使我們能夠準確地預測GPT-4在某些方面的性能,其基礎是用不超過GPT-4的1/1000的計算量所訓練的模型。

        1.介紹

        技術報告介紹了GPT-4,這是一個大型多模態(tài)模型,能夠處理圖像和文本輸入并產(chǎn)生文本輸出。這類模型是一個重要的研究領域,因為它們有可能被用于廣泛的應用中,如對話系統(tǒng)、文本總結和機器翻譯。因此,近年來它們一直是人們關注的對象,并取得了很大的進展。近年來,它們一直是人們關注的焦點。

        開發(fā)此類模型的主要目標之一是提高其理解和生成自然語言文本的能力,特別是在更復雜和細微的情況下。為了測試其在這種情況下的能力,GPT-4在最初為人類設計的各種考試中進行了評估。在這些評估中,它表現(xiàn)得相當好,并且經(jīng)常超過絕大多數(shù)人類應試者的分數(shù)。

        例如,在模擬律師資格考試中,GPT-4的成績在考生中排名前10%。這與GPT-3.5形成鮮明對比,GPT-3.5的得分排在后10%。

        在一套傳統(tǒng)的NLP基準測試中,GPT-4的表現(xiàn)超過了以前的大型語言模型和大多數(shù)最先進的系統(tǒng)(這些系統(tǒng)通常有特定的基準訓練或手工工程)。

        在MMLU基準測試中,GPT-4不僅在英語考試中以相當大的優(yōu)勢超過了現(xiàn)有的模型,而且在其他語言方面也表現(xiàn)出了強大的性能。

        本報告還討論了該項目的一個關鍵挑戰(zhàn),即開發(fā)深度學習基礎設施和優(yōu)化方法,這些方法在廣泛的范圍內(nèi)表現(xiàn)出可預測性。這使我們能夠預測GPT-4的預期性能(基于以類似方式訓練的小型運行)。這使我們能夠?qū)PT-4的預期性能進行預測(基于類似的訓練方式的小運行),并與最終的運行進行測試,以增加對我們訓練的信心。

        盡管有這樣的能力,GPT-4與早期的GPT模型有類似的局限性:它并不完全可靠(例如,可能出現(xiàn) "幻覺"),有一個有限的上下文窗口,并且沒有習得經(jīng)驗。在使用GPT-4的輸出時應謹慎行事,特別是在對可靠性要求很高的情況下。

        GPT-4的能力和局限性帶來了重大的、新的安全挑戰(zhàn),我們相信鑒于其潛在的社會影響,仔細研究這些挑戰(zhàn)是一個重要的研究領域。本報告包括一個廣泛的系統(tǒng)卡,描述了我們所預見的一些風險。圍繞偏見、虛假信息、過度依賴、隱私、網(wǎng)絡安全、擴散等方面預見了一些風險。它還描述了我們?yōu)闇p輕部署GPT-4的潛在危害所采取的干預措施。包括聘請領域?qū)<疫M行對抗性測試,以及一個模型輔助的安全管道。

        2.技術報告的范圍和局限性

        本報告的重點是GPT-4的能力、局限和安全性能。GPT-4是一個基于Transformer的模型,它預先進行了訓練,以預測文檔中的下一個標記,使用公開的數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))和第三方供應商授權的數(shù)據(jù)。

        該模型然后使用來自人類反饋的強化學習(RLHF)對模型進行微調(diào)。鑒于GPT-4這樣大規(guī)模模型的競爭狀況和安全影響,報告中不包含有關架構(包括模型大小)、硬件、訓練計算、數(shù)據(jù)集構建、訓練方法或類似內(nèi)容的進一步細節(jié)。

        OpenAI致力于對技術進行獨立審計,并分享了一些這方面的初步措施和想法。并計劃向更多的第三方提供進一步的技術細節(jié),他們可以就如何權衡上述競爭和安全考慮與科學價值的關系提供建議。

        3.可預測的擴展

        GPT-4項目的一大重點是建立一個可預測擴展的深度學習棧。主要原因是,對于像GPT-4這樣的大型訓練運行,要做大量針對模型的調(diào)整是不可行的。

        為了解決這個問題,我們開發(fā)了基礎設施和優(yōu)化方法,在多個尺度上有非常可預測的行為。這些改進使我們能夠可靠地從使用1,000倍-10,000倍計算量訓練的較小模型中預測GPT-4的某些方面的性能。

        3.1 損失預測

        正確訓練的大型語言模型的最終損失被認為可以通過訓練模型所用的計算量的冪律來很好地接近訓練模型所使用的計算量的規(guī)律。

        為了驗證OpenAI的優(yōu)化基礎設施的可擴展性,OpenAI預測了GPT-4的最終損失,在OpenAI的內(nèi)部代碼庫(不是訓練集的一部分)上預測GPT-4的最終損失,方法是通過擬合一個帶有不可減少的損失項的比例法則(如Henighan等人的做法):L(C) = aCb + c, 來自使用相同方法訓練的模型,但使用的計算量比GPT-4最多少10,000倍。

        這一預測是在運行開始后不久做出的,沒有使用任何部分結果。擬合的比例法高度準確地預測了GPT-4的最終損失。

        3.2 在HumanEval上擴展能力

        在訓練前對模型的能力有一個認識,可以改善有關調(diào)整的決策、安全和部署。

        除了預測最終損失外,我們還開發(fā)了方法來預測能力的更多可解釋性指標,其中一個指標是HumanEval數(shù)據(jù)集的通過率。

        OpenAI成功地預測了HumanEval數(shù)據(jù)集的一個子集上的通過率,其方法是從訓練的模型中推斷出來的訓練出來的模型進行推斷,其計算量最多減少1,000倍。

        對于HumanEval中的單個問題,性能可能偶爾會隨著規(guī)模的擴大而變差。盡管有這些挑戰(zhàn),我們發(fā)現(xiàn)一個近似的冪律關系--EP [log(pass_rate(C))] = α?C-k。

        相信準確預測未來的能力對安全很重要。展望未來,OpenAI計劃在大型模型訓練開始之前,完善這些方法并記錄各種能力的性能預估。并且,OpenAI希望這成為該領域的一個共同目標。

        4、能力

        這簡直就是個考試小能手

        GPT-4典型的成績包括:

        SAT(美國高考): 1410/1600(前 6%)。

        美國統(tǒng)一律師資格考試(MBE+MEE+MPT):298/400(前 10%)。

        AP(美國大學預科考試):生物學、微積分、宏觀經(jīng)濟學、心理學、統(tǒng)計學和歷史的大學預修高中考試:100% (5/5)。

        OpenAI在一系列不同的基準上對GPT-4進行了測試,包括模擬最初為人類設計的考試。考試題目包括多項選擇題和自由回答題,綜合分數(shù)由多項選擇題和自由回答題的分數(shù)結合決定,GPT-4在大多數(shù)專業(yè)和學術考試中都有與人類水平相當?shù)谋憩F(xiàn)。值得注意的是,它通過了統(tǒng)一律師考試的模擬版本,分數(shù)在應試者中排名前10%。

        就測試的結果來看,GPT-4模型在考試中的能力似乎主要來自于預訓練過程,并沒有受到RLHF的明顯影響。在多選題上,基礎的GPT-4模型和RLHF模型的表現(xiàn)相當。

        OpenAI還在傳統(tǒng)的基準上評估了預先訓練好的基礎GPT-4模型,這些基準是為評估語言模型而設計的。

        就在考試測試中的表現(xiàn)來看,GPT-4的性能大大超過了現(xiàn)有的語言模型,以及此前最先進的系統(tǒng),這些系統(tǒng)通常有針對的基準或額外的訓練協(xié)議。

        針對現(xiàn)有的許多機器學習基準測試都是用英語編寫的,很難體現(xiàn)在其他語言中的表現(xiàn),為了初步了解GPT-4在其他語言中的功能,他們也將一套涵蓋57個主題的多項選擇題的基準測試,采用相關的應用程序轉(zhuǎn)換成了其他語言,并進行了測試,最終結果顯示GPT-4的表現(xiàn)要優(yōu)于GPT 3.5和現(xiàn)有語言模型對測試的大多數(shù)語言的語言性能,包括低資源語言。

        能看懂一些圖的笑點了

        GPT-4在理解用戶意圖的能力方面較此前的模型有明顯改善。

        GPT-4可以說已經(jīng)能看懂一些圖梗了,不再僅僅是對話助手。當然離大家期待的看懂視頻還有一段距離。現(xiàn)在能看懂圖片的笑點,比如這張…

        左一:一臺iPhone插上了帶有VGA的連接器

        右一:“Lightning Cable”適配器的包裝,上面有VGA連接器的圖

        右二:VGA連接器的特寫,上面有VGA連接器的圖片,但可以看到,頭是個Lightning的…

        笑點在于將VGA端口插在iPhone上的荒謬…很冷吧…搞機圈博主們的壓力大不大…

        4.1 視覺輸入

        對GPT-4而言,訓練后的對齊(Alignment)是提高性能和改善體驗的關鍵。從技術上看,人類反饋強化學習(RLHF)微調(diào)仍然是GPT-4的要點。考慮到LLM領域的競爭格局和 GPT-4 等大型模型的安全隱患,OpenAI暫時還未公布GPT-4的模型架構、模型大小、訓練技術。

        這張圖片:GPT-4認為,不同尋常的地方在于,一名男子正在行駛中的出租車車頂上的熨衣板熨衣服…

        再比如這個,這到底是雞塊?還是地圖?還是用雞塊拼成的世界地圖?

        GPT-4接受由圖像和文本組成的提示,這與純文本設置平行,讓用戶指定任何視覺或語言任務。具體來說,該模型生成的文本輸出給出由任意交錯的文本和圖像組成的輸入。在一系列領域中,包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4表現(xiàn)出與純文本輸入類似的能力。

        為語言模型開發(fā)的標準測試時間技術(如少量提示、思維鏈等),使用圖像和文本時也同樣有效。

        在一組狹窄的學術視覺基準上的初步結果可以在GPT-4博客中找到,計劃在后續(xù)工作中發(fā)布更多關于GPT-4的視覺能力的信息。

        5、局限性

        盡管GPT-4功能強大,但它與早期GPT模型一樣,有相似的局限性。最重要的是,它仍然不完全可靠(它會“幻覺”事實并犯推理錯誤),應非常小心。

        在使用語言模型輸出時,特別是在高風險的上下文中,使用準確的協(xié)議(例如人工審查,附加上下文,或完全避免高風險使用滿足特定應用的需求。

        GPT-4在TruthfulQA等公共基準上取得了進展,該基準測試模型的測試能將事實從一組不正確的陳述中分離出來,與統(tǒng)計上有吸引力的事實錯誤的答案相匹配。GPT-4基本型號為在這項任務上只比GPT-3.5略勝一籌。然而,在RLHF訓練后,較GPT-3.5有很大的改進,GPT-4抗拒選擇一些常見的諺語,但仍然會錯過一些微妙的細節(jié)。

        GPT-4有時會使簡單的推理出現(xiàn)錯誤,似乎不符合在這么多領域的能力,或者輕信用戶明顯的虛假陳述。它可能像人類一樣在困難的問題上失敗,例如在產(chǎn)生的代碼中引入安全漏洞。

        GPT-4也可能在其預測中輕易的犯錯,在可能犯錯的時候不注意反復檢查。雖然預訓練的模型是高度校準的,但在后期的訓練過程中,校準度降低了。

        GPT-4在其輸出中存在各種偏差,OpenAI已經(jīng)在努力糾正,但這需要一定的時間,他們的目標是使GPT-4同我們建立的其他系統(tǒng)一樣,有合理的默認行為,以反映廣大用戶的價值觀,允許這些系統(tǒng)在一些廣泛的范圍內(nèi)進行定制,并獲得公眾對這些范圍的意見。

        6.風險和緩解措施

        GPT-4具有與小型語言模型類似的風險,例如,產(chǎn)生有害的建議、有缺陷的代碼或不準確的信息。

        聘請領域?qū)<疫M行對抗性測試:為了了解這些風險的程度,OpenAI聘請了來自長期人工智能(AI)校準風險、網(wǎng)絡安全、生物風險和國際安全領域的50多位專家對該模型進行對抗性測試。從這些專家那里收集的建議和培訓數(shù)據(jù)為OpenAI制定緩解措施和對該模型進行改進提供了參考。

        模型輔助的安全管道:與之前的GPT模型一樣,OpenAI利用來自人類反饋的強化學習(RLHF)對該模型的行為進行微調(diào),以產(chǎn)生更符合用戶意圖的回復。在RLHF之后,該模型在不安全的輸入上仍然是脆弱的,并且有時在安全輸入和不安全輸入上都表現(xiàn)出不受歡迎的行為。此外,該模型在安全輸入方面也可能變得過于謹慎。

        安全指標的改進:OpenAI的緩解措施已經(jīng)大大改善了GPT-4的許多安全性能。與GPT-3.5相比,該公司將GPT-4對不允許內(nèi)容請求做出響應的傾向降低了82%,而GPT-4根據(jù)OpenAI的政策對敏感請求的響應頻率提高了29%。

        OpenAI正在與外部研究人員合作,以改善其理解和評估潛在影響的方式,以及建立對未來系統(tǒng)中可能出現(xiàn)的危險能力的評估。該公司將很快發(fā)布關于社會可以采取的步驟的建議,以準備應對人工智能的影響。該公司將很快公布關于社會為應對人工智能影響可以采取的措施的建議,以及預測人工智能可能產(chǎn)生的經(jīng)濟影響的初步想法。

        7.總結

        GPT-4是一個在某些困難的專業(yè)和學術基準上具有人類水平表現(xiàn)的大型多模態(tài)模型。它在一系列NLP任務上的表現(xiàn)優(yōu)于現(xiàn)有的大型語言模型,并且超過了絕大多數(shù)已報道的最先進的系統(tǒng)(這些系統(tǒng)通常包括針對特定任務的微調(diào))。

        GPT-4由于性能的提高而帶來了新的風險,我們討論了一些方法和結果,以了解和提高其安全性和一致性。雖然還有很多工作要做,但GPT-4代表著朝著廣泛有用和安全部署的人工智能系統(tǒng)邁出了重要一步。

        關鍵詞:

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        精彩推送

        推薦閱讀

        无码天堂亚洲国产AV| 亚洲视频在线观看免费视频| 亚洲综合av一区二区三区不卡| 亚洲高清最新av网站| 亚洲天堂中文资源| 亚洲色最新高清av网站| 国产亚洲精品美女久久久| 老牛精品亚洲成av人片| 亚洲毛片在线免费观看| 亚洲国产精品无码久久久不卡| 久久亚洲精品成人无码| 亚洲精品福利你懂| 中文字幕无码亚洲欧洲日韩| 337p日本欧洲亚洲大胆艺术| 久久久久噜噜噜亚洲熟女综合| 久久乐国产综合亚洲精品| 婷婷亚洲综合五月天小说| 亚洲一级片内射网站在线观看| 久久国产亚洲精品| 亚洲成人黄色网址| 久久国产精品亚洲综合| 亚洲熟妇丰满多毛XXXX| 在线看亚洲十八禁网站| 日韩亚洲产在线观看| 亚洲自偷精品视频自拍| 久久亚洲欧洲国产综合| 国产午夜亚洲精品午夜鲁丝片| 亚洲熟妇少妇任你躁在线观看无码 | 国产美女亚洲精品久久久综合| 亚洲日本va午夜中文字幕久久| 亚洲精品线路一在线观看| 国产亚洲精品自在线观看| 亚洲成AV人片一区二区密柚| 亚洲人成影院在线| 亚洲人成电影在线观看网| 亚洲色成人WWW永久在线观看| 国产精品亚洲综合一区在线观看 | 亚洲综合无码一区二区| 亚洲午夜一区二区电影院| 亚洲欧洲国产综合AV无码久久| 国产亚洲精品成人久久网站 |