首頁 > 新聞 > 智能 > 正文

        GPT-4 是 8x2200 億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了|重點(diǎn)聚焦

        2023-06-22 08:29:07來源:ZAKER科技  

        機(jī)器之心報(bào)道

        編輯:吳昕


        (資料圖片)

        George Hotz:除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西。

        「GPT-4 的參數(shù)量高達(dá) 100 萬億。」相信很多人還記得這個(gè)年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。

        不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實(shí)這是一條假消息,并表示,「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起。」

        實(shí)際上,許多人相信并傳播這樣的謠言是因?yàn)榻陙?AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后,很多機(jī)構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此,人們有充分的理由相信,GPT-4 將是一個(gè)萬億參數(shù)的巨量模型,100 萬億參數(shù)也不是不可能。

        雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€(gè)錯(cuò)誤答案,但他背后的 OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的真實(shí)參數(shù)量守口如瓶,就連 GPT-4 的官方技術(shù)報(bào)告也沒透露任何信息。

        直到最近,這個(gè)謎團(tuán)疑似被「天才黑客」喬治霍茲(George Hotz)捅破了。

        喬治霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發(fā)自動(dòng)駕駛輔助系統(tǒng)的公司(comma.ai)的老板。

        最近,他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來說,它采用了由 8 個(gè)專家模型組成的集成系統(tǒng),每個(gè)專家模型都有 2200 億個(gè)參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對(duì)不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。

        在這段播客播出之后,PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「?jìng)髀劇梗芏嗳丝赡芤猜犨^,但只有 George Hotz 在公開場(chǎng)合將其說了出來。「混合模型是你在無計(jì)可施的時(shí)候才會(huì)考慮的選項(xiàng),」George Hotz 調(diào)侃說,「混合模型的出現(xiàn)是因?yàn)闊o法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓(xùn)練時(shí)間更長(zhǎng),效果已經(jīng)遞減。因此,他們采用了八個(gè)專家模型來提高性能。」至于這個(gè)混合模型是以什么形式工作的,George Hotz 并沒有詳細(xì)說明。為什么 OpenAI 對(duì)此諱莫如深呢?George Hotz 認(rèn)為,除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西,不想讓別人知道「只要花 8 倍的錢你也能得到這個(gè)模型」。

        對(duì)于未來的趨勢(shì),他認(rèn)為,人們會(huì)訓(xùn)練規(guī)模較小的模型,并通過長(zhǎng)時(shí)間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到,與過去相比,訓(xùn)練效果已經(jīng)明顯提升,盡管計(jì)算資源沒有變化,這表明訓(xùn)練方法的改進(jìn)起到了很大作用。

        目前,George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。

        有人從中得到了靈感,聲稱要訓(xùn)練一個(gè) LLaMA 集合來對(duì)抗 GPT-4。還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個(gè)由 8 個(gè) 2200 億參數(shù)的專家模型組合的混合模型,那很難想象背后的推理成本有多高。需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評(píng)論區(qū)留言。

        George Hotz 采訪內(nèi)容。GPT-4 相關(guān)內(nèi)容在 49:00 前后。視頻來源:https://www.youtube.com/watch?v=K5iDUZPx60E&t=3030s

        參考鏈接:https://twitter.com/soumithchintala/status/1671267150101721090

        THE END

        轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

        投稿或?qū)で髨?bào)道:content@jiqizhixin.com

        關(guān)鍵詞:

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        精彩推送

        推薦閱讀

        久久久亚洲精品国产| 亚洲午夜精品一级在线播放放| 亚洲一区无码精品色| 亚洲a级成人片在线观看| 亚洲成a人片77777老司机| 国产成人亚洲综合色影视| 亚洲色精品88色婷婷七月丁香 | 亚洲大片在线观看| 亚洲AV永久精品爱情岛论坛| 激情97综合亚洲色婷婷五| 国产亚洲老熟女视频| 在线观看午夜亚洲一区| 亚洲无线观看国产精品| 亚洲国产精品成人精品无码区在线 | 精品久久亚洲一级α| 风间由美在线亚洲一区| 亚洲国产av一区二区三区| 亚洲AV日韩AV天堂一区二区三区| 亚洲国产精彩中文乱码AV| 亚洲成a人片在线观看无码| 久久精品7亚洲午夜a| 亚洲午夜视频在线观看| 亚洲精品自拍视频| 亚洲综合伊人制服丝袜美腿| 亚洲一级特黄特黄的大片| 亚洲国产成人无码AV在线| 久久精品国产亚洲AV电影网 | 亚洲男人都懂得羞羞网站| 亚洲精品视频在线观看免费| 亚洲一区中文字幕在线观看| 亚洲第一成人在线| 亚洲爆乳无码精品AAA片蜜桃| 国产精品亚洲专一区二区三区| 亚洲国产精品人人做人人爱| 最新国产AV无码专区亚洲 | 亚洲中文无码永久免费| 日韩欧美亚洲中文乱码| 亚洲另类激情专区小说图片| 亚洲乱码一区二区三区在线观看 | 国产成人久久精品亚洲小说| 亚洲综合精品网站|