首頁 > 新聞 > 智能 > 正文

GPT-4 是 8x2200 億參數(shù)的混合模型？這個(gè)小道消息今天傳瘋了|重點(diǎn)聚焦

2023-06-22 08:29:07來源：ZAKER科技

機(jī)器之心報(bào)道

編輯：吳昕

(資料圖片)

George Hotz：除了蘋果之外，大部分公司保密的原因都不是在隱藏什么黑科技，而是在隱藏一些「不那么酷」的東西。

「GPT-4 的參數(shù)量高達(dá) 100 萬億。」相信很多人還記得這個(gè)年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。

不過很快，OpenAI 的 CEO Sam Altman 就出來辟謠，證實(shí)這是一條假消息，并表示，「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起。」

實(shí)際上，許多人相信并傳播這樣的謠言是因?yàn)榻陙?AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后，很多機(jī)構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此，人們有充分的理由相信，GPT-4 將是一個(gè)萬億參數(shù)的巨量模型，100 萬億參數(shù)也不是不可能。

雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€(gè)錯(cuò)誤答案，但他背后的 OpenAI 團(tuán)隊(duì)一直對(duì) GPT-4 的真實(shí)參數(shù)量守口如瓶，就連 GPT-4 的官方技術(shù)報(bào)告也沒透露任何信息。

直到最近，這個(gè)謎團(tuán)疑似被「天才黑客」喬治霍茲（George Hotz）捅破了。

喬治霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名，目前是一家研發(fā)自動(dòng)駕駛輔助系統(tǒng)的公司（comma.ai）的老板。

最近，他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中，他談到了 GPT-4，稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來說，它采用了由 8 個(gè)專家模型組成的集成系統(tǒng)，每個(gè)專家模型都有 2200 億個(gè)參數(shù)（比 GPT-3 的 1750 億參數(shù)量略多一些），并且這些模型經(jīng)過了針對(duì)不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。

在這段播客播出之后，PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「?jìng)髀劇梗芏嗳丝赡芤猜犨^，但只有 George Hotz 在公開場(chǎng)合將其說了出來。「混合模型是你在無計(jì)可施的時(shí)候才會(huì)考慮的選項(xiàng)，」George Hotz 調(diào)侃說，「混合模型的出現(xiàn)是因?yàn)闊o法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好，但如果僅僅是訓(xùn)練時(shí)間更長(zhǎng)，效果已經(jīng)遞減。因此，他們采用了八個(gè)專家模型來提高性能。」至于這個(gè)混合模型是以什么形式工作的，George Hotz 并沒有詳細(xì)說明。為什么 OpenAI 對(duì)此諱莫如深呢？George Hotz 認(rèn)為，除了蘋果之外，大部分公司保密的原因都不是在隱藏什么黑科技，而是在隱藏一些「不那么酷」的東西，不想讓別人知道「只要花 8 倍的錢你也能得到這個(gè)模型」。

對(duì)于未來的趨勢(shì)，他認(rèn)為，人們會(huì)訓(xùn)練規(guī)模較小的模型，并通過長(zhǎng)時(shí)間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到，與過去相比，訓(xùn)練效果已經(jīng)明顯提升，盡管計(jì)算資源沒有變化，這表明訓(xùn)練方法的改進(jìn)起到了很大作用。

目前，George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。

有人從中得到了靈感，聲稱要訓(xùn)練一個(gè) LLaMA 集合來對(duì)抗 GPT-4。還有人說，如果真的像 George Hotz 說的那樣，GPT-4 是一個(gè)由 8 個(gè) 2200 億參數(shù)的專家模型組合的混合模型，那很難想象背后的推理成本有多高。需要指出的是，由于 George Hotz 并未提及消息來源，我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評(píng)論區(qū)留言。

George Hotz 采訪內(nèi)容。GPT-4 相關(guān)內(nèi)容在 49:00 前后。視頻來源：https://www.youtube.com/watch?v=K5iDUZPx60E&t=3030s

參考鏈接：https://twitter.com/soumithchintala/status/1671267150101721090

THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道：content@jiqizhixin.com

關(guān)鍵詞：

責(zé)任編輯：hnmd003