中國最強 AI 研究院的大模型為何遲到了
作者|齊健
編輯|陳伊凡
頭圖|FlagStudio
(資料圖片僅供參考)
"OpenAI 會再開源大模型嗎?"
當智源研究院理事長張宏江向線上參加 2023 年智源大會的 OpenAI 首席執行官 Sam Altman 問及開源問題時,Sam Altman 微笑表示,OpenAI 未來會開放更多代碼,但沒有具體的開源時間表。
這樣的討論來自這次智源大會的話題之一——開源大模型。
6 月 9 日,2023 年智源大會在北京舉行,座無虛席。在大會現場," 算力 "、" 大模型 "" 生態 " 等與 AI 相關的詞時不時出現在參會者的聊天中,還有這個產業鏈上的各家公司。
本次大會上,智源研究院發布了全面開源的悟道 3.0。包括視覺大模型系列 " 視界 ",語言大模型系列 " 天鷹 ",以及獨創的大模型評測體系 " 天秤 "。大模型開源,就意味著公開模型代碼,供 AI 開發者研究。悟道 3.0 中的 " 天鷹 " 基礎層語言模型還是一款可商用的模型,每個人都可以免費使用這款大模型。
" 目前,國際上有三家機構在 AI 領域處在前沿地位,微軟的深度合作伙伴 OpenAI,谷歌,以及 BAAI。" 微軟總裁 Brad Smith 在不久前的一次采訪中,曾提到一家與 OpenAI、谷歌齊名的中國 " 最強 "AI 研究機構 BAAI,這家機構就是北京智源人工智能研究院。這樣一家研究院舉辦的人工智能大會,被眾多業內人士視為行業的風向標。
被微軟總裁高度認可的智源研究院,早在 2020 年 10 月已啟動了 AI 大模型 " 悟道 " 項目,并先后發布了悟道大模型 1.0 和 2.0 兩個版本。其中悟道 2.0 官方公布的參數規模達到 1.7 萬億。彼時,OpenAI 公布 1750 億參數的 GPT-3 模型也才一年時間。
不過,就是這樣一個 AI 大模型的先行者,在最近半年的 AI 大模型熱潮中,卻異常低調。
當大廠和創業公司中,大模型層出不窮時,智源在過去三個多月里,對外一直保持 " 靜默 " 狀態,除了 4 月上旬與 Meta 的摳圖 AI"SAM" 撞車的 "SegGPT",幾乎沒有向公眾透露任何有關 AI 大模型的信息。
對此,AI 行業內外的很多人都有疑問,在 AI 大模型領域領先的智源研究院,為什么在大模型的高潮時刻似乎來遲了?
開源模型要拆了 OpenAI 的護城河嗎?
" 雖然現在的大模型競爭火熱,但無論是 OpenAI 還是谷歌,都沒有護城河,因為‘開源’正在 AI 大模型領域崛起。"
在一份谷歌泄露的文件中,谷歌內部研究人員認為,開源模型或將引領大模型發展的未來,這份文件中提到 "開源模型的迭代速度更快,可定制性更強,更有私密性,而當免費的、不受限制的替代品質量相當時,人們不會為受限制的模型付費。" 這或許也是智源選擇開發開源大模型的原因之一。
目前,開源的商用大模型并不多,智源研究院對目前已發布的部分 AI 大模型進行了一個調查,在國外發布的 39 個開源語言大模型中,可商用的大模型有 16 個。國內已發布的 28 個大語言模型中,開源模型有 11 個,其中開源可商用的模型僅有 1 個。
智源此次發布的大語言模型是開源且可商用的模型,也是目前為數不多的可商用開源大語言模型之一,這也決定了這樣的模型在發布之前需要更加謹慎。
" 就智源來說,肯定不希望開源模型太難看,所以會謹慎發布。" 智源大會現場的一位 AI 研究員表示,開源模型難免要被反復驗證,被大量開發者挑 bug,為了保證開源模型的質量,智源的研發進度可能被 " 開源 " 拖慢了一些。
智源研究院院長黃鐵軍認為,目前我國市場上大模型的開源開放力度遠遠不夠,"我們應該進一步加強開源開放。開源開放也是競爭,真有水平、真有好算法,拿出來評測、去比,才能證明技術水平。"
目前國內的大模型技術透明度不高,不少國內廠商在大模型發布之初,都曾被質疑模型是否自研。有人說他們是 API 調用 ChatGPT,也有人說他們用 Meta 泄露的 LLaMA 模型 +ChatGPT 的答案數據訓練而來,開源模型則從源頭上斷絕了這些質疑。
不過,開源模型,提高技術透明度并不是為了自證清白,而是真的要 " 集中力量辦大事 "。據智源數據顯示,天鷹大語言模型每天的訓練成本在 10 萬元以上,而在國內 " 百模大戰 " 甚至 " 千模大戰 " 的大勢下,很多行業中都在進行大量不必要的重復訓練,導致的重復開支可能是個天文數字。
而開源模型可以減少重復訓練,對于有模型需求的企業來說,直接利用開源可商用的 AI 大模型,結合自身數據進行訓練,或許是 AI 落地和行業應用的最優解。
開源的另一方面考慮,在于前期積累用戶和開發者,以便構建良好生態,并實現未來的商業化。一位國內大模型公司創始人告訴虎嗅,"OpenAI 的 GPT-1 和 GPT-2 都是開源的大模型,這是為了積累用戶,提高模型的認可度。等到 GPT-3 的模型能力涌現出來,就會開始考慮商業化,模型也會逐漸走向封閉。因此,開源模型一般不會允許商用,這也是出于后續商業化的考慮。"
但顯然,智源作為非營利的研究機構,在開源問題上,并沒有商業化的考慮。對于智源而言,在模型開源方面,一方面是希望通過對底層模型等開源開放,促進 AI 大模型行業的科研創新,加速產業落地。另一方面,或許也是想要基于開源模型積累更多的用戶反饋,提升大模型在工程上的可用性。
不過,模型開源也并非 " 完美 "。
一位大廠 AI 技術總監告訴虎嗅,目前的 AI 大模型的商業化市場可以分為三層,第一層是完全具備自研模型能力的頭部大玩家,第二層是需要根據特定場景訓練專有模型的企業,第三層則是只需要通用模型能力,使用 API 接口調用即可滿足需求的中小客戶。
在這個背景下,開源模型對于有自研能力的頭部玩家來說,可以幫助他們省去了大量研發模型的時間和成本。但對于第二層和第三層企業來說,則需要他們自己組建技術團隊去對模型進行訓練和調優,而這對于很多技術實力不那么雄厚的企業來說,反而把落地流程變得更加復雜了,開源對他們來說似乎有一些 " 免費的東西最貴 " 的感覺。
此 " 悟道 " 已非彼 " 悟道 "
智源的悟道 3.0,是一套完全重新開發的大模型系列,這也是其 " 遲發 " 的原因之一。
既然已經有了悟道 2.0 的基礎,智源為什么要重新開發一套模型體系?一方面是模型的技術方向調整,另一方面則是由于模型底層訓練數據的 " 換血 "。
" 悟道 2.0 的研發是在 2021 年,所以無論是語言模型(如 GLM)還是文生圖模型(如 CogView),其所基于的算法架構從現在來看是比較早的。在過去一年多,相關領域的模型架構已經有了更多的驗證、或演進。例如,語言模型中采用 decoder only 的架構,已經證實,加以更高質量的數據,可以在大規模參數的基礎模型中,獲得更好的生成性能。在文生圖模型中,我們改用了基于 difussion 來進行進一步的創新。所以在悟道 3.0 中,我們對語言大模型、文圖生成大模型等都采用了這些更新的架構來重新開發。" 在智源研究院副院長兼總工程師林詠華表示,基于過去模型的研究,悟道 3.0 在很多方向進行了重構。
另外,悟道 3.0 還對底層模型的訓練數據進行了全面優化升級,訓練數據中使用了更新的悟道中文數據,包括 2021 年到現在的,并進行了更嚴格的質量清洗;另一方面,增加了大量的高質量中文,包括中文書籍、文獻等;此外還增加了高質量的代碼數據集等,因此基礎模型也發生了很大的改變。
在此之前,很多國內模型對中文理解能力不行的問題,就源自底層模型訓練的數據不是原生中文。國外的 AI 大模型,以及部分國內模型都采用了大量國外開源數據進行訓練。其中主要的來源包括著名的開源數據集 Common Crawl。
智源對 100 萬條 Common Crawl 網頁數據進行分析,可以提取出中文的網頁有 39052 個。從站源角度來看,可以提取出中文的網站共有 25842 個,其中 IP 在中國內地的,只有 4522 個,占比僅為 17%。這樣不僅中文數據的準確性大打折扣,安全性也很低。
" 訓練基礎模型的語料很大程度會影響 AIGC 應用、微調后的模型等內容生成的合規、安全和價值觀。" 林詠華表示,天鷹基礎模型的中文能力不是簡單的翻譯,而是把足夠多中文的知識 " 壓到這個模型里 ",它的中文互聯網數據 99% 來自國內網站,企業可以放心地基于它做持續訓練。
同時,通過大量對數據、數字的精細化處理和清洗,達到用少的數據量來訓練出一樣性能甚至性能更好的模型,這個數據甚至低到 30%、40% 的數據量就能趕上或者超過現有的開源模型了。
如今看來,這條路徑對于智源來說,也許是個更優解。因為在訓練數據方面,智源與互聯網廠商相比存在短板。互聯網大廠不僅擁有大量來自用戶側的交互數據,還擁有很多可用于訓練的版權數據。就在不久前,阿里達摩院剛剛發布來一款視頻語言數據集 Youku-mPLUG,其中的所有內容均來自阿里旗下的視頻平臺優酷。
由于智源沒有深厚的用戶基礎,所以在訓練數據方面,只能通過與版權方協商獲得授權,并通過一些公益數據項目一點點采集積累。
但是,目前智源的中文數據集還只能做到部分開源,其主要原因是,中文數據的版權分散在各個機構手中,目前智源的訓練數據是在多方協調下,獲得的針對開源模型研究開放的使用權限。大部分數據只能應用到智源的模型中,而沒有開放二次使用的權利。
"國內很有必要建立針對數據集的產業聯盟,把版權所有方聯合在一起,對人工智能方面的訓練數據進行統一規劃,但這需要頂層設計的智慧。" 林詠華告訴虎嗅。
國內大模型行業的黃埔軍校
悟道 3.0 正在講一個與悟道 2.0 不同的故事,研發團隊的變化是其中之一。作為 AI 大模型行業的先驅,智源研究院就像是國內 AI 大模型的黃埔軍校。上到智源學者,下至基層工程師,在今天的大模型熱潮中,都成了行業里的香餑餑,智源的原始團隊中,也孵化了幾個大模型的創業團隊。
在悟道 3.0 之前,一個大模型系列是由多個外部實驗室聯合發布的研究成果的組合,而這次的悟道 3.0 是由智源團隊完全自研的系列模型。
2021 年發布的悟道 2.0 模型,其中包括:文源、文瀾、文匯、文溯。其中,兩個核心模型分別由清華的兩個實驗室主力完成。而如今這兩個團隊都已成立了自己的創業公司,并沿著 CPM 和 GLM 的研發路徑形成了自己的獨立產品。
其中,GLM 的主力研發團隊清華大學知識工程研究室(KEG),就與智譜 AI 一同推出了開源模型 ChatGLM-6B,并得到了業界的廣泛認可;CPM 的主力研發團隊,清華大學計算機系自然語言處理與社會人文計算實驗室(THUNLP)中的部分成員組成的深言科技,成立一年就受到了各家資本的青睞,今年的兩輪融資中分別出現了騰訊投資、紅杉中國、奇績創壇等基金的身影。
有接近智源研究院的人士告訴虎嗅,自從國內 AI 大模型升溫以來,智源團隊成為了人才大戰的 " 圍獵目標 "," 整個研發團隊都被其他公司或獵頭盯上 "。
當下國內 AI 大模型行業,最不缺的是錢,最缺的就是人。在獵聘、脈脈、BOSS 直聘三個平臺搜索 ChatGPT,碩博學歷職位的月薪普遍高于 3 萬,最高達 9 萬。" 在薪酬方面 IT 大廠并不會占多少便宜,AI 大模型的研發都是高舉高打,創業公司給出的薪酬可能更有競爭力。" 西湖心辰 COO 俞佳對虎嗅表示,人才大戰在 AI 行業里將會越來越激烈。
" 薪酬 double,在智源的很多員工看來根本就沒有競爭力。因為現在都是拿著五倍甚至十倍工資來挖人。即使你再有理想,對未來再有規劃,也很難頂住過百萬年薪的誘惑。" 一位接近智源的人士告訴虎嗅,由于智源是一家非營利研究機構,薪酬水平很難與互聯網大廠或者是背后有大量資本支持的創業公司相比。
虎嗅從獵頭處了解到 NLP(自然語言識別)研究專家的年薪目前起步都會超過 100 萬。對于一些工作年限長,工資不高的員工來說,面對幾倍的薪水很難不動搖。
不過,從目前智源的公開數據來看,智源研究院的各個核心項目團隊帶頭人,多數還在全職負責智源研究院的研發項目。
"悟道 3.0 的模型全部是智源自己的研究人員開發的,包括天鷹、天秤,以及視界。" 林詠華表示,智源研究院目前的研發實力在行業中一直是頂尖的。
責任編輯:hnmd003
相關閱讀
相關閱讀
-
中國最強 AI 研究院的大模型為何遲到了
出品|虎嗅科技組作者|齊健編輯|陳伊凡頭圖|FlagStudioOpenAI會再開
-
280 萬條多模態指令 - 響應對,八種語言通用,首個涵蓋視頻內容的指令數據集 MIMIC-IT 來了
機器之心報道編輯:蛋醬在包含280萬條多模態上下文指令-相應對的數據集
-
iPhone 兩秒出圖,目前已知的最快移動端 Stable Diffusion 模型來了
機器之心專欄機器之心編輯部StableDiffusion(SD)是當前最熱門的文本
-
太平雋泰年金保險講解?保險好處有哪些?
太平雋泰年金保險是由太平保險公司推出的一種養老保險產品,主要針對中
-
全球速訊:盛世御享年金保險2018可靠嗎?優點是什么?
可靠。盛世御享年金保險2018由國內知名的保險公司提供,受到監管機構的
-
幸福喜樂3.0版年金保險好處是什么?保障哪些方面? 全球快消息
具有寬廣的投保年齡范圍:幸福喜樂3 0版年金保險的適用范圍涵蓋出生滿3
-
實時:人保年金險有哪些保險產品?怎么投保?
中國人保的美滿金生是一款短期年金險,定位明確。消費者可以選擇搭配萬
-
世界焦點!年金保險多少年回本?好處有哪些?
看實際的情況決定。通常情況下,是交完保費的第三到五年回本。這里說的
-
即時看!幫助作文500字左右_幫助作文
1、學會幫助別人當叢飛從容地捐出所有財產資助貧困學生的一刻,淚水再
-
厭惡風險的年輕人,選擇跨城存錢賺利息
6月3日,本該是個該睡懶覺的周六,海小姐卻在清晨五點就被鬧鈴吵醒,因
-
共享游戲主機,占領商場卻困在“圍城”
不算場地租金、電費這些,光加盟費和買設備就快10萬元了,分攤下來每臺
-
被年輕人喜愛的“剩菜盲盒”,能走得更遠嗎? 焦點觀察
最近很多年輕人,開始流行起了吃剩菜。這里的剩菜,并非客人吃剩的殘羹
-
今日熱聞!3000 元沖性能旗艦機,iQOO Neo8 Pro 配么?
對于手機廠商來說,今年可以稱作第一代驍龍8+元年。第一代8+雖然已經是
-
東方集團:高杠桿收購“輸血”大股東-看點
東方集團傾囊收購大股東資產,進一步繃緊了本就脆弱的資金鏈。薛宇 文
-
國壽福臨門年金保險可靠嗎?好處有哪些?
可靠。國壽福臨門年金保險的承保公司是中國人壽保險公司,作為我國最大
-
國壽穩態團體年金保險怎么樣?保障些什么?
很不錯。國壽穩態團體年金保險是一種以團體為單位,為團體成員提供養老
-
育英年金保險條款是什么?優勢是什么?_世界觀點
身故保障:被保險人因意外或一年后因病身故,可以領取基本保險金額身故
-
每日觀點:職業年金補充養老保險可靠嗎?好處有哪些?
可靠。職業年金補充養老保險是指事業機關單位為員工提供的一種補充養老
-
保險公司年金理財騙局是什么?有什么好處? 今日觀點
其實是信息的誤差。保險公司年金理財騙局的本質是保險公司通過虛假宣傳
-
2023年全國射擊錦標賽(步手槍項目)落幕 環球時快訊
國際射聯近期再度對巴黎奧運會射擊項目規則進行調整,這意味著運動員們
-
米哈游去年賺了 161 億!網友:夠再開發十個《原神》了|聚焦
米哈游到底賺了多少錢?這個一度引來各方猜測的問題隨著《光明日報》的
-
蘋果 Vision Pro 頭顯國內要改名?華為 4 年前已注冊商標-天天播報
IT之家6月11日消息,蘋果公司在本周的WWDC23開發者大會上正式推出了其
-
世界資訊:盧偉冰透露小米 618 最受歡迎產品 “真的是賣爆了”
【手機中國新聞】今年的618正在火熱進行中,各大手機廠商也是使出了渾
-
產業鏈人士:華為上調 2023 年手機出貨量目標至 4000 萬部
鈦媒體App6月11日消息,從產業鏈人士處獲悉,華為近期已上調2023年手機
-
評測惠普 4.5mm 電源轉接器:支持 80W+ 輸出,DC 適配器再次發揮_報道
前言隨著PD快充的普及,越來越多的設備搭載了Type-C接口,原本一些專用
-
凝心聚力迎戰2023:品佳品食品“鐵血軍魂”訓練營 滾動
5月26-28日,品佳品(深圳)實業發展有限公司“鐵血軍魂”訓練營,在廣州
-
季后賽生涯得分新高!戈登15中11砍27分6板6助2斷&正負值高達+29 快播報
NBA總決賽,掘金108-95力克熱火,大比分3-1領先。本場比賽,阿隆-戈登
-
programer_program-焦點消息
1、report釋義:2、n 報告;報道;成績單3、vt 報告;報導;使報到4、
-
中韓樂享財富年金保險可靠嗎?值得買嗎? 環球短訊
可靠。對于投資者來說,選擇一個可靠的年金保險產品至關重要。根據市場
-
微資訊!富德生命人壽保險年金保險可靠嗎?好處有哪些?
可靠。富德生命人壽保險是一家經過國家保險監管部門批準的保險公司,具
精彩推薦
閱讀排行
精彩推送
- 我為什么不買年金保險?買年金保...
- 每日觀察!國壽鑫盈年金保險靠譜...
- 福臨門年金保險少兒版可靠嗎?保...
- 今熱點:“新包頭 新青年”作品...
- 抗議公司打壓第三方應用,Reddit...
- 多名女主播穿“牽手門”同款碎花...
- 世界觀點:馬斯克重申:特斯拉市...
- 環球熱推薦:米哈游去年賺了 16...
- 微軟 2023 年工作趨勢指數揭示...
- 被年輕人喜愛的“剩菜盲盒”,能...
- 我,“絕版”畢業生,專業讀著讀...
- 厭惡風險的年輕人,選擇跨城存錢...
- “從不晚點”的山航,要退市了-焦點
- 百萬 UP 主人設崩塌背后:精致...
- 得不到就毀掉!租客拿到6萬補償...
- 房企補倉、 集中土拍帶熱5月...
- 焦點速訊:“帶押過戶”常態化重...
- 【共同締造安全江夏?】做好安全...
- 兒童教育年金保險是什么?值得購...
- 世界熱推薦:理財險和年金險的區...
- 環球熱點評!年金保險需要交稅嗎...
- 金生永泰年金保險可靠嗎?特點有...
- 【熱聞】福多壽年金保險可靠嗎?...
- 蔚來李斌:下半年有望實現平均月...
- 市檔案館開展國際檔案日系列活動...
- 春坤山旅游直通車開通|世界快播報
- 包馬搶“鮮”跑
- 保護傳承歷史文化賦能城市高質量...
- 土右旗:打造“家庭會客廳”大學...
- 青山山外青山樓外樓下一句_山外...