4 個月搓出 3 款大模型,王小川偷了大廠的“家”
?????? 文 | 驚蟄研究所,作者 | 小滿
(資料圖片僅供參考)
今年 4 月,沉寂一年多的王小川宣布進入 AI 大模型領域再次創(chuàng)業(yè),與 COO 茹立云聯合成立大語言模型公司百川智能。在媒體溝通會上,王小川發(fā)布了未來 20 年借助語言 AI 要完成的目標,包括構建中國最好的大模型底座,在搜索、多模態(tài)、教育和醫(yī)療等方面增強,幫助大眾輕松、普惠地獲取世界知識和專業(yè)服務。
令人意想不到的是,僅僅過了 4 個月,百川智能就接連推出 Baichuan-7B、Baichuan-13B 系列、Baichuan-53B 三款大模型。其中 8 月 8 日發(fā)布的 Baichuan-53B 參數量級達到 530 億,如期完成了王小川 " 在今年三季度發(fā)布一款參數量級在 500 億以上的大規(guī)模產品 " 的 KPI。
從離開大眾視野到重回創(chuàng)業(yè)舞臺,以及選擇大模型這一時下最熱門的風口賽道,王小川的復出很難不吸引人們的關注。而眼下隨著百川智能以驚人的效率不斷進行產品迭代與更新,人們在大廠云集的大模型賽場上,也開始多了一些與眾不同的期待。
" 遲到 " 的百川智能
作為曾經的天才少年以及大眾印象中典型的 " 理工男 ",王小川做事向來審慎, 而在選擇大模型創(chuàng)業(yè)這件事情上,他卻罕見地表現出狂熱的情緒。
今年 2 月,美團聯合創(chuàng)始人王慧文在朋友圈發(fā)布了自己的 " 人工智能宣言 ",宣布個人出資 5000 萬美元設立北京光年之外科技有限公司,將打造中國 Open AI。而據極客公園媒體報道,王小川在看到王慧文的高調宣言后,也曾準備對外宣布入局大模型領域。
王小川的激動不無道理。科技創(chuàng)業(yè)賽道通常存在時間窗口,特別是對于大模型這類新興技術而言,越早公開項目越容易爭奪到有限的技術人才和資金資源。而且大模型對數據和訓練量有著極大的需求,搶先發(fā)布產品能夠吸引合作機構和用戶參與內測,為大模型提供充足的數據并不斷訓練模型,推動算法迭代和產品更新。所以當王慧文拿出 5000 萬美元,并宣布已有頂級 VC 以 2.3 億美元認購下輪融資的 " 英雄帖 " 時,無疑加劇了大模型創(chuàng)業(yè)團隊的人才爭奪。頗為有趣的是,在王慧文宣布大模型創(chuàng)業(yè)一個月后,被稱為 " 搜狗輸入法之父 " 的馬占凱隨即在社交平臺上宣布加入光年之外。而百川智能在籌備階段,也吸引了搜狗原有班底以及其他大廠領軍人物的加入。
盡管情緒上有些激動,4 月份官宣的百川智能還是比光年之外晚了將近 2 個月,相比光年之外的 2.3 億美金融資,百川智能 5000 萬美元的啟動資金也顯得有些單薄。但 " 遲到 " 并不意味著落后,相反這 2 個月讓王小川想清楚了很多事情。
從 Open AI 的發(fā)展歷程中可以看到,雖然前后融資超過了 100 億美金,但 Open AI 真正開始 " 燒錢 " 也是在 GPT-3 正式發(fā)布開始大規(guī)模訓練之后。據國盛證券估算,GPT-3 的單次訓練成本高達 140 萬美元,一些更大的 LLM(大型語言模型)的訓練成本則介于 200 萬美元至 1200 萬美元之間。因此,對于剛剛起步的百川智能來說,5000 萬美元足以完成項目初期從 0 到 1 的產品設計。
其實在資金之外,大模型項目更關鍵的還是人才積累問題。Open AI 的 736 名員工中,就有 123 名來自于谷歌、Meta 以及蘋果公司的核心人才,半數以上員工曾在硬件或軟件公司工作。技術人才的積累,是 Open AI 在研發(fā)方面保持著一流水平的主要原因。而百川智能在最近 4 個月里,已經將團隊規(guī)模翻倍。
4 月份接受采訪時,王小川透露到月底團隊成員將達到 50 人。而截至目前,百川智能的員工規(guī)模已經達到 113 人左右。其中,技術人員的比例占 70%-80%。作為一家成立不到半年的創(chuàng)業(yè)公司,百川智能的官宣或許有些 " 遲到 ",但從結果來看,一切都在按照王小川的計劃進行。
王小川的自信從何而來?
雖然起步晚,但百川智能 4 個月發(fā)布 3 款大模型的驚人效率,表現出了后發(fā)制人的競爭意識,并且每一款產品的體驗方面也呈現出了差異化的優(yōu)勢。
早前 Baichuan-7B 和 Baichuan-13B 的跑分成績就曾令圈內人士眼前一亮。在清華大學、上海交大、愛丁堡大學聯合創(chuàng)建的評測標準 C-Eval 中,Baichuan-7B 經過 52 個學科的測評,最終獲評 34.4 分,在同量級產品中排名第一。
國際中 / 英文權威評測數據集 ( 2023 年 6 月 15 日 )Baichuan-13B 則在自然科學、醫(yī)學、藝術、數學等領域大幅領先 LLaMA-13B 等同量級的大語言模型,在社會科學、人文科學等領域超過了 ChatGPT。而在 MMLU 基準上,Baichuan-13B 超過了所有同量級開源模型。
對于最新發(fā)布的 Baichuan-53B,王小川給出的評價是文科能力更好,也就是說 Baichuan-53B 能夠很好地理解語言泛化背后的含義,具備理解古詩、生成風格化文章的能力。對此,驚蟄研究所使用 Baichuan-53B 內測版進行了測試。
在連續(xù)面對 " 請寫一首以夏天為主題的五言絕句 " 的要求時,Baichuan-53B 給出的 4 首詩文存在明顯的重復。其中,4 首絕句的最后一句都是 " 荷花盛開滿池塘 ",3 首的前兩句都是 " 夏日炎炎列日照,綠樹成蔭鳥兒叫。" 并且每首詩相同的段落描寫的都是相同的意象,似乎是按照同一個模板排列組合而成。類似的現象,驚蟄研究所在使用百度的文心一言進行對比測試時,并沒有發(fā)生。
對于生成風格化文章的能力,驚蟄研究所要求 Baichuan-53B 分別以徐志摩、卡夫卡和柯南 · 道爾的風格 " 寫一條朋友圈,講述我今天吃了肯德基這件事 "。從結果來看,雖然內容結構上也非常相似,但 Baichuan-53B 很好地抓住了三位作家的寫作風格。
最令人驚喜的是,在 " 扮演 " 柯南 · 道爾寫作的文案中,Baichuan-53B 還提到作者的代表《福爾摩斯探案集》以及其中的貝克街,讓人感覺到 AI 不是在單純地模仿作家風格生成內容,而是在生成作家自己的 " 朋友圈 "。
由此看來,Baichuan-53B 在內容生成方面不僅僅具備一定的理解能力,能夠模仿不同的文學風格,在表述上也更像是人,而不是基于大數據和算法對現有數據進行排列組合。這也難怪王小川會自信地表示," 我們這個模型在文科領域走前列。"" 百模大戰(zhàn) " 剛剛開場
ChatGPT 問世以來,大模型風口吸引了越來越多的玩家,從科技大廠到創(chuàng)業(yè)公司都開始將大模型作為自身的最大亮點,竭力追逐行業(yè)熱點。基于這一行業(yè)背景,王小川在官宣以創(chuàng)業(yè)的形式入局大模型時遭到了質疑,不少網友都表示當前大模型賽道大廠林立,獨立團隊很難有機會。坦白說,截至目前,整個行業(yè)都還停留在 " 外行看熱鬧 " 的階段,這也反映了國產大模型團隊仍然游離在 B 端和 C 端市場之間的現狀。
一個典型的現象是,OpenAI 借助 ChatGPT 成為全球頂尖 AI 公司后,國內一眾科技公司紛紛宣布推出類似 ChatGPT 的 " 聊天機器人 "" 圖片生成器 ",并且學習 Meta 等科技大廠將大模型開源免費商用。但從實際效果來看,這種 " 百模大戰(zhàn) " 更像是為了搶關注、掙流量。
大模型開放免費商用之后,給誰用、怎么用,誰又真的會用?這一連串的問題沒有人問,真正使用了免費大模型的企業(yè)也不會主動宣揚。" 聊天機器人 " 的出現,很大程度上只是為了證明科技公司具備一定的技術能力,而現階段大模型的商業(yè)化手段,仍然以 B 端市場為主。
例如百度的文心大模型涵蓋基礎大模型、任務大模型、行業(yè)大模型的三級體系,廣泛應用于電力、燃氣、金融等產業(yè)領域;騰訊的混元大模型,則主要是幫助騰訊生態(tài)實現降本增效 ,在廣告領域可以自動生成廣告文案和視頻;阿里的通義大模型,能夠跟人類進行多輪的交互,擁有文案創(chuàng)作能力,能夠續(xù)寫小說、編寫郵件等;華為盤古大模型則基于其訓練出的 2000 億參數以中文為核心的預訓練生成語言模型,發(fā)布了盤古氣象大模型、盤古礦山大模型、盤古 OCR 等多個行業(yè)大模型。
透過上述大模型的功能可以看到,科技大廠的大模型體現的是其背后在算法、算力、深度學習方面的技術實力,而這些技術能力服務的首要對象,自然是 B 端客戶。此前,華為昇騰計算業(yè)務總裁張迪煊就曾表示,華為已經幫助孵化了 20 多個基礎大模型," 中國大模型中約一半由昇騰 AI 支撐 "。而 B 端市場用戶可以在通用大模型的基礎上,定向開發(fā)出符合自己需求的專用大模型輔助企業(yè)經營,也可以針對 C 端市場開發(fā)大模型應用產品。
在王小川選擇大模型創(chuàng)業(yè)被質疑機會渺茫這件事情上,大廠在行業(yè)賽道搶先卡位,并不代表其已經掌握行業(yè)競爭的決勝權。過去因為對 B 端市場以及自身業(yè)務的過度關注,使得大廠在技術創(chuàng)新方面缺乏一些主動性。比如 2016 年開始就將 AI 作為戰(zhàn)略重心的百度,本就擁有開發(fā) ChatGPT 類語言模型的底層技術,甚至還具備絕無僅有的中文搜索場景,但直到 ChatGPT 爆火之后,百度才在今年 3 月份推出文心一言。
如同王小川對 5000 萬美元啟動資金的判斷一樣,大模型的決勝盤在于訓練階段。在給大模型投喂數據這一關鍵性的成長環(huán)節(jié),高素質訓練人才提供的高質量數據集是大模型快速成熟、迭代的關鍵。比如 ChatGPT 早期就利用菲律賓的大學教授進行數據標注,而國內進行數據標注的人才數量和水平均未能滿足行業(yè)所需。
因此,國產大模型市場雖然已有 " 百模大戰(zhàn) " 的態(tài)勢,但在最關鍵的訓練環(huán)節(jié)上,大多數仍在同一起跑線上。王小川之所以有信心參與這一輪行業(yè)變革,想必也是看透了大模型不是大力出奇跡的發(fā)明創(chuàng)造,而是在底層技術之外,持續(xù)投入不斷迭代的產品革新。
關于國內科技公司搶灘大模型的行業(yè)現象,知名投資人朱嘯虎和獵豹創(chuàng)始人傅盛曾在朋友圈激烈交鋒。朱嘯虎認為行業(yè)泡沫明顯,甚至斷言絕大多數都會在年底死掉。而王小川在 4 月份成立百川智能時表示," 年底前我們會發(fā)布對標 GPT-3.5 的大模型,有信心今年年底做到國內最好。"
王小川的百川智能會是國產大模型的希望嗎?不如把懸念留到年底,到時再看國產大模型又是怎樣一番新局面。
責任編輯:hnmd003
相關閱讀
-
小米手環(huán) 8 Pro 預熱:續(xù)航最長 14 天,升級“雙通道監(jiān)測模組”
IT之家8月12日消息,小米智能生態(tài)繼續(xù)對小米手環(huán)8Pro進行預熱,宣稱續(xù)
2023-08-12
相關閱讀
-
4 個月搓出 3 款大模型,王小川偷了大廠的“家”
圖片來源@視覺中國‍‍‍‍‍‍文|驚蟄研究所,作者
-
滬上阿姨欲 IPO,6900 家店估值僅 40 多億?
圖片來源@視覺中國文|零售商業(yè)財經,作者|正敏,編輯|鶴翔8月11日,嘉
-
再度升起的瑞幸,正面臨前后夾擊
圖片來源@視覺中國文|一點財經編輯部南非總統(tǒng)曼德拉有一句名言,生命中
-
小米手環(huán) 8 Pro 預熱:續(xù)航最長 14 天,升級“雙通道監(jiān)測模組”
IT之家8月12日消息,小米智能生態(tài)繼續(xù)對小米手環(huán)8Pro進行預熱,宣稱續(xù)
-
醫(yī)藥反腐重在標本兼治
經濟觀察報社論醫(yī)藥反腐持續(xù)升級。據經濟觀察報不完全統(tǒng)計,2023年以來
-
藥企巨震,一年 3200 億花哪兒了?
醫(yī)藥反腐風暴正在進行,一系列連鎖反應也將陸續(xù)開啟。在這背后,A股一
-
靠科技,茫茫戈壁瓜果飄香
戈壁炎風,伴著漫漫黃沙,吹得人睜不開眼,燥得人嗓子冒煙。“20多年前
-
隨心騎摩托車意外險怎么樣?怎么報銷?
隨心騎摩托車意外險是一款針對摩托車騎手的保險產品,其保障內容包括意
-
支付寶的少兒重疾險怎么樣?可靠嗎?
支付寶的少兒重疾險是一款綜合性的保險產品,主要針對兒童的重大疾病風
-
重疾險的等待期是多長時間?過了就可以理賠嗎?
重疾險的等待期根據不同的保險公司和產品而有所不同。一般來說,等待期
-
終身壽險怎么買?一年多少錢?
終身壽險是一種保險產品,它為被保險人提供終身保障,無論何時發(fā)生意外
-
人身意外險是短期保險嗎?保險范圍有哪些?
不一定。人身意外險的保險期限通常為一年或更短的時間,因此很多人認為
-
涉嫌貪腐、被帶走調查?鄧亞萍:純屬造謠污蔑
乒乓球奧運冠軍鄧亞萍今日通過個人微博“小個鄧亞萍”發(fā)布嚴正聲明稱,
-
Vlog|繽紛夏日 重慶“多巴胺”打卡攻略來了
02:17這個夏天,重慶許多色彩斑斕的建筑,因為“多巴胺”元素豐富吸引
-
正值俄烏沖突時期,展示國家技術實力,俄羅斯時隔47年重啟探月
當地時間8月11日2時10分許,俄羅斯“月球-25”號探測器搭乘“聯盟-2 1b
-
Cortana 退出舞臺:微軟 Win11 普通用戶已無法使用該應用
IT之家8月12日消息,根據國外科技媒體WindowsCentral更新報道,不少用
-
為了爭奪下沉市場,劉強東準備打三場硬仗!
圖片來源@視覺中國文|商隱社,作者|第二人生,編輯|齊馬自3月6日京東上
-
充電樁漲價,誰是韭菜?誰在卷?
圖片來源@視覺中國文|新能源行業(yè)觀察,作者|和暢,編輯|秋水我國新能源
-
任正非驅散“寒氣”,華為開啟大反攻
作者|曹安潯、柴旭晨編輯|劉寶丹去年8月,任正非在內部信中,稱華為面
-
消息稱 OPPO、vivo 的大模型產品將于“稍晚時候”落地
IT之家8月12日消息,微博博主@數碼閑聊站今日發(fā)文稱,繼華為鴻蒙4 0接
-
為了爭奪下沉市場,劉強東準備打三場硬仗!
圖片來源@視覺中國文|商隱社,作者|第二人生,編輯|齊馬自3月6日京東上
-
人多難管,為啥城市還愛演唱會?
網紅城市西安又出圈了。這一次是因為一場演唱會。8月6日,TFBOYS十周年
-
暑期檔,終于恢復了三年前的熱鬧
《孤注一擲》的火爆讓2023年暑期檔又吃下一顆定心丸。目前影片票房已有
-
7 月信貸數據創(chuàng)近 14 年新低,居民貸款成最大拖累,專家預計降準或在三季度落地
本文來源:時代財經作者:李益文7月社融和金融數據引起廣泛關注和討論
-
專訪北大國發(fā)院李玲:居民醫(yī)保應按收入水平繳納個人費用
經濟觀察報記者田進按照7月29日發(fā)布的《關于做好2023年城鄉(xiāng)居民基本醫(yī)
-
平安意外保險理賠流程是什么?理賠范圍有多大?
1 報案:被保險人在遭受意外傷害后,應立即向保險公司報案。報案時需要
-
平安鑫盛重疾險買滿20年退多少錢?如何續(xù)保?
平安鑫盛重疾險的退保政策相對靈活,買滿20年后可以選擇全額退保或部分
-
意外保險多少錢?怎么報銷?
意外保險的價格因保險公司、保險計劃和購買者的個人情況而異。一般來說
-
太平洋金諾優(yōu)享重大疾病保險能返本金嗎?能返本金嗎?
太平洋金諾優(yōu)享重大疾病保險并不返還本金。保險合同約定了具體的保險金
-
平安中老年人綜合意外險怎么買?怎么報銷?
購買平安中老年人綜合意外險非常簡單,可以通過多種途徑進行。首先,可
精彩推薦
閱讀排行
精彩推送
- 飛凡汽車&悟空出行·白龍馬智行3...
- 臉蛋洗干凈的方法 臉蛋怎么洗
- 7月產銷同比增長超三成,新能源...
- 已 10 年未更新,Linux 6.6 ...
- 小米高管:小米平板 6 Max 內...
- 消息稱三星 Galaxy S24 Ultra...
- 30 歲后重讀本科:花光嫁妝,沒...
- 2023 款紅旗 H9 車型上市:增...
- 滬上阿姨欲 IPO,6900 家店估...
- “突破千元”漲價不止 經濟型酒...
- 奇瑞轉身:傍上華為,能否撕掉低...
- 注冊制后 IPO 變慢了嗎?
- TikTok 要在美國重新洗牌了?
- 看了費翔的腹肌,我和我媽都笑了
- 游客意外險必須購買嘛?怎么買?
- 百萬保額醫(yī)療險是真的嗎?保額是...
- 百萬醫(yī)療險和重大疾病險哪個好?...
- 社保局能查到意外險嗎?怎么查詢?
- 公司意外險一個月交多少錢?怎么...
- 7月信貸數據創(chuàng)近14年新低,居民...
- 別瞧不上國產千元機,貴不一定就...
- 濟寧高新區(qū)王因街道開展“奉獻愛...
- 重疾險的受益人可以變更么?一般...
- 醫(yī)療保險交滿多少年就可以終身享...
- 婚嫁險靠譜嗎?有什么好處?
- 中國人保2019無憂人生重大疾病保...
- 兒童需要買重疾險嗎?買重疾險的...
- 紀錄片|風雨落坡嶺:K396次列車...
- 開發(fā)者為 iPhone 系列手機帶來...
- “小龍蝦刺客”難救預制菜