碾壓 LLaMA 的最強開源大模型居然來自阿聯(lián)酋，OpenAI 和 HuggingFace 為它吵了起來

2023-06-02 10:13:48來源：ZAKER科技

這兩天 hugging face 的榜單出現(xiàn)了一個異數(shù)。一個名為 Falcon 40B 的模型，突然成為了 hugging face" 開源 " 大模型排行榜的第一名。

這一成績直接將一眾大咖加持的開源的模型踩在腳下，包括但不限于扎克伯格同學(xué)旗下的 LLaMA、新晉明星獨角獸 Stability AI 等公司。其中，LLaMA 的模型規(guī)模甚至更大，達到了 65B ——比 Falcon-40B 大出了 50%。

(相關(guān)資料圖)

按照國際通用慣例，網(wǎng)友們少不了又要拉踩一把扎克伯格。Hugging Face 過去一直被認為是大模型領(lǐng)域 GitHub，在人類大模型的開源事業(yè)的道路上不遺余力，被一些觀察者認為是 OpenAI 最具潛在挑戰(zhàn)能力的平臺。因此 Hugging Face 的榜單，被從業(yè)者給予了很高的參考價值。

按照 Hugging Face 方面表示，其整個榜單使用 Eleuther AI Harness 的評估框架，被分成四個標(biāo)準(zhǔn)：

25 個小樣本的推理邏輯測試（ARC：AI2 Reasoning Challenge）、10 個樣本的嘗試推理測試（HellaSwag）、5 個樣本的多任務(wù)準(zhǔn)確性測試（MMLU）以及誠實測試（TruthfulQA）

而在全部四項打分中，如圖一所示，除了誠實測試表現(xiàn)相對一般外，其他三項都大幅領(lǐng)先對手。而在新推出的 instruct 版本中，誠實性能力也跟上來了。

Falcon 備受外界關(guān)注，原因主要有幾點。

一方面，如果僅以這個榜單數(shù)據(jù)來看，F(xiàn)alcon 相比于友商的提升幅度很大。LLaMA-65B 之后的排序的分差往往在 0.3 分以內(nèi)，但 Falcon-instruct 直接提升了 3.4 分。

另一方面，F(xiàn)alcon 與馬斯克的火箭重名，但其實是目前為數(shù)不多的非西方國家實驗室開發(fā)的開源大模型產(chǎn)品。Falcon 背后的研發(fā)方來自阿聯(lián)酋的阿布扎比技術(shù)創(chuàng)新研究所（TII），這也是中東首個世界頂級的大模型產(chǎn)品。

TII 的背后則是阿布扎比先進技術(shù)研究委員會 ( ATRC ) ，因此是阿聯(lián)酋政府官方扶持技術(shù)創(chuàng)新項目。

而根據(jù)阿聯(lián)酋通訊社的報道，F(xiàn)alcon-45B 使用了 1 萬億個 token 進行訓(xùn)練，可以用更少的訓(xùn)練計算能力實現(xiàn)更優(yōu)的效果，其僅相當(dāng)于 OpenAI GPT-3 訓(xùn)練計算的 75%，DeepMind Chinchilla 人工智能的 40%，谷歌 PaLM-62B 訓(xùn)練計算的 80%。

阿聯(lián)酋通訊社進一步表示，作為開源的大模型工具，F(xiàn)alcon-45B 的出現(xiàn)：

" 強化了阿聯(lián)酋作為全球 AI 領(lǐng)導(dǎo)者的角色 "。

目前來說，F(xiàn)alcon-40B 雖然是開源大模型的第一名，但是和 " 不 Open" 的 OpenAI 相比，還有相當(dāng)大的差距。而在越來越公司對開源保持謹慎態(tài)度的情況下，F(xiàn)alcon 獲得 " 開源大模型第一 " 其實也算是 " 撿了個漏 "。不過很快有從業(yè)者發(fā)推特質(zhì)疑 Hugging Face 的評價體系。

有 Inflection AI 員工發(fā)推認為 Hugging Face 得出的數(shù)據(jù)與論文的評分有一定的差異。在這條質(zhì)疑下面，前特斯拉 AI 負責(zé)人、OpenAI 元老級人物（founding member）Andrej Karpathy 跟進評論：

" 這就是我目前避免評論 falcon 的原因 "。

Andrej Karpathy 曾經(jīng)是李飛飛的高徒、全球頂尖的 AI 科學(xué)家，對 OpenAI 的發(fā)展起到了很大的作用，也一手推動了特斯拉自動駕駛項目的發(fā)展，可以說是特斯拉 autopilot 之父。

當(dāng)他對 hugging face 的標(biāo)準(zhǔn)提出質(zhì)疑時，這并不能被認為是一個輕飄飄的指控。

果然 hugging face 聯(lián)合創(chuàng)始人 Thomas Wolf 聞風(fēng)而至，對同行進行了友善的科普，表示他們的使用的評價工具的準(zhǔn)確性是可靠的。這其中詭異的點在于，hugging face 的榜單不是一天發(fā)出的，Eleuther AI Harness 也是一個主流的評價體系。但當(dāng) Falcon 沖榜后，卻出現(xiàn)了兩位對評價體系 " 不理解 "、" 不確定 " 的 " 外賓 "。

看來硅谷還不是很適應(yīng)來自中東的神秘科技力量，對這種 " 新鮮事物 " 條件反射地用審視的眼光去打量。

不過，F(xiàn)alcon-40B 最大的爭議或許不是來自于能力，而是來自于其對 " 開源 " 事業(yè)的 " 誠心 "。

因為 Falcon 對商業(yè)化開源留了一個 " 后手 "，雖然使用者原則上免費，但如果收入超過 100 萬美金，依然需要繳納 10% 的授權(quán)費用。

但由于 falcon 的許可證其實部分基于 Apache License Version 2.0。后者來自 Apache 基金會，對商業(yè)開源是友好的。那如果 falcon 拿著免費開源的許可協(xié)議，未來依然會收取一定的商業(yè)化費用，這似乎依然算不上真的 " 開源 "。

大模型確實很燒錢，即便貴如中東土豪，也不希望徹底的開源。

而根據(jù) TII 方面的消息，阿聯(lián)酋方面預(yù)計將很快發(fā)布新的 Falcon-108B 的千億級大模型。

無論是開源和閉源、西方和東方、科技投資和石油資本，屆時圍繞大模型的科技競爭可能會變得更有意思。

圖片來源：網(wǎng)絡(luò)

關(guān)鍵詞：

責(zé)任編輯：hnmd003

相關(guān)閱讀

碾壓 LLaMA 的最強開源大模型居然來自阿聯(lián)酋，OpenAI 和 HuggingFace 為它吵了起來

這兩天huggingface的榜單出現(xiàn)了一個異數(shù)。一個名為Falcon40B的模型，突然成為了huggingface開源大模型排行
「小白」moto razr 40 Ultra 測評：這外屏是要當(dāng)主力么？微資訊

——ZAKER，個性化推薦熱門新聞，本地權(quán)威媒體資訊
天天熱點！Bing Chat 再次放寬限制，提高單次會話上限

品玩6月2日訊，微軟搜索和人工智能副總裁JordiRibas今天在推特上表示，BingChat再次放寬用戶的使用限制。Ri
聚焦：銷售火爆！價格上漲 3 倍！批發(fā)商拿不到貨，珍珠市場為何如此火爆？價格“狂飆”背后是什么原因

據(jù)央視財經(jīng)6月2日消息，深圳水貝市場，是中國黃金珠寶消費的晴雨表，其中，珍珠貿(mào)易和鑲嵌加工占到國內(nèi)大約
天天動態(tài):武漢新房成交坐“過山車”，“降價跑量”成常態(tài)，有樓盤最高跌價達 5 成

5月舉行的第40屆武漢春季房地產(chǎn)交易會，無疑給武漢樓市點了一把火。就在5月31日，武漢房交會組委會宣布，為
天天熱門:亞馬遜員工大罷工抗議重返辦公室

亞馬遜員工大罷工抗議重返辦公室出處：北京商報作者：北京商報綜合報道網(wǎng)編：武杉2023-06-02當(dāng)?shù)貢r間周三下
存夠 300 萬，夠不夠你體面養(yǎng)老

作為獨生子女+少子化+延遲退休的一代，80后、90后正面臨高難度的退休挑戰(zhàn)。作者|鄭依妮題圖|《彩虹老人院》
買二手房，中介費“砍”一半！文件連夜被撤銷，協(xié)會致歉：有悖上級精神，造成較大負面影響環(huán)球熱聞

福州打響調(diào)整中介費第一槍后卻又熄火了。6月1日下午，福州市房地產(chǎn)中介行業(yè)協(xié)會發(fā)布《關(guān)于合理調(diào)整二手房產(chǎn)
死刑如何執(zhí)行？死刑立即執(zhí)行能活幾天？

死刑如何執(zhí)行?根據(jù)《刑事訴訟法》第二百六十三條，人民法院在交付執(zhí)行死刑前，應(yīng)當(dāng)通知同級人民檢察院派...
拉薩市城關(guān)區(qū)人社局聯(lián)合西藏大學(xué)舉行校園招聘會

近日，拉薩市城關(guān)區(qū)人社局和西藏大學(xué)招生就業(yè)處聯(lián)合舉辦“校園啟航遇見‘位’來”校園招聘會，為畢業(yè)生...
今年高考拉薩考區(qū)將重防手機作弊

近日，記者從拉薩市召開的2023年招生考試工作聯(lián)席會上了解到，今年高考，拉薩市將把防范手機作弊作為高考安
天天快報!拉薩市城關(guān)區(qū)納金街道征集群眾微心愿愛心義賣暖人心

近日，拉薩市城關(guān)區(qū)納金街道第一屆“大工委愛心義賣市集，小力量凝聚大愛”活動在東郊萬達廣場開展。納...
地役權(quán)人是什么意思？地役權(quán)人有哪些權(quán)利和義務(wù)？

地役權(quán)人是什么意思?地役權(quán)一般涉及兩個地塊，供役地和需役地，且這兩塊土地分屬于兩個所有權(quán)人，需役地...
世界視訊！話劇《老西藏》將于7月與觀眾見面

近日，西藏自治區(qū)文化廳黨組書記肖傳江一行深入話劇《老西藏》排練現(xiàn)場，看望慰問主創(chuàng)團隊和全體演職人員，
職務(wù)犯罪包括哪些罪名？如何預(yù)防職務(wù)犯罪？

職務(wù)犯罪包括哪些罪名?職務(wù)犯罪一般包括貪污罪、受賄罪、濫用職權(quán)罪、玩忽職守罪、徇私舞弊減刑、假釋、...
行政法規(guī)是誰制定的？行政法規(guī)和部門規(guī)章的區(qū)別

行政法規(guī)是誰制定的?行政法規(guī)的制定主體是國務(wù)院，行政法規(guī)根據(jù)憲法和法律的授權(quán)制定。法律依據(jù):《中華...
圖片版權(quán)登記應(yīng)該怎么進行申請？圖片版權(quán)登記的法律依據(jù)

圖片版權(quán)登記應(yīng)該怎么進行申請?版權(quán)登記的申請流程：一、提交申請版權(quán)登記的作品：向國家版權(quán)局提交自己...
醫(yī)患之間有什么法律關(guān)系？醫(yī)患關(guān)系如何處理？

醫(yī)患之間有什么法律關(guān)系?醫(yī)患之間的法律關(guān)系包括以下：(1) 醫(yī)患合同關(guān)系;(2)醫(yī)患無因管理關(guān)系;(3)醫(yī)患...
全球動態(tài):首屆中國綠色算力大會將于7月1日在內(nèi)蒙古呼和浩特舉辦

中新社北京6月1日電(記者烏婭娜)首屆中國綠色算力大會將于7月1日在內(nèi)蒙古呼和浩特舉辦。首屆中國綠色算力
投標(biāo)保證金的收取比例是多少？投標(biāo)保證金遞交時間

投標(biāo)保證金的收取比例是多少?工程施工、貨物采購類：投標(biāo)保證金一般不超過投標(biāo)報價的2%，最高不得超過80...
女子出嫁被取消村民資格無權(quán)分土地怎么辦？村民資格認定由誰決定？

女子出嫁被取消村民資格無權(quán)分土地怎么辦?河南鄭州崗李村女子張亞平因為結(jié)婚，被取消村民資格，無權(quán)分得...
股東表決權(quán)可以約定嗎？股東表決權(quán)是以股份數(shù)還是人數(shù)？

股東表決權(quán)可以約定嗎?股東表決權(quán)可以自由約定。股東可以在公司章程中自由約定行使表決權(quán)的方式。如果公...
軍人出軌軍人怎么處理？軍人婚內(nèi)出軌有什么處罰？

軍人出軌軍人怎么處理?軍人出軌的屬于違背社會公德，軍人配偶可以到部隊進行投訴，請求部隊幫助。根據(jù)《...
資本運作是傳銷嗎？資本運作與傳銷的區(qū)別

資本運作是傳銷嗎?資本運作不是傳銷，資本運作和傳銷是兩碼事。資本運作又稱資本經(jīng)營、消費投資、連鎖銷...
關(guān)愛百萬長期醫(yī)療險怎么樣？怎么買嗎？

還是不錯的。關(guān)愛百萬長期醫(yī)療險是一款長期醫(yī)療保險產(chǎn)品，它可以為您提供全面的醫(yī)療保障，包括住院醫(yī)療、手
djpc是什么保險公司？官方電話是多少？

是指大家保險。大家保險保險公司成立于2019年，總部位于北京。在保險行業(yè)快速發(fā)展的背景下，大家保險憑借其
全球最大的保險公司排名前十有哪些？哪個好？-全球播資訊

根據(jù)相關(guān)數(shù)據(jù)統(tǒng)計，全球保險公司收入排名，排名前十的保險公司分別是：中國人壽、安盛保險、太平洋人壽、美
百萬醫(yī)療報銷自費藥嗎？報銷靶向藥嗎？

可以報銷。百萬醫(yī)療的報銷是沒有醫(yī)保范圍限制的，只要是在免賠額以上的醫(yī)療費用花費，都是可以報銷掉的。
泰康百萬醫(yī)療報銷比例是多少？報銷流程是什么？

住院醫(yī)療費用最高報銷比例為90%，最高報銷金額為100萬元。門診醫(yī)療費用最高報銷比例為80%，最高報銷金額為1
中國核電擬3億元收購三一重能風(fēng)電資產(chǎn)

6月1日晚間，中國核電發(fā)布公告，公司控股子公司中核匯能擬與三一重能(688349)簽訂股權(quán)轉(zhuǎn)讓協(xié)議，以3 19億元

碾壓 LLaMA 的最強開源大模型居然來自阿聯(lián)酋，OpenAI 和 HuggingFace 為它吵了起來

相關(guān)閱讀

相關(guān)閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀