AI 大模型的語言不平等:英語訓練費用最便宜,漢語訓練費用是英語的 2 倍
其中英語輸入和輸出要比其他語言便宜得多,簡體中文的成本大約是英語的 2 倍,西班牙語的成本是英語的 1.5 倍,而緬甸撣語則是英語的 15 倍。
(資料圖片僅供參考)
究其原理,可以追溯到今年 5 月份牛津大學在 arXiv 上刊印的一篇的論文。
詞元是將自然語言文本轉換成詞元(token)序列的過程,是語言模型處理文本的第一步。在 LLM 計算力成本的核算中,詞元越多,耗費計算力的成本越高。毫無疑問,在生成式 AI 商業化的趨勢下,計算力的耗費成本也會嫁接給用戶,當下許多 AI 服務也正是按照需要處理的詞元數量來計費。
論文顯示,研究者通過分析 17 種詞元化方法后,發現同一文本被轉換成不同語言詞元序列時長度差異巨大,即使是宣稱支持多語言的詞元化方法,也無法做到詞元序列長度完全公平。
例如,根據 OpenAI 的 GPT3 tokenizer,倘若給「你的愛意」詞元化,英語只需兩個詞元,而在簡體中文中則需要八個詞元。即使簡體中文文本只有 4 個字符,而英文文本有 14 個字符。
從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到,讓 LLM 處理一句英語需要 17 個詞元(tokens),而讓 LLM 處理同樣意思的一句緬語,則需要 198 個詞元(tokens)。這意味著緬語的處理成本將達到英語的 11 倍。
類似的情況也有很多,Aleksandar Petrov 的網站中提供了許多相關的圖標和數據,感興趣的朋友不妨點擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進去查看語言之間的差異。
在 OpenAI 的官網上也有著類似的頁面,解釋了 API 是如何對一段文本進行詞元化,以及顯示該文本的詞元總數。官網也提到,一個詞元通常對應英語文本的約 4 個字符,100 個詞元約等于 75 個單詞。
得益于英語詞元序列長度短的優勢,在生成式人工智能預訓練的成本效益方面,英語可謂是最大贏家,將其他語言使用者遠遠地甩在身后,間接產生了一種不公平的局面。除此之外,這種詞元序列長度的差異也會導致處理延遲不公平(某些語言處理同樣內容需要更多時間)和長序列依賴性建模不公平(部分語言只能處理更短的文本)。
簡單點理解,就是某些語言的用戶需要支付更高的成本,承受更大的延遲,獲得更差的性能,從而降低了他們公平地訪問語言技術的機會,也就間接導致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。
僅從輸出的成本來看,簡體中文的成本是英語的兩倍。伴隨著 AI 領域的深層次發展,總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權衡下,非英語母語的國家也紛紛嘗試開發自己的母語語言大模型。
以中國為例,作為國內最早一批探索 AI 的巨頭,2023 年 3 月 20 日,百度正式上線生成式 AI 文心一言。隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優秀大模型也陸續涌現出來。
在這當中,華為盤古大模型中的 NLP 大模型更是行業內首個千億參數中文大模型,擁有 1100 億密集參數,經過 40TB 的海量數據訓練而成。
正如聯合國常務副秘書長阿米娜 · 穆罕默德曾經在聯合國大會上警告說,如果國際社會不采取果斷行動,數字鴻溝將成為「不平等的新面孔」。
同理,伴隨著生成式 AI 的狂飆突進,AI 鴻溝也很有可能成為新一輪值得關注的「不平等的新面孔」。
所幸的是,平時「慘遭嫌棄」的國內的科技巨頭已然采取了行動。
責任編輯:hnmd003
相關閱讀
相關閱讀
-
AI 大模型的語言不平等:英語訓練費用最便宜,漢語訓練費用是英語的 2 倍
近日,X(原Twitter)用戶@DylanPatel展示了一份來自牛津大學的研究:
-
不再「遙遙領先」的問界,要造百萬級 MPV
6月共售出432臺,這是問界M7給出的月度答卷。這個數據,實在是談不上「
-
奧迪“神車”跌入專車檔
撰文|趙晉杰編輯|王靖來源|盒飯財經(ID:daxiongfan)奧迪CEO杜思曼到
-
每次升級都精準切中用戶需求,2024款GS8真的太會了
當今車市,就像魷魚干上鐵板——卷得不能再卷。合資價格一再下探,
-
《浮石之旅》攻略解析大全!詳細攻略!
集會所>農場,有木材,優先升級集會所,魔導技>鐵匠鋪>倉庫,浮石柱
-
馬云相中的福州大佬,體檢狂攬100億
來源:21世紀商業評論“持股550天,還虧著20%。”投資者李林曬出持股的
-
暴雨沖毀北京頂奢酒店大堂,房價最貴超萬元,官方回應“在店賓客已轉移”
罕見強降雨席卷北京,號稱京城最貴酒店的悉曇酒店也被殃及。圖片來源:
-
2023年IPO被否:文依電氣營收激增,發明專利僅一項,疑似踩線申報
來源|時代商學院作者|彭晨雨編輯|鄭少娜今年2月17日,證監會發布全面實
-
直擊北京暴雨|門頭溝水峪嘴村有村民被困,救援正在進行中
從昨天開始,北京人防浩天救援隊深入水峪嘴村展開營救,今天早上6時許
-
直擊北京暴雨|門頭溝一老人被淤泥掩埋,消防員兩小時成功救出
消防救援人員前往途中電話聯系報警人了解到,現場是一處半地下室結構,
-
村民被困房頂一夜 救援隊轉移房山區石樓鎮17位受災群眾
龍口市蛟龍公益應急救援隊一行共23人,接到救援任務后帶著4艘救援艇,
-
星火成炬 | 軍營正當時
衛國戍邊,用使命守護國泰民安。枕戈待旦,時刻保持戰斗姿態,這就是中
-
消息稱 Meta 最早下月推出 AI 聊天機器人,著力增強用戶留存率
品玩8月1日訊,據新浪科技消息,Meta計劃最早于9月推出一系列能呈現不
-
百城新房均價連跌三月 政策頻出利好背景下樓市企穩有望
財聯社8月1日訊(記者王海春)7月的房地產市場成交表現低于市場預期。
-
河南 3 名金融機構高管任職資格獲批
8月1日消息,日前,河南3名金融機構高管任職資格獲核準。其中,國家金
-
京津冀等地遭遇極端強降雨 河北省11座大型水庫超汛限
強降雨對河北造成的影響依然在持續,目前河北的防汛形勢如何?河北省11
-
大S終于可以安安穩穩地過日子了,兩個孩子終于回到了她的身邊
大S終于可以安安穩穩地過日子了,兩個孩子終于回到了她的身邊,大s,張蘭
-
增額終身壽險怎么算收益?一般是多少?
增額終身壽險的收益主要包括兩部分:保險金和現金價值。 具體來說,增
-
五險幾歲交最合適?繳納要注意什么?
我們需要明確的是,五險的繳納年齡并沒有一個固定的標準。根據國家規定
-
商業醫療保險怎么賠付?有次數限制嗎?
商業醫療保險的賠付方式通常分為兩種:直付和報銷。 首先是直付:在選
-
什么是終身壽險?值得購買嗎?
終身壽險是一種保險產品,它提供了一種終身保障,無論被保險人何時去世
-
個人如何購買補充商業醫療保險?好處有哪些?
首先,個人可以通過保險公司購買補充商業醫療保險。保險公司通常會提供
-
蔚小理又能一起玩了?蔚來7月交付量首破2萬輛,埃安、理想受困產能
8月1日,國內多家造車新勢力品牌公布7月汽車交付量或銷量。其中,埃安
-
手機租賃被質疑是高利貸?5個平臺手機租賃費用對比,換算利率竟超50%
在共享經濟蓬勃發展的背景下,手機租賃平臺如雨后春筍般冒起。更有平臺
-
《熱搜》閉幕FIRST青年電影展首次公開放映,先導預告曝光周冬雨變身自媒體主編
影片曝光一支先導預告,短短十幾秒的鏡頭信息含量頗多。周冬雨飾演的自
-
河北涿州全域停水 需要船只轉移群眾 基本情況講解
大家好,今日關于【河北涿州全域停水需要船只轉移群眾】迅速上了的熱搜
-
兩部門緊急預撥1.1億元支持京津冀地區防汛救災
7月31日,財政部撥付8 42億元農業防災減災和水利救災資金,支持河北等1
-
投資多家漁業公司,馬云要去海上“淘寶”?
圖片來源:視覺中國天眼查顯示,近日馬云實控公司接連參投了一米八海洋
-
All in AI 之后,美圖為什么沒能做出妙鴨
圖片來源@視覺中國文|AI藍媒匯,作者|閆燁妙鴨AI相機的出圈仿佛是在一
-
下一代 Switch 或在明年推出,開發套件已交付
2017年3月3日,任天堂Switch正式發售。不到一天時間,各個首發國家或地
精彩推薦
閱讀排行
精彩推送
- 簽署《互不挖人公約》不到兩個月...
- 起亞二季度營業利潤超特斯拉,中...
- 塞內加爾主要反對黨被勒令解散,...
- 重車壓梁保安全!93輛大型車輛駛...
- 平安壽險在哪里可以查詢?查詢不...
- 商業醫療保險怎么選擇?怎么用?
- 保險公司可以單獨買百萬醫療險嗎...
- 五險交多久生孩子可以報銷?多久...
- 學生險出院后報銷時效多長時間?...
- 完美世界游戲CEO魯曉寅:數智技...
- 東北誕生“醫美面膜第一股”,敷...
- 世紀華通被立案:百億收購后,開...
- 7月重磅合資合作一覽:吉利再與...
- 蔚來7月交付超2萬臺,全新ES6成主力
- 小鵬銷量破萬,7月交付11008臺新車
- 嵐圖汽車7月銷量3412輛,同比上漲90%
- 足壇巨星梅西成為赤水河酒代言人...
- 海底撈在演唱會門口“撈人”,為...
- 比亞迪公布極端天氣客戶關懷:含...
- “蔚小理”披露 7 月交付數據
- 智能門鎖 vs 智能門鈴:哪種是...
- 隋唐西市何時對外開放?洛陽市軌...
- 中國平安: 中國平安H股公告
- 龍芯中科研制成功新一代處理器
- 湖南工業大學舉辦“科普育人、材...
- 太平洋壽險退保能退多少?怎么退?
- 五險一金買多少年?一年要多少錢?
- 萬能型終身壽險能避稅避債嗎?有...
- 大學生沒有畢業證可以交五險一金...
- 城鄉居民醫療保險交多少年不用交...