首頁 > 新聞 > 智能 > 正文

        AI 大模型的語言不平等:英語訓練費用最便宜,漢語訓練費用是英語的 2 倍

        2023-08-01 21:16:33來源:ZAKER科技  

        近日,X(原 Twitter)用戶 @Dylan Patel 展示了一份來自牛津大學的研究:通過對 GPT-4 和大多數其他常見 LLM 的語言進行研究,研究發現 LLM(大語言模型)推理的成本差異很大。

        其中英語輸入和輸出要比其他語言便宜得多,簡體中文的成本大約是英語的 2 倍,西班牙語的成本是英語的 1.5 倍,而緬甸撣語則是英語的 15 倍。


        (資料圖片僅供參考)

        究其原理,可以追溯到今年 5 月份牛津大學在 arXiv 上刊印的一篇的論文。

        詞元是將自然語言文本轉換成詞元(token)序列的過程,是語言模型處理文本的第一步。在 LLM 計算力成本的核算中,詞元越多,耗費計算力的成本越高。

        毫無疑問,在生成式 AI 商業化的趨勢下,計算力的耗費成本也會嫁接給用戶,當下許多 AI 服務也正是按照需要處理的詞元數量來計費。

        論文顯示,研究者通過分析 17 種詞元化方法后,發現同一文本被轉換成不同語言詞元序列時長度差異巨大,即使是宣稱支持多語言的詞元化方法,也無法做到詞元序列長度完全公平。

        例如,根據 OpenAI 的 GPT3 tokenizer,倘若給「你的愛意」詞元化,英語只需兩個詞元,而在簡體中文中則需要八個詞元。即使簡體中文文本只有 4 個字符,而英文文本有 14 個字符。

        從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到,讓 LLM 處理一句英語需要 17 個詞元(tokens),而讓 LLM 處理同樣意思的一句緬語,則需要 198 個詞元(tokens)。這意味著緬語的處理成本將達到英語的 11 倍。

        類似的情況也有很多,Aleksandar Petrov 的網站中提供了許多相關的圖標和數據,感興趣的朋友不妨點擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進去查看語言之間的差異。

        在 OpenAI 的官網上也有著類似的頁面,解釋了 API 是如何對一段文本進行詞元化,以及顯示該文本的詞元總數。官網也提到,一個詞元通常對應英語文本的約 4 個字符,100 個詞元約等于 75 個單詞。

        得益于英語詞元序列長度短的優勢,在生成式人工智能預訓練的成本效益方面,英語可謂是最大贏家,將其他語言使用者遠遠地甩在身后,間接產生了一種不公平的局面。

        除此之外,這種詞元序列長度的差異也會導致處理延遲不公平(某些語言處理同樣內容需要更多時間)和長序列依賴性建模不公平(部分語言只能處理更短的文本)。

        簡單點理解,就是某些語言的用戶需要支付更高的成本,承受更大的延遲,獲得更差的性能,從而降低了他們公平地訪問語言技術的機會,也就間接導致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。

        僅從輸出的成本來看,簡體中文的成本是英語的兩倍。伴隨著 AI 領域的深層次發展,總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權衡下,非英語母語的國家也紛紛嘗試開發自己的母語語言大模型。

        以中國為例,作為國內最早一批探索 AI 的巨頭,2023 年 3 月 20 日,百度正式上線生成式 AI 文心一言。

        隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優秀大模型也陸續涌現出來。

        在這當中,華為盤古大模型中的 NLP 大模型更是行業內首個千億參數中文大模型,擁有 1100 億密集參數,經過 40TB 的海量數據訓練而成。

        正如聯合國常務副秘書長阿米娜 · 穆罕默德曾經在聯合國大會上警告說,如果國際社會不采取果斷行動,數字鴻溝將成為「不平等的新面孔」。

        同理,伴隨著生成式 AI 的狂飆突進,AI 鴻溝也很有可能成為新一輪值得關注的「不平等的新面孔」。

        所幸的是,平時「慘遭嫌棄」的國內的科技巨頭已然采取了行動。

        關鍵詞:

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        推薦閱讀

        亚洲AⅤ永久无码精品AA| 国产成人精品亚洲日本在线| 亚洲熟妇成人精品一区| 亚洲人成电影网站| 亚洲第一永久在线观看| 亚洲美女人黄网成人女| 亚洲熟妇av一区| 亚洲福利一区二区三区| 亚洲成AV人片久久| 亚洲乱码一二三四区国产| 亚洲一本之道高清乱码| 亚洲综合色区中文字幕| 成人区精品一区二区不卡亚洲| 亚洲精品二三区伊人久久| 中文字幕亚洲男人的天堂网络| 456亚洲人成在线播放网站| 亚洲人成77777在线观看网| 亚洲午夜福利在线视频| 亚洲第一成年免费网站| 精品韩国亚洲av无码不卡区| 日韩亚洲精品福利| 中文字幕亚洲激情| 国产亚洲一区二区三区在线观看| 亚洲av午夜福利精品一区人妖| 亚洲av日韩av不卡在线观看| 久久久无码精品亚洲日韩按摩| 亚洲美女精品视频| 麻豆狠色伊人亚洲综合网站| 亚洲乱码国产乱码精华| heyzo亚洲精品日韩| 亚洲综合在线另类色区奇米| 亚洲AV无码国产在丝袜线观看| 亚洲人成在线播放网站岛国| 亚洲成aⅴ人片在线观| 亚洲色www永久网站| 国产亚洲漂亮白嫩美女在线| 337p日本欧洲亚洲大胆裸体艺术| 久久精品国产亚洲av麻| 亚洲天堂一区二区三区| 亚洲日韩国产欧美一区二区三区| 亚洲第一页日韩专区|