首頁 > 新聞 > 智能 > 正文

        成本差異鑄成 AI 鴻溝?牛津:漢語訓練費用是英語的 2 倍

        2023-07-31 15:27:04來源:ZAKER科技  

        ①牛津大學的一項研究表明,從諸多大型語言模型(LLM)的計費方式看,英語的輸入和輸出比其他語言要便宜得多;

        ②簡體中文的訓練費用約是英語的 2 倍,而緬甸撣語的費用為 15 倍;


        (資料圖片)

        ③語言的成本差異導致英語使用者和其他語言使用者之間形成 AI 鴻溝。

        財聯社 7 月 31 日訊(編輯 周子意)如今的大型語言模型(LLM)可以理解世界上很多語言,甚至是一些記載較少的語言。不過,大模型處理不同語言之間時,其性能上存在很大的差異,這是由于模型成本與其所訓練的語言緊密掛鉤。

        牛津大學最近進行的一項研究表明,從諸多語言模型的計費方式看,英語的輸入和輸出比其他語言的輸入和輸出要便宜得多。例如,西班牙語的成本約為英語的 1.5 倍,簡體中文的價格約為 2 倍以上,緬甸撣語在 15 倍以上。

        成本的差異也間接導致英語使用者和世界其他語言使用者之間形成 AI 鴻溝。

        成本差異主要是因數據標記化所帶來的。標記化就是將訓練文本分解成更小的單元,這個更小的單元就是標記(Token)。這是一個人工智能(AI)公司將用戶輸入轉換為計算成本的過程。

        研究顯示,使用英語以外的語言訪問和訓練模型的成本都更高。例如中文,無論是在語法上還是在字符數量上,都有更復雜的結構,從而導致更高的標記化(Token)率。

        舉例來看,基于 OpenAI 公司的 GPT2 模型,對于 " 國家不同,所得稅的結構是不同的,稅率和稅率等級也有很大的差異 " 這句話的處理來看,在簡體中文處理中運用到了 66 個 Token,在英語處理中僅用到了 24 個 Token,而在禪語處理中使用到了 468 個 Token。

        就每次輸出所需的費用而言,漢語的成本是英語的兩倍。所以在 AI 相關的費用中,英語的成本效益是最高的。

        當涉及到語言模型時,設計者的主要目標是實現低成本和高效功能之間的平衡。隨著 AI 領域的不斷發展,科技公司必須仔細考慮語言選擇對成本和可訪問性的影響。

        這種成本差異促使中國、印度等國家紛紛開發自己的母語 LLM 項目。

        關鍵詞:

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        推薦閱讀

        爱情岛论坛网亚洲品质自拍| 亚洲综合图色40p| 亚洲色偷拍区另类无码专区| 亚洲老熟女五十路老熟女bbw| 蜜芽亚洲av无码精品色午夜| 亚洲国产精品久久久天堂 | 久久久久亚洲av毛片大| 亚洲阿v天堂在线2017免费| 亚洲精品动漫免费二区| 亚洲爆乳无码精品AAA片蜜桃| 亚洲精品美女久久久久久久| 亚洲精品天堂无码中文字幕| 亚洲第一综合天堂另类专| 色欲aⅴ亚洲情无码AV蜜桃| 亚洲AV永久无码精品一福利 | 亚洲人成欧美中文字幕| 亚洲av无码一区二区三区天堂古代 | 亚洲熟女综合一区二区三区| 国产v亚洲v天堂a无| 亚洲色无码国产精品网站可下载| 亚洲色欲色欱wwW在线| 久久精品国产亚洲AV未满十八| JLZZJLZZ亚洲乱熟无码| 久久精品国产亚洲AV不卡| 亚洲中文字幕无码不卡电影| 国产∨亚洲V天堂无码久久久| 亚洲AV无码久久寂寞少妇| 久久av无码专区亚洲av桃花岛| 久久精品国产精品亚洲下载| 在线观看国产区亚洲一区成人| 亚洲午夜久久久久妓女影院 | 亚洲精品无码你懂的| 亚洲AV成人一区二区三区观看| 一区国严二区亚洲三区| 久久久久亚洲AV无码专区网站 | 亚洲国产成人无码AV在线影院| 国产AV日韩A∨亚洲AV电影| 国产亚洲精品看片在线观看| 亚洲妇熟XXXX妇色黄| 亚洲精品中文字幕无码AV| 久久久亚洲欧洲日产国码二区 |