成本差異鑄成 AI 鴻溝？牛津：漢語訓練費用是英語的 2 倍

2023-07-31 15:27:04來源：ZAKER科技

①牛津大學的一項研究表明，從諸多大型語言模型（LLM）的計費方式看，英語的輸入和輸出比其他語言要便宜得多；

②簡體中文的訓練費用約是英語的 2 倍，而緬甸撣語的費用為 15 倍；

(資料圖片)

③語言的成本差異導致英語使用者和其他語言使用者之間形成 AI 鴻溝。

財聯社 7 月 31 日訊（編輯周子意）如今的大型語言模型（LLM）可以理解世界上很多語言，甚至是一些記載較少的語言。不過，大模型處理不同語言之間時，其性能上存在很大的差異，這是由于模型成本與其所訓練的語言緊密掛鉤。

牛津大學最近進行的一項研究表明，從諸多語言模型的計費方式看，英語的輸入和輸出比其他語言的輸入和輸出要便宜得多。例如，西班牙語的成本約為英語的 1.5 倍，簡體中文的價格約為 2 倍以上，緬甸撣語在 15 倍以上。

成本的差異也間接導致英語使用者和世界其他語言使用者之間形成 AI 鴻溝。

成本差異主要是因數據標記化所帶來的。標記化就是將訓練文本分解成更小的單元，這個更小的單元就是標記（Token）。這是一個人工智能（AI）公司將用戶輸入轉換為計算成本的過程。

研究顯示，使用英語以外的語言訪問和訓練模型的成本都更高。例如中文，無論是在語法上還是在字符數量上，都有更復雜的結構，從而導致更高的標記化（Token）率。

舉例來看，基于 OpenAI 公司的 GPT2 模型，對于 " 國家不同，所得稅的結構是不同的，稅率和稅率等級也有很大的差異 " 這句話的處理來看，在簡體中文處理中運用到了 66 個 Token，在英語處理中僅用到了 24 個 Token，而在禪語處理中使用到了 468 個 Token。

就每次輸出所需的費用而言，漢語的成本是英語的兩倍。所以在 AI 相關的費用中，英語的成本效益是最高的。

當涉及到語言模型時，設計者的主要目標是實現低成本和高效功能之間的平衡。隨著 AI 領域的不斷發展，科技公司必須仔細考慮語言選擇對成本和可訪問性的影響。

這種成本差異促使中國、印度等國家紛紛開發自己的母語 LLM 項目。

關鍵詞：

責任編輯：hnmd003