世界快報:大模型掀起諸神之戰(zhàn)，我們更需要人人可用的“普惠模型”

2023-04-17 16:24:44來源：ZAKER科技

大模型行業(yè)越來越熱鬧。國外，馬斯克為 Twitter 搶購 1 萬塊 GPU 籌備大模型項目、亞馬遜大力投資大型語言模型和生成式 AI、OpenAI 推出了 ChatGPT iOS 版本；國內，百度發(fā)布文心一言、阿里發(fā)布通義千問，王小川、王慧文、閆俊杰等 " 有背景 " 的創(chuàng)業(yè)者跑步進場。相較于深度學習而言，大模型讓 AI 的認知能力更上一層樓，進而實現所謂的 " 智能涌現 "，催生出 ChatGPT、AutoGPT、AIGC 等新型應用，讓 AI 全面進入工業(yè)化大生產階段。英偉達創(chuàng)始人、CEO 黃仁勛說：AI 的 "iPhone 時刻 " 來臨。在激動人心的 "iPhone 時刻 "，行業(yè)缺什么？

百模大戰(zhàn)

AI 的門檻一下變高了

跟當年的 AI 創(chuàng)業(yè)以及互聯網創(chuàng)業(yè)生態(tài)不同，大模型成為 " 頭號玩家 " 的游戲，活躍的玩家要么是大廠，要么是有資金加持的 " 有背景 " 創(chuàng)業(yè)者，" 草根創(chuàng)業(yè)者 " 尚未出現。

(資料圖片)

大模型具有 " 巨量數據、巨量算法、巨量算力 " 三大 " 巨量 " 特征，對任何企業(yè)包括巨頭來說，打造一個大模型都不是一件容易的事情，需要收集海量數據、需要采買海量算力、需要進行大量研發(fā)，金錢、時間、人力投入同樣 " 巨量 "。ChatGPT 是創(chuàng)業(yè)公司 OpenAI 做的，這家公司在 2015 年成立后低調耕耘 8 年，且有微軟等巨頭 / 大佬支持，底層硬件投入高達 10 億美元以上，每次訓練消耗的電力足夠 3000 輛特斯拉汽車每輛跑 20 萬英里。

" 巨量 " 特征讓大模型研發(fā)門檻極高，但任何技術生態(tài)要走向繁榮都離不開社會化創(chuàng)新。移動互聯網的崛起源自于 iOS 和安卓的出現，但也離不開應用市場數百萬開發(fā)者的創(chuàng)新。同理，大模型上 " 長出 " 的應用也都得靠開發(fā)者來定義，讓 AI 大模型為所有開發(fā)者（技術服務商、企業(yè)、組織、個體開發(fā)者等）所用，是加速大模型產業(yè)發(fā)展的關鍵。

截至目前，大模型還處在 " 只聽其聲不聞其人 " 的階段，大廠的大模型已在開放，但需要使用者有較高的人才、算力等資源配置，當下市面上急缺一款讓開發(fā)者乃至大學生等群體 " 人人可用 " 的大模型。

62 億參數規(guī)格

大模型也能 " 小而美 "

最近我在朋友圈看到有人分享了一個輕量級開源大模型：中英雙語對話模型 ChatGLM-6B，它的最大特點是輕量化，支持在單張消費級顯卡上進行部署推理使用，這讓它具備人人可用的基礎——千億規(guī)格的大模型往往需要成百上千張顯卡才能部署。

ChatGLM-6B 來自智譜 AI 這家公司，它由清華技術成果轉化而來。2022 年 8 月，智譜 AI 旗下的千億級參數模型 GLM-130B 中英雙語稠密模型正式向研究界和工業(yè)界開放—— "130B" 是 130 billion 的縮寫，即 1300 億參數。據官網介紹稱，GLM-130B 與 BERT、GPT-3 和 T5 有著不同的架構，是一個包含多目標函數的自回歸預訓練模型，具有雙語支持、高精度和快速推理等特性。

2022 年 11 月，斯坦福大學大模型中心對全球 30 個主流大模型進行了全方位的評測，GLM-130B 是亞洲唯一入選的大模型。在與 OpenAI、谷歌大腦、微軟、英偉達、臉書的各大模型對比中，評測報告顯示 GLM-130B 在準確性和惡意性指標上與 GPT-3 175B ( davinci ) 接近或持平，魯棒性和校準誤差在所有千億規(guī)模的基座大模型（作為公平對比，只對比無指令提示微調模型）中表現不錯。2023 年 3 月 14 日，智譜 AI 基于 GLM-130B 推出的千億對話模型 ChatGLM 開始內測，ChatGLM 對標 ChatGPT，具備問答和對話功能且針對中文進行了優(yōu)化，第三方評測顯示其具備 ChatGPT3.5 至少 70% 的能力水平。同一天，智譜 AI 還開源了 62 億參數的 ChatGLM-6B 模型。根據官方 Blog 顯示，ChatGLM-6B 采取跟 GLM-130B 一樣的架構與技術，其將參數規(guī)格從千億精簡到 62 億，具有如下特征：

第一，輕量級。結合模型量化技術，ChatGLM-6B 參數大幅精簡，INT4 量化級別下最低只需 6GB 顯存，支持在單張消費級顯卡上進行本地部署，部署門檻與推理成本大幅降低。

第二，中英雙語對話。進行了充分的中英雙語預訓練，經過約 1T 標識符的中英雙語訓練，輔以監(jiān)督微調、反饋自助、人類反饋強化學習等訓練方式，它更能對齊人類意圖，進而擁有不錯的智能表現。

第三，國產自主。GLM-130B 對國產信控生態(tài)有較好的支持，可在國產的海光 DCU、華為昇騰 910 和申威處理器及美國的英偉達芯片上進行訓練與推理。ChatGLM-6B 作為國產自主的輕量級大模型也支持信控平臺，可助力我國 AI 技術特別是大模型自主化。

截至目前 ChatGPT、文心一言、通義千問的體驗門檻都很高，而 ChatGLM-6B 支持公眾體驗（http://open.bigmodel.ai/trialcenter），簡單注冊后，我體驗了一下它的能力。對近期 AI 型圈沸沸揚揚的口水戰(zhàn)，它回答得很得體：

我打算做一個華為最新折疊屏手機 Mate X3 的評測，讓 ChatGLM-6B 幫忙寫一個提綱，結果中規(guī)中矩，思路沒問題：寫詩這樣的常規(guī)任務不在話下：商業(yè)文案創(chuàng)作比如取名、想廣告詞都可以做，" 喝蜜雪，不舔蓋 "，很有創(chuàng)意了：體驗中大部分時候 ChatGLM-6B 的表現相比 ChatGPT、文心一言、通義千問并不遜色，考慮到它是一個只有 62 億參數的 " 輕量版 " 大模型，哪怕 " 遜色 " 也都可以原諒了。特別值得一提的是，智譜 AI 針對取標題、寫文章等不同場景進行了調優(yōu)，讓它在滿足對應 AIGC 需求時有更出色的表現：ChatGLM-6B 的參數規(guī)格只有 62 億，因此也存在一些不容回避的問題，比如在面對許多事實性知識任務時可能會生成不正確的信息，不擅長邏輯類問題（如數學、編程）的解答，對多輪對話的支持很一般。

要真正擁有人的智商，AI 大模型依然任重道遠。AI 大模型的完整稱呼是 "AI 預訓練大模型 "，" 預訓練 " 的字面意思很容易理解：預先訓練好，這樣應用開發(fā)者可得到相對現成的訓練結果，基于此直接開發(fā) AI 應用，不再需要從 0 到 1 訓練數據、建立模型。它通過堆疊數據集 " 貪婪式 " 地訓練模式，擁有較強的通用性，理論上可泛化到多種應用場景，而小樣本或零樣本的技術實現，則可讓應用開發(fā)者快速基于其構建工程應用。

顯而易見，ChatGLM-6B 的出現體現出了大模型預訓練與泛化通用的精髓，它的理念是 " 有舍才有得 "，弱化一些能力，但降低了部署門檻，讓開發(fā)者、研究者在本地計算機上進行大模型的微調、部署、訓練成了可能，進而可更好地支持大模型落地到海量場景。

在前幾天的一次公開活動上，智譜 AI CEO 張鵬曾表達一個觀點，"AIGC 產業(yè)基座是預訓練大模型，原因在于兩個方面：第一、通用泛化能力，為 AI 研發(fā)降本增效，這是非常關鍵的特性；第二，融入更多知識，讓大模型能更好模擬人的智能。但與此同時也面臨著一些挑戰(zhàn)，比如成本高昂、訓練數據巨大，周期長等。"ChatGLM-6B 的開源正是智譜 AI 實現通用泛化、降低 AI 研發(fā)門檻與成本的實踐。

ChatGLM-6B 讓大模型技術 " 人人可用 "

ChatGLM-6B 通過輕量化的模式實現大模型的通用泛化，解決了大模型 " 高不可攀 " 這一開發(fā)者的痛點。在日益蓬勃的大模型產業(yè)中，有著獨特占位的 ChatGLM-6B 將在 AI 技術普惠中扮演重要角色。具體來說，它將給大模型產業(yè)帶來如下好處：

1、降低大模型使用門檻。更多開發(fā)者可輕松部署大模型，一方面， ChatGLM-6B 是開源的，開發(fā)者可深入大模型底層一探究竟，只有搞清楚大模型的運轉機制才能更好地利用好大模型技術。另一方面，開發(fā)者可基于 ChatGLM-6B 進行上層應用創(chuàng)新，開發(fā)出我們今天想都想不到的創(chuàng)新 AI 應用，在工業(yè)化階段再切換到 GLM-130B 這樣的千億級大模型上。

2、降低大模型的訓練成本。大模型訓練成本高昂且耗能，基于開源的 ChatGLM-6B，開發(fā)者不再需要搭建龐大的算力體系，在訓練推理時也不需要耗費驚人的電力資源、所需時間周期將大幅縮短，進而更高效、低碳、經濟地應用大模型技術，加速 AI 工業(yè)化大生產。

3、有利于大模型的教育普及。喬布斯當年曾說人人都要會編程，未來人人則要學會使用 AI 工具。在教育場景，計算機相關專業(yè)的大學生以及對編程有興趣的青少年，只要有一臺搭載顯卡的計算機就能輕松地部署 ChatGLM-6B，可以盡早了解并學會應用大模型這一基礎技術。

個人覺得，"ChatGLM-6B+GLM-130B" 的組合模式給 AI 大模型產業(yè)落地提供了一個新的范式：輕量級大模型扮演普惠的角色，讓更多人輕松 " 入門 "，學習、理解、熟悉大模型技術，進行創(chuàng)新應用的開發(fā)、驗證、測試等。到了應用階段，如有必要再使用 GLM-130B 這樣的千億級工業(yè)化大模型部署產品，面向客戶與用戶提供商業(yè)化服務。

寫在最后：

AI 大模型技術掀起新一輪產業(yè)革命，人類社會的生產力、生產資料與生產關系都將被重新定義，人們的生活與工作方式、企業(yè)的經營模式以及社會的治理方式都在被重構。在這樣的大變局下，AI 大模型已成為 " 國之重器 "。

在技術浪潮涌來時，國際形勢正波詭云譎，大國競爭日益激烈，科技是核心角力場，不論是十四五規(guī)劃綱要還是二十大均明確要增強科技創(chuàng)新引領作用，實現高水平科技自立自強。在這樣的時代背景下，大模型成了跟芯片一樣的制高點，我國必須要有自己的底層大模型技術，更需要有自己的完整的大模型應用與產業(yè)生態(tài)。

這幾天，王小川與百度的口水戰(zhàn)在大模型行業(yè)引發(fā)熱議，其實爭論 " 我國大模型距離 ChatGPT 的差距究竟是 2 個月還是 2 年 " 沒什么意義，我國大模型技術距離 GPT 還有客觀的差距，推動大模型技術精進和產業(yè)落地，是大模型玩家們的責任，行業(yè)更需要 ChatGLM-6B 這樣的可落地的解決方案，它大幅降低了 AI 開發(fā)門檻，未來還可結合低代碼等技術實現 " 人人都會大模型開發(fā) "，這才是 AI 大模型技術普惠的必經之路，也是我國 AI 大模型實現趕超的關鍵。

在官方博客上，ChatGLM 團隊有一段樸素的文字：

" 我們一直在探索、嘗試和努力，GLM 系列模型取得了一絲進展，但我們離國際頂尖大模型研究和產品（比如 OpenAI 的 ChatGPT 及下一代 GPT 模型）都還有明顯差距。中國大模型研究在原創(chuàng)算法、AI 芯片和產業(yè)上的追趕與突破需要大家的一起努力，更需要我們對下一代 AI 人才的培養(yǎng)與鍛煉。很幸運的是，GLM 團隊在過去幾年探索的過程中，有一群有情懷、有能力、有格局的年輕人加入我們并肩作戰(zhàn)，快樂開卷，大家一起焦慮，一起熬夜，一起成長，一起創(chuàng)造。通用人工智能探索，我們一直在路上，努力前行。"

我覺得還是很扎心的。大模型熱潮中，渾水摸魚、蹭熱點、搞炒作的玩家不少，但也有一些腳踏實地的團隊正在研發(fā)大模型技術，想方設法在推動大模型落地，只爭朝夕地追趕先行者，他們，值得被尊敬。

世界快報:大模型掀起諸神之戰(zhàn)，我們更需要人人可用的“普惠模型”

相關閱讀

相關閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀