首頁 > 新聞 > 智能 > 正文

        大模型行至深處,「悟道」如何走好全面開源之路?

        2023-06-16 20:24:36來源:ZAKER科技  

        2021 年,智源發布了 " 悟道 1.0 " 與 " 悟道 2.0"。" 悟道 1.0" 是當時中國首個超大模型," 悟道 2.0" 發布時成為全球最大的智能模型,模型參數規模達到 1.75 萬億,是 OpenAI 所發布的 GPT-3 的 10 倍,受到了國內外的矚目。也因此,智源被斯坦福、谷歌等企業列為大模型的先驅。

        盡管如此,由于早期,大模型還缺乏好的應用場景和產品,價值始終無法發揮,大模型的研發也曾受到一些爭議。而智源更是在大模型的算法研發尚未明朗的階段,就已經開始了籌備開源與基礎設施的構建,這在當時也令不少行業人士十分詫異。


        (資料圖)

        在過去不到一年的時間里,ChatGPT 帶火了大模型。曾經的唱衰者回頭看,才驚覺智源這一舉措的前瞻性。早在大模型的潛力還不為大多數人所熟悉時,智源是國內為數不多率先關注 AI 大模型開源與基礎工作的機構之一。

        作為國內最早布局大模型研發的機構,智源區別于其他家的一點是,在大模型的基礎配套系統與設施上有更早期、更全面的布局。

        大模型的范式變革,注定了算法的創新只是第一步,底層算力、網絡、存儲、大數據、AI 框架等等復雜的系統性工程問題也同等重要,如同電動汽車的普及需要便利的充電樁、針對電車的維修與保養中心等等,需要體系化的基礎設施支撐。沒有基礎設施,就相當于在馬車時代發明了汽車,大模型只能停留在 " 馬拉小車 " 的階段。

        大模型時代的到來,是一場技術變革解決實際落地問題的重要突破。

        那么,全局考慮下的大模型研發,又有著怎樣的過人之處?

        今年 6 月的智源大會上,北京智源人工智能研究院交出了一份別開生面的成績單。

        黃鐵軍發布《2023 智源研究院進展報告》

        " 悟道 3.0 " 有哪些開創性的成就?

        繼 2021 年悟道大模型項目連創 " 中國首個 + 世界最大 " 紀錄之后,時隔 2 年多,智源發布并全面開源 " 悟道 3.0" 系列模型。

        值得注意的是,智源的關注點不僅是模型本身,更包括模型背后的算力平臺建設、數據梳理、模型能力評測、算法測試、開源開放組織等體系化工作。

        " 悟道 3.0 " 包括 " 悟道 · 天鷹 "(Aquila)語言大模型系列、" 悟道 · 視界 " 視覺大模型系列,以及一系列多模態模型成果。同期,FlagOpen 大模型技術開源體系也上新了天秤(FlagEval)開源大模型評測體系與開放平臺,

        智源自研,更新的架構

        相比于悟道 1.0、" 悟道 2.0 " 是由智源與多個外部實驗室聯合發布的研究成果,悟道 3.0 系列大模型是由智源研究院團隊自研完成。

        2021 年,智源推出了 " 悟道 2.0 " 系列模型,其語言模型、如 GLM 以及文生圖模型、如 CogView 等,經過兩年的發展在相關領域已實現進一步發展演進。對此,基于過去模型的研究," 悟道 3.0" 在很多方向進行了重構。

        據智源研究院副院長兼總工程師林詠華介紹,如語言模型中采用 Decoder-Only 的架構,已證實在加以更高質量的數據之上,可在大規模參數的基礎模型中獲得更好的生成性能;而在文生圖模型中,智源也改用了基于 difussion 模型來進行創新。

        悟道 · 天鷹 Aquila 基礎模型(7B、33B)則集成了 GPT-3、LLaMA 等模型架構設計優點,在替換更高效的底層算子、重新設計實現了中英雙語 tokenizer 的同時,升級 BMTrain 并行訓練方法,從而使 Aquila 訓練過程中達到比 LLaMA 還要高 24% 的訓練效率。

        同時,AquilaChat 還能通過定義可擴展的特殊指令規范,對其它模型和工具的調用。舉個例子,對 AquilaChat 給出一個 " 生成唐裝女性肖像圖 " 的指令,AquilaChat 通過調用智源開源的 AltDiffusion 多語言文圖生成模型,可實現流暢的文圖生成能力。

        文圖生成

        深層次數據清洗,更合規、更干凈

        " 悟道 · 天鷹 "(Aquila)語言大模型系列由 Aquila 基礎模型、AquilaChat 對話模型和 AquilaCode 文本 - 代碼生成模型構成。

        今天大模型 " 智能涌現 " 能力的出現,與其背后海量的數據分不開。 語言數據本身蘊含著豐富的知識和智能,大模型靠海量數據訓練,發現海量數據內存在的結構和規律后,出現了涌現能力。

        作為首個支持中英雙語知識、開源商用許可的語言大模型," 悟道 · 天鷹 " Aquila 與 LLaMA、OPT 等以英文為主的學習模型不同,其 " 中英雙語 " 的特性提升了訓練難度, 要實現好性能也更具挑戰性。

        為此,研究團隊在中英文高質量語料基礎上從0開始訓練悟道 · 天鷹 Aquila 語言大模型,放入接近 40% 的高質量中文語料,包括中文互聯網數據、中文書籍、中文教材、中文文獻及百科等。

        此前大部分模型數據的主要來源都來自知名的開源數據集如 Common Crawl 等。智源在抽取其 100 萬條中文數據分析其站源情況后發現,來自中國大陸的站源僅占 17%,83% 站源來自海外的中文網站,在內容合規性、安全性上有很大的風險。

        相較之下," 悟道 · 天鷹 " Aquila 的中文互聯網數據 99% 來自國內網站,并沒有使用 Common Crawl 內中文任何預料,而是使用了智源過去三年多積累的悟道數據集,使用戶可以放心地基于它做持續訓練。

        與 " 悟道 · 天鷹 " Aquila 同期發布的智源 FlagEval 大語言模型評測體系目前涵蓋了 22 個主觀和客觀評測集,84433 道題目,細粒度刻畫大模型的認知能力。基于 " 悟道 · 天鷹 "Aquila 基礎模型(7B)打造的 AquilaChat 對話模型,在 FlagEval 評測榜單(flageval.baai.ac.cn)上,目前暫時在 " 主觀 + 客觀 " 的評測上領先其他同參數量級別的開源對話模型,包括基于 LLaMA 系列微調模型 Alpaca 等。在最新評測結果中,AquilaChat 以大約相當于其他模型 50% 的訓練數據量(SFT 數據 + 預訓練數據分別統計)達到了最優性能。但由于當前的英文數據僅訓練了相當于 Alpaca 的 40%,所以在英文的客觀評測上還暫時落后于基于 LLaMA 進行指令微調的 Alpaca。隨著后續訓練的進行,相信很快可以超越。

        林詠華介紹,這個結果主要得益于數據質量提升。在 LLaMA 中,開源數據集 Common Crawl 占比達到了 67%,相較之下,智源在預訓練數據處理時會對數據進行深層次清洗,特別是互聯網數據進行多次清洗,使數據更滿足合規需要、更干凈。

        " 悟道 · 天鷹 "Aquila 語言大模型通過數據質量的控制、多種訓練的優化方法,實現了在更小的數據集、更短的訓練時間,獲得比其它開源模型更優的性能。

        基于 Aquila-7B 強大的基礎模型能力,智源推出的 AquilaCode-7B " 文本 - 代碼 " 生成模型,是基于 The Stack 數據集進行抽取和高質量過濾,使用了約 200GB 的數據進行訓練,,以小數據集、小參數量,實現高性能,是目前支持中英雙語的、性能最好的開源代碼模型。此外,AquilaCode-7B 在英偉達和國產芯片上分別完成了代碼模型的訓練,此舉意在通過對多種架構的代碼 + 模型開源,推動芯片創新和百花齊放。

        通用性更強,應用門檻低

        此前業界討論大模型時,往往焦點都放在了語言大模型。有的看法認為,視覺和語音是屬于感知層面的智能,很多動物也具備,因此感知智能是比較基礎、也比較低端的智能,而語言層面則是更高端的 " 認知智能 "。

        但人的智能行為是多模態的,視覺作為 AI 重要組成分支,視覺大模型在近半年里也多有突破,例如 Meta 發布的通用圖像分割模型 SAM、智源推出的 SegGPT 等。

        此次悟道 3.0 系列模型中,智源也發布了 " 悟道 · 視界 " 視覺大模型系列,包括在多模態序列中補全一切的多模態大模型 Emu,最強十億級視覺基礎模型 EVA,一通百通、分割一切的視界通用分割模型,首創上下文圖像學習技術路徑的通用視覺模型 Painter,性能最強開源 CLIP 模型 EVA-CLIP,簡單 prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術。

        " 悟道 · 視界 " 視覺大模型系列模型通用性更強,系統化解決了當前視覺領域存在的任務統一、模型規模化以及數據效率等系列瓶頸問題。

        比如此次推出的多模態大模型 Emu ,可接受多模態輸入、產生多模態輸出。通過學習圖文、交錯圖文、交錯視頻文本等海量多模態序列,實現在圖像、文本和視頻等不同模態間的理解、推理和生成。在完成訓練后,Emu 可在多模態序列的上下文中補全一切,實現多輪圖文對話、視頻理解、精準圖像認知、文圖生成、多模態上下文學習、視頻問答和圖圖生成等多模態能力。

        最強十億級視覺基礎模型 EVA,該模型結合了語義學習模型(CLIP)和幾何結構學習(MIM)兩大關鍵點,在僅使用標準 ViT 模型的情況下,使 EVA 擁有了更高效、簡單的兩大優點,模型通用性更強。目前已在 ImageNet 分類、COCO 檢測分割、Kinetics 視頻分類等廣泛的視覺感知任務中取得最優性能。

        多模態圖文預訓練大模型 EVA-CLIP 是基于視覺基礎模型 EVA 研發,目前參數量達到 50 億參數。與此前 80.1% 準確率的 OpenCLIP 相比,EVA-CLIP 5B 版本在 ImageNet1K 零樣本 top1 準確率達到了 82.0%。

        智源 " 悟道 · 視界 " 的另一成果是,今年年初發布的一通百通、分割一切的視界通用分割模型,其與 SAM 模型同時發布,是首個利用視覺提示(prompt)完成任意分割任務的通用視覺模型,可從影像中分割出各種各樣的對象,是視覺智能的關鍵里程碑。

        建立科學、公正、開放的評測基準

        當前,大模型仍具有諸多難以透徹理解的黑盒特性,規模大、結構復雜,對其所待開發的 " 潛力 " 具體形式和上限尚無法確定,傳統的評測方法和基準在基礎模型評測上也面臨著失效的問題。

        在這種迫切的情況下,我們亟需搭建起一套科學、公正、開放的大模型評測體系,這有助于在學術上拉動大模型創新,構建可以衡量大模型的能力和質量的尺子。同時在產業上,為不具備研發和構建基礎大模型的企業提供一個可信可靠的全面的評測體系,將幫助他們更客觀地選擇適用于自身的大模型。

        為此,智源優先推出了天秤(FlagEval)大模型評測體系及開放平臺,創新性地構建了 " 能力 - 任務 - 指標 " 的三維評測框架,細粒度地刻畫基礎模型的認知能力邊界,呈現可視化評測結果,提供 30 + 能力、5 種任務、4 大類指標共 600 + 維全面評測,任務維度當前包括 22 個主客觀評測數據集和 84433 道題目,更多維度的評測數據集正在陸續集成。

        目前,天秤 FlagEval 大模型評測體系及開放平臺已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎模型、跨模態基礎模型實現評測。后續將全面覆蓋基礎模型、預訓練算法、微調算法等三大評測對象,包括自然語言處理、計算機視覺、音頻及多模態等四大評測場景和豐富的下游任務。天秤 FlagEval 將繼續拓展和完善 " 大模型認知能力 " 框架,集成豐富的數據集與評測指標,并探索與心理學、教育學、倫理學等社會學科的交叉研究,以期更加科學、全面地評價語言大模型。

        為未來智能運營商提供底層支持

        2021 年 3 月,在 " 悟道 1.0 " 的發布現場,黃鐵軍表示,人工智能的發展已經從 " 大煉模型 " 逐步邁向了 " 煉大模型 " 的階段。在此之前,學術界稱 " 大模型 " 一直是 " 預訓練模型 ",但從這一刻起,智源給了一個更接地氣的叫法," 大模型 " 概念正式進入公眾視野。

        不同于國內大部分做大模型研發的公司,可以說,智源是第一個關注大模型基礎設施的團隊。由張宏江、黃鐵軍首次提出的 " 大模型是 AI 時代的智能基礎運營商 " 的說法,如今看來也極具前瞻性。

        如果說模型和算法是讓機器得以轉動的電力,那么擔任發電廠角色的大模型,則非所有機構和企業都能參與角逐的對象。

        同時我們也看到,基礎設施的體系化建設非一家之力可以完成,需要更多機構協力合作,建立提供數據、訓練、評測、治理等全套服務。此前黃鐵軍就曾斷言," 不可能、也不應該有任何一家企業來完全封閉地主導大模型這么一個重要的方向。"

        大模型技術經過這幾年的你追我趕,研發技術上已較為成熟,而 ChatGPT 和 GPT-4 的火爆,將大模型應用拉向了大規模落地的階段。

        這當中,開源扮演著重要角色。

        林詠華作《悟道 · 天鷹大模型——工程化打造 AI 中的 "CPU"》主題報告

        林詠華認為,智源大模型開源的必要點在于,基于大模型本身的特色,需要構建一個的開源系統。

        從研發的角度來看,大模型目前還面臨著三個突出的難題。一方面,大模型技術復雜,各種開源框架和算法增加了開發者的學習難度,加上許多開源算法的模塊沒有統一接口,以至于在研究時僅適配階段就要花耗很多時間;其次,開源模型質量也參差不齊;更重要的是,大模型在系統層面的工程浩大,訓練和推理都需要很大的平臺算力去支持。

        面對重重困難,智源先于行業一步開始大模型的開源工作,目前也取得了一定的成果。具體來看,智源不但開源了悟道大模項目,也打造了大模型技術開源體系(FlagOpen 飛智),對模型、工具、算法代碼等開源。

        其中,FlagOpen 的核心 FlagAI 是大模型算法開源項目,當中集成了全球各領域的一些明星模型,如語言大模型 OPT、T5,視覺大模型 ViT、Swin Transformer,多模態大模型 CLIP 等,也包含了智源自家的明星大模型,此次發布的悟道 · 天鷹 Aquila 就集成到了 FlagAI 開源項目中(https://github.com/FlagAI-Open/FlagAI ) 。

        在目前開源項目中,FlagAI 開源最早,從 2022 年 6 月開始,FlagOpen 整個開源體系也是圍繞大模型去建設。從體系化的角度做大模型生態,智源想將 FlagOpen 打造成新浪潮里的 " 新 Linux" 生態。

        在模型之外,智源也做了很多的工作,例如此前推出的混合架構云平臺九鼎,不僅滿足了不同模型對算力要求的調度,作為大模型系統創新的試驗場,可在平臺上率先進行 AI 系統創新,九鼎還肩負著用大模型來拉動多種 AI 加速算力的重任。

        目前,國內大部分應用層公司的普遍思路主要有兩個,一類是直接用大模型將現有的軟件升級一遍,另一類是基于行業 Know-How 訓練出自己的模型算法、在此基礎上再提供應用服務。對許多企業來說,從 0 到 1 不斷訓練、優化大模型往往并不經濟,各行各業都需要成本足夠低的 AI 基礎設施。

        在開源模式下,企業憑借公開的源代碼,可以在已有的基礎框架上、基于自身業務需求做訓練和二次開發,例如在 FlagAI 上,當中集成了很多主流大模型算法技術,此外還有多種大模型并行處理和訓練加速技術,并且支持微調,開箱即可使用,應用門檻低,對企業應用和開發者創新都非常友好。

        這種基于開源模型做自主創新的方式,發揮了大模型通用性上的優勢,模型效果專業性也更強,從而釋放出遠超于當前的生產力。

        智源始終堅持全面開源,在開源體系下豐富算力平臺、大模型服務等 AI 基礎設施,讓企業不必再 " 重復造輪子 "、陷入對算力和算法無意義內卷中去,而是把更多的精力投入到原創的、專屬的模型研發和應用革新中。

        對于企業而言,使用開源的技術和產品還遠不止是成本上的考量,同時也是對風險的規避、降低和質量的提高。例如 Meta 在今年年初開源的 LLaMa,就規定了其版權不可以商用,基于 LLaMa 微調的新模型也不能商用,而智源所開源的悟道 · 天鷹 Aquila 大模型則是真正在協議規定上支持商用。

        以大模型為核心的新生態正在形成,在變革的浪潮里,技術創新引領不斷向前的方向,而起到支撐性作用的基礎設施、將決定我們能走得多遠。智源舉開源之力,促進大模型時代的協同創新,讓更多企業能放心地把大模型用起來,一起參與到智能未來藍圖的繪制中去。

        (雷峰網雷峰網)

        關鍵詞:

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        推薦閱讀

        亚洲影院在线观看| 亚洲精品无码国产| 亚洲视频在线观看网址| 久久国产亚洲观看| 亚洲va国产va天堂va久久| 亚洲真人无码永久在线| 亚洲色偷偷综合亚洲AVYP| 亚洲午夜无码久久久久| 亚洲精品无码MV在线观看| 亚洲精品午夜国产VA久久成人| 亚洲色爱图小说专区| 亚洲欧洲国产精品香蕉网| 精品亚洲一区二区| 亚洲国产高清在线| 亚洲网址在线观看| jlzzjlzz亚洲jzjzjz| 一本色道久久88—综合亚洲精品| 亚洲色中文字幕在线播放| 亚洲av成人一区二区三区在线播放| 国产精品亚洲二区在线| 亚洲一区二区三区国产精品| 综合亚洲伊人午夜网| 亚洲AV午夜福利精品一区二区| 久久亚洲AV无码精品色午夜麻豆| 亚洲春黄在线观看| 亚洲夂夂婷婷色拍WW47| jzzijzzij在线观看亚洲熟妇| 国产亚洲综合一区二区三区| 精品国产亚洲一区二区在线观看| 亚洲色欲一区二区三区在线观看| 亚洲AV永久青草无码精品| 91嫩草私人成人亚洲影院| 亚洲制服丝袜一区二区三区| 亚洲色偷偷色噜噜狠狠99| 国产精品亚洲专一区二区三区| 国产精品V亚洲精品V日韩精品 | 亚洲AV综合色区无码二区爱AV| 一区二区亚洲精品精华液| 亚洲 小说区 图片区 都市| 久久精品国产亚洲精品| 亚洲A∨无码无在线观看|