《中國金融》|姚前:ChatGPT類大模型訓練數據的托管與治理
作者|姚前「中國證監會科技監管局局長」
文章|本文將刊登于《中國金融》2023年第6期
【資料圖】
ChatGPT是美國人工智能研究實驗室OpenAI于2022年11月30日推出的一種人工智能應用工具。它能夠通過學習人類的知識來進行交流,所以也被稱為“聊天機器人”。ChatGPT甫一問世便在人工智能應用領域掀起了一陣新的浪潮并引起了全球轟動,僅僅兩個月內其注冊用戶就突破1億。ChatGPT既好玩又實用,遠超之前的自然語言處理應用,許多人認為這是一個劃時代的產品,國際上主流商業公司、學術機構乃至政府部門都開始高度重視和全面擁抱大語言模型(Large Language Models,LLM,下文簡稱大模型)應用。ChatGPT的主要魅力在于,它利用從互聯網獲取的海量訓練數據開展深度學習和強化學習,可以給用戶帶來全新的“人機對話”體驗。海量訓練數據可謂是維系ChatGPT進化的核心要素之一。有研究預測,按照目前的發展速度,到2026年ChatGPT類大模型的訓練將耗盡互聯網上的可用文本數據,屆時將沒有新的訓練數據可供使用。因此,算力瓶頸之外,訓練數據將成為大模型產業化的最大掣肘之一。從更深層次考慮,大模型在訓練數據方面還存在各種治理問題,比如數據采集標注費時費力成本高、數據質量較難保障、數據多樣化不足難以覆蓋長尾和邊緣案例、特定數據在獲取與使用分享等方面存在隱私保護、數據偏見等問題。由此可見,人工智能產業的高質量發展離不開高質量的訓練數據,訓練數據的安全合規使用是大模型人工智能長期健康發展的基礎。本文將以ChatGPT為例,探討大模型訓練數據的來源以及未來使用合成數據(Synthetic Data)的發展趨勢,分析大模型訓練數據的合規風險以及監管介入的必要性,最后提出利用數據托管機制探索有效的大模型訓練數據監管體系。
ChatGPT訓練數據來源與處理流程
OpenAI雖沒有直接公開ChatGPT的相關訓練數據來源和細節,但可以從近些年業界公布過的其他大模型(如DeepMind發布的2800億參數大模型Gopher)的訓練數據推測出ChatGPT的訓練數據來源。筆者整理了2018~2022年從GPT-1到Gopher的大模型的數據集(見表1)。
總的來看,大模型的訓練數據主要來自于維基百科(Wikipedia)、書籍(Books)、期刊(Journals)、Reddit社交新聞站點、Common Crawl和其他數據集。
數據的質量對于大模型的訓練至關重要。在模型訓練之前,通常依賴專業數據團隊對數據集進行預處理。這些預處理操作通常包括:去重,即去除重復的文本數據,一般以句子為單位;文本正則化或標準化,如全角字符轉半角字符,繁體中文轉簡體中文等;文本清洗,即剔除超文本標記語言(html)或者表情符號(emoji)等非文本內容,并對標點符號進行過濾和統一;分詞,即將句子拆分成單個的詞;詞的清洗,如去除停用詞等;詞的正則化或標準化,如統一數字的寫法等。經過以上預處理流程,通常可以得到質量相對較高的文本數據,防止數據中的噪聲對模型的訓練產生不良影響,有助于后續模型的高效訓練。
除了上述常規操作之外,在一些特定的處理任務中,數據團隊有可能還會根據不同目的對模型訓練數據進行過濾。比如,若要構建一個金融領域的知識系統,那么最好把大模型訓練數據中與金融領域相關的數據篩選出來,這樣可以提升模型生成的文本與金融領域的匹配程度,使模型的輸出看起來“更專業”。
合成數據將成為大模型訓練數據的新來源
當前,大模型的訓練嚴重依賴現有的互聯網公開文本數據。如果下一代大模型的參數達到萬億級別以上的話,數據短缺的問題將成為訓練瓶頸。對此,合成數據將是一種有效的解決方案。
合成數據是計算機模擬技術或算法創建生成的自標注信息,能夠在數學上或統計學上反映原始數據的屬性,因此可以作為原始數據的替代品來訓練、測試、驗證大模型。合成數據可分為三類:表格數據和結構化數據;圖像、視頻、語音等媒體數據;文本數據。在大模型的訓練開發上,合成數據相比原始數據,可以發揮同樣甚至更好的作用,實現更廉價、更高效的大模型訓練、測試和驗證數據供給。ChatGPT類面向終端用戶的應用只是大模型落地的開始,而產業互聯網領域的應用空間更為廣闊,合成數據可以解決ChatGPT類大模型的潛在數據瓶頸,推動科研和產業的進一步發展。
合成數據可以精確地復制原始數據集的統計特征,但又與原始數據不存在任何關聯,所以實際應用過程中的效果強于傳統的脫敏數據,便于在更大范圍內分享和使用。合成數據創造的新樣本具有原始數據的性質,甚至可以通過深度學習算法合成原始數據中沒有的罕見樣本。合成數據的產業價值主要體現在以下幾個方面:實現數據增強和數據模擬,解決數據匱乏、數據質量等問題;有效解決數據隱私保護和數據安全問題,這對于金融、醫療等領域尤為重要;確保數據多樣性,糾正歷史數據中的偏見,消除算法歧視;應對罕見案例,創建現實中難以采集的數據場景,確保大模型輸出結果的準確性。
全球IT研究與咨詢機構Gartner預測,到2024年用于訓練大模型的數據中有60%將是合成數據,到2030年大模型使用的絕大部分數據將由人工智能合成。《麻省理工科技評論》(MIT Technology Review)將大模型合成數據列為2022年十大突破性技術之一,稱其有望解決人工智能領域的“數據鴻溝”問題。可以預見,合成數據作為數據要素市場的新增量,在具備產業價值的同時,也可以解決人工智能和數字經濟的數據供給問題。
目前,合成數據應用正迅速向金融、醫療、零售、工業等諸多產業領域拓展。在金融行業,金融機構可以在不提供敏感的歷史交易信息前提下,通過合成數據集訓練量化交易模型提升獲利能力,也可以用來訓練客服機器人以改善服務體驗;在生物醫藥行業,可以通過合成數據集,在不提供患者隱私信息的條件下訓練相關模型完成藥物研發工作;在自動駕駛領域,可以通過合成數據集模擬各種駕駛場景,在保障人員和設備安全的條件下提升自動駕駛能力。
大模型訓練數據的合規風險及監管必要性
從目前的情況看,ChatGPT類大模型輸出側的結果數據在自然科學領域的應用相對可控,但在社會科學領域的應用尚存在諸多不確定性。尤其值得注意的是,大模型過度依賴訓練數據,因此在數據輸入層面可能會存在惡意操縱的風險,包括有毒輸入、偏見、意識形態攻擊、輿論操控、虛假信息、隱私泄露等。例如,有研究者指出,如果向大模型GPT-2輸入“北京市朝陽區”, GPT-2會自動補充包含這些信息的特定人員的全名、電話號碼、電子郵件和實際地址等個人身份信息,因為這些信息已經包含在GPT-2的訓練數據中。這無疑會對個人隱私保護產生不利影響。還有研究人員稱,ChatGPT經常在答案中重復和放大性別歧視及種族偏見,這是因為它的訓練文本是從互聯網中截取出的,而這些文本往往包含種族主義和性別歧視的語言,基于這種文本的概率分布訓練出的大模型會被同樣的偏見所“感染”。此外,研究人員還發現,這類大模型在訓練過程中還善于編造信息,包括杜撰歷史日期和科學規律,而且很容易掩人耳目。以上這些風險都會對大模型最終的輸出結果造成不良影響,有的甚至可能對社會經濟造成巨大沖擊,因此需要監管部門對大模型訓練數據的來源進行必要的管控,保證大模型的輸出結果符合公序良俗和法律法規要求,進而推動人工智能行業健康有序發展。
特別需要指出的是,大模型輸入側的訓練數據來源如果不是互聯網公開文本數據,通常需要數據主體的授權,否則會產生數據隱私保護和數據合規方面的問題。如前述所言,隨著可用于訓練的互聯網公開數據被逐步“耗盡”,發展大模型產業急需增加合成數據的產能,而合成數據和互聯網公開文本數據最大的區別是前者存在數據加工處理方。因此,對數據處理方的有效監管和對合成數據的有效治理以及數據權益分配就成為發展大模型產業的重中之重。
利用數據托管機制構建大模型訓練數據監管體系
通常來說,數據活動相關方主要有六類——數據主體、數據處理者、數據使用者、監管機構、國家政府部門以及國際組織。數據主體產生原始數據;數據處理者采集和控制原始數據,并加工形成數據產品和服務;數據使用者從數據處理者獲取數據產品和服務,用于商業目的;監管機構按職責對行業進行監管,比如反洗錢、反壟斷等;國家層面對數據進行立法,并對數據跨境流動等進行管控;國際組織推動全球范圍內的數據標準和規范。這一生態存在的突出問題是,傳統的數據處理者過于強勢,它們會利用技術優勢和場景優勢壟斷數據輸入和輸出,無法保證數據權益分配過程中的公平性,對于監管機構來說也是一個黑盒子。
為了扭轉上述困局,可以在數據活動中引入數據托管機構,將數據的存儲、使用、管理職責相分離,由專業的數據托管機構承擔數據存儲,監督數據處理者的數據使用和服務,并收取和分配數據權益。數據權益主要分兩塊:一塊是分配給數據主體的原始數據權益;另一塊是分配給數據處理者的增值數據權益。數據托管還可以支持監管機構、國家有權部門開展數據流動監管、執法取證、數字稅征收等方面工作。
為促進大模型訓練數據的合規使用和高質量輸出,需要加強對大模型訓練數據的源頭管控,特別是在國家層面對大模型訓練數據進行規范,而數據托管機制恰好可以成為大模型訓練數據監管的有力抓手。
可以考慮對大模型訓練數據尤其是合成數據建立托管機制。監管機構則通過對訓練數據托管方的約束,進一步規范大模型訓練數據生產方和使用方的行為。數據托管方可按規定對大模型訓練數據來源、數據處理方的處理結果以及數據使用方的數據流向和訓練結果進行監測,確保大模型訓練數據來源可靠,在數據標準、數據質量、數據安全、隱私保護等方面依法合規,以保障大模型輸出結果的高質量并符合監管要求。
大模型產業發展與合規監管思路
數字經濟高質量發展的關鍵是數據,抓住高質量數據這一“牛鼻子”,就能有效應對以數據為核心的科技創新和產業變革。當前AIGC(AI Generated Content,人工智能自動生成內容)和ChatGPT充分展現了高質量訓練數據在產業價值創造中疊加倍增作用,大模型訓練數據及其輸出結果將會是未來社會和生產中的一種重要的數據資產,其有序流轉并合規使用也是發展數字經濟的應有之義。通過合理的機制理順市場中各參與方的數據權益關系和分配格局,并加強訓練數據的依法合規監管,是促進大模型人工智能產業健康發展的關鍵。為此,筆者擬提出以下政策建議。
一是重點發展基于AIGC技術的合成數據產業。以更高效率、更低成本、更高質量為數據要素市場“增量擴容”,助力打造面向人工智能未來發展的數據優勢。在強化數據要素優質供給方面,應統籌兼顧自立自強和對外開放。可考慮對Wikipedia、Reddit等特定數據源建立過濾后的境內鏡像站點,供國內數據處理者使用。
二是構建大模型訓練數據的監管體系。國家相關部門應對大模型訓練數據的處理和使用標準進行統一規范;建立數據托管機制,對數據托管方進行約束,要求數據托管方按照監管機構的規定對數據來源、處理結果以及使用去向等進行監測,從而使得模型的輸入、輸出結果符合監管要求。
三是探索基于可信機構或基于可信技術的數據托管方式。數據托管機構可以由相關機構組建數據托管行業聯盟,以共建共享的方式建設;亦可利用區塊鏈技術,基于聯盟鏈或有管理的公鏈,完善源端數據治理機制,實現數據的鏈上托管、確權、交易、流轉與權益分配。
(責任編輯 張林)
本文首發于微信公眾號:中國金融雜志。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
責任編輯:hnmd003
相關閱讀
-
專訪小冰CEO李笛:ChatGPT不具備顛覆性,想盈利必須降質量 | 科創100人
在十四屆全國人大一次會議“部長通道”上,科技部部長王志剛客觀地評價了ChatGPT對于AI科技進步及其相關...
2023-03-07
相關閱讀
-
《中國金融》|姚前:ChatGPT類大模型訓練數據的托管與治理
ChatGPT既好玩又實用,遠超之前的自然語言處理應用,許多人認為這是一個劃時代的產品,國際上主流商業公...
-
LOFTER再回應頭像生成器爭議:如有侵權圖片,每張賠償原作者一萬元
今日,網易LOFTER再次發布其“頭像生成器”引發的爭議說明,稱功能
-
當前快訊:微軟將ChatGPT整合到更多工具中:不用寫代碼就能開發應用
據鳳凰網科技消息,微軟公司將ChatGPT背后的技術整合到其Power Pla
-
國美電器所持1億股權再被凍結
天眼查App顯示,近日,國美電器有限公司新增一則股權凍結信息,股權
-
健康變美、體驗愜意,女性“悅己經濟”驅動消費提振加速_天天速遞
鞭牛士報道 3月7日,零售平臺美團發布的女性消費趨勢洞察顯示,以
-
恒大新能源汽車貴州公司欠費104萬成老賴
恒大新能源汽車貴州公司欠費104萬成老賴3月7日消息,據企查查顯示,恒大新能源汽車(貴州)有限公司因無...
-
太平洋借記卡是什么意思?太平洋借記卡為什么有有效期?
太平洋借記卡是什么意思?太平洋借記卡(以下簡稱太平洋卡)是由交通銀行發行的帶有銀聯標識以人民幣結算的...
-
股票止損怎么操作?股票止盈止損是自動賣出嗎?
股票止損怎么操作?投資者在交易股票時,應該把風險放在第一位,可以通過設置止損位,來控制風險,那么,...
-
股票可以當天買當天賣嗎?股票買賣手續費怎么算?
股票可以當天買當天賣嗎?股票當天買是不可以當天賣的,首先,在中國A股市場,根據交易規則,當天買入的...
-
他項權證是什么意思?辦理他項權證需要什么手續?
他項權證是什么意思?他項權證指在他項權利登記后,由不動產登記中心部門核發、由抵押權人持有的權利證書...
-
新車貸款能貸幾年?新車貸款利率一般多少?
新車貸款能貸幾年?汽車貸款期限一般為1-3年,最長不超過5年。以下是汽車貸款的相關介紹:1 貸款對象:...
-
地攤經濟是什么?地攤經濟的利與弊
地攤經濟是什么?地攤經濟就是指通過擺地攤而獲得收入的一種經濟形式,其具有獨特的地理優勢,能緩解就業...
-
車損險包括哪幾項?車險不計免賠險是什么意思?
車損險包括哪幾項?車損險包括車輛損失險、全車盜搶險、發動機涉水險、自燃險、玻璃單獨破損險、不計免賠...
-
期貨開戶最低多少錢?白銀期貨開戶需要哪些條件?
期貨開戶最低多少錢?期貨開戶是沒有最低資金開戶的,期貨開戶是不需要花錢的,開戶都是免費的,只要是符...
-
交通銀行保險能買嗎?交通銀行95559怎么退保?
交通銀行保險能買嗎?交通銀行的保險是可靠的。銀行其實只是保險公司的代理渠道之一,一家銀行只能和三家...
-
公費醫療和醫保有什么區別?公費醫療報銷比例
公費醫療和醫保有什么區別?1、概念不同。醫保指社會醫療保險。社會醫療保險是國家和社會根據一定的法律...
-
百度閃付卡是什么意思?百度閃付卡怎么注銷?
百度閃付卡是什么意思?百度閃付卡是2020年8月15日,由百度公司、百信銀行聯合中國銀聯為百度用戶推出的...
-
外盤是什么意思?外盤大于內盤股價反而跌意味什么?
外盤是什么意思?外盤就是股票的買家以賣家的賣出價而買入成交,成交價為申賣價,說明買盤比較積極。當成...
-
京東白條分期免息券怎么獲得?京東白條分期怎么提前還款?
京東白條分期免息券怎么獲得?1、首先,京東白條的免息券不是隨時都有的,也就是說我們在買手機電腦這些...
-
股票綠色是漲還是跌?股票綠色上影線長什么意思?
股票綠色是漲還是跌?股市有時會上漲,有時會下跌,而不同的行情也會用不同的顏色來代表。那么,股票綠色...
-
無過責任險什么意思?無過責任險有必要上嗎?
無過責任險什么意思?無過責任險的意思就是說,被保險車輛在正常使用的過程當中,如果因為和非機動車輛、...
-
投資理財產品有哪些?投資理財產品可靠嗎?
投資理財產品有哪些?理財產品有很多種類,包括固定收益類如儲蓄、銀行理財、債券、P2P、保險、外匯、黃...
-
多頭是什么意思?多頭借貸怎么消除?
多頭是什么意思?多頭是指在股票交易市場中,投資者對股市看好,預計股價將會看漲,于是趁低價時買進股票...
-
農行醫保卡初始密碼是多少?有儲蓄功能嗎?|環球熱文
111111。 農行醫保卡的初始密碼是統一的,是111111,所以收到之后要記得改成自己熟悉的密碼
-
小病醫療險有必要買嗎?包括哪些報銷范圍? 熱資訊
有必要。 第一,小額醫療險的保費相對便宜,一年可能只需要幾十到百元的保費,但是就能獲得一份不錯的保...
-
個人怎樣買社保?要注意什么?
1、個人買社保需要以自由職業者的身份上社保; 2、參保條件:屬于城鎮戶口或者農轉非戶口; 3、準備材...
-
世界快資訊:五險一金都包括什么?有什么用?
五險一金主要包括醫療保險、失業保險、養老保險、生育保險、工傷保險和住房公積金。 其中,醫療保險、...
-
交易龍虎榜什么意思?交易龍虎榜在哪里看?
交易龍虎榜什么意思?滬深交易龍虎榜是指兩市漲跌幅、換手率等的每日排名榜從大到小排列。具體來說,交易...
-
元保百萬醫療險是真的嗎電話多少?怎么買劃算?
元保百萬醫療險是真的,保險服務熱線為400-605-0860。 元保保險可能沒有幾大保險巨頭有名氣,但是能夠成...
-
重慶啤酒入伙重慶火鍋,與后火鍋在上海復刻地道重慶味-每日視訊
3月6日,由重慶啤酒和后火鍋兩大品牌聯手,共同打造的后火鍋&重慶啤酒體驗店在上海南京東路正式開業。“...
精彩推薦
閱讀排行
精彩推送
- 天天簡訊:看看馬斯克的安保:至...
- 專訪小冰CEO李笛:ChatGPT不具備...
- 阿里影業李捷:用佳片供給打造無...
- 【熱聞】上海“動遷王”敗走醫療...
- 股票撤單一天能撤幾次?股票撤單...
- 威馬車主有救了?威馬:全力復工...
- 內飾升級雙聯屏 新款寶馬X5海外...
- 支持“點對點”自動駕駛 紅旗E7...
- 2023款路虎攬勝極光上市 售38.9...
- 國泰君安傭金是萬幾?國泰君安傭...
- 信用卡還款日怎么算的?信用卡還...
- 網上申購股票怎么申購?網上申購...
- QFII是什么?qfii機構有哪些?
- 美國股市什么時候開盤?美國股市...
- 養老保險交多少年?養老保險領取...
- 簽證保險費是什么意思?申根簽證...
- atm轉賬多久可以撤銷?atm轉賬一...
- 平安車險理賠款打給誰?平安車險...
- 人保網上車險便宜嗎?人保網上車...
- 工行金卡有什么好處?工行金卡和...
- 華夏回報混合a是什么?華夏回報...
- 增發是什么意思?股票定增和增發...
- 飛信如何群發?飛信群發短信收費...
- 如何點亮微信圖標?微信圖標怎么...
- 如何打開系統還原?系統還原有什...
- 怎樣點亮qq郵箱圖標?qq郵箱圖標...
- 淘寶怎么看差評?淘寶差評對賣家...
- 銀行的理財保險可靠嗎?不到期能...
- 天天熱點評!理財保險每年交2萬...
- 保險公司理財萬能賬戶可靠嗎?存...