首頁(yè) > 股票 > 正文

        AI 大模型數(shù)據(jù)被盜第一案?細(xì)節(jié)曝光

        2023-06-17 08:13:10來(lái)源:ZAKER財(cái)經(jīng)  

        作 者丨鐘雨欣 , 鄭雪


        (相關(guān)資料圖)

        編 輯丨王俊

        6 月 13 日,筆神作文發(fā)布 " 關(guān)于‘學(xué)而思’ AI 大模型侵權(quán)事件的聲明 "。聲明稱,4 月 13 日至 17 日,學(xué)而思通過(guò) " 爬蟲(chóng) " 技術(shù)非法訪問(wèn)、緩存筆神作文 APP 服務(wù)器數(shù)據(jù)多達(dá) 258 萬(wàn)次。嚴(yán)重侵犯了筆神作文 APP 的數(shù)據(jù)權(quán)益。

        對(duì)此,學(xué)而思官方微博發(fā)文回應(yīng)稱:" 首先,MathGPT 是專注于數(shù)學(xué)領(lǐng)域的自研大模型,沒(méi)有任何作文相關(guān)數(shù)據(jù);其次,‘作文 AI 助手’目前處于開(kāi)發(fā)狀態(tài),尚未發(fā)布,該服務(wù)并未使用筆神作文的任何數(shù)據(jù)。"

        6 月 14 日,筆神作文再度發(fā)文,在這篇題為《學(xué)而思,你做了一次標(biāo)準(zhǔn)的扒庫(kù)示范》的聲明中,其表示 " 我們認(rèn)為學(xué)而思方所述并非事實(shí) ",并列出了相關(guān)證據(jù)。

        受訪專家向 21 世紀(jì)經(jīng)濟(jì)報(bào)道記者分析,本次風(fēng)波的實(shí)質(zhì)是授權(quán)合同違約糾紛,涉及到對(duì)于合同授權(quán)范圍條款的解釋。AIGC 產(chǎn)品獲得訓(xùn)練模型數(shù)據(jù)授權(quán)是合規(guī)的根基。

        學(xué)而思 AI 大模型疑盜取合作商數(shù)據(jù)?

        " 學(xué)而思在今年 4 月 13 日至 4 月 17 日,通過(guò)‘爬蟲(chóng)’技術(shù)非法訪問(wèn)、緩存筆神作文 APP 服務(wù)器數(shù)據(jù)多達(dá) 258 萬(wàn)次。" 筆神作文在 6 月 13 日聲明中表示。

        筆神作文認(rèn)為,這一行為不僅違反了雙方的合同條款,也違反了《數(shù)據(jù)安全法》相關(guān)規(guī)定,嚴(yán)重侵犯了筆神作文 APP 的數(shù)據(jù)權(quán)益。事后其曾向?qū)W而思方面進(jìn)行取證,并且對(duì)方承認(rèn)是他們的算法組在爬取數(shù)據(jù)并作為己用,但在收到律師函后始終沒(méi)有實(shí)質(zhì)性答復(fù)。

        記者了解到,筆神作文是隸屬于北京一筆兩劃科技有限公司的品牌,據(jù)其官網(wǎng)介紹,筆神是一款人工智能輔助寫(xiě)作軟件,擁有千萬(wàn)級(jí)寫(xiě)作素材庫(kù)。筆神作文與學(xué)而思之間有著多年的合作基礎(chǔ)。

        筆神作文稱,在不到一個(gè)月的時(shí)間,學(xué)而思的 AI 大模型 MathGPT 里包含的新產(chǎn)品 " 作文 AI 助手 " 就即將上線。疑似指后者作文 AI 產(chǎn)品使用了其數(shù)據(jù)。

        筆神作文還表示會(huì)通過(guò)法律途徑來(lái)維護(hù)自身權(quán)益,但目前國(guó)內(nèi)并沒(méi)有 "AI 大模型數(shù)據(jù)盜取 " 的判決先例。" 希望學(xué)而思就此支付 1 元賠償金,并公開(kāi)道歉,同時(shí)刪除已爬取的數(shù)據(jù)。"

        各執(zhí)一詞:正常合作還是 " 扒庫(kù) " 行為?

        6 月 13 日晚,學(xué)而思發(fā)布聲明,從三方面進(jìn)行回應(yīng):

        一是,學(xué)而思和筆神作文于 2020 年 12 月開(kāi)始合作,合作協(xié)議明確約定:筆神作文為學(xué)而思提供 " 筆神作文范文素材服務(wù)接口 ",用于學(xué)而思相關(guān)服務(wù)中,每月保底費(fèi)用包含的調(diào)用次數(shù)為百萬(wàn)次量級(jí)。合作至今,雙方一直按照調(diào)用量進(jìn)行正常結(jié)算。

        二是,學(xué)而思對(duì)筆神作文接口的調(diào)用,屬于雙方合同約定的正常合作范圍,對(duì)筆神素材內(nèi)容的使用均符合合同要求,并未用于合同以外的任何用途。

        三是,筆神作文在公開(kāi)聲明中提及學(xué)而思正在研發(fā)的數(shù)學(xué)大模型 MathGPT 以及學(xué)而思學(xué)習(xí)機(jī) " 作文 AI 助手 ",并主觀揣測(cè)學(xué)而思使用其數(shù)據(jù)用于兩款產(chǎn)品的訓(xùn)練和研發(fā),這與事實(shí)嚴(yán)重不符。

        " 首先,MathGPT 是專注于數(shù)學(xué)領(lǐng)域的自研大模型,沒(méi)有任何作文相關(guān)數(shù)據(jù);其次,作文 AI 助手目前處于開(kāi)發(fā)狀態(tài),尚未發(fā)布,該服務(wù)并未使用筆神作文的任何數(shù)據(jù)。" 學(xué)而思稱。

        6 月 14 日,筆神作文發(fā)布《學(xué)而思,你做了一次標(biāo)準(zhǔn)的扒庫(kù)示范》,表示 " 我們認(rèn)為學(xué)而思方所述并非事實(shí) ",并列出相關(guān)證據(jù)。

        筆神作文稱,學(xué)而思在聲明里提到調(diào)用數(shù)據(jù)為正常使用,筆神作文在合同中明確 " 甲方(注:三體云聯(lián)公司)不得隨意泄露、使用、傳播或緩存乙方(注:一筆兩劃公司)服務(wù)接口中的作文范本及相關(guān)內(nèi)容,否則造成的損失將由甲方全額賠償 "。同時(shí),在合同中提出 " 甲方不得在未經(jīng)乙方允許的情況下用于任何其他用途,包括緩存,存儲(chǔ),作為語(yǔ)料進(jìn)行計(jì)算,訓(xùn)練等。"

        但在 2023 年 4 月 13 日至 4 月 17 日之間,筆神作文檢測(cè)到服務(wù)器接口出現(xiàn)大量有規(guī)律的異常訪問(wèn),導(dǎo)致服務(wù)器承載壓力快速升高。通過(guò)查閱服務(wù)器日志發(fā)現(xiàn):三體云聯(lián)公司未經(jīng)一筆兩劃公司授權(quán)許可,用單一 IP 通過(guò) " 爬蟲(chóng) " 技術(shù)非法訪問(wèn)一筆兩劃公司服務(wù)器數(shù)據(jù)多達(dá) 258 萬(wàn)次。

        (圖源:筆神作文 APP 微信公眾號(hào))

        " 而且,從這個(gè) IP 的訪問(wèn)日志來(lái)看,每次訪問(wèn)的搜索詞都是作文相關(guān)的高頻搜索詞,我們每頁(yè)會(huì)返回 30 篇作文,每次訪問(wèn)都是用搜索詞從第一頁(yè)逐頁(yè)向后翻,這種方式基本上把庫(kù)里同個(gè)題目的所有作文全部抓取完了,這種行為不是正常人使用的方式。而且很多訪問(wèn)的間隔都是 100 毫秒左右,也不可能是正常人訪問(wèn)的速度。" 筆神作文表示。

        (圖源:筆神作文 APP 微信公眾號(hào))

        筆神作文認(rèn)為,這種對(duì)數(shù)據(jù)庫(kù)的搜刮式訪問(wèn),與以往正常的訪問(wèn)方式完全不同,按業(yè)內(nèi)的通常說(shuō)法,這就是一種典型的 " 扒庫(kù) " 行為。

        網(wǎng)絡(luò)安全專家陳業(yè)炫告訴 21 世紀(jì)經(jīng)濟(jì)報(bào)道記者,所謂 " 扒庫(kù) " 是一個(gè)口語(yǔ)化的形容詞,用于形容大規(guī)模爬取數(shù)據(jù)。" 數(shù)據(jù)爬蟲(chóng)過(guò)程中,爬取的規(guī)模大了、頻率高了,就會(huì)被認(rèn)為是非正常行為。通常情況下,高頻率的請(qǐng)求,大規(guī)模、每一篇都會(huì)訪問(wèn)的遍歷式行為都需引起關(guān)注。"

        據(jù)陳業(yè)炫介紹,爬蟲(chóng)本身就是程序化的自動(dòng)行為,比如每秒 10 次的訪問(wèn)量可以看作是超出普通用戶的行為頻率,正常用戶不會(huì)大規(guī)模、高頻率的訪問(wèn)相關(guān)網(wǎng)頁(yè)。

        在這個(gè)事件中,哪些行為是被允許的?哪些是不被允許的?" 筆神允許相關(guān)合作方查詢、查看數(shù)據(jù),但是不能本地化存儲(chǔ)用于機(jī)器學(xué)習(xí)的素材。" 陳業(yè)炫說(shuō)。

        據(jù)筆神作文介紹,基于雙方的合作精神,筆神作文自己的技術(shù)團(tuán)隊(duì)設(shè)計(jì)了完備的安全機(jī)制,正常情況下,可以防止黑客們進(jìn)行爬蟲(chóng)攻擊。而只有提供給合作伙伴學(xué)而思的接口是不設(shè)防的。

        如何理解接口不設(shè)防?陳業(yè)炫介紹,筆神作文方面未對(duì)學(xué)而思設(shè)置反爬蟲(chóng)措施。" 日常的合作中,開(kāi)放數(shù)據(jù)的一方通常需要限制訪問(wèn)的行為,包括頻率和總量,給自己留以一定的反應(yīng)時(shí)間,以防全部數(shù)據(jù)被快速抓走。"

        21 世紀(jì)經(jīng)濟(jì)報(bào)道記者多次通過(guò)官方電話嘗試聯(lián)系事件雙方,截至發(fā)稿前未得到回復(fù)。

        AIGC 火爆出圈,與之伴生的侵權(quán)風(fēng)險(xiǎn)問(wèn)題也引發(fā)各界關(guān)注。國(guó)家網(wǎng)信辦今年 4 月發(fā)布的《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》提到,提供者應(yīng)當(dāng)對(duì)生成式人工智能產(chǎn)品的預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練數(shù)據(jù)來(lái)源的合法性負(fù)責(zé)。用于生成式人工智能產(chǎn)品的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù)不得含有侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容。

        中倫律師事務(wù)所合伙人王飛指出,以 ChatGPT 為代表的生成式 AI,底層是一款通用的自然語(yǔ)言生成模型,通過(guò)互聯(lián)網(wǎng)海量的語(yǔ)料庫(kù)訓(xùn)練,對(duì)語(yǔ)言文本進(jìn)行概率建模來(lái)預(yù)測(cè)下一段輸出內(nèi)容的概率,從而實(shí)現(xiàn)根據(jù)用戶輸入的文字內(nèi)容生成對(duì)應(yīng)文字回答的功能。

        具體到本次學(xué)而思和筆神作文的 "AI 大模型數(shù)據(jù)竊取 " 風(fēng)波,王飛表示,這個(gè)事件實(shí)質(zhì)是授權(quán)合同違約糾紛,涉及到對(duì)于合同授權(quán)范圍條款的解釋。AIGC 產(chǎn)品獲得訓(xùn)練模型數(shù)據(jù)授權(quán)是合規(guī)的根基,授權(quán)的內(nèi)容和范圍、使用的形式等一般會(huì)在簽訂授權(quán)合同時(shí)予以明晰,但鑒于 AIGC 作為新生產(chǎn)物,怎樣進(jìn)行約定還要再進(jìn)行探索,也會(huì)是未來(lái) AIGC 產(chǎn)品糾紛產(chǎn)生的主要原因之一。

        陜西華格律師事務(wù)所律師葛偉超也認(rèn)為,這主要是基于合同目的而產(chǎn)生的問(wèn)題。" 雙方可能會(huì)因?yàn)楹贤嘘P(guān)于數(shù)據(jù)使用的范圍、方式、程度等條款約定不明產(chǎn)生不同理解,而對(duì)簿公堂。"

        那么,構(gòu)成 AI 大模型 " 數(shù)據(jù)盜取 " 行為,有哪些主要的判斷因素?

        "AI 數(shù)據(jù)抓取案件本質(zhì)上與近年來(lái)司法判決的典型數(shù)據(jù)抓取案件并無(wú)差別,都需要判斷抓取數(shù)據(jù)行為是否損害數(shù)據(jù)持有者的商業(yè)利益與市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)、是否屬于未經(jīng)許可使用他人勞動(dòng)成果、是否違背商業(yè)道德、抓取數(shù)據(jù)是否有合理理由。" 王飛說(shuō)。

        在法律責(zé)任方面,葛偉超指出,利用抓取技術(shù)破壞他人市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),具有并存在為自己謀取競(jìng)爭(zhēng)優(yōu)勢(shì)的主觀故意,違反誠(chéng)實(shí)信用原則,擾亂競(jìng)爭(zhēng)秩序的數(shù)據(jù)抓取行為,可能構(gòu)成不正當(dāng)競(jìng)爭(zhēng)行為。同時(shí)也直接違反了《數(shù)據(jù)安全法》相關(guān)規(guī)定。

        " 如果合作協(xié)議中有約定違約責(zé)任條款,則依其處理。如果沒(méi)有約定該種情形,則屬于侵權(quán)范圍,要承擔(dān)相應(yīng)侵權(quán)責(zé)任,包括但不限于賠禮道歉、停止侵權(quán)、賠償損失等。" 葛偉超說(shuō)。

        大模型的開(kāi)發(fā)離不開(kāi)海量數(shù)據(jù)助力。當(dāng)前,數(shù)據(jù)來(lái)源的知識(shí)產(chǎn)權(quán)已經(jīng)成為大模型發(fā)展的阿喀琉斯之踵。AI 模型開(kāi)發(fā)主體以何種方式、需要承擔(dān)何種程度的法律義務(wù)以獲取訓(xùn)練數(shù)據(jù),是當(dāng)前產(chǎn)業(yè)需要解決的核心問(wèn)題。

        值得關(guān)注的是,傳統(tǒng)的 " 授權(quán)許可模式 " 對(duì)于大模型的數(shù)據(jù)訓(xùn)練存在天然困境,不僅在于實(shí)操層面難以落地,更在于對(duì)產(chǎn)業(yè)研發(fā)的長(zhǎng)期影響。業(yè)界有觀點(diǎn)認(rèn)為,可以將數(shù)據(jù)納入合理使用的范疇進(jìn)行規(guī)制。

        目前來(lái)看,日本、英國(guó)、歐盟等已對(duì)將數(shù)據(jù)挖掘作為合理使用的情形進(jìn)行了立法確認(rèn):日本以 " 計(jì)算機(jī)信息分析 " 的名義規(guī)定了文本數(shù)據(jù)挖掘的著作權(quán)例外,英國(guó)同樣引入文本和數(shù)據(jù)挖掘的版權(quán)許可或例外情況,歐盟則選擇 " 非科研目的 " 例外的謹(jǐn)慎方案。中國(guó)業(yè)內(nèi)也在探討是否可以通過(guò)數(shù)據(jù)的合理使用解決數(shù)據(jù)權(quán)屬帶來(lái)的問(wèn)題。

        對(duì)于如何厘清數(shù)據(jù)合理使用和保護(hù)的邊界,葛偉超認(rèn)為," 首先,要明確擁有數(shù)據(jù)的經(jīng)營(yíng)者權(quán)利,即擁有數(shù)據(jù)所有權(quán)還是數(shù)據(jù)用益權(quán)。其次,明確數(shù)據(jù)抓取行為的性質(zhì)。再次,明確該種行為損害的法益是數(shù)據(jù)財(cái)產(chǎn)還是競(jìng)爭(zhēng)優(yōu)勢(shì)。最后,需要明確規(guī)制該種行為到底適用于競(jìng)爭(zhēng)法、民法、或者著作權(quán)法的保護(hù)。"

        SFC

        本期編輯 江佩佩 實(shí)習(xí)生 趙鳳鈴

        關(guān)鍵詞:

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        精彩推送

        推薦閱讀

        亚洲国产亚洲片在线观看播放| 亚洲精品无码永久在线观看你懂的 | 亚洲欧洲无卡二区视頻| 亚洲视频免费在线看| 久久久久久a亚洲欧洲AV| 国产亚洲精品高清在线| 亚洲成AⅤ人影院在线观看| 无码亚洲成a人在线观看| 亚洲视频一区二区三区四区| 亚洲精品亚洲人成在线观看麻豆 | 国产亚洲色婷婷久久99精品| 国产午夜亚洲精品国产成人小说| 亚洲人成无码网WWW| 亚洲欧洲国产成人综合在线观看| 亚洲国产中文字幕在线观看| 亚洲欧洲自拍拍偷精品 美利坚| 亚洲视频一区二区| 红杏亚洲影院一区二区三区| 激情综合色五月丁香六月亚洲| 亚洲无线观看国产精品| 国产亚洲精品xxx| 亚洲第一成年男人的天堂| 日韩精品一区二区亚洲AV观看 | 韩国亚洲伊人久久综合影院| 国产精品亚洲专区一区| 一区国严二区亚洲三区| 亚洲国产综合精品一区在线播放| 国产亚洲精品a在线观看| 亚洲人成精品久久久久| 久久精品国产精品亚洲艾| 久久精品国产亚洲av日韩| 亚洲理论在线观看| 99久久婷婷国产综合亚洲| 亚洲国产AV无码一区二区三区| 处破女第一次亚洲18分钟| 亚洲伊人成无码综合网 | 亚洲黄色网址在线观看| 亚洲性线免费观看视频成熟| 亚洲精品一卡2卡3卡四卡乱码| 国产青草亚洲香蕉精品久久| 精品国产日韩亚洲一区|