我在 AI 訓練庫里,找到 200 多張周杰倫的照片
我的一些網站正在被你的用戶攻擊,你不能不經同意就抓取我的照片信息。
(資料圖)
你要是不想讓人看你發網上的照片,你就把它刪除啊。
這段對話來自圖片抓取工具 Img2dataset 的 GitHub 頁面,爭論的雙方,是被抓取圖片的網站站長 Eden,和抓取工具的開發者 Romain。
▲雙方發言的贊踩數,似乎能看到大眾的偏向
發布上網 = 默認同意 AI 訓練
不論是 Open AI 的 DALL-E、Google 的 Imagen,還是開源的 Stable Diffusion,任何由文字生成圖片的通用大模型,都需要經過大量的數據訓練,網絡是訓練信息的最佳來源。
Eden 建立了一個名為 OpenBenches 的網站,邀請用戶上傳世界各地的紀念長椅圖片和位置。截至今日,OpenBenches 已經收集了超過兩萬七千張長椅,托管了 250GB 的照片。
一日,Eden 收到了服務器報警,說網站正在受到持續攻擊,來源正是上文中提到的 Img2dataset。原因很簡單,有人把 Eden 網站里的長椅圖片用于了 AI 訓練。因為網站流量的激增,導致 Eden 不僅支付了額外費用,還花費了不少時間去阻止抓取工具的濫用。
當然,Img2dataset 的抓取并不是無法禁止的,只需為網站加入「X-Robots-Tag: NoAI」的標頭,就可以避免被 Img2dataset 抓取,如果你沒有加,則默認你同意自己的網站數據可以被用于 AI 訓練。這就出現了爭論的關鍵:作為所有者,我應該選擇加入,而不是選擇退出。
▲「你剝奪了人們的同意權」
聽起來似乎有一點繞,舉一個不太恰當的例子,我在手機上下載了一款新 app,在沒有打開前,它就已經獲取了所有權限,并根據信息推送了廣告通知,當我質問開發者時,卻得到了「你要是不想看廣告,就不要用手機啊」的回復。
怎么樣,你開始生氣了嗎?
公司能收費,個人沒辦法
今年 2 月,Twitter 宣布不再支持免費 API 訪問,如果你想訪問 Twitter 的數據,需要每月支付 4.2 萬到 21 萬美元不等的費用,金額越高,研究人員或企業獲得的推文數量就越多。
因此,微軟則宣布數字營銷中心(DMC)隨后表示不再支持 Twitter,這將導致用戶不能再通過微軟的免費社交媒體管理服務創建、管理他們的推文。
Twitter CEO 馬斯克也一點都不含糊:微軟在用 Twitter 的數據進行非法訓練,接下來是訴訟時間。
知名社交媒體 Reddit 擁有龐大的用戶群體和活躍的社交板塊,同時不少板塊的內容也相當專業權威,這讓它成為了一個非常好的 AI 學習資料庫。Google Bard 和 ChatGPT 都曾引用 Reddit 的數據做其訓練的信息來源之一。
▲兩者的語義學習文檔中都出現過 Reddit 的身影
「Reddit 的數據語料庫非常有價值,我不能免費將這些價值提供給世界級大公司。」Reddit 創始人 Steve 在采訪中表示。
上周二,Reddit 追隨 Twitter 的腳步,開始向大公司收取 API 訪問費用。
你構建未來與我競爭的工具,而我還要把數據免費提供給你,怎么想都不合理。
對大公司來說,改變 API 的開放策略尚是一件需要進行多方權衡的反擊方法,而像 Eden 這樣的個人網站運營者或者普通網友,面對 AI 默認同意的照片訓練,并沒有太好的應對方法。音樂家 Holly Herndon 創建了一個名為「Have I Been Trained」的網站,收集了 5 億張用于 AI 藝術模型訓練的圖片,旨在幫助藝術家了解他們的作品是否包含在 AI 模型訓練的數據集中。
我嘗試在網站中搜索了「Jay Chou」,不知這些被用來進行 AI 訓練的周杰倫照片,有沒有經過周董本人的同意。
▲網站:https://haveibeentrained.com/
那么,我可以不讓 AI 識別我的照片嗎?當然可以,那就是 Img2dataset 開發者提供的方法了:拒絕 AI 識別的最佳方法,就是刪除它——不想讓我用?那你就別上傳。
人工智能正在以驚人的速度發展,AI 工具方便了我們的工作生活,但我們似乎還沒有想好,該如何應對為人工智能提供動力的數據源。
請給我們「同意」的權利
在「長椅」網站所有者 Eden 與圖片采集工具開發者 Rom 的爭論中,后者提到一個觀點:被 Google 搜索是搜,被我搜索也是搜,為什么你愿意讓 Google 收錄你的網站,不允許我搜索呢?
這看起來似乎有些道理,但 Google 搜索中心為開發者提供了一個非常全面的防請求機制:robots.txt。使用這個文件,就可以避免網站收到過多的請求,它并不是一種阻止 Google 抓取某個網頁的機制,而是為了更加合理的分配流量。
有網友指出,Img2dataset 主動忽略了 robots.txt,這個做法顯然是惡意的。而且,相比全球最大的搜索引擎 Google,Img2dataset 這樣的小工具數量更多、迭代更快,今天禁止了這個,明天就會冒出那個。「難道每出現一個新工具,我就要選擇一次拒絕?」Eden 提出的疑問,也是我們每個人可能會遇到的事。
或許是為了利益,或許是尋求方便,不管是故意的還是不小心,「默認同意」似乎成為了 AI 高速發展的秘密武器。但我始終認為,同意是道德的基石,AI 發展的同時,也需要更加合理的數據集采集方式。
在爭辯的最后,Rom 依然堅持自己的觀點:很遺憾,你們中的一些人還是不理解 AI 的潛力,作為創作者,你們有更多機會從中受益,卻與此斗爭,這令人感到悲哀。
AI 在飛速發展,而要走的路還是很長。點擊「在看」是對我們最大的鼓勵
責任編輯:hnmd003
相關閱讀
-
百度文庫內測“ AI 文檔助手”:接入“文心一言”,創作文檔僅需 15 秒 世界熱訊
品玩4月28日訊,據IT之家從百度官方獲悉,近日,百度文庫開啟AI文檔助手功能內測。據了解,該功能已內測接
2023-04-29
相關閱讀
-
我在 AI 訓練庫里,找到 200 多張周杰倫的照片
我的一些網站正在被你的用戶攻擊,你不能不經同意就抓取我的照片信息。EdenRomain你要是不想讓人看你發網上
-
中國跑車,不都是笑話
最近看到友媒發表高論《中國超跑,都是笑話》,不禁驚詫,每個字都讓我驚詫。中國什么時候有超跑了?什么時
-
海爾確定不造整車-今亮點
財聯社4月29日電,針對市場上海爾造車的傳聞,海爾方面回應稱,海爾非常明確不造整車,將從生態的角度切入
-
即時:假期出游or宅家追劇?有華為折疊屏手機家族就夠了!
五一假期即將來臨,你想好怎么度過這5天了嗎?不少朋友選擇出游,也有朋友愿意宅在家中看劇、打游戲。其實
-
太平人壽怎么退保險?多久能到賬啊? 全球動態
線上退保需要登錄太平人壽官網,在“個人中心”-“我的保單”-“保單詳情”中找到相應的保單,點擊“申...
-
利安人壽退保怎么退?需要什么資料?
登錄利安人壽官網,進入“自助服務-保單查詢”,輸入投保人姓名、證件類型、證件號碼和保單號碼等信息,...
-
理財保險可以退嗎?怎么退?-最資訊
理財保險是可以退保的,但需注意,理財保險的保險期限一般較長,且其中的投資部分需要經過時間積累才能實現
-
雙重參保的情況下怎么退保?退保需要多久?
可以根據自身情況選擇相應的退保方式。一般來說,退保方式包括線上和線下兩種方式,其中線上退保比較方便快
-
人壽保險退保流程是什么?可以退多少錢? 世界新視野
首先要填寫退保申請書一般來說,退保申請書應該包含被保險人的姓名、身份證號碼、保單號碼、聯系方式等基本
-
當前快播:券商一季度業績大反攻,西部證券凈利飆增2227%! “優等生”東方財富卻跳水
2022年券商行業“滑鐵盧”已成歷史,新一年的首份答卷,券商們取得了不錯的成績。截至4月28日晚,51家上...
-
全球熱點評!體驗過 8 款華碩春季新品 我對今年的輕薄本有了一些思考
經過這個春天,我已經變成華碩的形狀了。作為一名PC編輯,從三月到五月初,我測試了華碩春季幾乎所有的輕薄
-
滴滴退市后發布年報:2022 年營收下降 19%,凈虧損收窄 52% 全球即時看
4月29日,滴滴退市后在其官網發布年報。2022年滴滴實現營業收入1408億元,同比下降19%。凈虧損為238億元,
-
猶太人割禮是什么意思_猶太人割禮解釋_每日熱聞
1、猶太人的包皮環切術是指男性切除陰莖的全部或部分包皮。根據猶太教,所有的男孩都應該接受割禮。在猶太
-
環球熱點評!對話許小年:互聯網的下一波高潮將在工業領域掀起
伴隨著數字化進程,互聯網的主戰場,正在從上半場的消費互聯網,向下半場——工業互聯網方向發展。2016...
-
真愛無敵?DR鉆戒一年新增超200家門店,盈利下滑也抵擋不住擴張的心
一生只買一枚的鉆戒正加速擴張。4月27日晚間,迪阿股份(301177 SZ)披露2022年年報。年報顯示,2022年,迪
-
王一博也帶不動?樂華娛樂藝人管理收入首次下滑,杜華入局直播帶貨 當前快報
過于依賴藝人的樂華娛樂正在拓展第二增長曲線。近日,樂華娛樂(2306 HK)披露了上市后的首份年報,2022年
-
天天快資訊:銀行保險理財產品可以退嗎?退保有什么損失?
一般來說,銀行保險理財產品都可以退,但具體的退款規定和流程會因產品種類、投資金額、購買時間等因素而異
-
居民醫療保險購買后多久生效?要交多少錢?|獨家焦點
根據相關規定,居民醫療保險一般在繳費次月生效。也就是說,比如您在2023年5月1日購買了居民醫療保險,那么
-
環球微頭條丨醫用級體溫儀FTA-300發布:比傳統水銀體溫計更安全
鳳凰網科技訊4月29日消息,全球三大家電消費電子展之一的中國家電及消費電子博覽會(AWE2023)27日上海揭開
-
雷克薩斯為何拒絕國產化?可以,但沒必要!_最新
雷克薩斯為何拒絕國產化?可以,但沒必要!對于豪華品牌來說,實現在華國產化不僅可以降低運輸成本和零部件
-
百度文庫內測“ AI 文檔助手”:接入“文心一言”,創作文檔僅需 15 秒 世界熱訊
品玩4月28日訊,據IT之家從百度官方獲悉,近日,百度文庫開啟AI文檔助手功能內測。據了解,該功能已內測接
-
每日信息:華為新專利:可對自動駕駛車輛系統提供安全警示
品玩4月28日訊,據IT之家報道,華為技術有限公司一種自動駕駛車輛駕駛安全度量化系統專利于近期獲得授權,
-
喜迎四周年!《明日方舟》手機交通卡專屬卡面來了
【手機中國新聞】4月29日,手機中國了解到,值此四周年之際,《明日方舟》聯合上海交通卡、北京市政交通一
-
颯特發布 5G 戶外三防手機,可用于工業巡檢等工作測溫場景
鈦媒體App4月29日消息,AWE2023期間,紅外企業颯特宣布啟用新C端消費子公司盈孚睿泰(英文名:infrared)以
-
安客創新 Q1 凈利增長 54%,預計于下半年逐步推出用戶儲能產品
中國、東南亞及拉丁美洲仍將是未來布局重點。作者:Bonnie編輯:tuya出品:財經涂鴉(ID:caijingtuya)公
-
知乎推送李玉剛跳河消息翻車,應讓標題黨付出沉重代價 天天短訊
評論員王曉娜這兩天,不少網友稱,自己收到了知乎名為李玉剛跳河自盡的前因后果的推文。隨后,李玉剛曬電影
-
每日消息!自己給自己發騷擾廣告?信息泄露的“黑洞”應牢牢補上
4月27日,在微博、小紅書等社交平臺上,大量網友反映當天在某購物平臺上收到陌生的聊天招呼,內容均為騷擾
-
讓路讓景給外地游客很贊,但千萬別搞強制
五一來臨,為了迎接外地游客,各地紛紛出大招。繼淄博發出倡議把燒烤讓給外地人,長沙市發出倡議把長沙讓給
-
寧夏兩節會品牌入選“中華美食薈”
4月28日記者從自治區商務廳獲悉,我區“浪寧夏·品味道”2023寧夏美食文化節和中國面食博覽會暨吳忠早茶...
-
空調行情現復蘇趨勢!格力、美的爭當“空調王”,押寶多元化_速遞
4月28日晚,美的集團(000333 SZ)、格力電器(000651 SZ)先后發布2022年年報。2022年,格力電器營收1889
精彩推薦
閱讀排行
精彩推送
- 當前消息!對話北汽集團副總經理...
- 【世界報資訊】未能實現銷售目標...
- 在華停產、承認落后、銷量下滑,...
- 熱議:奇駿還能進入主流嗎?
- 集度與小米,誰先撐不住?
- 春雪邂逅春坤山_環球熱推薦
- 全球通訊!PC 行業生力軍開拓市...
- 全球消息!更加流暢!小米 13、...
- “五一”來賽罕區,讓你暢吃、暢...
- 颯特發布 5G 戶外三防手機,可...
- 西藏:多措并舉促高原經濟跑出“...
- 騰騰夜經濟,奉化百年老街重燃繁...
- “五一”線下演出一票難求:黃牛...
- 不鼓勵生孩子了?馬斯克大砍推特...
- ES6新車未上,ES7老車主已受傷,...
- 青山區:首屆農副產品展銷會陪你...
- 致敬勞動者|岳瑞存: 新能源行...
- 全球新資訊:春雪邂逅春坤山
- 包頭機場將迎客流高峰
- 世界簡訊:市市場監管局發布消費提示
- 上汽大眾凌渡L獲得中國汽車健康...
- 日產ARIYA艾睿雅榮獲Green NCAP...
- 環球熱文:1799 元起 小米電視...
- 米哈游《崩壞:星穹鐵道》上線騰...
- ChatGPT 標注指南來了!數據是關鍵
- 環球簡訊:西方制裁不管用!俄油...
- 焦點快報!AI哨所|意大利解禁Cha...
- 今年 Q1 國內手機出貨量持續下...
- 全球最資訊丨颯特發布消費品戰略...
- 速遞!什么是中級職稱評審_什么...