首頁 > 新聞 > 智能 > 正文

        我在 AI 訓練庫里,找到 200 多張周杰倫的照片

        2023-04-29 13:13:23來源:ZAKER科技  

        我的一些網站正在被你的用戶攻擊,你不能不經同意就抓取我的照片信息。


        (資料圖)

        EdenRomain

        你要是不想讓人看你發網上的照片,你就把它刪除啊。

        這段對話來自圖片抓取工具 Img2dataset 的 GitHub 頁面,爭論的雙方,是被抓取圖片的網站站長 Eden,和抓取工具的開發者 Romain。

        雙方發言的贊踩數,似乎能看到大眾的偏向

        發布上網 = 默認同意 AI 訓練

        不論是 Open AI 的 DALL-E、Google 的 Imagen,還是開源的 Stable Diffusion,任何由文字生成圖片的通用大模型,都需要經過大量的數據訓練,網絡是訓練信息的最佳來源。

        Eden 建立了一個名為 OpenBenches 的網站,邀請用戶上傳世界各地的紀念長椅圖片和位置。截至今日,OpenBenches 已經收集了超過兩萬七千張長椅,托管了 250GB 的照片。

        一日,Eden 收到了服務器報警,說網站正在受到持續攻擊,來源正是上文中提到的 Img2dataset。原因很簡單,有人把 Eden 網站里的長椅圖片用于了 AI 訓練。

        因為網站流量的激增,導致 Eden 不僅支付了額外費用,還花費了不少時間去阻止抓取工具的濫用。

        當然,Img2dataset 的抓取并不是無法禁止的,只需為網站加入「X-Robots-Tag: NoAI」的標頭,就可以避免被 Img2dataset 抓取,如果你沒有加,則默認你同意自己的網站數據可以被用于 AI 訓練。這就出現了爭論的關鍵:作為所有者,我應該選擇加入,而不是選擇退出

        「你剝奪了人們的同意權」

        聽起來似乎有一點繞,舉一個不太恰當的例子,我在手機上下載了一款新 app,在沒有打開前,它就已經獲取了所有權限,并根據信息推送了廣告通知,當我質問開發者時,卻得到了「你要是不想看廣告,就不要用手機啊」的回復。

        怎么樣,你開始生氣了嗎?

        公司能收費,個人沒辦法

        今年 2 月,Twitter 宣布不再支持免費 API 訪問,如果你想訪問 Twitter 的數據,需要每月支付 4.2 萬到 21 萬美元不等的費用,金額越高,研究人員或企業獲得的推文數量就越多。

        因此,微軟則宣布數字營銷中心(DMC)隨后表示不再支持 Twitter,這將導致用戶不能再通過微軟的免費社交媒體管理服務創建、管理他們的推文。

        Twitter CEO 馬斯克也一點都不含糊:微軟在用 Twitter 的數據進行非法訓練,接下來是訴訟時間。

        知名社交媒體 Reddit 擁有龐大的用戶群體和活躍的社交板塊,同時不少板塊的內容也相當專業權威,這讓它成為了一個非常好的 AI 學習資料庫。

        Google Bard 和 ChatGPT 都曾引用 Reddit 的數據做其訓練的信息來源之一。

        兩者的語義學習文檔中都出現過 Reddit 的身影

        「Reddit 的數據語料庫非常有價值,我不能免費將這些價值提供給世界級大公司。」Reddit 創始人 Steve 在采訪中表示。

        上周二,Reddit 追隨 Twitter 的腳步,開始向大公司收取 API 訪問費用。

        你構建未來與我競爭的工具,而我還要把數據免費提供給你,怎么想都不合理。

        對大公司來說,改變 API 的開放策略尚是一件需要進行多方權衡的反擊方法,而像 Eden 這樣的個人網站運營者或者普通網友,面對 AI 默認同意的照片訓練,并沒有太好的應對方法。

        音樂家 Holly Herndon 創建了一個名為「Have I Been Trained」的網站,收集了 5 億張用于 AI 藝術模型訓練的圖片,旨在幫助藝術家了解他們的作品是否包含在 AI 模型訓練的數據集中。

        我嘗試在網站中搜索了「Jay Chou」,不知這些被用來進行 AI 訓練的周杰倫照片,有沒有經過周董本人的同意。

        網站:https://haveibeentrained.com/

        那么,我可以不讓 AI 識別我的照片嗎?當然可以,那就是 Img2dataset 開發者提供的方法了:拒絕 AI 識別的最佳方法,就是刪除它——不想讓我用?那你就別上傳。

        人工智能正在以驚人的速度發展,AI 工具方便了我們的工作生活,但我們似乎還沒有想好,該如何應對為人工智能提供動力的數據源。

        請給我們「同意」的權利

        在「長椅」網站所有者 Eden 與圖片采集工具開發者 Rom 的爭論中,后者提到一個觀點:被 Google 搜索是搜,被我搜索也是搜,為什么你愿意讓 Google 收錄你的網站,不允許我搜索呢?

        這看起來似乎有些道理,但 Google 搜索中心為開發者提供了一個非常全面的防請求機制:robots.txt。

        使用這個文件,就可以避免網站收到過多的請求,它并不是一種阻止 Google 抓取某個網頁的機制,而是為了更加合理的分配流量。

        有網友指出,Img2dataset 主動忽略了 robots.txt,這個做法顯然是惡意的。而且,相比全球最大的搜索引擎 Google,Img2dataset 這樣的小工具數量更多、迭代更快,今天禁止了這個,明天就會冒出那個。

        「難道每出現一個新工具,我就要選擇一次拒絕?」Eden 提出的疑問,也是我們每個人可能會遇到的事。

        或許是為了利益,或許是尋求方便,不管是故意的還是不小心,「默認同意」似乎成為了 AI 高速發展的秘密武器。但我始終認為,同意是道德的基石,AI 發展的同時,也需要更加合理的數據集采集方式。

        在爭辯的最后,Rom 依然堅持自己的觀點:很遺憾,你們中的一些人還是不理解 AI 的潛力,作為創作者,你們有更多機會從中受益,卻與此斗爭,這令人感到悲哀。

        AI 在飛速發展,而要走的路還是很長。點擊「在看」

        是對我們最大的鼓勵

        關鍵詞:

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        推薦閱讀

        91亚洲视频在线观看| 亚洲人成网址在线观看| 亚洲人成毛片线播放| 亚洲成人激情在线| 亚洲AV永久无码精品| 亚洲色精品88色婷婷七月丁香| 亚洲精品线路一在线观看| 亚洲阿v天堂在线2017免费| 天堂亚洲免费视频| 亚洲精品视频在线观看你懂的 | 少妇亚洲免费精品| 亚洲高清免费视频| 亚洲日本中文字幕一区二区三区 | 久久精品亚洲一区二区三区浴池| 香蕉视频在线观看亚洲| 亚洲人成影院在线| 亚洲精品午夜视频| 亚洲jjzzjjzz在线播放| 亚洲熟女乱色一区二区三区| 亚洲中文字幕无码久久2020| 亚洲国产精品18久久久久久| 色九月亚洲综合网| 国产成人精品久久亚洲| 亚洲人成人77777网站| 亚洲av鲁丝一区二区三区| 久久精品国产亚洲AV香蕉| 亚洲啪啪免费视频| 亚洲综合av一区二区三区不卡 | 国产亚洲真人做受在线观看| 精品国产综合成人亚洲区| 亚洲电影国产一区| 亚洲大片免费观看| 亚洲熟妇AV一区二区三区浪潮| 亚洲av无码偷拍在线观看| 亚洲精品国产电影| 国精无码欧精品亚洲一区| 亚洲精品综合久久中文字幕| 亚洲av无码国产综合专区| 亚洲爆乳大丰满无码专区| 亚洲男人第一无码aⅴ网站| 好看的电影网站亚洲一区|