開源社區頻遭AI爬蟲侵襲,運維人員直呼“太難了”!

   時間:2025-03-21 15:46 來源:天脈網作者:蘇婉清

近期,開源社區遭遇了一場前所未有的挑戰,多家知名開源項目紛紛發聲,指責AI公司大規模抓取公共資源,導致服務器壓力激增,頻繁出現宕機或性能大幅下降的情況。SourceHut、GNOME、KDE、Inkscape、Fedora等多個社區均表達了對這一問題的深切關注。

SourceHut的創始人兼CEO Drew DeVault在其博客中憤怒地披露了與AI模型爬蟲的“拉鋸戰”。他透露,平臺每周都會遭遇數十次短暫宕機,為應對這一危機,他不得不頻繁審查并調整防護措施。DeVault坦言,他近期有20%至100%的工作時間都耗費在與這些爬蟲的斗爭中,多個高優先級任務因此被延誤數周甚至數月。更令他無奈的是,這些防護措施往往無法有效區分真實用戶與爬蟲,導致真實用戶也受到影響。

DeVault還提到,他的系統管理員朋友們也面臨著同樣的困擾。LLM爬蟲的出現讓所有開源項目措手不及,大家聚會時常常互相打聽解決方案。KDE、GNOME等開源社區同樣未能幸免。KDE遭遇了偽裝成Microsoft Edge瀏覽器的惡意流量或爬蟲,而GNOME則自去年11月以來一直受到爬蟲困擾,不得不實施臨時流量限制,嚴重影響了匿名訪客的訪問體驗。

GNOME部署了一種名為Anubis的防御工具,要求訪問者完成Proof-of-Work挑戰才能訪問網站。然而,這一措施也波及了普通用戶,導致在某些情況下等待時間長達數十秒乃至數分鐘。在Mastodon上,GNOME管理員分享的數據顯示,在2.5小時內收到了約8.1萬次請求,其中僅有3%成功通過驗證,其余97%被判定為爬蟲。

Fedora社區為保持其Pagure代碼托管平臺的穩定,也不得不采取極端措施,屏蔽了大量可疑IP段,甚至一度封禁了整個國家的訪問請求。這種“一刀切”的做法引發了社區用戶對誤傷的擔憂。Inkscape項目也表示,大量AI爬蟲使用假冒瀏覽器UA或無視防爬協議,迫使維護者持續擴充黑名單。Frama軟件公司的BigGrizzly也曾被惡意LLM爬蟲淹沒,建立了包含46萬個可疑IP的列表。

為了應對這一問題,一些開源社區開始嘗試更全面的解決方案。例如,“ai.robots.txt”項目提供了一個實施Robots Exclusion Protocol的robots.txt和.htaccess文件,用于阻止列表中AI爬蟲的訪問。Diaspora的維護者Dennis Schubert也吐槽了類似經歷,他指出,過去60天內Diaspora的網站與文檔服務收到了1130萬次請求,其中近70%來自AI爬蟲。相比之下,傳統搜索引擎如Googlebot、Bingbot等抓取行為更為克制。

Read the Docs平臺曾公開數據顯示,屏蔽所有AI爬蟲后,其網站流量從每天800GB降至200GB,節省了約1500美元/月的運營成本。這一數據凸顯了AI爬蟲對開源社區造成的巨大流量壓力。

面對這一挑戰,開源社區呼吁更多關注與自律。DeVault在博文中抨擊了加密貨幣、谷歌團隊、硅谷AI公司等多方,認為他們將自己的成本轉嫁給社會公共資源,尤其是像SourceHut這樣的中小型平臺。他呼吁這些機構要么承擔社會責任,要么遠離開源社區。目前,各大開源項目正在積極探索更高效、對普通用戶更友好的解決方案,但這一過程將是一個長期博弈的過程,需要行業規范、AI爬蟲自律以及社區共同行動。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號