Ai工具库 - 9na导航网收集Ai人工智能项目
注册
当前位置:首页 » 新闻资讯

AI爬虫肆虐,维基百科无奈“缴械”

2025-04-29 21

本月初,美国新闻/媒体联盟(News/Media Alliance)代表全美2200多家新闻机构,发起了“支持负责任AI”运动,他们呼吁监管机构强制科技巨头为AI产品所使用的内容支付费用。就在美国媒体抱团捍卫自身知识产权之际,一直单打独斗的维基百科却做出了截然不同的选择——向AI厂商“妥协”。

运营维基百科的维基媒体基金会(Wikimedia)近日宣布,将与谷歌旗下的数据科学社区平台Kaggle携手合作,推出一份专为人工智能模型训练优化过的数据集。这份数据集涵盖了截至2025年4月15日的研究摘要、简短描述、图像连接、信息框数据以及文章章节等内容,不过像参考文件或音频文件这类非书面元素并不包含在内。首次发布的数据集将提供英语和法语两个版本。

人们不禁要问,维基百科为何要在谷歌的Kaggle平台上公开如此大规模的数据集呢?背后的原因其实并不复杂,维基媒体基金会实在是难以承受AI厂商爬虫带来的巨大压力。

本月初,维基媒体基金会在官方博客中透露,自2024年1月以来,维基共享资源(Wikimedia Commons)上存储的1.44亿个图像、视频或其他文件的带宽使用量激增了50%。然而,这些新增的流量并非来自普通的人类用户,而是源于AI厂商的爬虫。

为了有效管理超过4500万个媒体文件,维基媒体基金会采用了分布式存储方式。简单来说,就是将数据切割成多个碎片,再依据特定策略分配到不同的存储节点上,实现数据的就近存储,以此提升访问速度和效率。

按照维基媒体基金会的存储策略,当某个内容被频繁请求时,他们会把该内容缓存到离用户最近的数据中心;而如果一个内容长时间无人问津,就会被存储在核心数据中心。如此一来,当有用户请求冷门内容时,相关请求需要从靠近用户的数据中心一路遍历到核心数据中心,然后再将内容存储到区域数据中心,这一过程无疑会消耗大量的带宽。

但问题在于,维基媒体基金会当初设计的分布式存储系统主要是为人类用户服务的,并没有考虑到应对AI厂商的爬虫。人类用户通常会集中访问特定或相似主题的内容,而AI厂商的爬虫为了获取更多数据,往往是不加选择地抓取每一个内容。这就导致原本在维基媒体基金会看来是冷门的内容,也被AI爬虫频繁访问,从而使得带宽消耗大幅增加。

AI爬虫的“贪婪”让维基媒体基金会苦不堪言。据统计,爬虫浏览的网页数量虽然仅占全体访客的35%,但它们访问核心数据中心的流量却高达65%。而维基媒体基金会作为一个非营利性机构,其主要收入来源是捐赠,根本没有足够的资金去购买更多的带宽。

为了降低30%的爬虫使用带宽,维基媒体基金会最终选择与谷歌Kaggle合作发布模型训练的数据集。该基金会表示,Kaggle托管的数据集在设计时充分考虑了机器学习的工作流程,能够让AI开发者更便捷地访问机器可读的数据,进而开展建模、微调、基准测试、对齐和分析等工作。

由于维基媒体基金会的非营利性质,他们无法将自身拥有的数据出售。在AI厂商使用爬虫抓取非授权内容尚处于法律灰色地带的情况下,维基媒体基金会能做的,似乎只有将数据这个“烫手山芋”抛出去,以此来节省平台的带宽和服务器资源。为了让AI厂商的爬虫更多地抓取Kaggle上的数据,维基媒体基金会甚至将数据集设计成了JSON格式。

JSON格式是一种轻量化的数据交换格式,也是目前各类应用程序之间进行数据交换和通信的主流格式。它最大的特点就是易于机器解析。与txt、jpg、mp4等主要为人类服务的格式不同,JSON格式主要是为机器服务的。这样一来,相比抓取或解析维基百科上的原始文本、图像,Kaggle上结构良好的JSON格式的维基百科相关内容,对AI爬虫来说显然更具吸引力。

从某种程度上来说,维基媒体基金会此次被迫与谷歌Kaggle合作,充分暴露了内容平台的反爬虫策略在AI时代已经明显滞后。在AI厂商不断迭代升级的爬虫技术面前,内容平台现有的反爬虫策略根本无法完美区分人类用户和机器爬虫。

AI爬虫的“凶猛”并非个例。去年5月末,知乎网页端曾出现非登录用户无法查看全文的情况。当时外界普遍认为,知乎采取这一限制措施是为了防范AI厂商使用爬虫抓取其高质量内容来训练AI模型。然而仅仅过了半年时间,知乎就取消了这一限制,用户无需登录即可直接浏览完整内容。

知乎“妥协”的原因其实不难理解,毕竟其商业模式依赖于更多人类用户的使用。非登录用户无法查看全文会严重影响平台的获客能力,进而损害知乎的商业价值。用户体验与反AI爬虫难以两全,这已经成为当下全球所有内容平台共同面临的难题。

如今,非营利性的维基媒体基金会选择了逃避,而那些以盈利为目的的美国新闻媒体,则正在尝试让AI厂商为它们的内容付费。在AI爬虫的冲击下,内容平台的未来究竟何去何从,仍是一个未知数。

相关推荐

微信扫一扫

qrcode

58209013

22270@163.com

回顶部