Reddit因为数据抓取这件事,又一口气起诉了四家公司,其中竟然包括AI搜索引擎Perplexity 🎣很好笑的是,为了抓现行,Reddit还创建了一个特殊的测试帖子来钓鱼。 这个帖子只有谷歌的爬虫能够访问和索引,无法通过Reddit站内搜索、直接URL访问或其他任何公开渠道找到。 结果在几个小时之内,这个帖子的内容出现在了Perplexity的搜索结果中。 直接就锤死了Perplexity爬了谷歌搜索的内容 —— Reddit的逻辑其实很清楚:允许谷歌等搜索引擎抓取和索引内容,但不要通过搜索引擎来间接的爬取内容。 这几家被起诉的公司,并不是在做普通的搜索引擎索引。 它们通过Google间接获取Reddit的帖子摘要、链接和评论,再将这些内容清洗、打包成数据集,卖给需要大量语料的AI公司。 换句话说,Reddit的社区内容在没有任何官方授权的情况下,被“洗”成了数据商品。 那些需要训练模型的公司,一般就是这些二手数据的买家。 当然,他们往往声称数据来自第三方供应商,采购合规,试图把自己与前端的爬虫行为切割开来。 其实也不怪Reddit火冒三丈,反应这么大。 早些时候就有人统计,目前主流的大模型实际上从Reddit里学习了非常多的内容。 这场诉讼背后,其实也反映出Web生态逻辑的变化,早些时候谷歌抓取网站,能通过搜索结果给你带回流量。 SEO公司再去研究算法、优化内容,形成了一个虽然紧张但仍然共生的循环。 但是,AI公司抓取你的数据,用于训练一个最终可能会替代你的模型。 数据被榨干了价值,但内容创作者本身却得不到任何回报(无论是流量还是金钱),价值链在这里断裂了。 Reddit的这场诉讼,也是当下“数据权战争”的缩影。接下来,内容平台、搜索引擎、AI公司之间的博弈,只会更激烈。 #reddit #网络爬虫 #ai #训练数据 #数据集