美国贴吧再起诉：不要拿我的内容训练你的AI

作者：美国贴吧再起诉：不要拿我的内容训练你的AI

Reddit因为数据抓取这件事，又一口气起诉了四家公司，其中竟然包括AI搜索引擎Perplexity 🎣很好笑的是，为了抓现行，Reddit还创建了一个特殊的测试帖子来钓鱼。这个帖子只有谷歌的爬虫能够访问和索引，无法通过Reddit站内搜索、直接URL访问或其他任何公开渠道找到。结果在几个小时之内，这个帖子的内容出现在了Perplexity的搜索结果中。直接就锤死了Perplexity爬了谷歌搜索的内容 —— Reddit的逻辑其实很清楚：允许谷歌等搜索引擎抓取和索引内容，但不要通过搜索引擎来间接的爬取内容。这几家被起诉的公司，并不是在做普通的搜索引擎索引。它们通过Google间接获取Reddit的帖子摘要、链接和评论，再将这些内容清洗、打包成数据集，卖给需要大量语料的AI公司。换句话说，Reddit的社区内容在没有任何官方授权的情况下，被“洗”成了数据商品。那些需要训练模型的公司，一般就是这些二手数据的买家。当然，他们往往声称数据来自第三方供应商，采购合规，试图把自己与前端的爬虫行为切割开来。其实也不怪Reddit火冒三丈，反应这么大。早些时候就有人统计，目前主流的大模型实际上从Reddit里学习了非常多的内容。这场诉讼背后，其实也反映出Web生态逻辑的变化，早些时候谷歌抓取网站，能通过搜索结果给你带回流量。 SEO公司再去研究算法、优化内容，形成了一个虽然紧张但仍然共生的循环。但是，AI公司抓取你的数据，用于训练一个最终可能会替代你的模型。数据被榨干了价值，但内容创作者本身却得不到任何回报（无论是流量还是金钱），价值链在这里断裂了。 Reddit的这场诉讼，也是当下“数据权战争”的缩影。接下来，内容平台、搜索引擎、AI公司之间的博弈，只会更激烈。 #reddit #网络爬虫 #ai #训练数据 #数据集

文章详情

美国贴吧再起诉：不要拿我的内容训练你的AI

推荐阅读