首页手记三种对抗AI爬虫的方法

三种对抗AI爬虫的方法

标签：

爬虫

直到最近为止，网站一直在努力让爬虫正确抓取其内容。

现在，一种新的爬虫类型，即AI驱动的爬虫，正在改变游戏，对开源内容造成负面影响，并越来越多地影响依赖内容的公司。

这里是如何反击：点击这里阅读[https://pub.towardsai.net/three-ways-to-fight-ai-crawlers-a8bcede654b7?sk=e19940bf8b1fbb4deb5433818d717828]。

为什么AI爬虫对我们熟知的互联网有害

总之：

网站所有者的成本突然增加
用户的中断或性能下降
最糟糕的情况下是 DDoS 攻击导致的中断

最终，你来到了TechPays.com创始人这一案例，他发现数据出站的增长增加了超过10倍，其中超过90%的流量是由AI爬虫产生的。

为什么这是个问题呢？

因为这些内容是免费被抓取的，然后通过OpenAI、Meta人工智能等平台卖给你。

对抗AI爬虫的三种方法

所以这里有三种对付AI爬虫的方法，各有其利弊。

使用JavaScript技术
部署AI陷阱和迷宫
限流和高级过滤

用 JavaScript

看来AI爬虫在JavaScript内容较多的网站上会遇到不少麻烦！

类似于GPTBot（OpenAI）、Claude（Anthropic）和PerplexityBot这样的AI爬虫程序难以处理，甚至完全无法处理通过JavaScript渲染的内容。

在加载 JavaScript 文件时，它们不会执行代码，因此对于抓取工具来说，这些内容就变得没有实际价值。

对抗AI爬虫程序：部署AI陷阱区和复杂路径

陷阱是用来困住AI爬虫的工具，通过让它们在内容迷宫中迷失，从而既浪费它们的计算资源和时间，也保护你的实际内容。

这样的工具创建了相互连接但最终都无处可达的动态页面，有效地阻止了爬虫访问合法内容的目的。

一些常用的陷阱或泥潭解决方案

Nepenthes — 创建一个“无限迷宫”的静态文件，没有出口链接，有效地困住AI爬虫并浪费其资源。这很狠，如果你想要报复，这就是你寻找的工具！
Cloudflare的AI迷宫：通过生成AI内容来减速、迷惑并浪费不遵守“不爬取”指令的爬虫的资源。了解如何使用AI迷宫阻止AI爬虫
Iocaine：使用反向代理让爬虫陷入一个“无限垃圾迷宫”，目的是干扰其数据收集。Iocaine也是基于Nepenthes，但它的目的是生成无用的数据，纯粹是为了干扰数据收集。

用限流和高级筛选对付AI爬虫

为来自目标市场之外国家的访客设置带有验证码或JavaScript测试等挑战的地域筛选，可以显著减少不必要的机器人访问。

比如：

Fedora 项目的系统管理员为了对抗激进的 AI 爬虫程序，不得不封锁了整个巴西的访问权限！
TechPays.com 的创始人也采取了这种措施，但在转向更强大的防护措施（如启用 Cloudflare 提供的 AI 爬虫防护功能）之前也尝试过。

找到更多应对AI爬虫的方法，但这已经是一个不错的开始。

最终的思考

最可能的是，这种方法可能包括结合多种技术，例如IP封锁和Cloudflare的人工智能爬虫拦截。

此外，陷阱技术（tarpit技术）以及高级流量限制似乎更有效应对激进的网络爬虫。

显然，你不想完全阻止所有AI爬虫程序，因为这可能会让你的内容对那些依赖AI搜索找到你网站的人来说变得难以被找到。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

倚天杖

手记
篇

粉丝

48

获赞与收藏

188

关注作者，订阅最新文章

阅读免费教程

Python 原生爬虫教程

19个小节 54067 1170

Scrapy 入门教程

27个小节 10916 262

后端通用面试教程

41个小节 31790 356

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

三种对抗AI爬虫的方法

为什么这是个问题呢？

用 JavaScript

一些常用的陷阱或泥潭解决方案

阅读免费教程