直到最近为止,网站一直在努力让爬虫正确抓取其内容。
现在,一种新的爬虫类型,即AI驱动的爬虫,正在改变游戏,对开源内容造成负面影响,并越来越多地影响依赖内容的公司。
这里是如何反击:点击这里阅读[https://pub.towardsai.net/three-ways-to-fight-ai-crawlers-a8bcede654b7?sk=e19940bf8b1fbb4deb5433818d717828]。
为什么AI爬虫对我们熟知的互联网有害总之:
- 网站所有者的成本突然增加
- 用户的中断或性能下降
- 最糟糕的情况下是 DDoS 攻击导致的中断
最终,你来到了TechPays.com创始人这一案例,他发现数据出站的增长增加了超过10倍,其中超过90%的流量是由AI爬虫产生的。
为什么这是个问题呢?
因为这些内容是免费被抓取的,然后通过OpenAI、Meta人工智能等平台卖给你。
对抗AI爬虫的三种方法所以这里有三种对付AI爬虫的方法,各有其利弊。
- 使用JavaScript技术
- 部署AI陷阱和迷宫
- 限流和高级过滤
用 JavaScript
看来AI爬虫在JavaScript内容较多的网站上会遇到不少麻烦!
类似于GPTBot(OpenAI)、Claude(Anthropic)和PerplexityBot这样的AI爬虫程序难以处理,甚至完全无法处理通过JavaScript渲染的内容。
在加载 JavaScript 文件时,它们不会执行代码,因此对于抓取工具来说,这些内容就变得没有实际价值。
对抗AI爬虫程序:部署AI陷阱区和复杂路径陷阱是用来困住AI爬虫的工具,通过让它们在内容迷宫中迷失,从而既浪费它们的计算资源和时间,也保护你的实际内容。
这样的工具创建了相互连接但最终都无处可达的动态页面,有效地阻止了爬虫访问合法内容的目的。
一些常用的陷阱或泥潭解决方案
- Nepenthes — 创建一个“无限迷宫”的静态文件,没有出口链接,有效地困住AI爬虫并浪费其资源。这很狠,如果你想要报复,这就是你寻找的工具!
- Cloudflare的AI迷宫:通过生成AI内容来减速、迷惑并浪费不遵守“不爬取”指令的爬虫的资源。了解如何使用AI迷宫阻止AI爬虫
- Iocaine:使用反向代理让爬虫陷入一个“无限垃圾迷宫”,目的是干扰其数据收集。Iocaine也是基于Nepenthes,但它的目的是生成无用的数据,纯粹是为了干扰数据收集。
为来自目标市场之外国家的访客设置带有验证码或JavaScript测试等挑战的地域筛选,可以显著减少不必要的机器人访问。
比如:
- Fedora 项目的系统管理员为了对抗激进的 AI 爬虫程序,不得不封锁了整个巴西的访问权限!
- TechPays.com 的创始人也采取了这种措施,但在转向更强大的防护措施(如启用 Cloudflare 提供的 AI 爬虫防护功能)之前也尝试过。
找到更多应对AI爬虫的方法,但这已经是一个不错的开始。
最终的思考最可能的是,这种方法可能包括结合多种技术,例如IP封锁和Cloudflare的人工智能爬虫拦截。
此外,陷阱技术(tarpit技术)以及高级流量限制似乎更有效应对激进的网络爬虫。
显然,你不想完全阻止所有AI爬虫程序,因为这可能会让你的内容对那些依赖AI搜索找到你网站的人来说变得难以被找到。
共同学习,写下你的评论
评论加载中...
作者其他优质文章