为了账号安全,请及时绑定邮箱和手机立即绑定

三种对抗AI爬虫的方法

标签:
爬虫

直到最近为止,网站一直在努力让爬虫正确抓取其内容。

现在,一种新的爬虫类型,即AI驱动的爬虫,正在改变游戏,对开源内容造成负面影响,并越来越多地影响依赖内容的公司。

顶级AI抓取工具

这里是如何反击:点击这里阅读[https://pub.towardsai.net/three-ways-to-fight-ai-crawlers-a8bcede654b7?sk=e19940bf8b1fbb4deb5433818d717828]。

为什么AI爬虫对我们熟知的互联网有害

总之:

  • 网站所有者的成本突然增加
  • 用户的中断或性能下降
  • 最糟糕的情况下是 DDoS 攻击导致的中断

最终,你来到了TechPays.com创始人这一案例,他发现数据出站的增长增加了超过10倍,其中超过90%的流量是由AI爬虫产生的。

为什么这是个问题呢?

因为这些内容是免费被抓取的,然后通过OpenAI、Meta人工智能等平台卖给你。

对抗AI爬虫的三种方法

所以这里有三种对付AI爬虫的方法,各有其利弊。

  • 使用JavaScript技术
  • 部署AI陷阱和迷宫
  • 限流和高级过滤

用 JavaScript

看来AI爬虫在JavaScript内容较多的网站上会遇到不少麻烦!

类似于GPTBot(OpenAI)、Claude(Anthropic)和PerplexityBot这样的AI爬虫程序难以处理,甚至完全无法处理通过JavaScript渲染的内容。

在加载 JavaScript 文件时,它们不会执行代码,因此对于抓取工具来说,这些内容就变得没有实际价值。

对抗AI爬虫程序:部署AI陷阱区和复杂路径

陷阱是用来困住AI爬虫的工具,通过让它们在内容迷宫中迷失,从而既浪费它们的计算资源和时间,也保护你的实际内容。

这样的工具创建了相互连接但最终都无处可达的动态页面,有效地阻止了爬虫访问合法内容的目的。

一些常用的陷阱或泥潭解决方案

  • Nepenthes — 创建一个“无限迷宫”的静态文件,没有出口链接,有效地困住AI爬虫并浪费其资源。这很狠,如果你想要报复,这就是你寻找的工具!
  • Cloudflare的AI迷宫:通过生成AI内容来减速、迷惑并浪费不遵守“不爬取”指令的爬虫的资源。了解如何使用AI迷宫阻止AI爬虫
  • Iocaine:使用反向代理让爬虫陷入一个“无限垃圾迷宫”,目的是干扰其数据收集。Iocaine也是基于Nepenthes,但它的目的是生成无用的数据,纯粹是为了干扰数据收集。

捕虫器

用限流和高级筛选对付AI爬虫

为来自目标市场之外国家的访客设置带有验证码或JavaScript测试等挑战的地域筛选,可以显著减少不必要的机器人访问。

比如:

  • Fedora 项目的系统管理员为了对抗激进的 AI 爬虫程序,不得不封锁了整个巴西的访问权限!
  • TechPays.com 的创始人也采取了这种措施,但在转向更强大的防护措施(如启用 Cloudflare 提供的 AI 爬虫防护功能)之前也尝试过。

找到更多应对AI爬虫的方法,但这已经是一个不错的开始。

最终的思考

最可能的是,这种方法可能包括结合多种技术,例如IP封锁和Cloudflare的人工智能爬虫拦截。

此外,陷阱技术(tarpit技术)以及高级流量限制似乎更有效应对激进的网络爬虫。

显然,你不想完全阻止所有AI爬虫程序,因为这可能会让你的内容对那些依赖AI搜索找到你网站的人来说变得难以被找到。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消
OSZAR »