- 48浏览
- 2022-10-24
一般来说,屏蔽蜘蛛抓取有三种方法:
Robots屏蔽
UA屏蔽
IP屏蔽
我们一般都是通过Robots屏蔽这个方法,Robots 协议(也称为爬虫协议、机器人协议等)用来告诉搜索引擎、爬虫哪些页面可以抓取,哪些页面不能抓取。
常见垃圾蜘蛛:
AhrefsBot:通过抓取网页建立索引库,并提供反向链接分析和服务。
dotbot:在线营销分析软件。
MJ12bot:英国搜索引擎。
Deusu:个人的项目一个搜索引擎。
grapeshot:这家公司好像也是分析网站用的。
屏蔽方式如下:
在robots.txt目录下添加下面的代码,添加之后再用百度站长平台检测一下robots是否正确。
User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DeuSu
Disallow: /
User-agent: grapeshot
Disallow: /
各大常见蜘蛛:
百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
必应蜘蛛:bingbot
搜狗蜘蛛:Sogou web spider
360蜘蛛:360Spider
版权声明:
1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。
2、本站仅提供信息发布平台,不承担相关法律责任。
3、若侵犯您的版权或隐私,请联系本站管理员删除。
4、本文由会员转载自互联网,如果您是文章原创作者,请联系本站注明您的版权信息。