站三界导航
首页 建站经验SemrushBot是什么蜘蛛,这个爬虫怎么屏蔽

SemrushBot是什么蜘蛛,这个爬虫怎么屏蔽

  • 建站经验
  • 来源:站三界导航
  • 119阅读
  • 2022-09-19

SemrushBot是SEMrush的服务器搜索蜘蛛,SEMrush 是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。机器人抓取你的网页来解析你的网站内容,所以相关的信息在你的网站很容易索引和更容易获得用户搜索内容。

SemrushBot是什么蜘蛛,这个爬虫怎么屏蔽

可以看得出来,对我们中文网站来说一样没什么用,属于营销类的蜘蛛,可以选择屏蔽掉。

常规屏蔽方式就是写一下robots规则来屏蔽它的爬取

User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SemrushBot-SEOAB
Disallow: /
这个这么长是我在网上找到的,我昨天只添加了第一条,今天他还在继续爬,所以不知道是我自己写的不够全面,还是它压根把robots协议当厕纸就不知道了。

为了防止他不讲武德,直接服务器规则搞起,这次我们改进一下,毕竟这些蜘蛛是真的多,比如我们换个思路,只保留我们需要的蜘蛛,其他全部屏蔽:

 if ($http_user_agent !~* "Baidu|Yisou|Sogou|360|Bytes|bing")
    {
       return 403;
     }
就是除了百度,神马、搜狗、360、头条、bing以外的蜘蛛,全部返回403状态(没有权限访问本站),代码来自网络,据发代码的说是这样简写也可以,不放心的话,可以把简写全部换成蜘蛛全名。
本文结束
本文来自投稿,不代表站三界导航立场,如若转载,请注明出处:https://www.zhansanjie.com/article/details/10350.html

版权声明:

1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

2、本站仅提供信息发布平台,不承担相关法律责任。

3、若侵犯您的版权或隐私,请联系本站管理员删除。

4、本文由会员转载自互联网,如果您是文章原创作者,请联系本站注明您的版权信息。

分享
站三界导航
本站声明:本站严格遵守国家相关法律规定,非正规网站一概不予收录。本站所有资料取之于互联网,任何公司或个人参考使用本资料请自辨真伪、后果自负,站三界导航不承担任何责任。在此特别感谢您对站三界导航的支持与厚爱。