站三界导航
首页 建站经验Unknown robot是什么蜘蛛?怎么屏蔽垃圾蜘蛛爬虫,屏蔽ip段?

Unknown robot是什么蜘蛛?怎么屏蔽垃圾蜘蛛爬虫,屏蔽ip段?

  • 建站经验
  • 来源:站三界导航
  • 44阅读
  • 2023-02-02

Unknown robot (identified by 'spider')是什么蜘蛛?

一般的蜘蛛都会在后台控制面板中显示名字,例如baidu,google,yahoo,alexa等等,但是如果你用的虚拟主机是cpanel的控制面板,那么发现Unknown robot (identified by 'spider')这个蜘蛛消耗很大的网站流量,那么可以推测这个是百度蜘蛛,因为cpanel的控制面板默认是不识别百度蜘蛛的,所以就会显示为Unknown robot (identified by 'spider')。而且通过robots.txt是无法禁止这个蜘蛛抓取网站内容的——这些垃圾爬虫不可能老老实实遵守robots规则,君不见新浪和字节前段时间还因为robots.txt打了官司,大厂都如此,其他爬虫更别指望。

宝塔屏蔽常见垃圾蜘蛛和扫描工具的两种办法:最近观察网站后台网站蜘蛛爬取状况,除了我们常见的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外,还发现有很多垃圾的蜘蛛平繁的爬取本站,通常这些搜索引擎不仅不会带来流量,因为大量的抓取请求,还会造成主机的CPU和带宽资源浪费,屏蔽方法也很简单,按照下面步骤操作即可,原理就是分析指定UA然后屏蔽。

下面给大家带来两种屏蔽垃圾蜘蛛的方法

方法一 通过网站Robots.txt来屏蔽

User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /
JavaScript



把以上代码复制到网站robots.txt里面







方法二、通过宝塔面板配置文件判断来屏蔽垃圾蜘蛛和扫描工具

1.首先进入宝塔面板,文件管理进入/www/server/nginx/conf目录,新建空白文件kill_bot.conf。然后将以下代码保存到当前文件中。



#禁止垃圾搜索引擎蜘蛛抓取教程

if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") {
 return 403;
 break;
}
#禁止扫描工具客户端
if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) {
 return 403;
 break;
}
2.保存后返回到宝塔 – 【网站】-【设置】点击左侧 【配置文件】选项卡,在 “#SSL-START SSL相关配置,请勿删除或修改下一行带注释的404规则” 上方空白行插入红色字体的代码:“include kill_bot.conf; ” 保存后即可生效,这样这些蜘蛛或工具扫描网站的时候就会提示403禁止访问。



希望这个教程能帮助到大家,谢谢支持!



实测下面的屏蔽ip段,效果更好!



使用Nginx文件屏蔽IP地址

如果您的网站在增强版云虚拟主机(Nginx)上运行,请按照本操作配置网站的指定访问权限,屏蔽不允许的IP地址访问。



登录云虚拟主机管理页面。



找到待配置Nginx文件的增强版云虚拟主机,单击对应操作列的管理。



在左侧导航栏,选择高级环境设置 > NGINX设置。



在NGINX设置页面的编辑区域,输入您的配置Nginx文件内容(IP地址屏蔽规则)。



以WordPress网站配置Nginx文件为例。



各场景下IP地址屏蔽的生效规则示例如下所示:



禁止单个IP地址访问

location / {
    deny 192.168.13.0;
}
禁止多个指定IP地址访问

location / {

    deny 192.168.13.0;

    deny 192.168.13.1;

    deny 10.1.5.0;

}

禁止多个不指定IP地址访问

location / {
    allow 192.168.13.0;
    allow 10.1.5.0;
    deny all;
}
禁止IP地址段访问
location / {
    deny 192.168.13.0/24;
}
说明 使用掩码方式配置IP地址段权限时,请您使用网段中最小地址/掩码方式,否则会出现配置错误提示:更新nginx设置失败:nginx: [warn] low address bits of **** are meaningless。



Nginx文件编辑完成后,单击保存设置。



完成IP屏蔽规则的配置后,如果这些屏蔽的IP再次访问您的WordPress网站,网页会返回403错误,表示您无访问权限。



使用.htaccess文件屏蔽IP地址

如果您的网站在普通版Linux操作系统云虚拟主机(Apache)上运行,请按照本方法配置网站的指定访问权限,屏蔽不允许的IP地址访问。



登录云虚拟主机管理页面。



找到待管理网站文件的Linux操作系统云虚拟主机,单击对应操作列的管理。



在左侧导航栏,选择文件管理 > 文件管理器。



在文件管理器页面,上传网站程序文件到Linux操作系统云虚拟主机。



关于上传网站程序文件到云虚拟主机的站点根目录的具体操作,请参见使用文件管理器管理文件。



说明 如果您使用FTP工具管理云虚拟主机上的网站文件,具体操作,请参见上传网站文件到Linux操作系统云虚拟主机。



在Linux操作系统云虚拟主机的/htdocs目录下,找到需要查看或修改的.htaccess文件,单击对应操作列的查看。



说明 如果您使用FTP客户端查看或修改.htaccess文件,该文件一般为隐藏文件,关于如何显示隐藏文件的具体操作,请参见如何显示FTP隐藏的文件。通过FTP客户端连接云虚拟主机后,您可以在远程站点区域通过下载、编辑和上传操作来完成.htaccess文件的修改。



在弹出的文件查看/编辑页面的编辑区域,输入您的.htaccess文件内容(IP地址屏蔽规则)。



以WordPress网站配置.htaccess文件为例。



各场景下IP地址屏蔽的生效规则示例如下所示:



禁止单个IP地址访问

Order Allow,Deny
Allow from allDeny from 192.0.2.0
禁止多个指定IP地址访问
Order Allow,Deny
Allow from allDeny from 192.0.2.1 192.0.2.0
或者

Order Deny,Allow
Deny from 192.0.2.1 192.0.2.0
禁止多个不指定IP地址访问

Order Deny,Allow
Deny from allAllow from 192.0.2.1 192.0.2.0
禁止IP地址段访问

Order Allow,Deny
Allow from allDeny from 192.168.13.0/24
.htaccess文件编辑完成后,单击确认。

完成IP屏蔽规则的配置后,如果这些屏蔽的IP再次访问您的WordPress网站,网页会返回403错误,表示无访问权限。
本文结束
本文来自投稿,不代表站三界导航立场,如若转载,请注明出处:https://www.zhansanjie.com/article/details/40138.html

版权声明:

1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

2、本站仅提供信息发布平台,不承担相关法律责任。

3、若侵犯您的版权或隐私,请联系本站管理员删除。

4、本文由会员转载自互联网,如果您是文章原创作者,请联系本站注明您的版权信息。

分享
站三界导航
本站声明:本站严格遵守国家相关法律规定,非正规网站一概不予收录。本站所有资料取之于互联网,任何公司或个人参考使用本资料请自辨真伪、后果自负,站三界导航不承担任何责任。在此特别感谢您对站三界导航的支持与厚爱。