AhrefsBot蜘蛛是一个比较常见的垃圾蜘蛛,它是Ahrefs网站的蜘蛛,而Ahrefs网站是国外一家比较有名的营销网站,也是大家做外贸网站SEO可能会用到的外链查询分析网站,对大部分网站来说都没什么用,所以我是选择屏蔽这个爬虫的。AhrefsBot是什么蜘蛛,这个爬虫需要屏蔽吗值得表扬的是AhrefsBot蜘蛛确实遵循robot协议,我昨天屏蔽的,今天就没有任何AhrefsBot爬虫的痕迹。User-agent:AhrefsBotDisallow:/将以上代码添加到robot.txt文件里面即可很方便的屏蔽掉。当然为了防止后期它哪一天不讲武德,还是附上通过修改Nginx或其它WEB服务器规则禁止抓取的代码:if($http_user_agent~* "AhrefsBot"){ return403;}禁止IP的做法我觉得没什么意义,IP变动太简单了。
BLEXBot这个蜘蛛也是最近爬的比较厉害的一个,属于一家美国的反向链接查询网站(WebMeUp)的蜘蛛程序,它会大量的抓取我们的网站链接,所以一旦我们发现有他的抓取的踪迹,就会发现他真的是大量的抓取你的链接。BLEXBot是什么蜘蛛,需要屏蔽这个爬虫吗这个蜘蛛理论上除了耗费我们的服务器资源之外,也没什么坏处,但对在国内建站只面向国内用户的站长来说,屏蔽是比较好的选择。实测这个BLEXBot蜘蛛比较自觉,使用robot协议禁止以后它就不再爬了,值得表扬。User-agent:BLEXBotDisallow:/还是为了防止哪天不讲武德搞偷袭,彻底在服务器规则禁止更好:if($http_user_agent~* "BLEXBot"){ return403;}毕竟robot只是个协议,属于约定,尊不遵守还是看这些公司自己的设定。
SemrushBot是SEMrush的服务器搜索蜘蛛,SEMrush是一个强大的、全面的在线营销竞争情报平台,其中包括SEO、PPC、社交媒体和视频广告研究。机器人抓取你的网页来解析你的网站内容,所以相关的信息在你的网站很容易索引和更容易获得用户搜索内容。SemrushBot是什么蜘蛛,这个爬虫怎么屏蔽可以看得出来,对我们中文网站来说一样没什么用,属于营销类的蜘蛛,可以选择屏蔽掉。常规屏蔽方式就是写一下robots规则来屏蔽它的爬取User-agent:SemrushBotDisallow:/User-agent:SemrushBot-SADisallow:/User-agent:SemrushBot-BADisallow:/User-agent:SemrushBot-SIDisallow:/User-agent:SemrushBot-SWADisallow:/User-agent:SemrushBot-CTDisallow:/User-agent:SemrushBot-BMDisallow:/User-agent:SemrushBot-SEOABDisallow:/这个这么长是我在网上找到的,我昨天只添加了第一条,今天他还在继续爬,所以不知道是我自己写的不够全面,还是它压根把robots协议当厕纸就不知道了。为了防止他不讲武德,直接服务器规则搞起,这次我们改进一下,毕竟这些蜘蛛是真的多,比如我们换个思路,只保留我们需要的蜘蛛,其他全部屏蔽: if($http_user_agent!~*"Baidu|Yisou|Sogou|360|Bytes|bing") { return403; }就是除了百度,神马、搜狗、360、头条、bing以外的蜘蛛,全部返回403状态(没有权限访问本站),代码来自网络,据发代码的说是这样简写也可以,不放心的话,可以把简写全部换成蜘蛛全名。
DotBot是国外Moz旗下链接分析网站opensiteexplorer的,DotBot蜘蛛专门用来分析网站的外链数据,我也是装上了蜘蛛分析插件以后才发现这么多没什么用的蜘蛛在持续消耗我的服务器资源,好的是现在知道了,一个个屏蔽了就好了。DotBot是什么蜘蛛,需要屏蔽这个爬虫吗这个DotBot蜘蛛总的来说也没啥用,直接屏蔽。官方宣称支持robots协议,昨天添加上以后,今天凌晨1点爬了下,现在还没爬,不知道是不是确实比较自觉。User-agent:DotBotDisallow:/但为了更把握一点,我们还是添加Nginx或其它WEB服务器规则禁止抓取if($http_user_agent~*"DotBot"){ return403;}然后来个合集:if($http_user_agent~*(YandexBot|spbot|DnyzBot|Researchscan|semrushbot|yahoo|AhrefsBot|DotBot|Uptimebot|MJ12bot|MegaIndex.ru|ZoominfoBot|Mail.Ru|SeznamBot|BLEXBot|ExtLinksBot|aiHitBot|Barkrowler)){ return403;}直接把大部分的垃圾营销蜘蛛都拦截。
几个高防CDN都被打的流量都超了,所以换上了cloudflare,毕竟免费还能抗的住。这里分享一点点经验,毕竟这会已经被打的将近10T,还是有那么点心得的。1、网站生成纯html静态页面,wordpress可以使用cos-html-cache这个插件,这个插件生成HTML比较彻底,大家都推荐用这个。这一步看起来不重要,实则非常重要,实测不生成同样的设置还是扛不住攻击,生成以后立马抗住了。2、设置让cloudflare缓存HTML文件,这样很多访问都不用占用服务器资源,直接在cloudflare就完事了。3、在cloudflare设置针对性的防火墙规则,要再cloudflare官网设置,比如这次攻击可以在后台看到对方都是这样的数据:于是我在防火墙规则添加了一条规则,是这种访问的,一律JS质询,这个要根据你的实际情况进行设置,而且攻击者可能随时改变。另外如果你针对的是国内市场,那么建议设置规则将非中国大陆,中国香港澳门台湾之外的IP直接禁止访问或者是JS质询,可以减轻一部分压力。更进一步可以直接除了搜索引擎IP都进行质询。这些设置都能大大减轻你服务器的负担。4、如果网站被打的打不开后台,无法安装插件,可以在网站防火墙将自己加入白名单,所有IP段都加入黑名单,这样就可以后台设置安装了。后续再有什么再分享,现在就是网站速度慢点,毕竟cloudflare速度不快,但总比访问不了强。
当我们在搭建和维护网站的时候,都会希望自己的网页被各种搜索引擎收录,从而增加网页的曝光率。可是,如果有的网页上面有非常重要的秘密信息,并且不希望被spider抓取的时候该怎么办呢?这个时候,Robots协议就可以帮你实现禁止搜索引擎收录的功能。什么是Robots协议?Robots协议通常也称为爬虫协议、机器人协议等,是搜索引擎访问网站的时候要查看的第一个文件。它通常放在网站的根目录下面,如果没有定义Robots协议的话,就默认网站的所有内容都可以被搜索引擎访问。Robots协议以一个.txt文件的形式存在,告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议可以屏蔽一些网站中比较大的文件(如:图片,音乐,视频)等,节省服务器带宽;还可以屏蔽站点的一些死链接。所以,从功能上来看,Robots协议有利于搜索引擎抓取网站内容,方便引导蜘蛛爬取页面。robots.txt文件的基本格式“robots.txt”文件里面定义了哪些页面是不想被搜索引擎收录的,文件里面一般包含一条或者多条记录,这些记录通过空行分开。文件里面可以使用#进行注解(与Hosts文件一样),该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,描述了哪些网页禁止或者允许被搜索引擎收录。User-agent:User-agent用于描述搜索引擎robot的名字,比如“User-agent:*”表示所有的搜索引擎种类都会受到”robots.txt”的限制;“User-agent:Baiduspider”表示只有百度搜索引擎会受到”robots.txt”的限制。需要说明的是,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。若是在文件中加上”User-agent:Baiduspider”和若干Disallow、Allow行,则百度蜘蛛只会受到”User-agent:Baiduspider”后面的Disallow、Allow限制。Disallow:Disallow被用来表示不想被搜索引擎访问的URL,”Disallow:”表示允许访问该网站下的所有URL,在”robots.txt”文件里面,至少要有一条Disallow记录。如果”robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。Allow:Allow用于描述希望被访问的URL,在Allow里面定义的URL是允许robot访问的。例如”Allow:/zhuji”允许robot访问/zhuji.htm、/zhujicom.html、/zhuji/com.html。通常情况下,一个网站的所有URL默认是Allow的,并且Allow通常会与Disallow一起搭配使用。“*”and”$”符号通配符”*”的主要功能是用来模糊匹配URL。比如,要拦截对所有以private开头的子目录的访问,就可以用“Disallow:/private*/”来实现,若是要拦截所有包含private的子目录,就可以用“Disallow:/*private*/”来实现。”$”用来指定与网址的结束字符进行匹配,比如说“Disallow:/*.asp$”代表禁止访问后缀名为asp的文件。常见robots.txt举例这里列举了robots.txt文件里面的一些常见的例子: 1、允许所有的robot访问(或者也可以建一个空文件“/robots.txt”file)User-agent:*Allow:/2、禁止百度搜索引擎的访问User-agent:BaiduspiderDisallow:/3、禁止所有搜索引擎访问网站的任何部分User-agent:*Disallow:/4、允许抓取网页和gif格式图片Allow:.gif$ 5、禁止爬寻ABC目录下面的目录Disallow:/ABC/ 6、禁止爬寻ABC的整个目录Disallow:/ABC7、网站地图告诉爬虫这个页面是网站地图Sitemap:robots工具不同的搜索引擎对于robots的解读可能有着细微的差别,Google与百度都分别在自己的站长工具中提供了robots工具,站长可以通过这个工具创建robots文件,并对其进行检测和规则校验。
什么是服务器日志虽然现在很多站长懂得做搜索排名知识,但是懂得SEO,并不代表就懂得服务器日志了,那么服务器日志是什么呢?其实,服务器日志(serverlog)是一个或多个由服务器自动创建和维护的日志文件,其中包含其所执行活动的列表。简而言之,服务器日记就是记录网站被访问的全过程,通过服务器日志,站长就可以知道什么时间到什么时间有哪些人来过,并且还知道什么搜索引擎来过,有没有收录你的网页,从你的网站工作的第一天你的日记就有了。假如你想做好SEO,那么你就要好好的了解下服务器日志了,因为它可以让你更了解搜索引擎爬虫。服务器日志怎么看1、开始——管理工具——事件查看器——系统或者控制面板——管理工具——事件查看器——系统。2、在远程客户端,运行IE浏览器,在地址栏中输入“https://Win2003服务器IP地址:8098”,如“https://192.168.1.1:8098”。在弹出的登录对话框中输入管理员的用户名和密码,点击“确定”按钮即可登录Web访问接口管理界面。接着在“欢迎使用”界面中点击“维护”链接,切换到“维护”管理页面,然后点击“日志”链接进入。到日志管理页面后,在日志管理页面中,管理员可以查看、下载或清除windows2003服务器日志。选择系统日志可进行查看,并且在日志管理页面中可列出windows2003服务器的所有日志分类,如应用程序日志、安全日志、系统日志、Web管理日志等。
前端开发人员在浏览网页时,遇到自己喜欢的网页,总想看看代码是怎么写的,也有些人需要对网页源代码进行修改,那你知道怎么查看一个网页的源代码吗?这篇文章就和大家讲讲如何查看源代码,以及不同浏览器的查看源代码的快捷键。一、源代码是什么一般来讲,通过html代码能让图片、文字、视频等内容在浏览器中显示出来的代码,我们就称它为网页源代码。CSS代码可以称它为CSS源代码。二、如何查看源代码接下来主要介绍四种方法打开网页源代码1、任意打开一个网页,鼠标右击会看到”查看源代码“,这个网页的源代码就出现在你眼前了。2、为了方便快捷,小伙伴们可以使用快捷Ctrl+U来查看源码,同样可以实现。补充:想要看一个页面的局部样式,可以鼠标右键,点击审查元素。还可以用快捷键F12,或者快捷键Ctrl+Shift+I调用或者关闭开发者工具,以此来查看源代码。3、也可以在你想要查看的网页地址栏前面加上入view-source:比如:view-source:https://www.baidu.com/就可以查看百度的源代码4、除此之外,还可以在浏览器的设置菜单框中,找到“更多工具”,然后再找开发者工具,也可以查看网页源代码。注:但是不同的浏览器好像有点区别。以上介绍了四种查看页面源代码的方法。不知道的小伙伴可以自己动手试试,找到一种便捷好用的方式即可。
一、服务器资源超指标 在虚拟服务器中,内存与CPU等都有一定的限制,如果虚拟主机上装载的网站数量较多,或者网站上同时浏览的人数过多,就很容易引发系统崩溃导致的资源超标现象。对于这类问题的解决极为简单,迅速通过FTP将网站资料拷贝备份,然后选择一个新的高质量的网站空间来存储自己的网站。 二、网站流量突然异常 网站有时候为了积累人气,会开放一些灌水板块,提供用户在上面聊天,这个时候就会有其他广告发布软件乘虚而入,网站于是就很容易出现大量的垃圾广告信息,搜索引擎就会对这些信息抓取,从而引发极大的流量占用,最终导致网站瘫痪,导致被暂停。如要解决这类问题,那就在这种聊天页面设置一下Robots.txt,让搜素引擎不能够抓取,自然不会引起这样的问题。 三、网站遭遇了黑客的袭击 有些网站可能由于程序漏洞而遭遇黑客的袭击,有些网站或是因为管理不导致被黑客攻击,网站被挂了黑链,在这种局面下,服务商为了提升自己的服务品质,会立刻停止该账户的使用。对此作为被黑客攻击的网站需要立刻启动杀毒程序,删除木马程序,恢复网站正常功能,然后再向主机供应商提出申请,这个账户被暂停问题就能够得到解决。 四、网站空间域名没有及时续费 网站域名和空间不是永久的,如果超过使用的时限,这些空间和域名就会打不开,导致网站账户被暂停。如果在一个月之内迅速补充相关费用之后,就能够立刻解决这些问题。虽然,网站账户暂停这个问题不容易出现,若一旦出现,网站所面临的将是一场浩劫,因此身为站长的我们应即时采取措施,积极的应对这个问题也会很快的被解决,从而让网站涅磐重生。
网页中顶部导航栏往往是用户进入网站后最先看到的地方,决定着用户对网页的第一印象,其重要性不言而喻。 网页中的header,一般我们称之为顶部导航栏,这里为了行文方便,以下都简称顶部栏。顶部栏对于一个网站的用户体验来说是至关重要的,因为根据用户的浏览习惯(从左到右,从上到下),当他们进入一个新的网站,顶部栏通常是他们最先看到的地方。我们都知道用户对于你产品的第一印象是很重要的,因为它会一直伴随接下来的使用过程,而且第一印象无法更改。 但是顶部栏却是我们设计的一个盲区,我们很少花心思的去研究它。因为我们觉得顶部栏无非是一个logo,几个文字链接堆砌起来作为菜单,着实没有什么需要注意的地方。但是事实上顶部栏设计的学问远不止这些。 顶部栏的内容 在进行顶部栏设计前,首先我们要确定的是应该要展示哪些内容。一般来说,顶部栏有以下一些内容: 品牌logo 菜单 搜索框 提示消息 登录/注册 联系方式 语言切换 其他产品或者移动端app的下载链接 行为召唤链接(我要投稿,我要发博) 以上这些都是顶部栏中常见的元素,在设计的时候我们要根据产品自身的实际情况进行取舍,毕竟这些信息全部放上去也不太现实。信息过度加载会增加用户的使用负担,注意力会被分散。 汉堡包按钮 取舍当然意味着既有“保留”也有“舍弃”,但是UI设计中的“舍弃”更多的是指“隐藏”——隐藏一些次要的功能。 在隐藏的同时,我们也希望当用户需要的时候,这些隐藏的功能可以随时随地的呈现出来。汉堡按钮可以帮助我们实现这一点。常见的汉堡按钮是由三条水平线条构成的,很像两层面包一层肉的汉堡包,所以我们形象的称之为汉堡按钮。 (ps:汉堡按钮最初是由国外设计师最先使用并命名,如果是中国设计师发明了它,没准就叫肉夹馍按钮了。) 汉堡按钮可以通过将一些次要的信息隐藏来释放页面的空间,这样使顶部栏更加的清爽简洁,用户的注意力可以更好的集中在那些重要的信息上。 汉堡按钮在页面导航设计中使用的很频繁,用户对此很熟悉,所以不会额外增加用户的学习成本。汉堡按钮设计最需要注意的地方就是它很容易被用户忽视,所以我们在设计的时候要通过配色,尺寸,留白的使用来将其适当的凸显出来。一句话来说,汉堡按钮既要做到清晰展示,又不能占据太大的空间。 双层菜单 双层菜单的样式在近来的顶部栏设计中也愈发受到设计师的青睐。因为现在随着产品功能的不断增加与完善,渐渐出现了一些单层菜单无法解决的情况,那就是顶部栏需要展示的内容过多,而且某些特定功能不属于同一层级。为了更好的应对这类情况,设计师们创造性的使用双层菜单这种样式。 以上面的网站为例,上层的菜单有社交网络的链接(Facebook,Instagram和Twitter),企业logo,搜索框,购物车和汉堡按钮。下层的菜单有产品种类,营业网点地址,新闻,关于我们和联系我们。在这种情况下,如果将这些信息以传统的单行菜单展示,势必会放不下,造成顶部栏的过度拥挤。 此外双层菜单这种设计样式很新潮,可以给用户耳目一新的感觉。 文字和配色 我们在确定顶部栏上内容和展示方式后要考虑的是设计风格。产品的设计风格要立足于产品自身的定位,这个就意味着设计师的工作不应该仅限于视觉呈现还要懂产品。这里我就不展开来说,因为我其实也不是太懂。 一般来说,顶部栏的设计风格由配色、文字和图标来构成。因为这是顶部栏栏上最主要的三个元素,图标的使用相对较少,最常见的是下拉箭头和放大镜图标。 首先来说配色,配色主要是指背景色。通常来说,不要给顶部栏添加过重的背景色,选择浅色或者直接白色。因为颜色过重会造成用户注意力的分散。此外顶部栏下方是banner,我们在进行banner设计时候会考虑banner配色和页面整体风格是否搭配。如果顶部栏的颜色过重会制约banner的设计,如果是白色和浅色就没有这种顾虑了。当然这也不是绝对的,有些网站顶部栏采用深色同样很好看,有些网站的顶部栏直接是透明,跟页面内容融为一体。 再说文字,大部分用户不会一个字一个字去读页面中的信息,他们是“扫描”式阅读。所以顶部栏上的文字设计首要考虑的是可读性,要让用户在短时间内就可以获取这些信息。所以我们的文字要做到能够从背景中凸显出来,必要的时候可以加粗字体样式。 固定型顶部栏 固定顶部栏代表着另一种设计思路:无论用户进行何种操作,顶部栏对用户来说都是可见的。这类的顶部栏适用于页面内容比较多需要用户不断下拉滑动的网站。 这种交互模式可以很好的提升顶部栏的易用性,但是这是建立在牺牲一部分页面空间的基础上换来的,所以我们在使用的时候一定要谨慎。 极简风格 在上面我一直强调顶部栏设计要简洁明了,要让用户一眼就能看明白。因为顶部栏属于导航体系的一部分,是为了避免用户迷路,帮助他们更好的使用产品。归根结底用户使用你的产品是为了你提供的内容或服务,而不是来看狂拽酷炫的顶部栏。所以我们不能本末倒置,将顶部栏做的过于花哨,进而分散用户的注意力。 此外极简风格很适合响应式设计,可以在多设备上追求一致的用户体验。 简约设计的另一大优点就是,设计师会经常遇到临时的迭代需求,领导突然让你在这里加一个按钮那里加一个文字标签,简约设计为这种突然的迭代需求提供了操作空间。 总结 设计师的工作不应该仅限于视觉呈现,还应该考虑交互原则,注重产品的用户体验。一款产品的功能性和美观性是相辅相成的,光做视觉的设计师的作品也无法令用户的眼睛满意。希望这篇文章可以给你带来收获。