站三界导航
首页 建站经验网站日志中的不完整url或莫名其妙的url抓取的分析

网站日志中的不完整url或莫名其妙的url抓取的分析

  • 建站经验
  • 来源:站三界导航
  • 61阅读
  • 2022-04-28

在分析日志的过程中,往往会发现404状态下有一些或者很多的不完整的url或者比原url多出字段的莫名其妙的网站本身不存在的url的抓取。在群里面也见有人问过类似的情况,觉得这是一个大家普遍都会遇见的问题,有猜测过有可能是被别人采集才导致这样的问题出现,在上课的时候问过国平老大,当时国平老大说有可能是爬虫在抓取url的时候下载不完整,但是这都没有一个具体的数据来支撑,总是觉得很朦胧没把握。 现在,google管理员工具可以很清晰的用数据为你揭晓这其中的诧异了,google管理员工具是国平老大非常推崇的一个seo工具,有人觉得做百度的人不需要google的东西,因为百度和google的算法有差别,那下面介绍google管理员的这个功能可以告诉你这样的想法是大错特错的,管理员工具是一个按照网站seo各项考核标准制定的一个最最权威的seo工具,做seo需要的数据,绝大部分都可以从这里面获取,下面就来介绍管理员工具的这个功能(好像是最近更新的,以前不是这样子)。 首页看下百度日志里面的怪异404 这些url的入口在哪里呢?搜索引擎是从什么地方获取这些url的? google告诉你 首先介绍下google管理员工具关于抓取错误的功能 下面是另一个网站由于改版问题没做跳转和抓取拦截所造成的找不到抓取错误,有一很完整的曲线可以让你很清晰的看见网站存在的这方面的问题的变化趋势 和服务器问题造成的抓取错误 接第一张图(同一个网站) 一开始从日志中观察到这些错误,但是不知道这些错误的来源 现在可以知道这些错误的url是从何而来 点击第102条,弹出下面的框,url不在sitemap中,但是在自己的其他网站里面出现,说明网址是网站自身存在的但是已经被删除了 点击第110条,弹出下面的框,可以看到搜索引擎是从其他网站过来的(或是采集站,或是其他) 点击进入具体的来源页面可以看到 至此,可以很明确的知道,到底网站日志里面的出现的那些莫名其妙的url到底是怎么回事了,是自己站内存在的还是站外错误构成的。最近更新的还有其他的功能,感兴趣的朋友可以亲自用用体验下。 站三界导航:https://www.zhansanjie.com 本文结束
本文来自投稿,不代表站三界导航立场,如若转载,请注明出处:https://www.zhansanjie.com/article/details/3934.html

版权声明:

1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

2、本站仅提供信息发布平台,不承担相关法律责任。

3、若侵犯您的版权或隐私,请联系本站管理员删除。

4、本文由会员转载自互联网,如果您是文章原创作者,请联系本站注明您的版权信息。

分享
随机网站 更多 >>
最新小程序 更多>>
最新公众号更多>>
站三界导航
本站声明:本站严格遵守国家相关法律规定,非正规网站一概不予收录。本站所有资料取之于互联网,任何公司或个人参考使用本资料请自辨真伪、后果自负,站三界导航不承担任何责任。在此特别感谢您对站三界导航的支持与厚爱。