如何做搜索引擎蜘蛛日志分析
搜索引擎蜘蛛日志文件是一个非常强大的文件,但没有被站长们充分利用。通过分析,可以得到各个搜索引擎如何抓取网站内容的相关信息,查看一段时间内搜索引擎蜘蛛的行为。
用空去猜测搜索引擎蜘蛛是没有意义的。日志数据可以帮助网站管理员准确地分析正在发生的事情。这就是为什么SEO人员分析搜索引擎蜘蛛日志文件是必不可少的,即使原始访问日志可能很难从客户端(或主机、服务器和开发团队)获得。
什么是搜索引擎蜘蛛?
蜘蛛是搜索引擎用来抓取各大网站数据信息的工具。搜索引擎不可能在没有网站内容的情况下,根据空对各个网站的页面进行排名。搜索引擎依靠蜘蛛抓取全网所有网站,包括站点地图、站点资源、站点结构、站点页面数据等。,然后依靠计算机对数据进行全面多维的分析,再给出站点权重。
什么是搜索引擎蜘蛛日志?
服务器本身没有独立的蜘蛛访问日志。但服务器会全面记录所有访问网站的数据,包括正常客户端访问数据、搜索引擎蜘蛛访问数据以及来自其他抓取工具的数据。
也就是说,搜索引擎蜘蛛日志是服务器站点访问日志的一部分。以下是百度搜索引擎蜘蛛的访问日志示例:
220.181.108.160 – – [28/JAN/2021:19:16:21 +0800] “GET / HTTP/1.1” 200 5374 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
搜索引擎蜘蛛访问日志的重要性分析
分析搜索引擎蜘蛛日志文件可以帮助你深入了解以下事情:
验证可以或不可以爬网的确切内容。
检查搜索引擎蜘蛛在抓取过程中遇到的响应。
识别蜘蛛爬行问题,这可能具有更广泛的基于站点的含义(例如,层次结构或内部链接结构)。
检查搜索引擎的优先页面,以帮助您了解哪些页面可能被搜索引擎评估为更重要。
发现搜索引擎蜘蛛在哪里抓取可能浪费的预算。
除了其他数据(比如抓取或者外部链接),还可以找到更多关于搜索引擎蜘蛛行为的信息。
蜘蛛爬行预算的定义
在学习本教程之前,有必要了解一下搜索蜘蛛抓取预算,本质上就是搜索引擎能够并想要对网站执行抓取任务的URL数量。
基于网站对请求的响应速度的“抓取速度限制”,以及“抓取需求”、URL的受欢迎程度、变化频率和搜索引擎对索引中“过时”的容忍度,都会影响任何搜索引擎蜘蛛的抓取速度、效率和数量。
谷歌解释说:“许多低附加值的网址可能会对网站抓取和索引产生负面影响”。他们的研究发现,低附加值的网址按重要性顺序分为以下几类。
分面导航和URL参数。
重复内容。
软错误页面。
页面被黑了。
垃圾主机服务器(超卖虚拟主机。
低质量和垃圾内容。
注意:分面导航是指同一页面上有多个URL地址,但没有定义统一的权威链接。
所以,防止蜘蛛浪费时间和精力去抓取有用的网址是非常重要的,而让搜索引擎蜘蛛抓取重复内容的页面只会导致抓取重要页面的延迟。
在本教程中,我们将使用Spider Analyzer——一个对蜘蛛进行统计分析的工具插件,来说明如何通过各种方式分析日志文件,从而帮助站长获得更多的搜索蜘蛛信息数据。
1.抓取蜘蛛概述
插件的蜘蛛简介可以帮助你从整体上了解网站的蜘蛛抓取预算。此页面显示了今天、昨天和过去30天内总共抓取了多少个唯一URL,以及每天抓取的唯一URL的平均数量。
此外,蜘蛛简介还可以让站长快速了解Top10蜘蛛、Top10蜘蛛抓取网址、Top10热门文章等数据。如果你想分析大趋势,这个会很有用。
2.识别已爬网的URL
从网站上收集和分析网址的方法有很多,可以通过模拟抓取、站长工具、数据分析、XML网站地图,或者直接从数据库导出等等。但是这些方法都不能告诉你搜索引擎蜘蛛到底爬了哪些网址。
蜘蛛分析器网站管理员工具插件是基于准确验证哪些网址已被搜索蜘蛛抓取的能力。
可以安装启用蜘蛛分析插件,在WordPress后台输入“蜘蛛分析-蜘蛛日志”,然后选择“蜘蛛名称”和“统计时间段”,查看在此期间网站的哪些链接被特定的搜索引擎蜘蛛抓取了。如下图所示:
3.识别低附加值网站
能够查看抓取的URL及其频率可以帮助您发现潜在的抓取预算浪费,例如参数、分面导航、冗余空单元格或重复的URL。可以使用搜索功能搜索问号(?)来帮助你识别你的抓取预算浪费在哪里,比如URL参数。
通过“蜘蛛分析-访问路径”,输入“?”搜索。如果您需要分析特定的搜索引擎蜘蛛,您可以从所有蜘蛛下拉菜单中选择指定的蜘蛛:
在这种情况下,我们可以关闭WordPress,在分页中显示评论。您可以从列表URL地址发现规则搜索URL片段中进一步搜索特定的URL链接。这可以帮助您快速浏览抓取的URL并找到任何模式,如重复或错误的超长相对链接。
还有许多其他方法来确定蜘蛛爬行预算的潜在浪费,我们将在本教程中继续探索这些方法。
注:用?链接不一定非要,站长要根据实际情况判断。但是,当存在多个URL的同一个页面时,一定要在页面上注明权威链接。
4.4的频率。URL抓取(最大或最小)
搜索引擎蜘蛛抓取页面的频率取决于很多因素,比如内容变化的频率和索引器的重要性——搜索引擎认为页面很重要。虽然不像最重要的URL被抓取那么简单,但作为一个指标,帮助站长识别网站可能存在的潜在问题,还是很有帮助的。
您可以通过插件的多个页面位置来分析URL爬行的频率:
(1)访问路径列表
进入蜘蛛分析的“访问路径”页面,选择蜘蛛的名称、页面类型和时间段,可以查看特定蜘蛛在时间段内抓取URL的频率,如下图所示:
(2)热门文章
如果只需要知道文章类型的URL的抓取频率,只需要进入蜘蛛分析的“热门文章”列表,就可以查看所有文章在指定时间段内不同搜索引擎蜘蛛的抓取频率:
这可以帮助你发现与网站结构、层次、内部链接等相关的更深层次的问题。在蜘蛛日志分析的每一步,你都可以问问自己,搜索引擎是不是在浪费时间爬网址,或者蜘蛛对什么样的内容或者网址更感兴趣。
5.子目录抓取频率
以不同的方式考虑爬网频率也很有用。如果你有一个直观的URL结构,爬行子目录聚集的细节会非常强大。插件的访问路径列表也会对此进行分析。
你可以找出网站的哪些部分被抓取的次数最多。比如首页,分类页,独立页,tab页,Sitemap,或者其他部分?如下图所示:
6.不同搜索引擎的蜘蛛抓取频率
可以分析不同搜索引擎蜘蛛对你网站的抓取频率,可以帮助你了解每个搜索引擎对你网站评分的权重,从而有针对性的对那个搜索引擎进行SEO优化。
在分析期内,抓取的唯一网址数量会帮助你明确各个搜索引擎蜘蛛对你网站的抓取热情。
7.发现抓取错误。
该插件允许您快速分析搜索引擎为其抓取的每个URL接收到的最后一个响应代码。在“蜘蛛日志”页面下,您可以使用过滤器查看任何404错误,或使用301或302状态代码进行爬网。
这个数据很有帮助。站长要及时处理404错误网址,避免搜索引擎蜘蛛因为频繁的404错误而降低你网站的抓取频率甚至放弃抓取,从而影响你网站的评级。
然后,重定向301或302中的链接。如果是不必要的重定向,应该尽快将导致重定向的链接修改为目标链接。
8.按子目录检查错误。
在访问路径页面上,通过直观的URL结构进行检查,找出网站的哪些部分遇到了最多的技术错误。
这有助于诊断影响站点特定区域的问题。如果某类网址出现404错误,不要忽略,尽快处理。
9.检查重定向
可以查看搜索引擎蜘蛛重定向的每一个响应代码为301或302的URL。进入蜘蛛日志并选择状态代码301或302来查看这些内容。
请记住,301或302响应状态代码不一定是异常的,但不会阻止页面内具有重定向状态的URL链接。不必要的301或302重定向应及时修复为重定向目标URL链接。
10.识别和拦截伪蜘蛛。
插件记录的所有统计数据都不是真正的蜘蛛。要识别伪蜘蛛,你只需要访问蜘蛛列表,切换到伪蜘蛛标签,查看所有伪蜘蛛。
对于伪蜘蛛,建议站长将其添加到屏蔽列表中,以免浪费资源。除此之外,对于其他你可能不需要的蜘蛛,比如工具型蜘蛛,你也可以考虑把它们加入屏蔽列表,因为很多时候这些蜘蛛的抓取对网站来说是没有意义的。
关于伪蜘蛛:也叫伪蜘蛛,伪蜘蛛,也许是一些别有用心的人把自己伪装成真蜘蛛,收藏你的网站,或者做其他违法行为。面具,伪君子也!
11.分析未包含的文章。
站长可以在插件中访问热门文章列表,选择指定的蜘蛛、未收录状态和时间段,查询未收录文章列表,帮助您进一步分析文章未收录的原因。
这些不合格产品的主要原因可能是:
(1)文章内容太少;
(2)其他页面链接太少。
对于未收录的文章,我们的建议是进一步丰富文章内容进行内容重构,将这些未收录的URL合理布局在其他收录的文章或网站经常抓取的页面中,方便搜索引擎蜘蛛抓取收录。
不要就此打住。
还有很多其他数据源可以和蜘蛛分析插件结合使用,比如网站统计、站长工具、XML站点地图等。本教程旨在通过几个关键点来说明如何使用蜘蛛分析站长工具插件来发现搜索引擎蜘蛛对网站的抓取行为,从而帮助站长进一步优化WordPress SEO。
声明:
1,本站分享的资源来源于用户上传或网络分享,如有侵权请联系站长。
2,本站软件分享目的仅供大家学习和交流,请不要用于商业用途,下载后请于24小时后删除。
3,如果你也有好的建站资源,可以投稿到本站。
4,本站提供的所有资源不包含技术服务请大家谅解!
5,如有链接无法下载,请联系站长!
6,特别声明:仅供参考学习,不提供技术支持,建议购买正版!如果发布资源侵犯了您的利益请留言告知!
创网站长资源网 » 如何做搜索引擎蜘蛛日志分析