创网站长资源 SEO教程 2025-07-21

为什么要控制Googlebot的抓取速度？

温馨提示：注册会员付费购买资源可永久免费下载更新版本

有时候很高兴看到谷歌几乎瞬间抓取了你的网站。但这对于大多数网站来说并不是必须的，因为内容可能一天更新一次，甚至间隔更长。当内容没有更新的时候，搜索引擎爬虫或者机器人继续在网站上寻找更新是没有意义的。

在本文中，我们将了解为什么要控制Googlebot，以及如何控制Googlebot和其他搜索引擎爬虫的爬行速度。

为什么要控制Googlebot的抓取速度？

当你有多个站点或者更大的站点时，搜索引擎机器人的持续抓取会对服务器性能产生不利影响。所以，控制抓取你网站的机器人的抓取速度是很有必要的，而Googlebot在很多情况下是你首先要控制的。

搜索引擎机器人和真实用户都会使用你的服务器资源。

高爬网率将导致高CPU利用率，最终可能导致更多额外资源的开销。在共享托管环境中，您的主机可能会停止服务，以保护同一服务器上托管的其他站点。

当Googlebot抓取网站时，网站上的真实用户可能会感觉很慢。尤其是当你拥有一个电子商务网站时，你必须控制Googlebot和其他经常爬行的机器人。

如果你的网站很小，流量有限，你可能看不出机器人有什么问题。当你有多个每天吸引成千上万访问者的网站时，你会注意到由于爬虫的活跃，CPU的使用量猛增。当CPU使用率很高时，您可能会收到来自托管公司的警告消息，或者您的帐户将被暂停，要求您采取必要的措施。

如何监控Googlebot？

有两种方法可以监控Googlebot的抓取活动。一个是从你的谷歌搜索控制台检查，另一个是从你的主机账户监控。

登录到您的谷歌搜索控制台帐户，导航到设置，然后抓取>抓取统计数据>打开报告。在这里，您可以查看Googlebot在过去90天内的活动。您将看到三个图表——每天抓取的页面，每天下载的千字节数，以及下载页面花费的时间(以毫秒为单位)。这些图表会让你全面了解Googlebot在你的网站上做了什么。

Googlebot在你的网站上捕捉数据统计。

第二种也是最有效的方法是通过您的主机帐户监控服务器上的活动。登录您的主机帐户，找到一个统计报告工具。在这种情况下，我们使用几乎所有共享主机服务提供商(如Bluehost、SiteGround等)提供的Awstats。)进行解释。

打开Awstats应用程序并选择您的站点以查看统计数据。查看“机器人/蜘蛛访客”部分中最活跃的机器人列表。

Awstats的监控机器人

还可以使用WordFence等插件来监控实时流量和Googlebot活动。

当然，我们的蜘蛛分析插件也可以实现爬虫统计和行为分析。安装启用插件后，当然是统计一段时间的数据。点击Spider Analysis > Spider Profile，然后选择最近30天，在趋势图下面的菜单中选择Googlebot，查看最近30天Googlebot抓取的URL数量。

如何控制Googlebot的抓取速度？

当你注意到Googlebot正在抓取你的网站，消耗了大量的带宽时，就该控制抓取速度了。一些主机公司通过在robots.txt文件中添加条目来自动控制抓取延迟。你可以从谷歌搜索控制台手动控制Googlebot的抓取速度。登录你的搜索控制台账号后，打开你的资源的抓取速度设置页面，选择你需要设置Google Spider抓取速度的网站。

访问Google搜索控制台中的爬网控制设置

你会在“抓取速度”部分看到两个选项。

谷歌机器人抓取速度控制

让谷歌优化我的网站(推荐)

限制谷歌的最大抓取速度

选择第二个单选按钮，将进度条向下拖动到所需的速率。这将设置每秒的请求数和抓取请求之间的秒数。

注意:除非谷歌的抓取导致你的网站性能严重下降，否则完全没有必要修改谷歌爬虫的抓取速度。谷歌在控制这一块做得非常好。

的新抓取速度设置有效期为90天，到期后会自动重置为第一选项“让谷歌优化我的网站”。

冰在哪里？

类似Googlebot，也可以在Bing站长工具下限制Bingbot。登录到您的帐户后，导航到“配置>爬网控制”，您可以进行相关设置。

Bing网站管理员工具中的抓取控件

通过选择图表上的蓝框来调整抓取速度。

其他搜索引擎爬虫

除了Google和Bing，还有很多其他的机器人可以抓取你的网站。您可以使用通用的。htaccess命令阻止所有其他机器人。将下面的代码添加到您的。htaccess文件来阻止除谷歌，必应，MSN，MSR，Yandex和Twitter以外的所有机器人。所有其他机器人将被重定向到本地主机IP地址127.0.0.1。

#Disable bad botsRewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^$ [OR]RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot)RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC]RewriteRule ^/?.*$ “http://127.0.0.1” [R,L]

还可以通过IP地址屏蔽一些蜘蛛的访问和爬行拒绝。