什么是谷歌缓存?
谷歌的网络爬虫不断地在互联网上搜索新的和更新的网页。
当这些爬虫索引一个站点的内容时,它们不仅仅使用这些信息来提供搜索结果。他们备份这些页面,并把它们添加到一个名为谷歌缓存的统一数据库中。
您可能已经使用Google Cache查看过关闭或未正确加载的旧版本网站。但是你知道你也可以用它来解决你网站上的问题吗?它甚至可以帮助你的搜索引擎优化工作。
本文介绍了Google Cache及其检查方法。我们还将了解Google Cache如何提供帮助,以及何时我们不应该过于依赖它。
什么是谷歌缓存?
为什么谷歌缓存很重要?
如何查看谷歌缓存
使用谷歌缓存的原因
谷歌缓存限制
为什么找不到缓存的网页?
如何解决网站缓存页面的问题
如何从谷歌缓存中删除页面
什么是谷歌缓存?
Google缓存页面是Google抓取过程中获得的页面内容的原始HTML备份。谷歌缓存作为一个整体由这些备份页面组成。
如果您查看网站的缓存版本,它可能看起来很像网站被抓取时的样子。但是,有几个原因,有时候情况和你预想的不一样。
两个主要原因是:
网页是由你的浏览器呈现的,而不是谷歌。这可能会导致与网站当前版本的差异。
JavaScript不会保存到缓存中,因此您网站的某些部分可能会丢失。
在缓存页面的顶部,您会看到一个横幅,显示三件事:
缓存页面的URL—这通常是您想要访问的URL。在某些情况下,如重定向的URL,它会有所不同。
此版本的缓存页面的日期–您可以检查您正在查看的缓存页面是昨天还是上周创建的。这不一定是最后一次抓取您的网页;我们以后再谈这个。
版本—您可以选择查看完整版本、纯文本版本或页面源代码。完整版向您展示浏览器呈现的页面。纯文本版本关闭了CSS,不显示图像,但仍会看到超链接。单击查看源代码将显示页面的源代码:
Lightning主页的缓存版本示例
为什么谷歌缓存很重要?
谷歌缓存的主要目的是让人们浏览互联网。它允许他们查看关闭的或加载的有问题的网页。
作为网站所有者,谷歌缓存的重要性还有其他原因。希望你的网站永远不会关闭或失败,但它确实发生了。拥有缓存允许用户使用您的内容,即使有些内容不能正常工作。
您还可以使用网站的缓存版本来了解网站是如何被编入索引的,并诊断问题。请继续阅读以了解更多信息。
如何查看谷歌缓存
如何从Google搜索引擎结果中访问缓存的Google页面取决于您使用的设备类型。在桌面Web浏览器中,您有两种选择:
你可以在谷歌搜索结果中点击页面缓存版本的链接。
可以直接进入页面。
在手机浏览器上,只能选择使用直接的网址。
查看Google搜索结果中的缓存页面
即使你有从搜索结果页面查看缓存站点的经验,你也可能想看看这篇文章,因为谷歌在2021年初改变了查找缓存链接的方式。
首先,在谷歌上搜索你想查看的页面。在搜索结果中页面的URL旁边,您应该会看到一个下拉三角形图标。点击它们,将出现一个标有“页面库存文件”的弹出窗口:
谷歌的“页面库存文件”功能
该功能目前处于测试阶段。它旨在让您在点击网站之前了解更多关于该网站的信息(例如它是否安全)。
在某些情况下,您可能看不到页面纸张按钮。这可能意味着页面没有被缓存;我们稍后将讨论这意味着什么。
但是,如果您使用的是移动设备,您将不会在页面上看到任何按钮。在这种情况下,请继续阅读,了解查看缓存页面的其他方法。
修改URL以查看缓存页面
对于这种方法,您必须知道要查看的页面的URL。直接去cache:website.xyz搜索栏。
比如cache:www.wbolt.com会直接带你去我们缓存的主页。
查看谷歌缓存的其他工具
查看缓存页面不需要任何特殊工具;谷歌本身让这变得非常容易。但是有一些工具具有您可能喜欢的特性。
Chrome的Web cache viewer扩展允许你右击任何链接来查看页面的Google缓存版本和Wayback Machine Web存档版本。
小型SEO工具中的Google Cache Checker允许您一次查看多达五个页面缓存的URL和日期:
谷歌缓存检查器
使用谷歌缓存查看旧版本的网页。
你的页面说它是昨天缓存的,但是你想检查上周的版本。Google能缓存吗?
对不起,我不能。
谷歌只能显示一个版本的缓存页面。要查看以前的网站版本,可以使用Wayback Machine之类的工具,这是过去网页版本的存档。
看看我们之前!
Wayback机器上的2016闪电博览会网站。
使用谷歌缓存的原因
事实是,还有其他工具可以用来做以下所有事情——在许多情况下,更复杂的工具。
但是,Google Cache由于速度快,容易检查,很难与之匹敌。这使得它成为监视网页某些方面的一种有价值的方法。
作为网站所有者,您可以通过以下五种方式使用Google Cache。
1.检查重复项。
有时,您单击缓存的链接并转到与您预期不同的页面。
原因之一是内容重复。当谷歌看到两个高度相似的页面时,它可能会决定不在索引中将它们分开。这导致只有一个保存在缓存中。
Google在同一个链接下缓存多个页面可以提醒你网站上有重复的内容。重复的内容不仅会导致混乱的缓存-这对SEO是不利的。
请借此机会检查这两页,并找到区分它们的方法。
2.验证Google是否遵循您的规范标签。
也许你的网站上的重复内容是故意的,但是你已经添加了rel=canonical标签来告诉Google要抓取哪个版本。
检查你不想抓取的网页的谷歌缓存版本。您应该被带到规范页面的缓存中。
3.确保你的营销工作已经被抓取
你在搜索引擎优化或内容制作方面加大了努力,你想确保谷歌正在索引这些变化。
快速查看一下页面的缓存版本就可以知道它已经被抓取了。
请注意,如果您的更改没有出现在缓存页面上,它们可能仍会被编入索引。如果担心,可以去谷歌搜索控制台的网址检查器确认。但是,如果你在缓存中看到你的更新,你就知道它们已经被编入索引,并将开始影响你的搜索结果排名。
4.密切关注竞争对手网站的变化
当竞争对手突然占领你的位置时,你会少管闲事,享受你在关键关键词搜索结果顶部的位置。他们是怎么做到的?你可以用谷歌缓存去找。将他们的缓存页面与当前版本进行比较——您将能够看到竞争对手最近所做的更改。
5.检索您网站的最新版本
你应该总是备份你的网站以防万一。也就是说,有时候最坏的情况也会发生,即使是最有准备的人。
虽然你网站的谷歌缓存版本不会取代完整备份,但它有时确实能让你在灾难发生前看到页面的样子。您可以使用它来检索丢失的旧内容或代码。
谷歌缓存限制
谷歌的缓存可以提供有用的信息。如果有些事情看起来很奇怪,它可能值得调查。但是谷歌缓存有一些已知的限制。
Google Cache不会告诉你你的页面最后一次被抓取是什么时候。
让我们从一个最大的误解开始。
很多人认为Googlebot每次抓取一个页面都会更新缓存。关于这个主题的许多其他文章将告诉您使用缓存来查看您的页面被抓取的频率。
这不是真的。
我们知道,因为谷歌的约翰·米尔亲自在帮助主题中告诉我们,他说:
一般来说,我们不会每次抓取页面都更新缓存的页面。特别是当页面没有显著变化时,我们可以选择只保留旧的日期。
这是一个专业的提示:如果你正在寻找关于谷歌抓取你的网站的频率、原因以及使用哪些浏览器的信息,请忘记缓存。这些数据位于谷歌搜索控制台。你可以在侧边栏的“设置”下找到抓取报告。
但是,您只能在域级别查看此信息。搜索控制台不会告诉你每一页被抓取的频率。
页面可能无法正确呈现。
幸运的是,在这方面已经取得了一些进展。谷歌的网络渲染服务用于在网络上渲染实时页面,它曾基于过时版本的Chrome。因此,最新的浏览器有时会呈现与Google呈现的当前页面不同的缓存页面。
谷歌网络渲染服务从2019年开始使用最新版本的Chrome。
但是,如果您的Chrome版本较旧,或者您使用的是其他浏览器,缓存的页面可能无法正确呈现。
另一个渲染问题与资源的缺乏有关。Google的备份代码可能会引用CSS或JavaScript等资源。如果这些资源不再存在或已经更改,页面将无法正确呈现。
显示错误页面
我们已经研究了重复的内容或不正确的规范标签如何导致谷歌缓存显示错误的页面。可以想象,这限制了查看特定网页缓存的有用性。
有些页面没有缓存。
这可能令人惊讶,但事实证明许多页面根本没有被缓存。
一个常见的误解是,未缓存的网站意味着谷歌认为它不是必不可少的,但这不一定是真的。接下来,我们将了解页面无法缓存的一些原因。
为什么找不到缓存的网页?
并非所有捕获的页面都被缓存。如果您的页面没有缓存版本,请不要惊慌!这并不意味着你的页面没有被索引。
404错误表示该页面没有缓存版本。
如果担心真的没有被索引,可以使用Google搜索控制台的URL Inspector进行检查。
为了证明索引页并不总是被缓存,让我们回到Google的John Mueller。在Twitter上,他回答了一个用户关于未缓存页面的问题:
我们不会缓存我们索引的所有页面,因此可能会发生这种情况。有时候需要一段时间,有时候我们根本不缓存。
当用户问他未缓存的网站质量是否总是很低时,他说:
它可以是一页各种奇怪的技术怪癖。缓存有点独立,所以它不代表我们索引和排名的内容。
换句话说,缓存页面不是排名因素。即使您的网页没有缓存版本,您也可以将它放在搜索结果的顶部。
但未缓存的页面仍然值得研究。你可以探索几种不同的可能性。
您的页面基于JavaScript。
与其他网页相比,Google可以更容易地索引一些基于JavaScript的网页。但是许多JavaScript页面最终没有缓存,甚至没有索引。
这是因为大多数HTML直到JavaScript执行后才会加载。如果没有可索引的内容,Google不会创建缓存页面。
元标记阻塞缓存
你的网页的HTML代码元素mark noindex表示该页面不能被Google索引,noarchive也会阻止Google cache屏蔽它。任何一种都会导致页面不被谷歌缓存。
也许这就是你想要的。但是如果你没有意识到页面上有一个noindexornoarchive标签,删除它可以解决你的缓存丢失问题。
这个页面是重复的(或者谷歌认为是)
如果谷歌确定你的两个页面是重复的,请想办法让它们独一无二。考虑每个页面不同的搜索意图。
如何解决网站缓存页面的问题
你的页面不一定要缓存,但是如果你想实现它,你可以做一些事情。
将你的页面提交给谷歌
如果你担心谷歌根本没有索引你的网页,你可以查看谷歌搜索控制台。
在搜索控制台顶部的URL检查搜索栏中输入页面的URL。如果是“URL在Google上”的结果,说明页面已经被索引了。如果该页面最近发生了变化,并且您认为Google没有对新版本进行索引,您可以单击请求索引来要求Google对其进行重新索引。
你也可能得到“页面不在谷歌上”的结果。如果有,请向下滚动,您将能够看到关于该页面的一些详细信息。例如,您可以检查页面是否允许爬行,以及用户选择的规范是否与Google选择的规范匹配。要请求索引,请单击请求索引:
Google搜索控制台-URL索引请求
如果您希望您的网站页面URL提交到Google搜索控制台进行索引,您可以安装搜索推送插件。
检查常见的站点问题。
我们已经介绍了您的页面可能没有被缓存的几个原因,例如大量的JavaScript和重复的内容。
此外,鼓励频繁索引的最好方法是创建一个高质量的网站。确保您已经为移动设备优化了您的网站,并且您的网站具有高速度。
如果你的页面加载时间过长,甚至会拖慢Google的roamer,导致索引延迟。
如何从谷歌缓存中删除页面
我们认为Google cache非常有用,但是由于各种原因,你可能不希望在Google的服务器上存储旧版本的网页。例如,您可能不希望停产产品的页面可用。
防止页面缓存的一种方法是使用上面提到的noindex和noarchive标签。如果您想保留页面,但又不想缓存它们,这些标签是理想的永久解决方案。
你也可以直接要求谷歌删除谷歌缓存中的网址。要做到这一点,请转到谷歌搜索控制台,并点击侧栏中的删除。然后单击新要求。此时,您有两个选择:临时删除URL和清除缓存的URL。
临时删除意味着该网址在大约六个月内不会出现在谷歌搜索结果中。缓存也将消失。页面再次上线时会被重新索引和重新缓存(如果不希望出现这种情况,必须添加meta标签)。
缓存的URL就像它听起来的那样。缓存将被删除,但当对网站进行爬网时,页面将被再次缓存。
如果你希望旧版本的更新页面消失,这是一个很好的方法。您还可以在更改页面后,通过提交页面进行索引来推动Google更新页面的缓存。
总结
谷歌缓存并不是传言中的一切。你不能用它来检查你的网站最后一次被抓取的时间——拥有它不会提高你的搜索引擎排名。有时候,它存储的网站版本很奇怪,不完整或者完全错误。
但是谷歌缓存对网站所有者是有用的。这是一种快速检查你的网站如何被索引的方法,它可以帮助你发现和诊断问题。你也可以使用谷歌搜索控制台来提高你的搜索引擎排名。