如何删除或拒绝搜索引擎索引URL
有时候一些网站URL地址,我们不需要被搜索引擎索引。如果发生了意想不到的事情,我们该怎么办?大多数搜索引擎都提供删除网址的服务。本文将以Google为例,详细讲解各种情况!
有很多方法可以从谷歌上删除网址。但是没有一种方法可以适用于所有情况。使用哪种方法需要你做出判断。
重要的是,使用错误的方法不仅会导致页面无法如预期的那样从Google索引中删除,还会对SEO产生负面影响。
为了快速确定哪种去除方法最适合你,全文分章节,你可以结合自己的情况跳转到本文的相关部分。
在本文中,您可以了解到:
如何检查URL是否被索引
从谷歌上删除网址的5种方法
如何确认移除的优先级?
要避免的常见移除问题
如何删除不属于自己网站的内容
如何移除图片?
如何检查URL是否被索引
通常我看到SEO的人用site:方法在Google中搜索(比如site:url地址)来检查一个页面是否被索引。尽管site: search有助于识别在搜索结果中显示时可能有问题的网站页面。但是你需要意识到,结果并不是绝对的。事实上,它不会告诉你页面是否是索引。他们可能会显示谷歌知道的页面,但这并不意味着他们有资格在没有网站说明的情况下仍然显示在常规搜索结果中。
比如site:搜索结果仍然包括跳转页面和带有规范标签的页面。同时,当你在网站上搜索一个域名时,谷歌可能会显示另一个域名的标题和描述结果。例如,我们可以看看moz.com的网站(最初是seomoz.com)。当搜索任何指向moz.com的关键词时,显示的SERP结果都是moz.com,但当我们site:seomoz.com时,结果是这样的:
这一点很重要,因为很多SEO会在这里误判,把Google里原来的旧域名链接去掉。这会导致PageRank(页面权重)无法正常通过。我看过很多案例,很多人误以为site:旧域名因为操作失误依然有结果,于是开始“修复”这些问题。这些实际操作其实是在伤害网站。
检查网页是否被索引的方法是检查Google搜索控制台中的覆盖率报告,或者使用URL检查功能来检测单个页面。这些工具会告诉你页面是否被索引,还会提供关于Google如何处理这些页面的额外信息。如果你没有这个工具,你也可以直接在谷歌搜索你的页面的网址。
在Ahrefs中,您可以在“Top pages”报告中找到参与排名的页面。我们通常看到的是页面参与自然关键词排名的结果,也就是说这些页面很可能被索引了。这里需要注意的是,您需要检查我们找到这个页面的最后日期。当我们发现这个页面时,它处于索引状态,但索引状态会随着时间的推移而改变。
如果某个URL有问题,需要将其从索引中删除。你可以看看本文开头的流程图找到最佳解决方案,再看看下面相应的方法来处理。
从谷歌上删除网址的5种方法
方法1:删除内容
如果你删除内容,服务器返回状态码404(未找到)或410(丢失),那么这些页面将在Google再次抓取该页面后从索引中删除。在删除之前,该页面可能仍会出现在搜索结果中。即使页面已被删除,缓存的页面仍可能临时显示给用户。
您可能需要其他方法:
我需要尽快删除这个网址。检查URL删除工具。
我想保持链接权重。请参见如何设置规范页面。
我需要页面对用户可见。看看noindex方法或者限制访问方法能不能满足你的需求。
方法2: Noindex
使用noindex meta robots标签或x robots header请求通知搜索引擎从索引中删除此页面。Meta robots标签适用于页面,x robots适用于其他格式(如pdf)的页面和资源。因为这些标签需要被搜索引擎找到——所以不要同时用robots.txt屏蔽它们,需要注意的是,从索引中移除这些页面可能会导致链接无法传递权重。
Noindex元机器人标签示例:
x-robots no index head恳求示例:
HTTP/1.1 200 OK X-Robots-Tag: noindex
您可能需要一些其他解决方案:
我不希望用户访问这个页面。检查访问限制方法。
我需要保持链接的重量。请参见如何设置规范页面。
方法3:访问限制
如果您希望页面只被特定用户访问,而不被搜索引擎发现,那么您可以使用以下三种方法之一:
建立专门的登录访问系统;
HTTP认证(需要密码才能访问);
IP白名单(仅允许特定IP访问页面)
这种设置方法非常适合内网环境,成员内容有限,临时内容,测试站点或者正在开发的站点。它只会允许搜索引擎之外的特定用户访问,这样搜索引擎就不会索引这些页面。
您可能需要其他方法:
我需要尽快删除这个网址。检查URL删除工具。在特殊情况下,您需要隐藏的内容可能已经被缓存,因此您需要尽快删除该URL,以防止用户看到该内容。
方法4: URL删除工具
这个工具的名字可能会让你误解它的工作原理。这个工具只会暂时隐藏特定的内容。谷歌仍然会找到并抓取那个页面,但是这个页面不会显示给用户。在Google会持续6个月,在Bing也有同样的功能,但是只会持续3个月。建议在极其特殊的情况下使用该工具。比如安全问题、信息泄露、个人身份信息(PII)等等。对于谷歌,你可以使用删除工具,对于必应,你可以看到如何阻止网址。
如果您想长时间删除此内容,除了删除工具之外,您还应该使用其他方法(noindex或delete content)。或者阻止带有链接的用户继续访问内容(删除或限制访问)。这只是为您提供了一种快速隐藏内容的方法,但是从索引中删除它仍然需要时间。这个过程最快可能需要一天。
方法五:设置规范页面。
当你的页面有很多版本的时候,你需要在一个特定的页面上聚集链接权重,你需要做的就是设置标准页面。这主要用于防止内容重复。同时,它可以聚合特定索引页面上多个版本页面的权重。
您可以通过多种方式设置规范页面。
设置规范的权限标记。这可以将您需要向用户显示的页面设置为另一个页面的权威页面。如果页面重复或者内容非常相似,那么这个方法是可行的。如果内容非常不同,可以忽略Caononical标签,因为该标签仅作为提示,而不是命令。
跳。跳转允许访问者或搜索引擎蜘蛛从一个页面跳到另一个页面。01 Jump在SEO中用的很多。它可以告诉搜索引擎最终的URL是什么,同时它可以将原始页面的权重整合到最终页面中。02临时跳转告诉搜索引擎,在保持权重的同时,需要保持原URL的索引。
处理URL参数。URL参数一般显示在URL的末尾,并且通常包含一个“问号”(如ahrefs.com?this=parameter).这个工具允许你告诉Google如何处理不同参数的页面。比如你可以告诉Google内容会随着参数变化,或者告诉Google参数只用于统计。
如何确认移除的优先级?
如果你有多个页面需要从谷歌索引中删除,你应该优先考虑它们。
高优先级:这些页面通常与安全或机密数据相关。这包括个人数据(PII)、客户数据或独特信息。
中优先级:通常涉及针对特定用户群的内容。例如公司内部网、员工限制、成员限制、临时存储、测试或正在开发的网站。
低优先级:这些页面通常包含重复的内容。例如,同一个页面有多个URL、带参数的URL、缓存页面、测试页面或仍在开发中的页面。
要避免的常见移除问题
我给大家介绍一些我经常看到的去除问题,以及每个问题的后果。来帮助你理解为什么去除不起作用。
在robots.txt中设置Noindex
Google以前支持在robots.txt中设置Noindex。不过这并不是官方的做法,现在官方取消支持这种设置方式。之前很多这样设置的网站可能会伤害到自己。
robots.txt中没有设置抓取
爬行和索引是两件事。即使不抓取这个页面,Google仍然可以通过外部或内部链接索引这个页面。即使Google没有抓取页面的内容,仍然会通过其他信号(比如指向页面的锚文本)生成标题,并显示在搜索结果中。
设置Nofollow
人们通常会将此与noindex混淆,因为人们经常在页面上使用nofollow,并希望Google不要对该页面进行索引。此前,Nofollow被设置在页面的链接中,以防止谷歌抓取指向该页面的内容。但是现在情况变了。谷歌现在仍然可以抓取这些页面。以前,Nofollow也用于限制页面之间的权重转移。同样的,现在也不行了。在过去,如果一个页面有其他链接,谷歌仍然可以通过其他门户网站找到该页面。
小费。可以通过安装智能SEO工具插件,将所有外部链接设置为nofollow,防止页面权重传递给其他网站URL地址。
您可以使用Ahrefs Site Audit中页面资源管理器的过滤功能来查看已被拒绝的页面:
通常,我们不会为页面上的所有链接设置nofollow,所以这里应该不会检索到任何结果,或者只检索到少数结果。如果有,建议你查看一下这些结果,看看这些页面是否需要设置为Noindex,或者选择合适的方式处理,或者直接删除。
您还可以在链接浏览器中检查链接是否单独设置为Nofollow:
设置了Noindex的页面Canonical转到了另一个URL。
这两个设置有冲突。Noindex代表从索引中删除一个页面,而Canonical告诉Google另一个页面是原页面的权威页面。这可能只有在谷歌忽略Noindex标志,以Canonical为主要信号的情况下才会生效。但是这种情况并不是绝对会发生的。这是一套算法。可能Noindex会被当成信号,所以页面无法进行权重整合。
您可以在Site Audit的页面浏览器功能中找到指向不属于您的页面结果的Noindex和Canonical标签:
设置Noindex后,等待Google抓取,然后设置抓取掩码。
这通常发生在以下两种情况下:
该页面被设置为阻止爬网,但已被索引,因此设置了Noindex,同时启用了爬网。Google抓取看到Noindex设置后,再次阻止抓取。
对于需要移除的页面设置Noindex标签,Google抓取并处理后,抓取被阻止。
无论哪种情况,捕获最终都会被阻止。但是如果你还记得,刚才我们说抓取不等于索引。即使这些页面被阻止,它们仍然会被索引。
如何删除不属于自己网站的内容
如果您的内容在其他网站上使用,您可以根据数字千年版权法(DMCA)提出索赔。你可以使用谷歌的版权投诉工具提出版权投诉,从而要求删除任何有版权的内容。
如果你在欧盟,你可以根据法院的被遗忘权要求删除包含关于你的信息的内容。您可以使用“欧盟隐私删除表”申请删除个人信息。
删除图片
如果你想从Google中移除图片,最简单的方法就是使用Robots.txt正如我们之前提到的,在robots.txt中屏蔽并不是官方的做法,但是对于图片资源来说,屏蔽和抓取是最好的方法。
对于单张图片:
User-agent: Googlebot-Image Disallow: /images/dogs.jpg
对于所有图片:
User-agent: Googlebot-Image Disallow: /
最后
你如何移除你的页面是根据实际情况决定的。我们已经讨论了几种方法,但是如果你仍然困惑,那么请再看一遍流程图。
也可以通过Google提供的合法故障排除工具删除内容。
(via ahrefs.com译者朴成,文章有改动)
声明:
1,本站分享的资源来源于用户上传或网络分享,如有侵权请联系站长。
2,本站软件分享目的仅供大家学习和交流,请不要用于商业用途,下载后请于24小时后删除。
3,如果你也有好的建站资源,可以投稿到本站。
4,本站提供的所有资源不包含技术服务请大家谅解!
5,如有链接无法下载,请联系站长!
6,特别声明:仅供参考学习,不提供技术支持,建议购买正版!如果发布资源侵犯了您的利益请留言告知!
创网站长资源网 » 如何删除或拒绝搜索引擎索引URL