如何处理WordPress内容收集问题(反击还是无视?)
自互联网诞生以来,内容收集,或者我们喜欢称之为“内容窃取”,一直是一个问题。对于任何经常发布或使用搜索引擎优化(SEO)的人来说,这实际上是非常令人恼火的。
什么是内容收集?
内容收集基本上是指有人拿走你的内容并在他们自己的网站上使用(手动或自动使用插件或机器人),而不给你签名或信用。这通常是希望通过某种方式获得流量、SEO或者新用户。这实际上违反了美国和其他一些国家的版权法。谷歌也不宽恕这一点,并建议你应该创建自己独特的内容。
以下是谷歌提到的几个收集内容的例子:
从其他网站复制和重新发布内容,但不添加任何原创内容或价值的网站
从其他网站复制内容,稍加修改(例如,通过替换同义词或使用自动化技术),然后重新发布的网站。
从其他网站复制内容摘要,但不向用户提供某种类型的独特组织或利益的网站。
专门嵌入其他网站内容(如视频、图像或其他媒体)的网站,但对用户没有实质性的附加值。
不要将这与内容联合混淆,内容联合通常是指重新发布自己的内容以扩大覆盖面。联合内容也可以由第三方来做,但这和内容抓取略有区别。如果有人在联合发布内容,你应该总是使用特殊的标签,比如rel=canonical或者noindex。
现在有很多第三方WordPress插件可以让你自动抓取第三方RSS提要。虽然开发者的意图是好的,但不幸的是,这些意图有时会被滥用,被用于内容收集。WordPress如此受欢迎的原因之一是它很容易使用,但有时会适得其反。
内容收集场的示例
当同一个所有者在几十个网站上抓取内容时,我们称之为“农场”。这些通常很容易找到,因为WordPress网站所有者通常在所有网站上使用相同的主题,甚至域名之间的差异也很小。
我们在今天的帖子里用了一个活生生的例子!我们恬不知耻地指出这些类型的网站,因为它们不提供任何价值,只会否定内容发布者所做的努力。这是一个内容抓取场的例子。我们已经将每个链接存档,以防网站将来出现故障。你可以点击它们中的每一个,看到它们都使用相同的主题,抓取相同的内容。通常,抓取工具从许多不同的来源获取内容,我们的博客就是其中之一。
Thetechworld.xyz(存档链接)
Mytechnewstoday.org(档案链接)
Mytechcrunch.com(档案链接)
Technewssites.xyz(存档链接)
Technewssites.info(存档链接)
Www.thetechworld.info(存档链接)
Www.mytechnewstoday.xyz(存档链接)
Www.futuretechnologynews.info(存档链接)
Futuretechnologynews.xyz(存档链接)
正如你在下面看到的,他们只是逐字收集博客帖子。
集合示例
如何找到他们?
找到它们最简单的方法之一是使用像Copyscape(不支持中文)或Ahrefs(如果他们也在复制你的内部链接)这样的工具。Copyscape甚至允许你提交一个站点地图文件,并让它在扫描网络和查找内容时自动通知你。
官方文件和信函
你也可以使用“所有标题”标签手动搜索谷歌。只需输入文章的标签和标题。
使用allintitle标签搜索Google
Allintitle关键字提示Google只在文章标题中搜索这些词。第二种也是更有效的方法是在你的帖子中搜索一些文本,搜索词用双引号括起来。添加双引号来告诉Google搜索完全相同的文本。你的标题搜索可能会出现误报,因为有人可能会使用相同的标题,但第二种方法更有效,因为有人不太可能有完全相同的句子或段落。
内容收集会影响搜索引擎优化吗?
你可能遇到的下一个问题是,这对SEO有什么影响?因为在上面的例子中,内容收集场没有使用rel=canonical label、give credit或noindex label。这意味着当Google bot抓取时,它会认为这是他们的原创内容。你可能觉得不公平。你说得对,不是。我们发布内容,然后他们就抢了。然而,在你开始恐慌之前,重要的是要知道幕后真正发生了什么。
首先,即使谷歌爬虫可能会把它当成他们的内容,但谷歌算法很可能不会。谷歌不傻,有很多规则和检查来确保原创内容所有者仍然获得可信度。我们怎么知道?好吧,让我们从SEO的角度来看看这些帖子。
这个网站早在2017年11月就收集了别人的博文,所以想排名2的话有足够的时间排名。因此,启动Ahrefs工具,检查他们的文章当前排名的关键字。我们可以看到它没有针对任何关键词进行排名。所以从自然流量来说,他们根本没有从这篇文章中获益。
内容获取SEO
如果我们在Ahrefs中提取我们的原始博客帖子,我们可以看到我们已经对96个关键词进行了排名。
原创内容的搜索引擎优化
当谷歌看到你可能认为是重复的内容时,它使用许多不同的信号和数据点来确定谁最初写了这些内容,以及哪些内容应该被排名。这里有几个例子:
发布日期(尽管在这种情况下,内容是在同一天抓取的)
域名权威和页面排名。是的,谷歌内部可能还在使用页面排名。
社会信号
交通
反向链接
同样,这些都是安全的假设,因为没有人真正知道谷歌用的是什么。但这里的重点是,你很可能不需要因为有人抢了你的内容而失眠。然而,你可能还是想做点什么。别人用自己的内容超越你也不是不可能。我们将在下面进一步讨论。
我们如何处理内容收集?
创造有用的、独特的、值得分享的内容并不容易。它会占用你很多宝贵的时间(通常会花很多钱),所以你一定要保护好它。但是这里有一些额外的原因,为什么你可能不想忽略刮刀。
如果一个流量很大的网站在抓取你的内容,并用它来补充其他内容,那么他们很可能从中受益。这是绝对错误的,因为你是内容的原始所有者。
诸如此类的事情会严重扭曲你报告工具中的数据,让你的日子更难过。例如,这些将显示在Ahrefs或Majestic等工具的反向链接报告中。年纪越大越乱。
要不要完全信任谷歌来确定是他们的内容还是你的内容是原创内容?虽然他们对此很聪明,但我们肯定不会。另外,即使他们的帖子没有任何关键词搜索引擎排名,实际上也已经被Google收录了(如下图)。
收集的内容被索引。
联系网站所有者并提交DMCA投诉
为了确保我们在信用到期时获得信用,我们通常会首先联系网站所有者,要求删除。我们建议创建一些电子邮件模板,你可以重复使用,以加快过程,而不是浪费你的时间。如果我们试了几次都没有收到他们的回复,我们将进一步向DMCA投诉。
DMCA投诉可能有点棘手,因为你需要查找网站的IP,找到主机等。但是不要担心,我们已经记录了如何轻松提交DMCA投诉的所有步骤,以及跟踪所有者。你也可以直接向谷歌提出合法删除请求。
就上面的实时案例分析例子来看,似乎是时候进行下一步了,因为我们联系不上网站负责人。
更新拒绝文件
为了确保这些不会以任何方式影响我们的网站(无论DMCA的投诉发生什么),我们也将这些整个域名添加到我们的拒绝文件中。这告诉谷歌,我们不想与他们有任何关系,我们不会试图以任何方式操纵SERP。
如果你这样做是为了更高质量的网站,你也可以只提交拒绝的网址,而不是提交整个域名。虽然我们平时看不到高质量的网站抓取内容。
第一步
在Ahrefs中,我们选择有问题的域,然后单击dis away Domains。这就保证了这个内容抓取网站的所有内容都不会影响到我们。
Ahrefs拒绝域
在处理这类问题时,Ahrefs的伟大之处在于它的“隐藏被拒绝的链接”选项。然后,它会自动隐藏域名和网址,以后不会出现在你的主报告中。这对于组织和保持你的理智非常有帮助,尤其是如果你专门使用Ahrefs来管理反向链接。
隐藏链接
第二步
正如您在下面看到的,我们已经将内容抓取场的所有域添加到Ahrefs中的拒绝链接部分。下一步是点击“导出”并获得我们需要在谷歌搜索控制台提交的拒绝文件(TXT)。
导出拒绝文件
第三步
然后去谷歌的否认工具。选择您的Google搜索控制台配置文件,然后单击“拒绝链接”。
拒绝链接
第四步
选择从Ahrefs导出的被拒绝的文件并提交。这将覆盖您以前的拒绝文件。如果您以前没有使用过Ahrefs,并且已经存在拒绝文件,建议您下载当前文件,将其与新文件合并,然后上传。从此以后,如果你只使用Ahrefs,你可以简单地上传和覆盖。
拒绝文件
拦截爬虫的IP
可以更进一步,屏蔽爬虫的IP。一旦您确定了异常流量(这有时很难做到),您就可以使用。htaccess文件或Nginx规则在您的服务器上阻止它。或者,如果您使用第三方WAF,如Sucuri或Cloudflare,他们也可以选择阻止IP。
总结
内容收集农场可能不会一直影响你的SEO,但绝对不会给用户增加任何价值。我们强烈建议你花些时间把它们取下来。我们有一整张Trello卡专门用来处理“删除”请求。这有助于使网络成为一个对每个人都更好的地方,并确保您的独特内容只会在您的网站上被看到和排名。
另外,我们建议站长盲目的原封不动的收藏内容,网站很难有好的排名。如果您希望成为一个内容聚合网站,我们建议:
(1)坚持做一定比例的原创内容。我们无法给出一个准确的比例,但是对于新站来说,原创内容应该占比较大的比例;
(2)即使收集了内容,也要考虑对内容进行深加工,无论是用工具还是人工重新编辑;
(3)使用搜索推送插件将内容及时推送至搜索引擎。
声明:
1,本站分享的资源来源于用户上传或网络分享,如有侵权请联系站长。
2,本站软件分享目的仅供大家学习和交流,请不要用于商业用途,下载后请于24小时后删除。
3,如果你也有好的建站资源,可以投稿到本站。
4,本站提供的所有资源不包含技术服务请大家谅解!
5,如有链接无法下载,请联系站长!
6,特别声明:仅供参考学习,不提供技术支持,建议购买正版!如果发布资源侵犯了您的利益请留言告知!
创网站长资源网 » 如何处理WordPress内容收集问题(反击还是无视?)