如何为WordPress网站编写和优化Robots.txt
要知道WordPress robots.txt文件中的“不允许”命令与页面头部的meta描述noindex并不完全相同。你的robots.txt会阻止抓取,但是不一定要索引,除了网站文件(比如图片、文档)。如果搜索引擎从其他地方链接,他们仍然可以索引你的“不抓取”页面。
因此,防止直接访问黄金不再使用robots.txt禁止规则来防止您的网站页面被搜索和索引。相反,我们使用noindex meta标签,这也有助于谷歌和其他搜索引擎正确地为您网站上的内容分配其入站链接值。
Yoast建议保持robots.txt的整洁,不要阻止包含以下任何内容:
User-agent: *Disallow: /wp-admin/Allow: /wp-admin/admin-ajax.phpDisallow: /wp-content/plugins/Disallow: /wp-includes/
WordPress也同意,理想的robots.txt不应该禁止任何东西。事实上,/wp-content/plugins/和/wp-includes/目录包含图像、JavaScript或CSS文件,您的主题和插件可能会使用它们来正确显示您的网站。屏蔽这些目录意味着插件和WordPress的所有脚本、样式和图片都被屏蔽,导致Google等搜索引擎的抓取工具很难分析和理解你的网站内容。同样,你也不应该阻止你/wp-content/themes/。
简而言之,禁止你的WordPress资源、上传和插件目录,很多人声称可以增强你网站的安全性,防止任何易受攻击的插件被利用,但实际上可能弊大于利,尤其是在SEO方面。或者说,你卸载这些不安全的插件更实际。
这也是我们默认从robots.txt中删除这些规则的原因。不过,你可能还是想把它们包含在WordPress的Robots.txt里。
建议包含站点地图文件。
虽然Yoast强烈建议您直接手动将XML sitemap提交到Google搜索控制台和Bing网站管理员工具,但您仍然可以将sitemap添加到robots.txt中,以帮助搜索引擎快速抓取您的网站页面。
Sitemap: http://yourdomain.com/post-sitemap.xmlSitemap: http://yourdomain.com/page-sitemap.xmlSitemap: http://yourdomain.com/author-sitemap.xmlSitemap: http://yourdomain.com/offers-sitemap.xml
Robots的其他规则. txt
出于安全原因,建议您阻止访问您的WordPress的readme.html、licence.txt和wp-config-sample.php文件,这样未经授权的人就无法检查和查看您正在使用的WordPress版本。
User-agent: *Disallow: /readme.htmlDisallow: /licence.txtDisallow: /wp-config-sample.php
还可以使用robots.txt为不同的搜索引擎爬虫定制不同的抓取规则,如下例所示。
# block Googlebot from crawling the entire websiteUser-agent: GooglebotDisallow: /# block Bingbot from crawling refer directoryUser-agent: BingbotDisallow: /refer/
这如何防止蜘蛛抓取WordPress搜索结果?强烈建议加入此规则:
User-agent: *Disallow: /?s=Disallow: /search/
Host & crawl-delay是您可能会考虑使用的其他robots.txt指令,尽管它们不是很流行。第一条指令允许您指定网站的首选域(www或非www ):
User-agent: *#we prefer non-www domainhost: yourdomain.com
以下规则用于告诉搜索引擎在每次抓取前等待几秒钟。
User-agent: *#please wait for 8 seconds before the next crawl crawl-delay: 8
完整机器人. txt
综上所述,我们建议将WordPress的robots.txt内容写成:
User-agent: *Allow: /wp-admin/admin-ajax.phpDisallow: /wp-admin/Disallow: /wp-login.phpDisallow: /readme.html Disallow: /licence.txt Disallow: /wp-config-sample.phpDisallow: /refer/Disallow: /?s= Disallow: /search/#we prefer non-www domain(填入你的网站域名首选域名,一般带www,请根据实际情况填写,部分搜索引擎不支持此规则,慎重添加)host: yourdomain.com#please wait for 8 seconds before the next crawl(填入你希望爬虫爬取页面的延迟秒数) crawl-delay: 8Sitemap: http://yourdomain.com/post-sitemap.xml
温馨提示:以上完整robots.txt仅供参考。请根据你的实际情况写内容,其中User-agent: *规则是所有搜索引擎蜘蛛通用的;允许:规则允许抓取;Disallow:该规则意味着不允许爬行;主机:该规则用于指定网站的首选域;Crawl-delay:该规则用于设置爬虫的爬行时间间隔;Sitemap:规则用于设置网站的地图地址。
声明:
1,本站分享的资源来源于用户上传或网络分享,如有侵权请联系站长。
2,本站软件分享目的仅供大家学习和交流,请不要用于商业用途,下载后请于24小时后删除。
3,如果你也有好的建站资源,可以投稿到本站。
4,本站提供的所有资源不包含技术服务请大家谅解!
5,如有链接无法下载,请联系站长!
6,特别声明:仅供参考学习,不提供技术支持,建议购买正版!如果发布资源侵犯了您的利益请留言告知!
创网站长资源网 » 如何为WordPress网站编写和优化Robots.txt