网站RobotS是什么以及创建方法

2020.03.31 -

   

Robots.txt是网站上最简单的文件之一,但它也是最容易弄乱的文件之一。只有一个字符不正确可能会对您的SEO造成严重破坏,并阻止搜索引擎访问您网站上的重要内容。这就是为什么robots.txt错误配置非常普遍的原因,即使在经验丰富的SEO专业人员中也是如此。

robots

什么是robots.txt文件?

robots.txt文件会告诉搜索引擎在您的网站上可以或不能去的地方。

首先,它列出了您想让搜索引擎抓取以及不想抓取的所有内容。其次它可以规定哪些搜索引擎可以抓取,哪些不能。比如指定百度可以抓取,谷歌不能。

但并不是所有搜索引擎都遵循robots.txt协议,即使屏蔽了还肆意抓取。

robots.txt文件是什么样的?

无名SEO的robots文件设置如下图:

robots文件截图

访问地址为:www.lwyseo.com/robots.txt

搜索引擎蜘蛛

每个搜索引擎用不同的蜘蛛标识自己。 您可以在robots.txt文件中为每个设置自定义说明。 这里有一些对SEO有用的蜘蛛:

  • Google: Googlebot
  • Google Images: Googlebot-Image
  • Bing: Bingbot
  • Yahoo: Slurp
  • Baidu: Baiduspider
  • DuckDuckGo: DuckDuckBot
  • Toutiao : Bytespider

您还可以使用星号(*)通配符将指令分配给所有蜘蛛。 例如,假设您要阻止除Googlebot之外的所有蜘蛛抓取您的网站。这是您的处理方式:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

指令

指令是您希望声明的用户代理遵循的规则。

支持的指令

以下是百度当前支持的指令及其用法。

不允许

使用此指令来指示搜索引擎不要访问属于特定路径的文件和页面。例如,如果您想阻止所有搜索引擎访问您的php文件,则robots.txt文件可能如下所示:

User-agent: *
Disallow: /.php$

注意如果您在disallow指令后未能定义路径,搜索引擎将忽略它。

允许

使用此指令可允许搜索引擎搜寻子目录或页面,即使在本来不允许的目录中也是如此。例如,如果您想防止搜索引擎访问网站除文章以外的所有页面,那么robots.txt文件可能如下所示:

    User-agent: * 
Disallow: /news

在此示例中,搜索引擎可以访问除文章以外的所有页面,但无法访问以下目录:

  /news/seo
  /news/sem

这些news下的所有目录。当然具体链接因网站设定而异。这里举例叫作news。

如果您在allow指令之后未能定义路径,搜索引擎将忽略它。

有关规则冲突的说明

除非您小心,否则禁止和允许指令很容易彼此冲突。在下面的示例中,我们禁止访问/news/ 并允许访问/news

   User-agent: *
Disallow: /news/
Allow: /news

在这种情况下,URL /news/seo/  似乎既被禁止也被允许。那么哪个赢?

对于搜索引擎规则是字符最多的指令获胜。这是不允许的指令。

  Disallow: /news/ (6个字符)
  Allow: /news (5个字符)

如果allow和disallow指令的长度相等,则限制性最小的指令获胜。

网站地图

使用此指令可以指定站点地图在搜索引擎中的位置。如果您不熟悉站点地图,它们通常会包含您希望搜索引擎进行爬网和编制索引的页面。

这是使用sitemap指令的robots.txt文件的示例:

 Sitemap: https://www.domain.com/sitemap.xml

您是否需要robots.txt文件?

对于许多网站,尤其是小型网站,拥有robots.txt文件并不是至关重要的。

就是说,没有充分的理由不这样做。它使您可以更好地控制搜索引擎可以在您的网站上访问以及不能在网站上访问,这可以帮助您解决以下问题:

1.防止重复内容的爬行;
2.将网站的各个部分(例如您的登台站点)保持私密性;
3.防止抓取内部搜索结果页面;
4.防止服务器过载;
5.防止蜘蛛浪费“ 抓取预算”。
6.防止不相关文件出现在Google搜索结果中。
请注意,尽管搜索引擎通常不会为robots.txt中被阻止的网页编制索引,但是无法保证使用robots.txt文件将其排除在搜索结果之外。

就像Google所说的那样,如果内容是从网络上的其他地方链接到的,则它可能仍会出现在Google搜索结果中。

如何创建robots.txt文件

如果您还没有robots.txt文件,则创建它很容易。只需打开一个空白的.txt文档并开始输入指令即可。例如,如果您想禁止所有搜索引擎检索/admin/目录:

User-agent: *
Disallow: /admin/

继续建立指令,直到对所拥有的东西满意为止。将文件另存为“ robots.txt”。

将robots.txt文件放在何处

将robots.txt文件放置在其所应用的子域的根目录中。例如,要控制domain.com上的爬网行为,应该可以在domain.com/robots.txt上访问robots.txt文件。

如果要控制在 Blog.domain.com之类的子域上进行爬网,则应该可以在blog.domain.com/robots.txt上访问robots.txt文件。

使用“ $”指定URL的结尾

包括“ $”符号以标记URL的结尾。例如,如果您想防止搜索引擎访问您网站上的所有.php文件,则robots.txt文件可能如下所示:

User-agent: *
Disallow: /*.php$

检查ROBOT文件

您可以通过站长平台或者爱站工具进行检测,爱站检测效果如下:

检测地址:https://tools.aizhan.com/robots/

常见问题

以下是收集的一些常见问题:

robots.txt文件的最大大小是多少?

500 KB  (大约)。

WordPress中的robots.txt在哪里?

相同位置:domain.com/robots.txt。

如何在WordPress中编辑robots.txt?

可以手动,也可以使用许多WordPress SEO插件(  例如Yoast)之一,让您从WordPress后端编辑robots.txt。

相关阅读:什么是抓取错误?

本站文章禁止转载,违者必究
阅 308
0

Robots.txt是网站上最简单的文件之一,但它也是最容易弄乱的文件之一。只有一个字符不正确可能会对您的SE […]

湘公网安备 43011102001693号

    湘ICP备19003021号-1