什么是抓取错误?

2019.08.15 -

   

  当搜索引擎尝试访问您网站上的某个网页但未进入该网页时,会发生抓取错误。抓取是搜索引擎尝试通过机器人访问您网站的每个页面的过程。搜索引擎机器人找到指向您网站的链接,并从那里开始查找所有公共页面。机器人抓取页面并索引所有内容以供搜索引擎使用,并将这些页面上的所有链接添加到它仍然必须抓取的一堆页面中。您作为网站所有者的主要目标是确保搜索引擎机器人可以访问网站上的所有页面。如果失败,则会返回我们称之为抓取错误的内容。

error

  您的目标是确保您网站上的每个链接都指向实际页面。这可能是通过301重定向,但该链接最后的页面应始终返回200OK服务器响应。

  搜索引擎将抓取错误分为2大类:

  网站错误

  网站错误是阻止搜索引擎机器人访问您网站的所有抓取错误。这可能有很多原因,这些是最常见的原因:

  1.DNS错误

  这意味着搜索引擎无法与您的服务器通信。这意味着您的网站无法访问,这通常是一个临时问题。搜索引擎将在稍后返回您的网站并抓取您的网站。

  2.服务器错误

  如果您的搜索控制台显示服务器错误,则表示机器人无法访问您的网站。请求可能已超时。搜索引擎尝试访问您的网站,但加载服务器服务器错误消息需要很长时间。当代码中存在阻止页面加载的缺陷时,也会发生服务器错误。这也意味着您的网站有过多访问者,服务器无法处理所有请求。很多这些错误都以5xx状态代码的形式返回,例如此处描述的500和503状态代码。

  3.禁止抓取

  在抓取之前搜索引擎蜘蛛也会尝试抓取您的robots.txt文件,只是为了查看您网站上是否有任何区域您不想编入索引。如果该机器人无法访问robots.txt文件,搜索引擎会推迟抓取,直到它可以到达robots.txt文件。因此,请务必确保它可用。

  URL错误

   如上所述,URL错误是指搜索引擎机器人试图抓取您网站的特定页面时发生的抓取错误。当我们讨论URL错误时,我们倾向于首先讨论像404NotFound错误这样的URL错误。您应该经常检查这些类型的错误并修复它们。如果该页面的页面/主题确实已经消失,永远不会修复,请提供410页。如果在其他网页上有类似内容,请改用301重定向。同事请确保您的站点地图和内部链接也是最新的。

  很多这些URL错误都是由内部链接引起的。所以很多这些错误都是你的错。如果您在某个时候从网站中删除了某个网页,请调整或删除指向该网页的所有入站链接。这些链接已经没有用了。如果该链接保持不变,机器人将找到并遵循它,只是为了找到一个死胡同(404Notfounderror)。您需要立即进行一些维护,然后再修改内部链接!

  如果遇到抓取错误,请修复它们。它应该是您网站维护计划的一部分,以便及时检查爬网错误。错误链接错用户和搜索引擎来说都是不太友好的。

本站文章禁止转载,违者必究
阅 251
0

  当搜索引擎尝试访问您网站上的某个网页但未进入该网页时,会发生抓取错误。抓取是搜索引擎尝试通过机器人访问您网 […]

湘公网安备 43011102001693号

    湘ICP备19003021号-1