谷歌SEO教程第36篇—有关漫游器的常见问题解答

有关漫游器的一般问题

我的网站需要 robots.txt 文件吗？

不需要。Googlebot 访问网站时，会先尝试检索 robots.txt 文件来请求抓取权限。对于不包含 robots.txt 文件、robots meta 标记或 X-Robots-Tag HTTP 标头的网站，我们一般会照常抓取并编入索引。

我应该使用哪种方法来阻止抓取工具？

这要视具体情况而定。简而言之，这三种方法分别适用于不同的情况：

robots.txt：如果抓取您的内容会在您的服务器上引发问题，请使用该方法。例如，您可能需要禁止抓取无限加载内容的日历脚本。请勿使用 robots.txt 屏蔽不公开内容或处理规范化；如需屏蔽不公开内容，请使用服务器端身份验证机制。为确保网址未编入索引，请改用robots meta 标记或 X-Robots-Tag HTTP 标头。
robots meta 标记：如果您需要控制单个 HTML 网页在搜索结果中的显示效果，或者需要确保该网页不显示，请使用该方法。
X-Robots-Tag HTTP 标头：如果您需要控制内容在搜索结果中的显示效果，或者需要确保这些内容不显示，请使用该方法。

我可以使用 robots.txt、robots `meta` 标记或 `X-Robots-Tag` HTTP 标头从搜索结果中移除其他人的网站吗？

不可以。这些方法仅适用于您可在其中修改代码或添加文件的网站。详细了解如何从 Google 中移除信息。

如何降低 Google 对我网站的抓取速度？

一般来讲，您可以在 Google Search Console 帐号中调整抓取速度设置。

有关 robots.txt 的问题

我在多个网站中使用同一个 robots.txt。我可以使用完整网址而不是相对路径吗？

不可以。robots.txt 文件中的规则（sitemap: 除外）仅对相对路径有效。

我可以将 robots.txt 文件放在子目录下吗？

不可以。该文件必须位于网站的顶层目录下。

我想屏蔽某个不公开文件夹。我可以禁止其他人读取我的 robots.txt 文件吗？

不可以。robots.txt 文件可由各种用户读取。如果某些内容的文件夹或文件名是非公开内容，请不要将其列在 robots.txt 文件中。我们建议您不要根据用户代理或其他属性提供不同的 robots.txt 文件。

我需要添加 `allow` 规则以允许抓取吗？

您不需要添加 allow 规则。所有网址均隐式允许抓取，而 allow 规则用于替换同一 robots.txt 文件中的 disallow 规则。

如果我的 robots.txt 文件存在错误，或者我使用了不受支持的规则，会发生什么情况？

网页抓取工具一般具有很高的灵活性，通常不会因 robots.txt 文件中的小错误而受到影响。一般情况下，最严重的后果就是忽略不正确或不受支持的规则。请注意，尽管 Google 在解读 robots.txt 文件时无法揣摩您的隐含意图，但我们必须解析所提取的 robots.txt 文件。也就是说，如果您知道 robots.txt 文件存在问题，那么这些问题通常很容易解决。

我应使用什么程序来创建 robots.txt 文件？

您可以使用任何可创建有效文本文件的程序。常用来创建 robots.txt 文件的程序包括记事本、TextEdit、vi 或 emacs。详细了解如何创建 robots.txt 文件。创建文件后，请使用 robots.txt 测试工具验证该文件。

如果我使用 robots.txt `disallow` 规则禁止 Google 抓取某个网页，该网页会从搜索结果中消失吗？

禁止 Google 抓取某个网页很可能会导致该网页从 Google 索引中被移除。

但是，robots.txt disallow 无法保证某一网页不会显示在搜索结果中：Google 仍可能会根据外部信息（如传入的链接）断定其具有相关性，并在搜索结果中显示该网址。如果您希望明确禁止某个网页被编入索引，请使用 noindex robots meta 标记或 X-Robots-Tag HTTP 标头。在这种情况下，请勿在 robots.txt 中屏蔽该网页，因为 Google 只有在抓取该网页后才能看到和遵循相关标记。了解如何控制与 Google 分享的内容

我对 robots.txt 文件的更改要过多久才会体现在我的搜索结果中？

首先，robots.txt 文件的缓存必须更新（我们一般最多将内容缓存一天）。您可以通过向 Google 提交更新后的 robots.txt 加快此过程。即使在系统发现了更改后，抓取与索引编制过程也很复杂，有时对于个别网址的处理可能需要很久，因此无法给出准确的时间。另请注意，即使 robots.txt 文件禁止访问某个网址，该网址仍有可能显示在搜索结果中，只是我们无法抓取它。如果您想加速移除禁止 Google 访问的网页，请提交移除请求。

如何暂时停止所有对我网站的抓取？

您可以对所有网址（包括 robots.txt 文件）返回 503 (service unavailable) HTTP 状态代码，从而暂时停止所有对您网站的抓取。系统会定期重新请求 robots.txt 文件，直到能够再次访问该文件。我们建议您不要通过改动 robots.txt 文件来禁止抓取。

我的服务器不区分大小写。如何才能完全禁止对某些文件夹的抓取？

robots.txt 文件中的规则是区分大小写的。在这种情况下，建议您使用规范化方法确保编入索引的网址版本只有一个。这样可以降低 robots.txt 文件中的行数，方便您管理该文件。如果无法使用上述方法，那么我们建议您列出文件夹名称的常见组合，或者使用名称的前几个字符代替全称，尽量将其缩短。例如，您无需列出 /MyPrivateFolder 的所有大小写组合，只要列出 /MyP 的组合即可（前提是您确定不存在其他包含这些首字符的可抓取网址）。此外，如果不存在抓取问题，则可改用robots meta 标记或 X-Robots-Tag HTTP 标头。

我对所有网址（包括 robots.txt 文件）都返回了 `403 Forbidden`。为什么网站仍在被抓取？

403 Forbidden HTTP 状态代码以及其他 4xx HTTP 状态代码代表 robots.txt 文件不存在。这意味着抓取工具一般会假定可以抓取该网站的所有网址。若要禁止抓取网站，您必须针对 robots.txt 返回 200 OK HTTP 状态代码，其中必须包含相应的 disallow 规则。

robots `meta` 标记问题

robots `meta` 标记可以替代 robots.txt 文件吗？

不可以。robots.txt 文件可控制访问的是哪些网页。robots meta 标记用于控制是否将网页编入索引，但是需要抓取相应的网页才能看到该标记。如果抓取某个网页时存在问题（例如该网页导致服务器高负载），请使用 robots.txt 文件。如果您只是想控制某个网页是否显示在搜索结果中，则可使用robots meta 标记。