有关漫游器的一般问题
我的网站需要 robots.txt 文件吗?
不需要。Googlebot 访问网站时,会先尝试检索 robots.txt 文件来请求抓取权限。对于不包含 robots.txt 文件、robots meta
标记或 X-Robots-Tag
HTTP 标头的网站,我们一般会照常抓取并编入索引。
我应该使用哪种方法来阻止抓取工具?
这要视具体情况而定。简而言之,这三种方法分别适用于不同的情况:
- robots.txt:如果抓取您的内容会在您的服务器上引发问题,请使用该方法。例如,您可能需要禁止抓取无限加载内容的日历脚本。请勿使用 robots.txt 屏蔽不公开内容或处理规范化;如需屏蔽不公开内容,请使用服务器端身份验证机制。 为确保网址未编入索引,请改用robots
meta
标记或X-Robots-Tag
HTTP 标头。 - robots
meta
标记:如果您需要控制单个 HTML 网页在搜索结果中的显示效果,或者需要确保该网页不显示,请使用该方法。 X-Robots-Tag
HTTP 标头:如果您需要控制内容在搜索结果中的显示效果,或者需要确保这些内容不显示,请使用该方法。
我可以使用 robots.txt、robots meta
标记或 X-Robots-Tag
HTTP 标头从搜索结果中移除其他人的网站吗?
不可以。这些方法仅适用于您可在其中修改代码或添加文件的网站。详细了解如何从 Google 中移除信息。
如何降低 Google 对我网站的抓取速度?
一般来讲,您可以在 Google Search Console 帐号中调整抓取速度设置。
有关 robots.txt 的问题
我在多个网站中使用同一个 robots.txt。我可以使用完整网址而不是相对路径吗?
不可以。robots.txt 文件中的规则(sitemap:
除外)仅对相对路径有效。
我可以将 robots.txt 文件放在子目录下吗?
不可以。该文件必须位于网站的顶层目录下。
我想屏蔽某个不公开文件夹。我可以禁止其他人读取我的 robots.txt 文件吗?
不可以。robots.txt 文件可由各种用户读取。如果某些内容的文件夹或文件名是非公开内容,请不要将其列在 robots.txt 文件中。我们建议您不要根据用户代理或其他属性提供不同的 robots.txt 文件。
我需要添加 allow
规则以允许抓取吗?
您不需要添加 allow
规则。所有网址均隐式允许抓取,而 allow
规则用于替换同一 robots.txt 文件中的 disallow
规则。
如果我的 robots.txt 文件存在错误,或者我使用了不受支持的规则,会发生什么情况?
网页抓取工具一般具有很高的灵活性,通常不会因 robots.txt 文件中的小错误而受到影响。一般情况下,最严重的后果就是忽略不正确或不受支持的规则。请注意,尽管 Google 在解读 robots.txt 文件时无法揣摩您的隐含意图,但我们必须解析所提取的 robots.txt 文件。也就是说,如果您知道 robots.txt 文件存在问题,那么这些问题通常很容易解决。
我应使用什么程序来创建 robots.txt 文件?
您可以使用任何可创建有效文本文件的程序。常用来创建 robots.txt 文件的程序包括记事本、TextEdit、vi 或 emacs。详细了解如何创建 robots.txt 文件。 创建文件后,请使用 robots.txt 测试工具验证该文件。
如果我使用 robots.txt disallow
规则禁止 Google 抓取某个网页,该网页会从搜索结果中消失吗?
禁止 Google 抓取某个网页很可能会导致该网页从 Google 索引中被移除。
但是,robots.txt disallow
无法保证某一网页不会显示在搜索结果中:Google 仍可能会根据外部信息(如传入的链接)断定其具有相关性,并在搜索结果中显示该网址。如果您希望明确禁止某个网页被编入索引,请使用 noindex
robots meta
标记或 X-Robots-Tag
HTTP 标头。在这种情况下,请勿在 robots.txt 中屏蔽该网页,因为 Google 只有在抓取该网页后才能看到和遵循相关标记。了解如何控制与 Google 分享的内容
我对 robots.txt 文件的更改要过多久才会体现在我的搜索结果中?
首先,robots.txt 文件的缓存必须更新(我们一般最多将内容缓存一天)。您可以通过向 Google 提交更新后的 robots.txt 加快此过程。 即使在系统发现了更改后,抓取与索引编制过程也很复杂,有时对于个别网址的处理可能需要很久,因此无法给出准确的时间。另请注意,即使 robots.txt 文件禁止访问某个网址,该网址仍有可能显示在搜索结果中,只是我们无法抓取它。如果您想加速移除禁止 Google 访问的网页,请提交移除请求。
如何暂时停止所有对我网站的抓取?
您可以对所有网址(包括 robots.txt 文件)返回 503 (service unavailable)
HTTP 状态代码,从而暂时停止所有对您网站的抓取。系统会定期重新请求 robots.txt 文件,直到能够再次访问该文件。我们建议您不要通过改动 robots.txt 文件来禁止抓取。
我的服务器不区分大小写。如何才能完全禁止对某些文件夹的抓取?
robots.txt 文件中的规则是区分大小写的。在这种情况下,建议您使用规范化方法确保编入索引的网址版本只有一个。这样可以降低 robots.txt 文件中的行数,方便您管理该文件。如果无法使用上述方法,那么我们建议您列出文件夹名称的常见组合,或者使用名称的前几个字符代替全称,尽量将其缩短。例如,您无需列出 /MyPrivateFolder
的所有大小写组合,只要列出 /MyP
的组合即可(前提是您确定不存在其他包含这些首字符的可抓取网址)。此外,如果不存在抓取问题,则可改用robots meta
标记或 X-Robots-Tag
HTTP 标头。
我对所有网址(包括 robots.txt 文件)都返回了 403 Forbidden
。为什么网站仍在被抓取?
403 Forbidden
HTTP 状态代码以及其他 4xx
HTTP 状态代码代表 robots.txt 文件不存在。这意味着抓取工具一般会假定可以抓取该网站的所有网址。若要禁止抓取网站,您必须针对 robots.txt 返回 200 OK
HTTP 状态代码,其中必须包含相应的 disallow
规则。
robots meta
标记问题
robots meta
标记可以替代 robots.txt 文件吗?
不可以。robots.txt 文件可控制访问的是哪些网页。robots meta
标记用于控制是否将网页编入索引,但是需要抓取相应的网页才能看到该标记。 如果抓取某个网页时存在问题(例如该网页导致服务器高负载),请使用 robots.txt 文件。如果您只是想控制某个网页是否显示在搜索结果中,则可使用robots meta
标记。
可以使用 robots meta
标记阻止将网页的部分内容编入索引吗?
不可以,robots meta
标记是网页级设置。
我可以在 <head>
部分之外使用robots meta
标记吗?
不可以,robots meta
标记必须位于网页的 <head>
部分。
robots meta
标记会禁止抓取吗?
不会。即使robots meta
标记目前显示 noindex
,我们仍然需要不定期重新抓取该网址,以查看 meta
标记是否发生了更改。
nofollow
robots meta
标记与 rel="nofollow"
链接属性之间有什么差别?
nofollow
robots meta
标记适用于网页上的所有链接。rel="nofollow"
链接属性仅适用于网页中的特定链接。 有关 rel="nofollow"
链接属性的详细信息,请参阅我们关于用户生成的垃圾内容和 rel="nofollow"
的文档。
X-Robots-Tag
HTTP 标头问题
如何检查网址的 X-Robots-Tag
?
若要查看服务器标头,一种简单的方法是使用 Google Search Console 中的网址检查工具功能。若要检查任何网址的响应标头,请尝试搜索“服务器标头检查器”。
还没有评论呢,快来抢沙发~