谷歌SEO：搜索引擎如何索引网页？网页是如何被收录的？

1,335次阅读

一旦您确保您的网站已被抓取，接下来的工作就是确保它可以被编入索引。没错——仅仅因为您的网站可以被搜索引擎发现和抓取并不一定意味着它将存储在他们的索引中。在前面关于抓取的部分中，我们讨论了搜索引擎如何发现您的网页。索引是您发现的页面的存储位置。爬虫找到一个页面后，搜索引擎会像浏览器一样呈现它。在此过程中，搜索引擎会分析该页面的内容。所有这些信息都存储在其索引中。

我可以查看 Googlebot 抓取工具如何查看我的网页吗？

是的，您网页的缓存版本将反映 Googlebot 上次抓取它的快照。

谷歌以不同的频率抓取和缓存网页。更成熟、更知名的网站，如https://www.nytimes.com等频繁发帖的网站将比 Roger the Mozbot 的副业的不那么出名的网站http://www.rogerlovescupcakes 更频繁地被抓取。 .（如果它是真的……）

您可以通过单击 SERP 中 URL 旁边的下拉箭头并选择“缓存”来查看页面的缓存版本：

您还可以查看站点的纯文本版本，以确定您的重要内容是否被有效地抓取和缓存。

页面是否曾从索引中删除？

是的，页面可以从索引中删除！可能会删除 URL 的一些主要原因包括：

URL 正在返回“未找到”错误 (4XX) 或服务器错误 (5XX) – 这可能是意外的（页面已移动且未设置 301 重定向）或故意的（页面已被删除并 404ed 以便将其从索引中删除）
该 URL 添加了一个 noindex 元标记 – 站点所有者可以添加此标记，以指示搜索引擎从其索引中省略该页面。
该 URL 已因违反搜索引擎的网站管理员指南而受到人工处罚，因此已从索引中删除。
该 URL 已被阻止抓取，并在访问者访问该页面之前添加了所需的密码。

如果您认为您网站上以前在 Google 索引中的页面不再显示，您可以使用URL 检查工具了解该页面的状态，或使用具有“请求索引”功能的Fetch as Google向索引提交单个 URL。（奖励：GSC 的“获取”工具还有一个“渲染”选项，可让您查看 Google 如何解释您的页面是否存在任何问题）。

告诉搜索引擎如何索引您的网站

机器人元指令

元指令（或“元标签”）是您可以向搜索引擎提供的关于您希望如何处理您的网页的指令。

您可以告诉搜索引擎爬虫“不要在搜索结果中将此页面编入索引”或“不要将任何链接权益传递给任何页面链接”。这些指令通过 HTML 页面的 <head> 中的机器人元标记（最常用）或通过 HTTP 标头中的 X-Robots-Tag 执行。

机器人元标记

漫游器元标记可在网页 HTML 的 <head> 中使用。它可以排除所有或特定的搜索引擎。以下是最常见的元指令，以及您可以应用它们的情况。

index/noindex告诉引擎是否应该抓取页面并将其保存在搜索引擎的索引中以进行检索。如果您选择使用“noindex”，则表示您希望将页面从搜索结果中排除在外。默认情况下，搜索引擎假定它们可以索引所有页面，因此没有必要使用“index”值。

什么时候可以使用：如果您尝试从 Google 的网站索引中修剪精简页面（例如：用户生成的个人资料页面），但您仍然希望访问者可以访问它们，您可能会选择将页面标记为“noindex”。

follow/nofollow告诉搜索引擎页面上的链接是应该被关注还是不被关注。“关注”会导致机器人跟随您页面上的链接并将链接资产传递到这些 URL。或者，如果您选择使用“nofollow”，搜索引擎将不会跟随或传递任何链接权益到页面上的链接。默认情况下，假定所有页面都具有“关注”属性。

什么时候可以使用：当你试图阻止页面被索引以及阻止爬虫跟踪页面上的链接时，nofollow 通常与 noindex 一起使用。

noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下，引擎将保留其已编入索引的所有页面的可见副本，搜索者可以通过搜索结果中的缓存链接访问。

什么时候可以使用：如果您经营一个电子商务网站并且您的价格经常变化，您可能会考虑使用 noarchive 标签来防止搜索者看到过时的价格。

以下是元机器人 noindex、nofollow 标签的示例：

<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>...</body></html>

此示例将所有搜索引擎排除在索引页面和跟踪任何页面链接之外。如果您想排除多个爬虫，例如 googlebot 和 bing，可以使用多个机器人排除标记。

元指令影响索引，而不是爬网

Googlebot 需要抓取您的网页才能查看其元指令，因此如果您试图阻止抓取工具访问某些网页，则元指令不是这样做的方法。必须抓取机器人标签才能得到尊重。

X-Robots-标签

x-robots 标签用于 URL 的 HTTP 标头中，如果您想大规模阻止搜索引擎，则比元标签提供更多的灵活性和功能，因为您可以使用正则表达式、阻止非 HTML 文件并应用站点范围的 noindex 标签.

例如，您可以轻松排除整个文件夹或文件类型（如 moz.com/no-bake/old-recipes-to-noindex）：

<Files ~ “\/?no\-bake\/.*”> 标头集 X-Robots-Tag “noindex, nofollow”</Files>

机器人元标记中使用的衍生物也可以用于 X-Robots-Tag。

或特定文件类型（如 PDF）：

<Files ~ “\.pdf$”> 标题集 X-Robots-Tag “noindex, nofollow”</Files>

有关元机器人标签的更多信息，请浏览Google 的机器人元标签规范。

WordPress 提示：

在仪表板中 > 设置 > 阅读时，确保<em>未</em>选中“搜索引擎可见性”框。这会阻止搜索引擎通过您的 robots.txt 文件访问您的网站！

了解影响抓取和索引的不同方式将帮助您避免常见的陷阱，这些陷阱会阻止您的重要页面被发现。

正文完

谷歌SEO知识

发表至：搜索引擎

2022年2月18日

0

谷歌SEO：影响网站收录的因素有哪些？如何让搜索引擎收录网站