谷歌SEO：影响网站收录的因素有哪些？如何让搜索引擎收录网站

如果您使用 Google Search Console 或“site:domain.com”高级搜索运算符，发现您的一些重要页面从索引中丢失和/或您的一些不重要页面被错误地编入索引，您可以进行一些优化实施以更好地指导 Googlebot 如何抓取您的网络内容。告诉搜索引擎如何抓取您的网站可以让您更好地控制索引中的内容。

大多数人都在考虑确保 Google 可以找到他们的重要页面，但很容易忘记您可能不希望 Googlebot 找到某些页面。这些可能包括内容稀少的旧 URL、重复 URL（例如电子商务的排序和过滤参数）、特殊促销代码页、登台或测试页面等。

要引导 Googlebot 离开您网站的某些页面和部分，请使用 robots.txt。

机器人.txt

Robots.txt 文件位于网站的根目录（例如 yourdomain.com/robots.txt），并建议您的网站搜索引擎应该和不应该抓取哪些部分，以及它们抓取您网站的速度，通过特定的 robots.txt 指令。

Googlebot 如何处理 robots.txt 文件

如果 Googlebot 找不到某个网站的 robots.txt 文件，它会继续抓取该网站。
如果 Googlebot 发现某个网站的 robots.txt 文件，它通常会遵守建议并继续抓取该网站。
如果 Googlebot 在尝试访问网站的 robots.txt 文件时遇到错误并且无法确定该文件是否存在，它将不会抓取该网站。

优化抓取预算！

抓取预算是 Googlebot 在离开之前将在您的网站上抓取的平均网址数，因此抓取预算优化可确保 Googlebot 不会浪费时间抓取您不重要的页面，而可能会忽略您的重要页面。抓取预算在<a href=”/blog/large-site-seo-basics-faceted-navigation”>拥有数万个网址的大型网站</a>上最为重要，但阻止抓取工具绝不是一个坏主意访问您绝对不关心的内容。只需确保不要阻止爬虫访问您添加了其他指令的页面，例如规范或 noindex 标记。如果 Googlebot 在某个页面上被阻止，它将无法看到该页面上的说明。

并非所有网络机器人都遵循 robots.txt。不怀好意的人（例如，电子邮件地址抓取工具）构建不遵循此协议的机器人。事实上，一些不良行为者使用 robots.txt 文件来查找您的私人内容所在的位置。尽管阻止爬虫访问诸如登录和管理页面等私人页面似乎是合乎逻辑的，这样它们就不会出现在索引中，但将这些 URL 的位置放在可公开访问的 robots.txt 文件中也意味着有恶意的人可以更轻松地找到它们。最好对这些页面进行 NoIndex 并将它们关在登录表单后面，而不是将它们放在您的 robots.txt 文件中。

您可以在我们学习中心的 robots.txt 部分中阅读有关此内容的更多详细信息。

在 GSC 中定义 URL 参数

一些网站（最常见于电子商务）通过将某些参数附加到 URL 来使相同的内容在多个不同的 URL 上可用。如果您曾经在网上购物，您可能已经通过过滤器缩小了搜索范围。例如，您可以在亚马逊上搜索“鞋子”，然后按尺码、颜色和款式细化您的搜索。每次优化时，URL 都会略有变化：

https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id= 32&highlight=green+dress&cat_id=1&sessionid=123$affid=43

Google 如何知道向搜索者提供哪个版本的 URL？Google 在自己确定代表 URL 方面做得很好，但是您可以使用 Google Search Console 中的 URL 参数功能来告诉 Google 您希望他们如何处理您的页面。如果您使用此功能告诉 Googlebot“不抓取带有____参数的 URL”，那么您实际上是在要求对 Googlebot 隐藏此内容，这可能会导致这些页面从搜索结果中删除。如果这些参数创建重复页面，这就是您想要的，但如果您希望这些页面被索引，则不理想。

爬虫能找到你所有的重要内容吗？

现在您已经了解了一些确保搜索引擎抓取工具远离您的不重要内容的策略，让我们了解可以帮助 Googlebot 找到您的重要页面的优化。

有时，搜索引擎将能够通过抓取找到您网站的某些部分，但其他页面或部分可能由于某种原因而被遮挡。确保搜索引擎能够发现您想要索引的所有内容，而不仅仅是您的主页，这一点很重要。

问问自己这个问题：机器人可以爬过你的网站，而不仅仅是爬到它上面吗？

您的内容是否隐藏在登录表单后面？

如果您要求用户在访问某些内容之前登录、填写表格或回答调查，搜索引擎将不会看到这些受保护的页面。爬虫肯定不会登录。

您是否依赖搜索表单？

机器人不能使用搜索表单。有些人认为，如果他们在他们的网站上放置一个搜索框，搜索引擎将能够找到访问者搜索的所有内容。

文本是否隐藏在非文本内容中？

不应使用非文本媒体形式（图像、视频、GIF 等）来显示您希望被索引的文本。虽然搜索引擎在识别图像方面做得越来越好，但不能保证他们能够阅读和理解它。最好在网页的 <HTML> 标记中添加文本。

搜索引擎可以跟随您的网站导航吗？

正如爬虫需要通过来自其他站点的链接来发现您的站点一样，它也需要您自己站点上的链接路径来引导它从一个页面到另一个页面。如果您有一个希望搜索引擎找到的页面，但它没有与任何其他页面链接，那么它就像不可见一样好。许多网站都犯了一个严重错误，即以搜索引擎无法访问的方式构建导航结构，从而阻碍了它们在搜索结果中列出的能力。

常见的导航错误可能会阻止爬虫查看您的所有网站：

拥有显示与桌面导航不同结果的移动导航
菜单项不在 HTML 中的任何类型的导航，例如启用 JavaScript 的导航。谷歌在抓取和理解 Javascript 方面做得更好，但它仍然不是一个完美的过程。确保某些内容被 Google 找到、理解和索引的更可靠的方法是将其放入 HTML 中。
个性化，或向特定类型的访问者显示独特的导航而不是其他人，可能看起来像是在隐藏搜索引擎爬虫
忘记通过导航链接到您网站上的主页 – 请记住，链接是爬虫跟踪到新页面的路径！

这就是为什么您的网站必须具有清晰的导航和有用的 URL 文件夹结构的原因。

你有干净的信息架构吗？

信息架构是在网站上组织和标记内容以提高用户效率和可查找性的实践。最好的信息架构是直观的，这意味着用户不必费力思考就可以浏览您的网站或查找某些内容。

你在使用站点地图吗？

站点地图就是它听起来的样子：您网站上的 URL 列表，爬虫可以使用这些 URL 来发现和索引您的内容。确保 Google 找到您的最高优先级页面的最简单方法之一是创建一个符合 Google 标准的文件并通过 Google Search Console 提交。虽然提交站点地图并不能取代对良好站点导航的需求，但它肯定可以帮助爬虫找到通往所有重要页面的路径。

确保您只包含您希望被搜索引擎编入索引的 URL，并确保为爬虫提供一致的方向。例如，如果您已通过 robots.txt 阻止该 URL，则不要在站点地图中包含该 URL，或者在站点地图中包含重复的 URL，而不是首选的规范版本（我们将在 < a href=”/beginners-guide-to-seo-1/technical-seo”>第 5 章</a>！）。

了解有关 XML 站点地图的更多信息

如果您的站点没有任何其他站点链接到它，您仍然可以通过在 Google Search Console 中提交您的 XML 站点地图来将其编入索引。不能保证他们会在索引中包含提交的 URL，但值得一试！

爬虫在尝试访问您的 URL 时是否会出错？

在抓取您网站上的 URL 的过程中，抓取工具可能会遇到错误。您可以转到 Google Search Console 的“抓取错误”报告来检测可能发生这种情况的 URL – 此报告将向您显示服务器错误和未找到的错误。服务器日志文件也可以向您展示这一点，以及其他信息的宝库，例如爬网频率，但由于访问和剖析服务器日志文件是一种更高级的策略，我们不会在初学者指南中详细讨论它，尽管您可以在此处了解更多信息。

在您可以对爬网错误报告做任何有意义的事情之前，了解服务器错误和“未找到”错误非常重要。

4xx 代码：当搜索引擎爬虫由于客户端错误而无法访问您的内容时

4xx 错误是客户端错误，这意味着请求的 URL 包含错误的语法或无法实现。最常见的 4xx 错误之一是“404 – 未找到”错误。这些可能是由于 URL 拼写错误、页面被删除或重定向损坏，仅举几个例子。当搜索引擎遇到 404 时，他们无法访问该 URL。当用户点击 404 时，他们可能会感到沮丧并离开。

5xx 代码：当搜索引擎爬虫由于服务器错误而无法访问您的内容时

5xx 错误是服务器错误，表示网页所在的服务器未能满足搜索者或搜索引擎访问该页面的请求。在 Google Search Console 的“抓取错误”报告中，有一个专门针对这些错误的选项卡。这些通常是因为对 URL 的请求超时，因此 Googlebot 放弃了该请求。查看Google 的文档以了解有关修复服务器连接问题的更多信息。

值得庆幸的是，有一种方法可以告诉搜索者和搜索引擎您的页面已移动 – 301（永久）重定向。

创建自定义 404 页面！

通过添加指向您网站上重要页面的链接、网站搜索功能甚至联系信息来自定义您的 404 页面。这应该可以降低访问者在遇到 404 时跳出您的网站的可能性。

了解有关自定义 404 页面的更多信息

假设您将页面从example.com/young-dogs/移动到example.com/puppies/。搜索引擎和用户需要一个从旧 URL 到新 URL 的桥梁。该网桥是 301 重定向。

	当您执行 301 时：	当您不实施 301 时：
链接资产	将链接权益从页面的旧位置转移到新 URL。	如果没有 301，来自先前 URL 的权限不会传递到新版本的 URL。
索引	帮助 Google 查找页面的新版本并将其编入索引。	仅在您的网站上存在 404 错误不会损害搜索性能，但是让排名/被交易的页面 404 可能会导致它们从索引中掉出来，排名和流量随之而来 – 哎呀！
用户体验	确保用户找到他们正在寻找的页面。	允许访问者点击死链接会将他们带到错误页面而不是预期页面，这可能会令人沮丧。

301 状态代码本身意味着页面已永久移动到新位置，因此请避免将 URL 重定向到不相关的页面——旧 URL 的内容实际上并不存在的 URL。如果一个页面正在针对某个查询进行排名，而您将其 301 转到具有不同内容的 URL，则它的排名位置可能会下降，因为使其与该特定查询相关的内容不再存在。301 功能强大——负责任地移动 URL！

您还可以选择 302 重定向页面，但这应该保留用于临时移动以及传递链接公平性不那么重要的情况。302 有点像绕道而行。您暂时通过特定路线吸引流量，但不会永远这样。

注意重定向链！

如果 Googlebot 必须经过多次重定向，它可能很难到达您的页面。谷歌称这些为“重定向链”，他们建议尽可能限制它们。如果您将 example.com/1 重定向到 example.com/2，然后决定将其重定向到 example.com/3，最好消除中间人并将 example.com/1 重定向到 example.com/3。

详细了解重定向链

一旦您确保您的网站针对可抓取性进行了优化，接下来的工作就是确保它可以被索引。