搜索引擎 2022年02月18日
0 收藏 0 点赞 1,148 浏览 2420 个字

一旦您确保您的网站已被抓取,接下来的工作就是确保它可以被编入索引。没错——仅仅因为您的网站可以被搜索引擎发现和抓取并不一定意味着它将存储在他们的索引中。在前面关于抓取的部分中,我们讨论了搜索引擎如何发现您的网页。索引是您发现的页面的存储位置。爬虫找到一个页面后,搜索引擎会像浏览器一样呈现它。在此过程中,搜索引擎会分析该页面的内容。所有这些信息都存储在其索引中。

我可以查看 Googlebot 抓取工具如何查看我的网页吗?

是的,您网页的缓存版本将反映 Googlebot 上次抓取它的快照。

谷歌以不同的频率抓取和缓存网页。更成熟、更知名的网站,如https://www.nytimes.com等频繁发帖的网站将比 Roger the Mozbot 的副业的不那么出名的网站http://www.rogerlovescupcakes 更频繁地被抓取。 .(如果它是真的……)

您可以通过单击 SERP 中 URL 旁边的下拉箭头并选择“缓存”来查看页面的缓存版本:

您还可以查看站点的纯文本版本,以确定您的重要内容是否被有效地抓取和缓存。

页面是否曾从索引中删除?

是的,页面可以从索引中删除!可能会删除 URL 的一些主要原因包括:

  • URL 正在返回“未找到”错误 (4XX) 或服务器错误 (5XX) – 这可能是意外的(页面已移动且未设置 301 重定向)或故意的(页面已被删除并 404ed 以便将其从索引中删除)
  • 该 URL 添加了一个 noindex 元标记 – 站点所有者可以添加此标记,以指示搜索引擎从其索引中省略该页面。
  • 该 URL 已因违反搜索引擎的网站管理员指南而受到人工处罚,因此已从索引中删除。
  • 该 URL 已被阻止抓取,并在访问者访问该页面之前添加了所需的密码。

如果您认为您网站上以前在 Google 索引中的页面不再显示,您可以使用URL 检查工具了解该页面的状态,或使用具有“请求索引”功能的Fetch as Google向索引提交单个 URL。(奖励:GSC 的“获取”工具还有一个“渲染”选项,可让您查看 Google 如何解释您的页面是否存在任何问题)。

告诉搜索引擎如何索引您的网站

机器人元指令

元指令(或“元标签”)是您可以向搜索引擎提供的关于您希望如何处理您的网页的指令。

您可以告诉搜索引擎爬虫“不要在搜索结果中将此页面编入索引”或“不要将任何链接权益传递给任何页面链接”。这些指令通过 HTML 页面的 <head> 中的机器人元标记(最常用)或通过 HTTP 标头中的 X-Robots-Tag 执行。

机器人元标记

漫游器元标记可在网页 HTML 的 <head> 中使用。它可以排除所有或特定的搜索引擎。以下是最常见的元指令,以及您可以应用它们的情况。

index/noindex告诉引擎是否应该抓取页面并将其保存在搜索引擎的索引中以进行检索。如果您选择使用“noindex”,则表示您希望将页面从搜索结果中排除在外。默认情况下,搜索引擎假定它们可以索引所有页面,因此没有必要使用“index”值。

  • 什么时候可以使用:如果您尝试从 Google 的网站索引中修剪精简页面(例如:用户生成的个人资料页面),但您仍然希望访问者可以访问它们,您可能会选择将页面标记为“noindex”。

follow/nofollow告诉搜索引擎页面上的链接是应该被关注还是不被关注。“关注”会导致机器人跟随您页面上的链接并将链接资产传递到这些 URL。或者,如果您选择使用“nofollow”,搜索引擎将不会跟随或传递任何链接权益到页面上的链接。默认情况下,假定所有页面都具有“关注”属性。

  • 什么时候可以使用:当你试图阻止页面被索引以及阻止爬虫跟踪页面上的链接时,nofollow 通常与 noindex 一起使用。

noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将保留其已编入索引的所有页面的可见副本,搜索者可以通过搜索结果中的缓存链接访问。

  • 什么时候可以使用:如果您经营一个电子商务网站并且您的价格经常变化,您可能会考虑使用 noarchive 标签来防止搜索者看到过时的价格。

以下是元机器人 noindex、nofollow 标签的示例:

<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>...</body></html>

此示例将所有搜索引擎排除在索引页面和跟踪任何页面链接之外。如果您想排除多个爬虫,例如 googlebot 和 bing,可以使用多个机器人排除标记。

元指令影响索引,而不是爬网

Googlebot 需要抓取您的网页才能查看其元指令,因此如果您试图阻止抓取工具访问某些网页,则元指令不是这样做的方法。必须抓取机器人标签才能得到尊重。

X-Robots-标签

x-robots 标签用于 URL 的 HTTP 标头中,如果您想大规模阻止搜索引擎,则比元标签提供更多的灵活性和功能,因为您可以使用正则表达式、阻止非 HTML 文件并应用站点范围的 noindex 标签.

例如,您可以轻松排除整个文件夹或文件类型(如 moz.com/no-bake/old-recipes-to-noindex):

<Files ~ “\/?no\-bake\/.*”> 标头集 X-Robots-Tag “noindex, nofollow”</Files>
机器人元标记中使用的衍生物也可以用于 X-Robots-Tag。

或特定文件类型(如 PDF):

<Files ~ “\.pdf$”> 标题集 X-Robots-Tag “noindex, nofollow”</Files>

有关元机器人标签的更多信息,请浏览Google 的机器人元标签规范。

WordPress 提示:

在仪表板中 > 设置 > 阅读时,确保<em>未</em>选中“搜索引擎可见性”框。这会阻止搜索引擎通过您的 robots.txt 文件访问您的网站!

了解影响抓取和索引的不同方式将帮助您避免常见的陷阱,这些陷阱会阻止您的重要页面被发现。

微信扫一扫

支付宝扫一扫

版权: 转载请注明出处:https://www.mizhanw.com/blog/seo/3205.html

相关推荐
关于回收网站提交配额的通知
由于近期黑产、作弊行为肆虐,大量抢占平台资源,严重影响用户体验,搜索资源平台针对非实名账户内站点、低质站点关停sitemap提交能力并调整A…
日期:2023-11-02 点赞:0 阅读:57
关于搜索资源平台清退风险资源验证关系的通知
为保护站点提升优质资源利用率,维护良性健康的搜索生态,近期搜索资源平台针对风险资源站点开展了验证关系清退,例如账号未实名认证、站点低质作弊等…
日期:2023-11-02 点赞:0 阅读:73
百度搜索持续打击盗版网文站点公告
发布日期:2023-04-11 百度公司高度重视知识产权保护。近期,百度搜索通过主动摸排,并结合版权方的投诉与反馈,发现部分站点内存在大量涉…
日期:2023-04-14 点赞:0 阅读:525
Google 搜索关于 AI 生成内容的指南
长久以来,Google 一直坚信 AI 蕴含巨大的变革力量,能够提升我们提供实用信息的能力。这篇博文进一步介绍了 AI 生成的内容如何融入我…
日期:2023-03-02 点赞:0 阅读:1,117
如何增加蜘蛛爬取以及高价值url的发现!
前言: 本文主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。 蜘蛛是受到抓取系统调度影响…
日期:2023-01-31 点赞:0 阅读:866
经常被采集的技术层面处理方法
小站新站被采集,自己网站没收录或者没排名,被权重网站采集,而变成了别人的嫁衣,反馈又没有实质性可以证明自己的内容。注意:即使按照下面的说法做…
日期:2023-01-10 点赞:0 阅读:1,066
发表评论
暂无评论

还没有评论呢,快来抢沙发~