搜索引擎 2022年02月21日
0 收藏 0 点赞 824 浏览 1131 个字

内容处理即搜索引擎对Spider抓取回来的页面进行处理。处理步骤简单介绍如下。

步骤01要判断该页面的类型

首先要判断该页面的类型是普通网页,还是PDF、Word、Excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断,然后有针对性地进行内容处理。

步骤02提取网页的文本信息

当下搜索引擎虽然在努力读取JavaScript、Flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、Description等标签中的内容,虽然一直有信息说Keywords标签已经被主流大型搜索引擎抛弃了,但是经过多人实际测试,至少百度多多少少还是会参考Keywords标签的。

步骤03去除页面噪声

如果该网页是普通网页,则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉,只提取出该网页的主体内容。其实目前在这一步中,百度并不会把主体内容之外的东西全部抛弃,相关推荐的内容在一定程度上也会被算作本页的内容,或者是对本页主体内容的补充,也会在搜索排名中有直观的体现。甚至与页面不相干的链接文本也会被保留索引,比如,百度搜索“复制本页链接”向后翻几页,就会看到如图2-7所示的结果。其实“复制本页链接”只存在于这些页面按钮上,但是也被索引了,如图2-8所示。所以搜索引擎的去除噪声,并不是很严格。因此EO人员对于网页主体内容外的推荐内容、链接、链接锚文本等一切元素也要善于利用,而不是随便堆一些不相干的内容。很多人都说SEO需要注重细节,但是这些细节又有多少站长和SEO人员真正地重视、研究和利用了呢?

步骤04去除内容中的停止词

接下来应该是对剩余文本内容的分词处理,然后搜索引擎会剔除掉诸如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去除这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这

些词也是有丰富的搜索结果的,当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响,所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格去除的,也要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置词性可能不同)。此处对EO人员的工作并没有太多影响,所以不必深究。经过这些处理后,Spider抓取回来的网页内容就被“洗”干净了,再经过分词处理及去重处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页内容进行正向索引和倒排索引处理了。

微信扫一扫

支付宝扫一扫

版权: 转载请注明出处:https://www.mizhanw.com/blog/seo/3169.html

相关推荐
关于回收网站提交配额的通知
由于近期黑产、作弊行为肆虐,大量抢占平台资源,严重影响用户体验,搜索资源平台针对非实名账户内站点、低质站点关停sitemap提交能力并调整A…
日期:2023-11-02 点赞:0 阅读:49
关于搜索资源平台清退风险资源验证关系的通知
为保护站点提升优质资源利用率,维护良性健康的搜索生态,近期搜索资源平台针对风险资源站点开展了验证关系清退,例如账号未实名认证、站点低质作弊等…
日期:2023-11-02 点赞:0 阅读:59
百度搜索持续打击盗版网文站点公告
发布日期:2023-04-11 百度公司高度重视知识产权保护。近期,百度搜索通过主动摸排,并结合版权方的投诉与反馈,发现部分站点内存在大量涉…
日期:2023-04-14 点赞:0 阅读:516
Google 搜索关于 AI 生成内容的指南
长久以来,Google 一直坚信 AI 蕴含巨大的变革力量,能够提升我们提供实用信息的能力。这篇博文进一步介绍了 AI 生成的内容如何融入我…
日期:2023-03-02 点赞:0 阅读:1,105
如何增加蜘蛛爬取以及高价值url的发现!
前言: 本文主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。 蜘蛛是受到抓取系统调度影响…
日期:2023-01-31 点赞:0 阅读:859
经常被采集的技术层面处理方法
小站新站被采集,自己网站没收录或者没排名,被权重网站采集,而变成了别人的嫁衣,反馈又没有实质性可以证明自己的内容。注意:即使按照下面的说法做…
日期:2023-01-10 点赞:0 阅读:1,055
发表评论
暂无评论

还没有评论呢,快来抢沙发~