前言:
本文主要增加蜘蛛爬取以及高价值url发现,而非友链外链操作,也可以称低价值url过滤,从而增加蜘蛛爬取。
蜘蛛是受到抓取系统调度影响的,与站点内容体量有直接关系,但是又不能无节制的爬取,会造成系统调度浪费或被抓取站点容易造成爬取崩溃。
为什么说高价值url而不是高价值内容呢?
主要原因是很多内容蜘蛛并未发现或者发现未爬取的页面,无法获取页面主体内容,无法分析内容价值。
以下则是可以提高蜘蛛抓取的策略。
一、目录树增加蜘蛛爬取
站点结构也是会影响蜘蛛爬取的,通常网站目录结构是由“统一固定目录”或“非统一固定栏目”来承载内容的,当一个站点目录下出现大量,已经蜘蛛抓取的高质量内容,那么这个目录下,未来出现的内容大概率是高质量的,如果这个目录下出现大量低质量或者违规内容,那么蜘蛛大概率放弃爬取。
这也是为什么有些网站个别目录收录很好,有些目录收录差或者不收录的原因。
大家也可能看到很多网站直接根目录下挂所有内容页 /1.html /2.html …… /100000.html
目录结构分辨
目录是由斜杠”/”来分辨的 根目录”/”到最后一个出现的(如下图)
https://zhidao.baidu.com /question/ 371203564961799932.html
————————— ———– —————————–
站点域名 目录结构 内容文件名
二、页面相关性增加抓取
页面内容的相关性是会增加蜘蛛爬取的,当蜘蛛发现并爬取A页面内容《电脑蓝屏怎么办》,进行页面url分析,如果A页面中子URL集合过多,蜘蛛全部抓取调度系统会导致被爬取站点崩溃和浪费,如果A页面存在B页面《茄子怎么吃》和C页面《如何修复电脑蓝屏》,如果你是蜘蛛或者是用户你会怎么选择B页面和C页面呢?肯定会爬取C页面的,这样A页面URL集合就可以筛选出高质量URL C页面和低质量URL B页面了。
来源:百度搜索资源平台
作者:毕文权
原文链接:http://bbs.zhanzhang.baidu.com/thread-2195930-1-1.html
还没有评论呢,快来抢沙发~