所有的全文搜索引擎都表示自己的Spider对网站的抓取行为和普通用户的访问行为没有太大区别。站在普通用户的角度这句话的确没有问题,但是站在站长和EO的角度这句话就不太对了。网页上有很多东西普通用户看不到也分辨不清,但是Spider可以;网页上也有很多东西普通用户可以看到并分辨清楚,但是Spider不可以。可以说Spider是一个既聪明又弱智的普通用户,Spider有着普通用户访问行为的大部分特性,但是也有不少差异。
- Spider可以很容易地分辨出网页中是否有隐藏内容,是否被挂了黑链等,但是不能完全了解网页中图片的内容,也不能很好地读取JavaScript、Iframe、Ajax和Flash中的内容,普通用户却是恰恰相反;
- Spider没有Referer,对网站的抓取全部都是直接访问,而普通用户中除了直接访问的用户外一般都是有Referer的;Spider不支持Cookie,但普通用户的浏览器一般是支持的;
- Spider不会主动注册登入网站,但是普通用户是可以的;原则上Spider不会抓取和分析网站robots中已经屏蔽的内容,但是普通用户是可以正常访问的;
- Spider对于有多个动态参数网站的抓取,可能会陷入死循环,但是普通用户是不会的;Spider对于列表中前几页的新内容抓取可能不好,但是感兴趣的普通用户会依次浏览;
- Spider暂时还不能真正判断文章是不是原创,但是普通用户可以通过多种方式来确定文章是原创还是采集转载等。
- Spider毕竞是人为技术驱动的程序,与普通用户还是有着非常大的区别的,因此给了站长和SEO人员很大的操作空间。站长和SEO人员在充分了解到Spider和普通用户的区别后,可以更方便地优化网站,使得网站内容被充分抓取,网站整体在搜索引擎中有个良好的表现;同时也可以利用两者的区别,使得在不影响搜索引擎抓取和排名的情况下,给普通用户更友好的用户体验,比如,判断用户Referer给用户推荐内容等;当然,不排除有些站长和SEO人员会利用这些区别,采用很多极端的技术作弊手法,在普通用户感觉不到的地方,误导Spider对网站内容的判断,而恶意抢夺很多本不应该得到的搜索流量,这是不可取的。无论如何,都有必要深入了解两者的差异。
还没有评论呢,快来抢沙发~