找回密码
 注册
【阿里云】2核2G云新老同享 99元/年,续费同价华为云精选云产品特惠做网站就用糖果主机Jtti,新加坡服务器,美国服务器,香港服务器
查看: 144|回复: 0

浅析各大搜索引擎蜘蛛的那些事

[复制链接]
发表于 2011 年 10 月 21 日 21:05:39 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
做SEO每天打交道最多的就是搜索引擎放出来的小机器人,也叫搜索引擎蜘蛛,我们要做的事情就是把它们伺候好,顺其意投其好。

一、列举一下各大搜索引擎蜘蛛的名字

google蜘蛛: googlebot,百度蜘蛛:baiduspider,搜狗蜘蛛:sogou spider,搜搜蜘蛛:Sosospider,yahoo蜘蛛:slurp,alexa蜘蛛:ia_archiver,msn蜘蛛:msnbot,altavista蜘蛛:scooter,lycos蜘蛛: lycos_spider_(t-rex),alltheweb蜘蛛: fast-webcrawler,inktomi蜘蛛: slurp,有道蜘蛛:YodaoBot和OutfoxBot,热土蜘蛛:Adminrtspider 。当然这里只是象征性的列一下,就算我们分析日志的时候看到了也不要太奇怪,又或者你想禁止它们爬你的站点也是可以的。

二、一句话总结蜘蛛的习惯

google蜘蛛:不太爱爬,但爱收录。

百度蜘蛛:爬谨慎,收录更谨慎。

搜搜蜘蛛:爱爬图片,经常绕在动态地址里出不来。

雅虎蜘蛛:恪守规则,每次都是先爬robots.txt。

其他的没有太多留意,就不多说了。

三、对于robots.txt的支持程度

全部分析可能也不现实,这里拿Disallow: /*?*分析(禁止动态页面抓取)。

google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了,如下图:



百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次。

搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西,如下图:



搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有再有它爬过的痕迹。

Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net

Archiver|手机版|小黑屋|金光论坛

GMT+8, 2024 年 11 月 16 日 20:26 , Processed in 0.019453 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表