upring 发表于 2011 年 12 月 8 日 13:59:08

蜘蛛大量抓取页面导致服务器出现负载问题

蜘蛛大量抓取页面导致服务器出现负载问题
  答:会延迟百度对新网页的收录速度。
  正常情况下,Baiduspider的抓取频率大致上和网站新资源产生的速度相符,并不会给网站带来很大的压力。但现在网站结构通常都比较复杂,多种url形式指向的可能是相同的内容,或者会自动产生大量无检索价值的网页。
  我们目前发现的问题,主要来源于此,建议先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收录的形式,如果有,robots掉它们可以节省大量的资源。
  具体参考:http://tieba.baidu.com/club/9374916/p/7587693
其实LEE这里说明一个问题用robots可以禁止垃圾页面/无效页面(也就是说、我们可以通过IIS日志去分析、网站中抓取频率最高、而又无用的页面,并进行屏蔽)但是这样做只是为了增大收录想被收录页面的机遇、同样没有解决抓取频率过高问题。 可能我没有这种大站,但是DJ小向知道有效的控制蜘蛛抓取、可以使用网站增大收录量、同样有效的控制蜘蛛返回码、同样可以使网站被K。

choovin 发表于 2012 年 5 月 13 日 11:26:00

贴子很不错,收藏备用了!呵呵

choovin 发表于 2012 年 5 月 13 日 14:15:03

支持楼主的分享精神!
页: [1]
查看完整版本: 蜘蛛大量抓取页面导致服务器出现负载问题