搜索引擎变成我优化网站代码的巨大动力

前段时间做了一个网站,由于时间匆忙,没有对代码和数据库进行优化,完成功能就算是完事,上线以后就没有怎么去管理了。

过了几个月,有一天我突然发现,我的服务器速度越来越慢,慢到页面都打不开了。登录到服务器检查才发现,数据库进程几乎占到了100%的CPU运算时间。

我郁闷,服务器更本没有什么人访问,数据库怎么会这么忙?

唯一的办法,检查IIS访问日志;

打开日志一看,吓坏了,日志记录里满眼都是Baiduspider+这个BT,整个日志记录数也就5000多行,这BT占了4500行。

然后开始找问题,看看是什么地方让数据库如此的忙碌……

忙了一天多,问题解决,更新了程序以后,CPU的占用量立刻降低,爽了,于是又不管了。

BAIDU这个BT似乎发现这网站请求速度快了,于是增强了访问量,最多的时候一秒钟达到4,5次,网站又受不了了!没法,继续找问题。

这一次,把以前偷懒没做的事情都做了,比如加缓存、SQL合并执行、索引优化、SQL优化,搞了有2个多星期,比我把这个网站做出来的时间都要长。

这时候BAIDU的访问量已经从每天4000多次增加到了每天10000多次,不过服务器的负荷已经大大的降低,在检索最密集的时候也保持非常低的CPU占用。

BAIDU的破机器人似乎是跟我杠上了,我的程序刚更新没多久,它的访问量就从10000多猛增到40000多,而且用了2个IP轮番访问,白天最高的访问达到每秒5-6次,几乎跟晚上的访问密集度差不多了。

实在搞不懂它在干吗,难道这网站这么好看,要来来回回的检索来检索去的;本来想下决心把BAIDU一封了之,不过封了一天之后又放开了,难得有人陪我玩,何必赶人家走呢。 继续陪它玩到底!

结果就是,时间用了很多,代码写了不少,数据库改了不少,网站功能没有增加,承受BAIDU访问的能力却增加不少;目前BAIDU每日的访问量大约66000,时段开始变得集中,在凌晨1点到3点,访问量约40000;服务器CPU几乎不怎么跳动,工作还是很有成效的。

现在不但BAIDU,新浪iaskspider,中搜的破spider,每天的检索量都在4-5000;

自己用AB测试了一下,目前的程序可以承受每秒10次左右,考虑到这台机器的硬件状况,我已经很满足了。

我现在就想知道,什么时候BAIDU的访问量能达到10万次/天,HOHO。

baidu spider 访问统计

搜索引擎变成我优化网站代码的巨大动力》上有 4 条评论

  1. 大鱼儿 文章作者

    sogou的超级爬虫早就来了,新浪的iaskspider其实比他更恐怖。 从24日凌晨现在,1个多小时就抓了15000的页面了,百度才6000多。

  2. 翌阳

    1020]2006-03-12 17:31:44
    219.142.118.42
    GET /root/t0941.htm HTTP/1.1
    Host: ws166-107.jlu.edu.cn
    Accept: */*
    User-Agent: Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
    Connection: close

    [1020]2006-03-12 17:31:48
    219.142.118.42
    GET /root/t0942.htm HTTP/1.1
    Host: ws166-107.jlu.edu.cn
    Accept: */*
    User-Agent: Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
    Connection: close

    [1020]2006-03-12 17:31:54
    219.142.118.42
    GET /root/t0943.htm HTTP/1.1
    Host: ws166-107.jlu.edu.cn
    Accept: */*
    User-Agent: Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
    Connection: close

    [1020]2006-03-12 17:31:58
    219.142.118.42
    GET /root/t0944.htm HTTP/1.1
    Host: ws166-107.jlu.edu.cn
    Accept: */*
    User-Agent: Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
    Connection: close

评论已关闭。