因为网站内容比较多,百度抓取的上限是20万一天,平均每天抓取超过7万,上个月服务器被百度蜘蛛抓取了两次,于是我屏蔽了两部分百度蜘蛛,也在百度站长后台提交了频次,上限直接改为10000。但蜘蛛还是抓住了很多东西,服务器有点不对劲。

那两天CPU又100%恢复了,昨天去看了下日志,即使被禁了还是有很多蜘蛛,10分钟大概有400多个蜘蛛爬过,其中看下标题的蜘蛛也不少,大概有200-300个左右,算了一下,下头条蜘蛛一天也不会少,于是想把头条蜘蛛减少到一天3000个左右,这样就没有什么压力了。

头条蜘蛛捉取网站链接频次太多导致服务器崩溃

谈到干货,首先要上头条的站长平台注册账号,然后绑定网站,调整抓取频率,不知道怎么回事,我把频率降到了3000,结果还是有很多蜘蛛,根本没效果,也许是等着生效,再加上我刚刚提交给站长后台,导致蜘蛛还变多了,这样我的服务器直接奔溃了。

头条蜘蛛捉取网站链接频次太多导致服务器崩溃

一怒之下,我直接在robots文档里禁掉了字节跳动的蜘蛛,还真别说,大家都说robots协议生效慢,标题蜘蛛直接立即生效,服务器一下子就好了,其实还是有点遗憾,因为我的网站今日头条还是很给面子,不过面子归面子,目前我的流量连1%都没有来,所以禁掉也不可惜。

今天的头条搜索其实大部分都是站内搜索,和百度不一样,即使今天的头条搜索份额达到了50%,你的网站也没什么问题,为什么?由于今日头条的搜索基本上只是自己在搜索,顺便搞点外部的网络数据吧。新闻标题本身就是新闻和内容。与百度不同的是,百度从一开始就以互联网为主导,后来才加入百度。即使加了全家人桶(百科、贴吧、文库等等),其他网站还是分得一杯羹。

标题和标题不同,第一个标题就用的人少,基本上搜索也是推荐搜索,搜索以后大部分都是自己的标题,所以即使全部被禁,也没什么。一个网站赚钱本就难,这些蜘蛛带来的流量就是正向能量,没有流量就是DDOS,干脆把自己的服务器直接屏蔽起来吧。

头条蜘蛛捉取网站链接频次太多导致服务器崩溃

来源:神力首码。