HK服务器搬家,客户说百度蜘蛛无法访问,阿福看了一下- -是以前的老HK服务器蜘蛛爬的太狠了,然后,蜘蛛显示的是北京电信机房和北京网通机房,所以阿福直接把一个段屏蔽了,今天一看,尼玛百度真坑爹。
好吧,现在的问题是找出百度的IP段,然后给解封
那么只有拽出以前的日志了。
阿福把日志全放在/root/log下面,那么一个命令很爽的就执行下来了
cat /root/log/*.log | grep Baiduspider* | awk ‘{print $1}’ |uniq >spiderip.txt
然后就找到了百度的访问的多数IP了,解封其IP段即可。。
好吧其实阿福是没找到如何处理IP的ABCD段的方法。。所以就不贴出来了。。。。。。人工肉眼排除的。。。。。
嗯。里面有很多精华,原来阿福是想这么写的
grep Baiduspider *.log >>baiduspider.txt
cat baiduspider.txt|awk ‘{print $1}’|uniq >> spider.txt
sed ‘/./s/$/end/’ spider.txt > spiderip.txt
然后在sed出两个字段间的IP。。然后在然后。。。现在么,上面一行命令能搞定,为何还要三行,更难的呢。。。
受启发文章http://blog.csdn.net/menlinshuangxi/article/details/7979504的 AWK用法那一段的最后,他的截屏。。瞬间豁然开朗
未经允许不得转载:啊福主机 » 原来grep+awk很爽