反爬虫新思路
统计各种搜索引擎的ip, 其他ip指定时间段限制抓取页面数量,平均单页访问时间小于特定时间,超过一定数量就办ip1个小时,24小时连续办三次就办12小时,依次累加。这样爬个大站是不是成本就很大了? 其实很简单的,看到不顺眼的,直接拉一个C段ip进黑名单,再不顺眼,直接一个B段ip进黑名单,你要是还不顺眼,那就没办法了。反正我的黑名单库里已经好几百万ip了。
lol.gif
。。。结果只有一个,网站基本上没有ip了
titter.gif
理论上没错 但是防不住的 一般的都是大量代理1IP轮番QJ
lol.gif
移动端。。。就只有一个IP。。封了咋办 google的ip不固定的 基站IP只有一个,然后真正爬虫加个代理池不是很正常的操作。个人感觉比较好的反爬是用js加载网页,可以挡住很大一部分爬虫,剩下用selenium之类的,效率也会低很多 手机上网,都是同一个ip,宁杀一个,错杀1000。 爬虫也可以通过代理访问 IP才多少钱,拉几根家庭宽带呢?1.手机共享ip
2.家宽共享ip
3.公司很多人共享一个ip
lz打算怎么解决
页:
[1]
2