大量有多大?几千? 其实很简单的,看到不顺眼的,直接拉一个C段ip进黑名单,再不顺眼,直接一个B段ip进黑名单,你要是还不顺眼,那就没办法了。反正我的黑名单库里已经好几百万ip了。
lol.gif
。。。结果只有一个,网站基本上没有ip了
titter.gif
最好的方法是脏数据。
admim 发表于 2019-3-19 21:05
大量有多大?几千?
比如我自用的proxy代理池,全靠爬取网上免费的代理IP,现在大概有15W可用的代理IP,量够大吗?
lol.gif
lol.gif
gougou6423 发表于 2019-3-19 22:14
比如我自用的proxy代理池,全靠爬取网上免费的代理IP,现在大概有15W可用的代理IP,量够大吗? ...
那种代理可用性变化快吧,速度慢,搞起来耗时吧
cache 发表于 2019-3-19 22:16
那种代理可用性变化快吧,速度慢,搞起来耗时吧
是的,每天会检查一遍可用性,但还是有不少不能用的,而且很多代理速度慢,不过多线程爬虫无所谓啦,能访问就可以了 比较成熟的防采集一般都是用cdn来防,比如腾讯系的一般都是腾讯cdn,国外的就是cf
这些方法一般都有用,不过采集者要是较真的话,非要采集你的站,你还真防不住 最牛逼的反爬虫,还是返回假数据,而且不是那种能一眼看得出的假数据。
通过请求路径的行为分析,可以做到判断一个访问是不是来自于爬虫的,把阈值调高一点,降低误判。
methol 发表于 2019-3-19 22:32
最牛逼的反爬虫,还是返回假数据,而且不是那种能一眼看得出的假数据。
通过请求路径的行为分析,可以做到 ...
我人肉复制粘贴
tem 发表于 2019-3-19 22:40
我人肉复制粘贴
那就是看成本了。
人力成本花费的值不值得。。
页:
1
[2]