Kslrjbiao520 发表于 2019-3-19 20:42:20

能防刚入门的,玩多了爬虫的 各种代理ip池都给你上

robot 发表于 2019-3-19 20:42:59

"
大量有多大?几千?

admim 发表于 2019-3-19 20:57:14

其实很简单的,看到不顺眼的,直接拉一个C段ip进黑名单,再不顺眼,直接一个B段ip进黑名单,你要是还不顺眼,那就没办法了。反正我的黑名单库里已经好几百万ip了。
lol.gif
。。。结果只有一个,网站基本上没有ip了
titter.gif

huazi2015 发表于 2019-3-19 21:05:17

最好的方法是脏数据。

miven 发表于 2019-3-19 20:15:00


admim 发表于 2019-3-19 21:05

大量有多大?几千?
比如我自用的proxy代理池,全靠爬取网上免费的代理IP,现在大概有15W可用的代理IP,量够大吗?
lol.gif
lol.gif

gougou6423 发表于 2019-3-19 21:32:11


gougou6423 发表于 2019-3-19 22:14

比如我自用的proxy代理池,全靠爬取网上免费的代理IP,现在大概有15W可用的代理IP,量够大吗? ...
那种代理可用性变化快吧,速度慢,搞起来耗时吧

cache 发表于 2019-3-19 22:13:02


cache 发表于 2019-3-19 22:16

那种代理可用性变化快吧,速度慢,搞起来耗时吧
是的,每天会检查一遍可用性,但还是有不少不能用的,而且很多代理速度慢,不过多线程爬虫无所谓啦,能访问就可以了

gougou6423 发表于 2019-3-19 22:14:11

比较成熟的防采集一般都是用cdn来防,比如腾讯系的一般都是腾讯cdn,国外的就是cf
这些方法一般都有用,不过采集者要是较真的话,非要采集你的站,你还真防不住

gmjiaoyi 发表于 2019-3-19 21:05:00

最牛逼的反爬虫,还是返回假数据,而且不是那种能一眼看得出的假数据。
通过请求路径的行为分析,可以做到判断一个访问是不是来自于爬虫的,把阈值调高一点,降低误判。
methol 发表于 2019-3-19 22:32

最牛逼的反爬虫,还是返回假数据,而且不是那种能一眼看得出的假数据。
通过请求路径的行为分析,可以做到 ...
我人肉复制粘贴

metholtem 发表于 2019-3-19 22:16:59


tem 发表于 2019-3-19 22:40

我人肉复制粘贴
那就是看成本了。
人力成本花费的值不值得。。
页: 1 [2]
查看完整版本: 反爬虫新思路