反爬虫新思路 - 第2页 - 美国VPS综合讨论 - 全球主机交流论坛

Kslrjbiao520 发表于 2019-3-19 20:42:20

能防刚入门的，玩多了爬虫的各种代理ip池都给你上

robot 发表于 2019-3-19 20:42:59

"
大量有多大？几千？

admim 发表于 2019-3-19 20:57:14

其实很简单的，看到不顺眼的，直接拉一个C段ip进黑名单，再不顺眼，直接一个B段ip进黑名单，你要是还不顺眼，那就没办法了。反正我的黑名单库里已经好几百万ip了。
lol.gif
。。。结果只有一个，网站基本上没有ip了
titter.gif

huazi2015 发表于 2019-3-19 21:05:17

最好的方法是脏数据。

miven 发表于 2019-3-19 20:15:00

admim 发表于 2019-3-19 21:05

大量有多大？几千？
比如我自用的proxy代理池，全靠爬取网上免费的代理IP，现在大概有15W可用的代理IP，量够大吗？
lol.gif
lol.gif

gougou6423 发表于 2019-3-19 21:32:11

gougou6423 发表于 2019-3-19 22:14

比如我自用的proxy代理池，全靠爬取网上免费的代理IP，现在大概有15W可用的代理IP，量够大吗？ ...
那种代理可用性变化快吧，速度慢，搞起来耗时吧

cache 发表于 2019-3-19 22:13:02

cache 发表于 2019-3-19 22:16

那种代理可用性变化快吧，速度慢，搞起来耗时吧
是的，每天会检查一遍可用性，但还是有不少不能用的，而且很多代理速度慢，不过多线程爬虫无所谓啦，能访问就可以了

gougou6423 发表于 2019-3-19 22:14:11

比较成熟的防采集一般都是用cdn来防，比如腾讯系的一般都是腾讯cdn，国外的就是cf
这些方法一般都有用，不过采集者要是较真的话，非要采集你的站，你还真防不住

gmjiaoyi 发表于 2019-3-19 21:05:00

最牛逼的反爬虫，还是返回假数据，而且不是那种能一眼看得出的假数据。
通过请求路径的行为分析，可以做到判断一个访问是不是来自于爬虫的，把阈值调高一点，降低误判。
methol 发表于 2019-3-19 22:32

最牛逼的反爬虫，还是返回假数据，而且不是那种能一眼看得出的假数据。
通过请求路径的行为分析，可以做到 ...
我人肉复制粘贴

metholtem 发表于 2019-3-19 22:16:59

tem 发表于 2019-3-19 22:40

我人肉复制粘贴
那就是看成本了。
人力成本花费的值不值得。。

页: 1 [2]

全球主机交流论坛's Archiver