admim 发表于 2019-3-19 20:08:48

反爬虫新思路

统计各种搜索引擎的ip, 其他ip指定时间段限制抓取页面数量,平均单页访问时间小于特定时间,超过一定数量就办ip1个小时,24小时连续办三次就办12小时,依次累加。
这样爬个大站是不是成本就很大了?

huazi2015 发表于 2019-3-19 21:32:11

其实很简单的,看到不顺眼的,直接拉一个C段ip进黑名单,再不顺眼,直接一个B段ip进黑名单,你要是还不顺眼,那就没办法了。反正我的黑名单库里已经好几百万ip了。
lol.gif
。。。结果只有一个,网站基本上没有ip了
titter.gif

tem 发表于 2019-3-19 20:15:56

理论上没错 但是防不住的

醉里耍大刀 发表于 2019-3-19 20:15:59

一般的都是大量代理1IP轮番QJ

a1438861827 发表于 2019-3-19 20:20:25


lol.gif
移动端。。。就只有一个IP。。封了咋办

krazy176 发表于 2019-3-19 20:21:20

google的ip不固定的

gougou6423 发表于 2019-3-19 20:28:46

基站IP只有一个,然后真正爬虫加个代理池不是很正常的操作。个人感觉比较好的反爬是用js加载网页,可以挡住很大一部分爬虫,剩下用selenium之类的,效率也会低很多

h2o 发表于 2019-3-19 20:31:37

手机上网,都是同一个ip,宁杀一个,错杀1000。

ahost 发表于 2019-3-19 20:36:39

爬虫也可以通过代理访问

greyboy 发表于 2019-3-19 20:41:53

IP才多少钱,拉几根家庭宽带呢?1.手机共享ip
2.家宽共享ip
3.公司很多人共享一个ip

lz打算怎么解决
页: [1] 2
查看完整版本: 反爬虫新思路