hacker5402 发表于 2018-7-24 22:10:10

写爬虫时遇到个神奇的站点

本帖最后由 hacker5402 于 2018-7-24 22:11 编辑

写的代理IP爬虫,写的差不多了,在收集代理网站,
收集了8个资源站 都是xpath一匹配就行,偏偏这个例外
这个http://www.goubanjia.com/




一个IP地址 要搞这么多标签搞混吗 就是不让人去爬吧 ..





然后写了段程序去爬。出来是出来了,结果发现request.get每次获取url的内容中的端口号都是变化的!
。。。端口号都是变化的
那其他工具get得到的也是,每次端口都是变化的,chrome检查元素的端口是正确的,但response的端口是变化的
然后去查看这个站里的js文件,发现个可疑的





解密后





大致恢复了下源代码




于是对着一写。。。





水一贴

fei2018 发表于 2018-7-24 22:12:20

牛逼啊大佬,想跟你学技术

广东吴彦祖 发表于 2018-7-24 22:12:24

看不懂 楼下大佬解释下
008.gif

doruison 发表于 2018-7-24 22:14:48

排风完全不会,js忘光了

ddosworks 发表于 2018-7-24 22:15:38

你还没见过生成图片然后取坐标的

hacker5402 发表于 2018-7-24 22:18:35


ddosworks 发表于 2018-7-24 22:15

你还没见过生成图片然后取坐标的

就是觉得这个一个代理IP而已还至于这样吗..

liang0754 发表于 2018-7-24 22:15:00

何必呢少年
022.gif
[*]http://www.66ip.cn/mo.php?tqsl=1000复制代码

话说你这个 goubanjia == 狗搬家 ?

hacker5402 发表于 2018-7-24 22:25:57


liang0754 发表于 2018-7-24 22:25

何必呢少年
太多不能用了,这个站也在采集的资源站了,都是定时采集验证入库

爱吹海绵的泡泡 发表于 2018-7-24 22:41:19

大佬收徒吗

timsjy02201949 发表于 2018-7-24 22:25:00

同楼上,收徒吗爬虫我会,就是js苦手,反爬的业界毒瘤
页: [1] 2
查看完整版本: 写爬虫时遇到个神奇的站点