|
|
本帖最后由 hacker5402 于 2018-7-24 22:11 编辑
写的代理IP爬虫,写的差不多了,在收集代理网站,
收集了8个资源站 都是xpath一匹配就行,偏偏这个例外
这个http://www.goubanjia.com/
一个IP地址 要搞这么多标签搞混吗 就是不让人去爬吧 ..
然后写了段程序去爬。出来是出来了,结果发现request.get每次获取url的内容中的端口号都是变化的!
。。。端口号都是变化的
那其他工具get得到的也是,每次端口都是变化的,chrome检查元素的端口是正确的,但response的端口是变化的
然后去查看这个站里的js文件,发现个可疑的
解密后
大致恢复了下源代码
于是对着一写。。。
水一贴 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|