找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 50|回复: 4

[已解决]求教采集过程中链接抓取的方法

[复制链接]

9

主题

34

回帖

117

积分

注册会员

积分
117
发表于 2018-5-9 12:00:05 | 显示全部楼层 |阅读模式
直接上链接,不然看不懂
回复

使用道具 举报

46

主题

606

回帖

1386

积分

金牌会员

积分
1386
发表于 2018-5-9 12:45:17 | 显示全部楼层
火车采集适合你。搜下7.6版本。好像就可以了
回复

使用道具 举报

110

主题

525

回帖

1434

积分

金牌会员

积分
1434
发表于 2018-5-9 14:05:15 | 显示全部楼层
直接连他数据库想怎么查就怎么查。
回复

使用道具 举报

9

主题

747

回帖

1557

积分

金牌会员

积分
1557
发表于 2018-5-9 14:27:57 | 显示全部楼层
php curl 异步模式了解下?

先生成 url 链接数组 比如
url/1.html
url/2.html
url/n.html

然后异步模式 把这些内容全部抓取回来
返回的是数组 每个数组值 就是网页内容
然后 implode() 把所有内容合并为一个

在match里面的链接
就可以提取了

这个模式取决于对方的并发
如果对方并发小 需要range生成 追加到数组里 比如url有2000个 每次采100个处理一次 然后追加

PHP是最好的语言 手动滑稽....


回复

使用道具 举报

12

主题

500

回帖

1068

积分

金牌会员

积分
1068
发表于 2018-5-9 14:47:42 | 显示全部楼层
玩点骚的 xpath, css Selector,  re,  dom tree
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-5-9 01:30 , Processed in 0.017244 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表