设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย Français

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 34|回复: 3

爬虫大佬在吗

[复制链接]

18

主题

109

回帖

278

积分

中级会员

积分
278
发表于 2019-11-20 10:23:12 | 显示全部楼层 |阅读模式
目测是小说站  可视化采集
回复

使用道具 举报

9

主题

170

回帖

453

积分

中级会员

积分
453
发表于 2019-11-20 10:25:12 | 显示全部楼层
你从bbs开始匹配不是就可以了吗
回复

使用道具 举报

701

主题

5337

回帖

1万

积分

论坛元老

积分
12879
发表于 2019-11-20 10:26:57 | 显示全部楼层
取完,然后删掉前面10行不就行了
回复

使用道具 举报

18

主题

109

回帖

278

积分

中级会员

积分
278
 楼主| 发表于 2019-11-20 10:29:20 | 显示全部楼层
不能循环?
[ol]
  • import re
  • from lxml import etree
  • s = '''[tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]
  • [tr][/tr]'''
  • html = etree.HTML(s)
  • node = html.xpath('//tr[@class="bbs_tb3"]/following::tr')
  • print(len(node))[/ol]复制代码
  • 回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|手机版|小黑屋|Discuz! X

    GMT+8, 2025-12-19 00:46 , Processed in 0.027539 second(s), 4 queries , Gzip On, Redis On.

    Powered by Discuz! X3.5

    © 2001-2025 Discuz! Team.

    快速回复 返回顶部 返回列表