设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย Français

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 155|回复: 9

一个小爬虫(练手)

[复制链接]

5

主题

133

回帖

345

积分

中级会员

积分
345
发表于 2019-3-21 09:37:36 | 显示全部楼层 |阅读模式
本帖最后由 ai0by 于 2019-3-27 17:04 编辑
[ol]
  • # -*- coding: utf-8 -*-
  • from bs4 import BeautifulSoup
  • import requests
  • import urllib2
  • import random
  • def spy(url):
  •     req = urllib2.Request(url)
  •     req = urllib2.urlopen(req)
  •     page = req.read()
  •     soup = BeautifulSoup(page, "html.parser")
  •     for imgSoup in soup.find_all('div', {"class": "row"}):
  •         for i in imgSoup.find_all('div', {'class': 'photo'}):
  •             for j in i.find('div', {'class': 'photo-link-outer'}).find('a').find_all('img'):
  •                 img = j.get("src")
  •                 print img
  •                 str = random.sample('zyxwvutsrqponmlkjihgfedcba', 6)
  •                 downImg(img, str)
  •     nexturl = soup.find('p',{'class':'go-to-next-page'})
  •     nexturl = nexturl.find('a').get('href')
  •     pageurl = "http://jigadori.fkoji.com"+nexturl
  •     spy(pageurl)
  • def downImg(img,m):
  •     try:
  •         r = requests.get(img)
  •     except Exception , e:
  •         print "图片获取失败"
  •         return
  •     with open('./img/good%s.jpg' % m, 'wb') as f:
  •         f.write(r.content)
  • if __name__ == '__main__':
  •     url = "http://jigadori.fkoji.com"
  •     spy(url)[/ol]复制代码








    昨天上午看大佬发的资源没存上,自写了一个,不太完善,好歹算是能看。。。。
  • 回复

    使用道具 举报

    133

    主题

    1677

    回帖

    3873

    积分

    论坛元老

    积分
    3873
    发表于 2019-3-21 09:39:19 | 显示全部楼层
    了解一下requests
    回复

    使用道具 举报

    24

    主题

    1140

    回帖

    2402

    积分

    金牌会员

    积分
    2402
    发表于 2019-3-21 09:40:05 | 显示全部楼层
    膜拜大佬。。。。。。。
    回复

    使用道具 举报

    34

    主题

    659

    回帖

    1454

    积分

    金牌会员

    积分
    1454
    发表于 2019-3-21 09:40:18 | 显示全部楼层
    666,害我又上http://jigadori.fkoji.com/ 看了半天
    回复

    使用道具 举报

    275

    主题

    3280

    回帖

    7517

    积分

    论坛元老

    积分
    7517
    发表于 2019-3-21 09:40:49 | 显示全部楼层
    了解一下requests+asyncio
    回复

    使用道具 举报

    5

    主题

    133

    回帖

    345

    积分

    中级会员

    积分
    345
     楼主| 发表于 2019-3-21 09:45:02 | 显示全部楼层

    ansheng 发表于 2019-3-21 09:40

    了解一下requests+asyncio

    谢谢大佬指点,看看去
    回复

    使用道具 举报

    17

    主题

    81

    回帖

    221

    积分

    中级会员

    积分
    221
    发表于 2019-3-21 09:40:00 | 显示全部楼层
    学了一天的pycharm这个能看懂了,看来功夫没白费啊
    回复

    使用道具 举报

    0

    主题

    10

    回帖

    24

    积分

    新手上路

    积分
    24
    发表于 2019-3-24 01:41:45 | 显示全部楼层
    真就天天开车呗
    回复

    使用道具 举报

    5

    主题

    890

    回帖

    1893

    积分

    金牌会员

    积分
    1893
    发表于 2019-3-24 08:49:04 | 显示全部楼层
    这网站我打不开啊,被你爬死了???


    回复

    使用道具 举报

    327

    主题

    2272

    回帖

    5675

    积分

    论坛元老

    积分
    5675
    发表于 2019-3-24 08:51:54 | 显示全部楼层
    有没有1024整车的爬虫啊?
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|手机版|小黑屋|Discuz! X

    GMT+8, 2026-3-31 06:36 , Processed in 0.016754 second(s), 4 queries , Gzip On, Redis On.

    Powered by Discuz! X3.5

    © 2001-2025 Discuz! Team.

    快速回复 返回顶部 返回列表