设为首页收藏本站

简体中文 繁體中文 English 日本語 Deutsch 한국 사람 بالعربية TÜRKÇE português คนไทย Français

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 160|回复: 9

一个小爬虫(练手)

[复制链接]

5

主题

133

回帖

345

积分

中级会员

积分
345
发表于 2019-3-21 09:37:36 | 显示全部楼层 |阅读模式
本帖最后由 ai0by 于 2019-3-27 17:04 编辑
[ol]
  • # -*- coding: utf-8 -*-
  • from bs4 import BeautifulSoup
  • import requests
  • import urllib2
  • import random
  • def spy(url):
  •     req = urllib2.Request(url)
  •     req = urllib2.urlopen(req)
  •     page = req.read()
  •     soup = BeautifulSoup(page, "html.parser")
  •     for imgSoup in soup.find_all('div', {"class": "row"}):
  •         for i in imgSoup.find_all('div', {'class': 'photo'}):
  •             for j in i.find('div', {'class': 'photo-link-outer'}).find('a').find_all('img'):
  •                 img = j.get("src")
  •                 print img
  •                 str = random.sample('zyxwvutsrqponmlkjihgfedcba', 6)
  •                 downImg(img, str)
  •     nexturl = soup.find('p',{'class':'go-to-next-page'})
  •     nexturl = nexturl.find('a').get('href')
  •     pageurl = "http://jigadori.fkoji.com"+nexturl
  •     spy(pageurl)
  • def downImg(img,m):
  •     try:
  •         r = requests.get(img)
  •     except Exception , e:
  •         print "图片获取失败"
  •         return
  •     with open('./img/good%s.jpg' % m, 'wb') as f:
  •         f.write(r.content)
  • if __name__ == '__main__':
  •     url = "http://jigadori.fkoji.com"
  •     spy(url)[/ol]复制代码








    昨天上午看大佬发的资源没存上,自写了一个,不太完善,好歹算是能看。。。。
  • 回复

    使用道具 举报

    5

    主题

    133

    回帖

    345

    积分

    中级会员

    积分
    345
     楼主| 发表于 2019-3-21 09:45:02 | 显示全部楼层

    ansheng 发表于 2019-3-21 09:40

    了解一下requests+asyncio

    谢谢大佬指点,看看去
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|手机版|小黑屋|Discuz! X

    GMT+8, 2026-4-4 11:31 , Processed in 0.016323 second(s), 4 queries , Gzip On, Redis On.

    Powered by Discuz! X3.5

    © 2001-2025 Discuz! Team.

    快速回复 返回顶部 返回列表