一个小爬虫（练手）

ai0by · 发表于 2019-3-21 09:37:36

本帖最后由 ai0by 于 2019-3-27 17:04 编辑
[ol]

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup

import requests

import urllib2

import random

def spy(url):

req = urllib2.Request(url)

req = urllib2.urlopen(req)

page = req.read()

soup = BeautifulSoup(page, "html.parser")

for imgSoup in soup.find_all('div', {"class": "row"}):

for i in imgSoup.find_all('div', {'class': 'photo'}):

for j in i.find('div', {'class': 'photo-link-outer'}).find('a').find_all('img'):

img = j.get("src")

print img

str = random.sample('zyxwvutsrqponmlkjihgfedcba', 6)

downImg(img, str)

nexturl = soup.find('p',{'class':'go-to-next-page'})

nexturl = nexturl.find('a').get('href')

pageurl = "http://jigadori.fkoji.com"+nexturl

spy(pageurl)

def downImg(img,m):

try:

r = requests.get(img)

except Exception , e:

print "图片获取失败"

return

with open('./img/good%s.jpg' % m, 'wb') as f:

f.write(r.content)

if __name__ == '__main__':

url = "http://jigadori.fkoji.com"

spy(url)[/ol]复制代码

昨天上午看大佬发的资源没存上，自写了一个，不太完善，好歹算是能看。。。。

ai0by · 发表于 2019-3-21 09:45:02

ansheng 发表于 2019-3-21 09:40

了解一下requests+asyncio
谢谢大佬指点，看看去

		自动登录	找回密码
密码			立即注册