查看: 117|回复: 6

请教一下python爬虫大佬

[复制链接]

184

主题

430

回帖

1520

积分

金牌会员

积分
1520
发表于 2018-6-6 02:43:41 | 显示全部楼层 |阅读模式
本帖最后由 流量之神 于 2020-5-4 23:36 编辑

用 requests.get(url) 下载的图片全是坏的。。。大小都是一样的
回复

使用道具 举报

19

主题

377

回帖

873

积分

高级会员

积分
873
发表于 2018-6-6 07:22:37 | 显示全部楼层
反扒了,加reference
回复

使用道具 举报

184

主题

430

回帖

1520

积分

金牌会员

积分
1520
 楼主| 发表于 2018-6-6 07:34:00 | 显示全部楼层

eqblog 发表于 2018-6-6 07:34

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gec ...

大佬您来了



加了headers好像还是不行啊,图片的URL打开进去好像是一个网页,还得再解析一次HTML好像。。。http://www.siimg.com/i/?i=u/20180605/12045739.jpg 比如这个图片


[ol]
  • import re
  • import requests
  • import json
  • from multiprocessing import Pool
  • from requests.exceptions import RequestException
  • import os
  • from hashlib import md5
  • from bs4 import BeautifulSoup
  • headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36Name','Referer':'https://t66y.com'}
  • def get_page_index(offset):
  •     url = 'http://t66y.com/thread0806.php?fid=16&search=&page=' + str(offset)
  •     try:
  •         response = requests.get(url, headers = headers)
  •         response.encoding = 'gbk'
  •         if response.status_code == 200:
  •             return response.text
  •         return None
  •     except RequestException:
  •         print('请求索引页出错')
  •         return None
  • def parse_index_page(html):
  •     soup = BeautifulSoup(html, 'html.parser')
  •     h3s= soup.find_all('h3')
  •     for h3 in h3s:
  •         yield h3
  • def get_page_detail(url):
  •     try:
  •         response = requests.get(url, headers = headers)
  •         response.encoding = 'gbk'
  •         print(response.status_code)
  •         if response.status_code == 200:
  •             return response.text
  •         return None
  •     except ConnectionError:
  •         print('Error occurred')
  •         return None
  • def parse_page_detail(html2):
  •     pattern = re.compile('复制代码
  • 回复

    使用道具 举报

    182

    主题

    1306

    回帖

    3260

    积分

    论坛元老

    积分
    3260
    发表于 2018-6-6 07:34:09 | 显示全部楼层
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36Name','Referer':'https://t66y.com'}



    加个headers就好了
    回复

    使用道具 举报

    127

    主题

    1万

    回帖

    2万

    积分

    论坛元老

    积分
    22891
    发表于 2018-6-6 07:44:45 | 显示全部楼层
    楼主爬好之后能打包分享下吗。。
    回复

    使用道具 举报

    42

    主题

    215

    回帖

    638

    积分

    高级会员

    积分
    638
    发表于 2018-6-6 08:21:43 | 显示全部楼层
    加headers
    回复

    使用道具 举报

    28

    主题

    356

    回帖

    866

    积分

    高级会员

    积分
    866
    发表于 2018-6-6 11:50:00 | 显示全部楼层
    "

    不分享的你别教……
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    关注公众号

    相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

    Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.

    在本版发帖
    关注公众号
    返回顶部