python抓取图片例子(ajax)

例子是仿抄:崔庆才先生 的案例
他的个人博客地址是:http://cuiqingcai.com/
#!/bin/python3.4
# -- coding:utf-8 --

import re
import json
from bs4 import BeautifulSoup
from urllib.parse import urlencode
from requests.exceptions import RequestException
import requests
from config import *
from hashlib import md5
from multiprocessing import Pool
from json.decoder import JSONDecoder
from pymongo import MongoClient
import os

client = MongoClient(MONGO_URL,connect=False)
db = client[MONGO_DB]

def get_page_index(offset,keyword):
    data = {
        'offset':offset,
        'format':'json',
        'keyword':keyword,
        'autoload':'true',
        'count':'20',
        'cur_tab':1
    }
    url = 'http://www.toutiao.com/search_content/?' + urlencode(data)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print ("请求索引页面出错")
        return None

def parse_page_index(html):
    try:
        data = json.loads(html)
        if data and 'data' in data.keys():
            for item in data.get('data'):
                yield item.get('article_url')
    except JSONDecoder:
        pass

def get_page_detail(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print ("请求详情页面出错",url)
        return None

def parse_page_detail(html,url):
    soup = BeautifulSoup(html,'lxml')
    title = soup.select('title')[0].get_text()
    images_pattern = re.compile('var gallery = (.*?);',re.S)
    result = re.search(images_pattern,html)
    if result:
        data = json.loads(result.group(1))
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            images = [item.get('url') for item in sub_images]
            for image in images: download_image(image)
            return {
                'title':title,
                'url':url,
                'images':images,
            }

def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):
        print ("存储到Mongodb成功",result)
        return True
    return False

def download_image(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            save_image(response.content)
        return None
    except RequestException:
        print ("请求图片出错")
        return None

def save_image(content):
    file_path = '{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')
    if not os.path.exists(file_path):
        with open(file_path,'wb') as f:
            f.write(content)
            f.close()

def main(offset):
    html = get_page_index(offset,KEYWORD)
    for url in parse_page_index(html):
        html = get_page_detail(url)
        if html:
            result = parse_page_detail(html,url)
            if result: save_to_mongo(result)

if __name__ == '__main__':
    groups = [x * 20 for x in range(GROUP_START,GROUP_END + 1)]
    pool = Pool()
    pool.map(main,groups)

config.py配置文件

#!/bin/python3.4
# -*- coding:utf-8 -*-
MONGO_URL = 'localhost'
MONGO_DB = 'toutiao'
MONGO_TABLE = 'toutiao'

GROUP_START = 1
GROUP_END = 20

KEYWORD = '街拍'

images_pattern与result正则匹配到数据转化成json格式:

"sub_images":
[
    {
    "url":"http:\/\/p2.pstatp.com\/origin\/168300027e4c8323ee22",
    "width":700,
    "url_list":
        [
         {"url":"http:\/\/p2.pstatp.com\/origin\/168300027e4c8323ee22"},
          {"url":"http:\/\/pb3.pstatp.com\/origin\/168300027e4c8323ee22"},
          {"url":"http:\/\/pb3.pstatp.com\/origin\/168300027e4c8323ee22"}
        ],
    "uri":"origin\/168300027e4c8323ee22","height":981
    },

    {
    "url":"http:\/\/p2.pstatp.com\/origin\/168600026fb5ecf86ba9",
    "width":700,
    "url_list":
        [
            {"url":"http:\/\/p2.pstatp.com\/origin\/168600026fb5ecf86ba9"},
            {"url":"http:\/\/pb3.pstatp.com\/origin\/168600026fb5ecf86ba9"},
            {"url":"http:\/\/pb3.pstatp.com\/origin\/168600026fb5ecf86ba9"}
        ],
    "uri":"origin\/168600026fb5ecf86ba9","height":891
    },
    
    {
    "url":"http:\/\/p3.pstatp.com\/origin\/16870003ef0948da7863",
    "width":700,
    "url_list":
        [
            {"url":"http:\/\/p3.pstatp.com\/origin\/16870003ef0948da7863"},
            {"url":"http:\/\/pb2.pstatp.com\/origin\/16870003ef0948da7863"},
            {"url":"http:\/\/pb3.pstatp.com\/origin\/16870003ef0948da7863"}
        ],
    "uri":"origin\/16870003ef0948da7863","height":1078
    },
    
    
    {
    "url":"http:\/\/p1.pstatp.com\/origin\/16820003ee9c72717ad5",
    "width":700,
    "url_list":
        [
            {"url":"http:\/\/p1.pstatp.com\/origin\/16820003ee9c72717ad5"},
            {"url":"http:\/\/pb3.pstatp.com\/origin\/16820003ee9c72717ad5"},
            {"url":"http:\/\/pb3.pstatp.com\/origin\/16820003ee9c72717ad5"}
        ],
    "uri":"origin\/16820003ee9c72717ad5","height":999
    },
    
    {
    "url":"http:\/\/p1.pstatp.com\/origin\/16870003ef0b2bbec810",
    "width":960,
    "url_list":
        [
            {"url":"http:\/\/p1.pstatp.com\/origin\/16870003ef0b2bbec810"},
            {"url":"http:\/\/pb3.pstatp.com\/origin\/16870003ef0b2bbec810"},
            {"url":"http:\/\/pb3.pstatp.com\/origin\/16870003ef0b2bbec810"}
        ],
    "uri":"origin\/16870003ef0b2bbec810","height":609
    }
],
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,495评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,050评论 25 707
  • 想想看,我的阅读观和生活观还挺一致的。 选书来读,标准就是有趣,而并非有用。交朋友也是这样,标准就是有趣谈得来,并...
    赤芜小茴阅读 81评论 0 0
  • 为方便阅读,该内容需具备一定的HTML+CSS基础。 为什么学习JavaScript 一、为什么JavaScrip...
    百草纪阅读 278评论 0 1
  • 最近看的大多都是日本作品,渡边把一场婚外之恋的情欲描写的如同樱花燃烧的火焰般绚丽,很快又化为乌有。开时美艳,掉落时...
    独立行走的鱼阅读 907评论 1 1