05_“12369”举报案件

简述

通过前面练习,应该抓取简单静态页面so easy,本节主要实现抓取动态加载(JavaScript)内容页面。
抓取数据请勿存档,商用请联系 环境保护部信息中心 获取授权

爬取对象

抓取环保部数据中心“12369”举报案件情况

“12369”举报案件情况

使用包

import pymssql # MS Sql Server 操作
from bs4 import BeautifulSoup
import time, os 
import requests
import datetime

实现步骤

1、抓取对象初步分析
  • 通过F12捕获页面内容,分析页面加载内容,得知目标内容主要为Table布局,通过javascript:jumpPage2(2);进行页面跳转。
页面分析
页面跳转方式
  • 分析总结主体抓取步骤如下
Start
1、获取总页数,确定循环次数
2、单页内容抓取,按行拆分存储至数据库
3、测试翻页抓取
End_重复上述步骤
2、实际抓取
获取总页数
DOWNLOAD_URL = 'http://datacenter.mep.gov.cn/index!MenuAction.action?name=e3022e3d34274fdeabccd9ca8b17fef4'

# 页面下载
def download_page(url):
    return requests.get(url, headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
    }).content

# 获得总页数
def parse_html(html):
    soup = BeautifulSoup(html, "html.parser")
    print(soup.find('div', attrs = {'class': 'report_page'}))   
    #None

html = download_page(DOWNLOAD_URL)
allPageNum = parse_html(html)
  • 遇到问题,抓取返回Null
  • 分析得知,目标对象与请求Url为父子页面关系,通过Iframe关联
Table在iframe中
#修改请求URL
DOWNLOAD_URL = 'http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1462866483032'

# 获得总页数
def parse_html(html):
    soup = BeautifulSoup(html, "html.parser")

    page = str(soup.find('div', attrs = {'class': 'report_page'}).findAll('a')[-1]) # 取出 “末页” 翻页,得到总页数
    allPageNum = page[page.index('(') + 1:page.index(')')]
    print("总页数:" + allPageNum)
    return allPageNum
单页内容抓取
  • 循环解析Table入库即可,期间sql因格式化字符串少写一个,遇到如下问题
            #如 %s 与 column_0未对齐,出现异常提示如下:TypeError: not enough arguments for format string
            sql = "insert into Space0011A values ('%s','%s','%s','%s','%s','%s','%s','%s')"  % (column_0,column_1,column_2,column_3,column_4,column_5,column_6,column_7)

             #如未对齐,出现异常提示如下:IndexError: tuple index out of range
            #sql = "insert into Space0011A values ('{0}', '{1}', '{2}', '{3}', '{4}', '{5}', '{6}', '{7}')".format(column_0,column_1,column_2,column_3,column_4,column_5,column_6,column_7)
            ms.ExecNonQuery(sql.encode('utf-8'))
翻页抓取
Post参数分析
  • 尝试直接模拟参数提交
DOWNLOAD_URL = 'http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1462866483032'

# 页面下载
def download_page_post(url,pageNum):
    formdata = {'page.pageNo':pageNum,'page.orderBy':'','page.order':'','orderby':'','ordertype':'','xmlname':'1462866483032','gisDataJson':'','queryflag':'close','isdesignpatterns':'false','YEAR':'','MONTH':'','ENTE':'','inPageNo':3}

    return requests.post(url,timeout=60, data=formdata, headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'        
    }).content

def parse_html(html):
    soup = BeautifulSoup(html, "html.parser")
    print(soup)   

html = download_page_post(DOWNLOAD_URL,2)
parse_html(html)
返回HTML
  • 根据返回怀疑是参数传递不正确,自动跳转主页
  • 后尝试将参数转成json提交
def download_page_post(url,pageNum):
    formdata = {'page.pageNo':pageNum,'page.orderBy':'','page.order':'','orderby':'','ordertype':'','xmlname':'1462866483032','gisDataJson':'','queryflag':'close','isdesignpatterns':'false','YEAR':'','MONTH':'','ENTE':'','inPageNo':3}

    return requests.post(url,timeout=60, data=json.dumps(formdata), headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'        
    }).content
返回抓取页面
  • 切换页面继续测试,- -,行号一直是 1 - 20,原来转换json不正确,导致服务器一直认为应该返回首页
  • 去掉json格式转换,继续对比分析,许久后发现参数中xmlnameURL中重复,发现去掉其一即可......
DOWNLOAD_URL = 'http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1462866483032'

# 页面下载
def download_page_post(url,pageNum):
    formdata = {'page.pageNo':pageNum}

    return requests.post(url,timeout=60, data=formdata, headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'        
    }).content
返回第二页数据

总结

本轮示例主要实现JavaScript动态翻页数据解析,期间主要使用 Post带参提交,完成模拟翻页操作,至此完成“12369”举报数据抓取......

抓取完成
简易展示
简易分析

源码:
MSSql_SqlHelp
spider_12369

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,946评论 25 707
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,079评论 4 62
  • 七月半小结 (单位:小时) 中文:7.2 国商:38.8 学习总结:4.5 练字:0.6 其它:1.5 游泳/m:...
    四百分阅读 230评论 0 0
  • --记学院暑期“三下乡”社会实践活动出征仪式 为贯彻落实以社会主义核心价值观为核心的理论,配合广大青年为主的“一学...
    海大寸金朝晖阅读 315评论 0 0
  • 早上带儿子去看痘痘,鼻子上的痘已经长了快一年了,好了又长一年来从未间断过,期间吃过中药,也不见好转。国庆的假期经朋...
    幸福一定来阅读 171评论 0 0