企业认证数据采集爬虫记录

企业认证数据采集爬虫记录

一、项目介绍:

1、爬取网站认证认可业务信息统一查询平台

2、项目要求企业认证数据采集需求说明书

3、项目部分完成代码: github

二、项目思路:

1、爬虫基本思路:

获取爬虫思路的方法顺序:

直接在渲染的网页源代码中爬取
ajax异步请求方式获取数据
js解密显示

2、爬虫基本方法:

  • Refererheaders参数:Referer代表你正在从哪个浏览器浏览网页
    headers代表头文件,可伪装成浏览器
    访问网页:
  • 处理网页图片验证码的方法:下载验证码的图片,手动输入验证码,并提交验证码至data数据

  • 实例化对象储存sessioncookies:让网站始终认为是你在浏览网页

c = http.cookiejar.LWPCookieJar()
cookies = urllib.request.HTTPCookieProcessor(c)

创建不是一般的opener来实现对Cookie的设置:
opener = urllib.request.build_opener(cookies)
urllib.request.install_opener(opener)


三、项目详细操作:

1、涉及到Python3.5的非标准库:

urllib.requesturllib.parselxmlhttp.cookiesjarjson

2、爬取组织列表的信息:

  • 首先进行抓包分析:打开chromenetwork模式,输入组织名称、验证码进行查询,网页显示查询到的组织列表:
org_list.png
  • 查看Network上的显示以下的加载文件:
name.png
  • 打开queryOrg.do?progld=10文件,查看提交data数据:
form_data.png

以及文件的提交方式请求地址

post.png
  • 构造一个函数通过ajax异步请求来获取组织列表的信息:
def get_orgaList_info():
    #下载验证码进行手动输入:
    with open('code.png','wb') as f:
        f.write(opener.open('http://cx.cnca.cn/rjwcx/checkCode/rand.do?d=1507441665016').read())
    #手动输入验证码:
    code = input("请输入验证码:")
    #构造提交的表单数据:
    data = {
        'certNumber':'',
        'orgName':'漳州灿坤实业有限公司',
        'queryType': 'public',
        #输入的验证码信息
        'checkCode': code
    }
    #提交表单数据和头文件:
    data = urllib.parse.urlencode(data).encode('utf-8')
    req = urllib.request.Request('http://cx.cnca.cn/rjwcx/web/cert/queryOrg.do?progId=10')
    #添加头文件
    req.headers = headers
    #得到的数据为bytes(字节)类型:
    org_list = opener.open(req,data=data).read()

注意:这里得到的org_listAscii编码,对该数据进行解码成字符串后,通过json模块的loads()的方法将对json数据进行解码,转换成可操作的字典格式:

org_list_json = json.loads(org_list.decode('ascii'))

将提取到以下信息,每一条这样的字典格式的信息代表每一个的组织的信息

{'data': [
    {'randomCheckCode': '3', 
    'checkC': '1247458294',
    'orgCode': '000000000',
    'orgDistrictName': '', 
    'orgName': '漳州灿坤实业有限公司'}] 
}

3、对返回的org_list_json循环,获取证书列表的信息:

  • 点击任意组织名称,网页显示该组织的所有证书的列表:
cert_list.png

此时,Network上会再加载list.do?progld=10文件:

name2.png

分析提交的表单的数据:orgNameorgCodecheckC每个组织都是不相同的,所以要从get_orgaList_info()返回的参数中继承,以及继承之前输入的验证码randomCheckCode

form_data2.png
  • 创建一个获取证书列表的信息,通过传入之前获得的json数据里的参数,以及获取的验证码:
def get_certList_info(orgName,orgCode,checkC,code):
    req = urllib.request.Request('http://cx.cnca.cn/rjwcx/web/cert/list.do?progId=10')
    req.headers = headers
    #构造提交的data数据
    data = {
        'orgName': orgName,
        'orgCode': orgCode,
        'method': 'queryCertByOrg',
        'needCheck': 'false',
        'checkC': checkC,
        'randomCheckCode': code,
        'queryType': 'public',
        'page': '1',
        'rows': '10',
        'checkCode':''
    }
    #转换成查询字符串(bytes):
    data = urllib.parse.urlencode(data).encode('utf-8')
    #获得提交data数据后的json信息
    cert_list_bytes = opener.open(req,data=data).read()
    cert_list_json = json.loads(cert_list_bytes.decode('ascii'))
    return cert_list_json['rows']
  • 将爬取到一下的信息:每一个信息代表每一个证书的信息:
{'authProjCodeName': 
    '电子信息产品污染控制自愿性认证', 
    'certiStatusName': '有效',
    'rzjgId': 'CNCA-RF-2002-07', 
    'certiEDate': '2021-08-31', 
    'showtemp': '4', 
    'rzjgIdName': '上海天祥质量技术服务有限公司',
    'zersda': '20160929', 
    'certNumber': 'R2_130800590SHA-001',
    'certiStatus': '01', 
    'row': 1, 
    'orgName': '漳州灿坤实业有限公司',
    'checkC': -536800051, 
    'authProjCode': 'B0331'
}

4、对返回的cert_list_json循环,获取每一个证书的内容

  • 点击一个证书网页,打开Network,刷新后查看加载的文件,找到showZyx...文件:
name3.png
  • 网页采取GET请求方式,请求的参数显示在网页的URL上:
form_data3.png

分析网页的URLhttp://cx.cnca.cn/rjwcx/web/cert/showZyxGy.do?rzjgId={}&certNo={}&checkC={}

请求的三个参数都位于每一个cert_list_json中,不同的参数对应不同的url,也对应不同的证书页面的内容

  • 创建一个传入从get_certList_info返回的rajgidcertNocheckC的参数,获得证书页面的内容:
def get_cert_info(rajgid,certNo,checkC):
    #构造和传入参数结合的url
    url = 'http://cx.cnca.cn/rjwcx/web/cert/showZyxGy.do?''rzjgId={}&certNo={}&checkC={}'.format(rajgid,certNo,checkC)
    req = urllib.request.Request(url)
    req.headers = headers
    html = opener.open(req).read().decode('utf-8')
    print(html)


四、项目的总结:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容