说明:个人练手python用。
操作系统:window10 x64
IDE:Pycharm 2017.2.2
Python版本:3.6.2
目标
- 牛客网是一个IT笔试面试的平台,提供了很多题库,今天我们使用python爬取其中的Java专项练习库。
步骤
1、接口抓取:如果是爬取网页,前后端分离的项目可以抓取接口,如果没有分离,则需要爬取整个网页然后使用正则筛选。这里我们直接抓取客户端接口即可。
2、模拟网络请求,获取数据(这里是json)
3、json解析,题目格式调整、写入文件
一、接口抓取
- 工具:Fiddler
- 对象:牛客网Android客户端2.21.3.3091
通过Fiddler发现,获取专项练习题的接口为:
http://m.nowcoder.com/test/get-all-question?t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&tid=10716711
这里:
- t=02436CC60E649584D5C4BBF57709E5CA应该是用户身份标识
- tid=10716711是本次练习的编号(Java专项练习一共900多道题,每次练习会随机组卷,组卷数量为5、10、20、30这些,这个tid就是组出的试卷的编号)
使用Fiddler模拟请求,就可以得到该tid对应10道题目的json数据了,由于每次请求tid没有变化,可以发现多次请求的json结果是一样的,类似下面的:
{
"data": {
"paper": {
......省略部分
"diffcult": 3,
"questionCount": 10,
......省略部分
},
"allQuestion": [
{
"score": 10,
"shielded": false,
"question": {
"content": "<p>\n <span>下列关于构造方法不正确的是:( </span>\n <span> )</span>\n</p>\n<p style=\"text-indent: 15.8pt;\">\n <br>\n</p>\n<p>\n <br>\n</p>",
"id": 69561,
"title": "下列关于构造方法不正确的是:( )",
"answer": [
{
"content": "类的构造方法和类同名",
"id": 111297,
"type": 0
},
......省略部分
],
......省略部分
},
"pos": 1
},
......省略部分
],
"userAnswers": [
{
"userAnswer": "111300",
"pos": 1
},
......省略部分
]
},
"code": 0,
"msg": "OK"
}
要想不一样,就需要不一样的tid了,发现生成tid的接口如下:
POST http://m.nowcoder.com/itest/request-make-paper HTTP/1.1
......省略部分request header
questionCount=10&tagIds=570&t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&source=1
这是一个post请求,可以发现在request body中的questionCount就是表明了本次组卷试题的数量。
这样思路就清晰了:
- 根据request-make-paper接口获取tid,这里我们指定questionCount为30
- 根据get-all-question接口,传入tid参数,获取此次组卷的30道题的json数据
- 然后分析这30道题中的字段的含义,解析、存储即可
二、网络请求
定义一个方法,用于post请求,返回响应的内容,如下:
def post_json_data(url, request_body):
req = request.Request(url)
# 根据需要设置请求头,比如模拟浏览器请求设置UA、一些身份权限认证字段等都会放到header里
req.add_header('OS', 'Android')
req.add_header('VERSION', '82')
req.add_header('CHANNEL', '360')
req.add_header('User-Agent', 'nowcoder android 2.21.3.3091')
# post请求,添加request body即可
with request.urlopen(req, data=request_body.encode('utf-8')) as f:
if f.status == 200:
result_json = json.loads(f.read())
return result_json
再定义一个方法,用于get请求,返回响应的内容,如下:
def get_json_data(url):
req = request.Request(url)
req.add_header('OS', 'Android')
req.add_header('VERSION', '82')
req.add_header('CHANNEL', '360')
req.add_header('User-Agent', 'nowcoder android 2.21.3.3091')
with request.urlopen(req) as f:
if f.status == 200:
result_json = json.loads(f.read())
return result_json
如果把添加到request header中的这些key-value的参数组成dict,就可以通过外部传入,方法中遍历添加,上面两个方法就可以作为工具方法了。
接下来组装post请求的request body中的参数
data_make_paper = parse.urlencode([
('questionCount', '30'),
('tagIds', '570'),
('t', '02436CC60E649584D5C4BBF57709E5CA'),
('fm', 'android_app_2.21.3.3091'),
('source', '1')
])
就可以发送网络请求,获取响应数据了:
result = post_json_data('http://m.nowcoder.com/itest/request-make-paper', data_make_paper)
url_get_questions = "http://m.nowcoder.com/test/get-all-question" + \
"?t=02436CC60E649584D5C4BBF57709E5CA&fm=android_app_2.21.3.3091&tid=" + \
str(result['data'])
需要注意的是,需要引入request和parse模块:
from urllib import request,parse
三、json解析,题目格式调整、写入文件
先定义一个写入文件的方法,这里我们需要追加的形式写,也即后面写入的内容不能覆盖前面已经写入的:
def write_text(path, text, mode='a'):
with open(path, mode=mode, encoding="utf-8") as f:
f.write(text)
f.write("<br>")
mode = 'a'就表示追加的形式写入。
接下来就是json解析、添加一下格式(如题目编号,选项编号,题与题之间的空行等)、然后写入文件了,直接看代码:
all_questions = get_json_data(url_get_questions)['data']['allQuestion']
# 题号信息,由于获取的题目没有编号
n = 1
# 提取出来方便修改,如果有明确的题目数量,可以嵌套一层循环来循环获取n套题。这里我们获取1套题作为演示
# 之所以写入到html文件,是因为读取的题目中含有html的格式信息
questions_name = "第1套.html"
questions_answer_name = "第1套答案.html"
for item_question in all_questions:
# 获取题干信息
question = item_question['question']
question_type = ['(单选题)', '(不定项选择题)']
# 写入题目信息
write_text("C://python_test/"+questions_name, str(n)+". "+question_type[question['type']-1]+question['content'], 'a')
answer = question['answer']
answer_option = ''
index = 0
for item_answer in answer:
# 获取选项信息
answer_content = item_answer['content']
answer_index_list = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
# 写入选项信息,加入ABCD等选项编号
write_text("C://python_test/"+questions_name, answer_index_list[index]+". "+answer_content, 'a')
# 获取type字段的值,为1表示该选项为正确答案
answer_type = item_answer['type']
if answer_type == 1:
# 获取正确答案
answer_option += answer_index_list[index]
index += 1
# 每题之间留空行
write_text("C://python_test/"+questions_name, '', 'a')
# 写入答案到另外一个文件中
write_text("C://python_test/"+questions_answer_name, str(n)+"."+'答案: ' + answer_option, 'a')
# 答案之间留空行
write_text("C://python_test/"+questions_answer_name, '', 'a')
# 编号自增
n += 1
注意引入json模块
import json
python中的json和dict直接对应,非常方便。
留个作业:
- 通过抓取答题接口,完成题目自动答题,保证每套题都得满分~