学校要求登录教务处网站做一个测试题,我做了看了看,30分钟300道题,240分几个,题量不少,题还不好做。研究了一下发现原来在网站上就有题库的,但是一道题只有6s 的时间作答,边查边做肯定是时间不够的。灵光一闪,人生苦短,我用Python,写个自动答题的机器人吧。
思路:
爬取题库并存储到数据库
模拟登录教务系统
进入答题页面,遍历题目,匹配数据库中记录,给出答案
提交数据
用到的工具:
Python
requests
BeautifulSoup
mongodb
实现过程:
模拟登录
以前研究过学校教务系统的登录,现在终于在正事上排上用场了。学校教务系统的登录还算简单,没有验证码,唯一一点儿小障碍是登录表单会有几个隐藏字段,有个字段会动态改变,解决就是先GET一下登录网址,获取这几个字段的值,再随表单进行POST。代码:
题库爬取
用了Python的requests库进行页面的爬取,励志小哥写的这个库的确好用,特别是运用 requests.session()之后,处理好登录之后,再也不用管那些烦人的cookie 啥的了,用了BeautifulSoup来进行页面解析,用起来也是很顺手。开始有乱码,一看网页编码是gb2312的,稍微设置一下也OK了。
内容有了,当然要存储起来了,不然每次答题都有爬题库多麻烦,何况是些千年不变的东西。开始用的是MySQL,然而编码问题让人头疼,设置编码为gb2312,存储的时候说有内容 gb2312 又解析不了,于是程序就挂了。搞了很长时间也没搞定,还把我的 Sequel Pro 给搞挂了,f***!
静下心来一想,题库只要写数据库写一遍就OK了,但是答题的时候会频繁地查询数据库,用nosql数据库多好。题目做键,答案做值就行了。看过redis,但毕竟是内存型数据库,虽然快,但是还要做持久化,直接用mongodb吧,还没看过,刚好学习了,边学边用。
爬取并存储题库部分的代码:
模拟作答
这一部分是最关键的部分,再这上面的耗时比较多,大部分时间都在研究他的数据的提交流程。
题目是分页的,且选择页面或点击上下页的时候,地址栏的地址是不变的,说明分页是通过js实现的,而不是直接用的链接:
研究得知,上下页和页面选择都是通过post数据标志到本页面实现的
搞懂了这些数据的意义和他们之间的关系,用代码模拟出来就OK了,当作到最后一页完成的时候,把tijiao标志也设为1,POST到原URL就完成了作答,这部分代码就不贴了,文末有GitHub链接。
可能的改进
写好之后许多同学找我给答题,看看如果多的话用flask搭成个web服务。高效还不用担心我泄露你们的密码了。
爬题库的时候想的是爬答案的文本,爬成了ABCD的选项,多亏选项和答案文本的对应关系没变,但也造成个别问题答案会有错误,致使我给答题的同学分数基本都在297-299之间(满分300分),少有300分的同学。本来想改来着,转念一想都满分也不太好,有点误差也好,可能这部分不会改了,感兴趣的可以自己改改看。
学习Python过程中会遇到很多问题,可以到我们的 python学习交流群【六 五 三,四 六 六,六 六 八】,基础,进阶。从企业招聘人才需求 到怎么学习python,和学习什么内容都有免费系统分享。希望可以帮助你快速了解Python,学习python
ps: 本校的可以直接搭好拿来用就可以了,其他同学如有类似需求,这个系统是某公司开发的,好多学校都在用,folk一份改改应该也没问题。