用Python查询成绩|(二)模拟登录教务网并获取成绩

前言

av8d大家好鸽了几个月的我又回来了!

在上一篇用Python查询成绩|(一)网络爬虫基础知识中我大概的讲了一下网络爬虫的基础知识,这一篇就有干货了啊,直接开始模拟登录教务网。

本篇内容

  • 1, 用 Python 模拟登录教务网
  • 2, 获取成绩

以下代码均可以在我的 Github 上找到:

https://github.com/DuChuan19/NkemisScoreSpider

免责声明:本文仅供学习交流,如出现任何法律问题本人概不负责!

用 Python 模拟登录教务网

整体思路

1,向登录界面发送登录请求,POST 一系列参数,包括账号、密码等,获得响应,提取一些关键参数

2,得到参数重新发送登录请求,POST 参数之后即可登录

第一次向登录界面发送请求

第一次向登陆页面发送请求,是为了看看需要 POST 哪些参数,光提交账号密码是肯定不行的。

1.png

这里可以看除了账号密码还有另外的四个参数,分别是__VIEWSTATE__VIEWSTATEGENERATORImageButton1.xImageButton1.y,前两个经过分析可以在登录页面找到

2.png

我们可以通过 requests 的 get 方法得到

后面两个应该是登录按钮的位置

3.png

然后可以通过以下代码来得到需要的参数,账号密码可以手动输入

def post_data(self):
    """
        获取用户登录时需要提交的数据
        :return: data
        """
    try:
        html = requests.get(self.SYSTEMLOGIN_URL, headers=self.random_header())
        bsObj = BeautifulSoup(html.text, 'lxml')
        __VIEWSTATE = bsObj.find('input').attrs['value']
        __VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
        data = {
            "__VIEWSTATE": __VIEWSTATE,
            "__EVENTVALIDATION": __VIEWSTATEGENERATOR,
            "txtUserID": self.textUserID,
            "txtPasswd": self.textPasswd,
            "ImageButton1.x": 1,
            "ImageButton1.y": 1
        }
        return data

第二次向登录界面发送请求

这次请求需要包含以上获得的参数,不然没法得到正确的响应

直接来看代码:

session = requests.session()
session.post(self.SYSTEMLOGIN_URL, data=self.post_data())

关于 session 的详细说明以及用法,可以访问官方文档进行查看

这里我大概的说一下

requests 库的 session 对象能够帮我们跨请求保持某些参数,也会在同一个 session 实例发出的所有请求之间保持cookies

所以我们发送了带有登录参数的数据,如果参数正确,就能登录成功了

4.png

获取成绩

成功登录教务网之后,接下来便是获取成绩了

我们需要获取的数据只有两个,课程标题以及对应的总评成绩

这里有两种方法,一种是通过正则表达式来获取,另一种是用 pandas 库

用正则表达式来获取成绩

5.png

可以看到,课程名称和总评成绩都包含在 tr 标签下

为了方便看,我把课程名称和总评成绩分开写

# 课程标题
title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
title_items = re.findall(title_pattern, res.text)

# 每科对应总成绩
score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
score_items = re.findall(score_pattern, res.text)

下面是登录和获取成绩的完整代码:

def get_score(self):
        """
        登录教务网并且获取课程标题以及对应的成绩
        :return:
        """
    # Login
    session = requests.session()
    session.post(self.SYSTEMLOGIN_URL, data=self.post_data())

    # Get score
    res = session.get(url=self.SCOREQUERY_URL)

    # 课程标题
    title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
    title_items = re.findall(title_pattern, res.text)

    # 每科对应总成绩
    score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
    score_items = re.findall(score_pattern, res.text)

    # 将数据保存为字典格式
    for title, score in zip(title_items, score_items):
        self.ITEMS.append({
            'title': title.replace('\r', '').replace('\t', '').replace('\n', ''),
            'score': score.replace('</td>', '')
        })

我们将获取到的数据保存为字典格式,以便后面入库

运行一下,成功得到了课程名称和总评成绩(学渣一枚,成绩太差了,见笑)

6.png

下面是完整代码:

# -*-coding:utf8-*-
import re
import random
import pandas
import pymysql
import requests
from bs4 import BeautifulSoup


class Nkemis_helper(object):

    def __init__(self, textUserID, textPasswd):
        """
        Nkemis Helper
        :param textUserID: 学号
        :param textPasswd: 密码
        """

        self.textUserID = textUserID
        self.textPasswd = textPasswd
        self.SYSTEMLOGIN_URL = 'http://222.30.63.15/NKEMIS/SystemLogin.aspx'
        self.SCOREQUERY_URL = "http://222.30.63.15/nkemis/Student/ScoreQuery.aspx"

        self.ITEMS = []  # 存放课程标题以及对应的成绩

    def random_header(self):
        """
        随机选取一个 User-Agent
        :return: random header
        """
        USERAGENT_LIST = [
            "Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1",
            "Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1)",
            "Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",
            "Mozilla/5.0(Macintosh;IntelMacOSX10_7_0)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.56Safari/535.11",
            "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)",
            "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)",
        ]
        return {"User-Agent": random.choice(USERAGENT_LIST)}

    def post_data(self):
        """
        获取用户登录时需要提交的数据
        :return:
        """

        try:
            html = requests.get(self.SYSTEMLOGIN_URL, headers=self.random_header())
            bsObj = BeautifulSoup(html.text, 'lxml')
            __VIEWSTATE = bsObj.find('input').attrs['value']
            __VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
            data = {
                "__VIEWSTATE": __VIEWSTATE,
                "__EVENTVALIDATION": __VIEWSTATEGENERATOR,
                "txtUserID": self.textUserID,
                "txtPasswd": self.textPasswd,
                "ImageButton1.x": 1,
                "ImageButton1.y": 1
            }
            return data
        except:
            print('网络未连接, 请查看网络')

    def get_score(self):
        """
        登录教务网并且获取课程标题以及对应的成绩
        :return:
        """

        # Login
        session = requests.session()
        session.post(self.SYSTEMLOGIN_URL, data=self.post_data())

        # Get score
        res = session.get(url=self.SCOREQUERY_URL)

        # 课程标题
        title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
        title_items = re.findall(title_pattern, res.text)

        # 每科对应总成绩
        score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
        score_items = re.findall(score_pattern, res.text)

        # 将数据保存为字典格式
        for title, score in zip(title_items, score_items):
            self.ITEMS.append({
                'title': title.replace('\r', '').replace('\t', '').replace('\n', ''),
                'score': score.replace('</td>', '')
            })
        print(self.ITEMS)

    def save_to_mysql(self):
        # connect mysql
        db = pymysql.connect("localhost", "root", "toor", "db_nkemis")
        cursor = db.cursor()

        # 以学号作为表名创建表
        try:
            CREATE_TABLE_SQL = "CREATE TABLE student_%s (title varchar(255), score varchar(255))" % self.textUserID
            cursor.execute(CREATE_TABLE_SQL)
            db.commit()
        except:
            db.rollback()

        # 将学生成绩存进数据库
        for item in self.ITEMS:
            INSERT_SQL = "INSERT INTO student_%s (title, score) VALUES ('%s', '%s')" % (self.textUserID, item['title'], item['score'])
            cursor.execute(INSERT_SQL)
            db.commit()

        db.close()


if __name__ == '__main__':
    textUserID = input("学号: ")
    textPasswd = input("密码: ")

    helper = Nkemis_helper(textUserID, textPasswd)
    helper.get_score()
    helper.save_to_mysql()

爬取数据下来之后入库:

7.jpg

用 pandas 来获取成绩

7.png

我们可以看到,无论是课程名称还是成绩,都是包含在一个 table 里,用 pandas 就可以很方便快速的提取这个 table

8.png

下面是完整代码:

# -*-coding:utf8-*-
import re
import random
import pandas
import pymysql
import requests
from bs4 import BeautifulSoup


html = requests.get('http://222.30.63.15/NKEMIS/SystemLogin.aspx')
bsObj = BeautifulSoup(html.text, 'lxml')
__VIEWSTATE = bsObj.find('input').attrs['value']
__VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
data = {
    "__VIEWSTATE": __VIEWSTATE,
    "__EVENTVALIDATION": __VIEWSTATEGENERATOR,
    "txtUserID": 学号,
    "txtPasswd": 密码,
    "ImageButton1.x": 1,
    "ImageButton1.y": 1
}

session = requests.session()
session.post('http://222.30.63.15/NKEMIS/SystemLogin.aspx', data=data)
res = session.get(url='http://222.30.63.15/nkemis/Student/ScoreQuery.aspx')
bsObj = BeautifulSoup(res.text, 'lxml')
dfs = pandas.read_html(bsObj.select_one('table.dgrdglobal').prettify())
df = pandas.DataFrame(dfs[0]).drop([1,2,3,4,7,9,8,12], axis=1)

总结

这人太懒了,没有写总结。

偷偷BB一句,这个爬虫拿去参加了计算机系的多媒体大赛,混到了个奖状 :)

(叉会儿腰)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容

  • 点击查看原文 Web SDK 开发手册 SDK 概述 网易云信 SDK 为 Web 应用提供一个完善的 IM 系统...
    layjoy阅读 13,652评论 0 15
  • 最近学校开始选课,但是如果选课时间与自己的事情冲突,这时候就可以使用Python脚本自助抢课,抢课的第一步即是模拟...
    派派森森阅读 2,515评论 1 9
  • 亲子日记第168篇 周末真好,可以睡到自然醒,今天起床的时候已经9点多了。我家的小闹钟怎么没响呢。我往儿子屋里...
    子浩妈妈阅读 315评论 0 3
  • 手里握着的 心里念念不忘的 记忆深处不敢遗忘的 是真爱 是欲望 是思念 我是个俗人 是落在石头缝隙里的草籽 苦熬过...
    吴有_4e39阅读 96评论 0 5
  • 小时候守着收音机听评书的日子,记忆犹新。刘兰芳讲的《岳飞传》,《杨家将》,袁阔成讲的《三国演义》,都是儿时听广播时...
    似曾相识a阅读 436评论 5 9