iOS模拟登录方正教务系统获取课表

最近做学校教务系统爬虫,这里写一下我遇到的一些问题和心得。

1.用到的工具

Chrome的开发者工具:分析网页行为,查看每次HTTP请求命令与参数等。
TFhepple: HTML解析库。
demo中关于网络请求部分是直接使用原生NSURLSession来完成的。

2.分析网页行为

2.1打开教务系统网页

  • 当我输入教务系统网址,可以看到网页行为如图所示:


    一个个点开来看:这里访问页面全部都是通过GET方式。(其中那个blank的404暂时不知道有什么用,而且也不影响,就忽略它吧)
    1.第一个200:没有什么特别重要的信息,忽略。

    2.接下来是连续三个重定向(response header里面的Location就是重定向的网址):




    这里我们可以看到,在访问http://jw2005.scuteo.com/ 时得到了一个cookie(这个cookie只有在第一次访问时才会产生)。
    在重定向的最后,我们可以看到Request URL中附加了一个字段,这个字段是随机产生的,而且后续的网页访问中这个随机字段也会出现在url中,因此要把这个随机字段保存起来(在第二张图的Request URL中也有另一个随机字段,但此时重定向并没有完成,我们要保存的是最后的那个随机字段)。

    另外还有一点,在实际测试中发现,我们学校的教务系统,上面重定向最后的Request URL中的host地址是会变化的,可能这次访问的host地址是110.65.10.191下次访问得到的host地址就是110.65.10.204了。所以在这里我们也要把host地址保存下来。

  • 关于验证码
    在网上看到很多文章都说可以绕过验证码,但现在方正教务系统好像已经修复这个bug了。验证码识别有很多种方法,在项目中我选择把验证码图片获取下来,然后让用户手动输入。
    这里和验证码有关的是CheckCode.aspx(看到了吧?那个随机字段又出现了)。如果我们在浏览器上直接访问图中那个Request URL,的确是可以获得验证码图片,但实际上它不是我们在教务系统上看到的那张。实际上,获取验证码是需要带上之前获取的那个cookie的,这个cookie保证了我们的验证码,是和账号密码在同一个网页上的。


这里总结一下,在打开教务系统网页时我们需要获取什么:1.cookie、2.重定向最后产生的随机字段、3.重定向最后的Host地址

2.2登录


登录时是POST方式,虽然被重定向,但是这一次提交,完成了数据的验证,验证的字段如图所示,第一个字段是登陆界面的一个隐藏字段,这个viewstate每次都得在登陆前获取,还是通过上面GET请求得到页面通过HTML分析工具得到对应的viwestate。txtUserName是用户名(学号),TextBox2是密码,txtSecretCode是验证码,RadioButtonList1代表的是学生。


重定向访问:(遮挡的部分是学号)


3.代码实现模拟登录

一些属性的说明:

@property (nonatomic ,strong)NSURLSession *session;
@property (nonatomic ,strong)NSString *mainUrl;//教务系统网址@"http://jw2005.scuteo.com/"
@property (nonatomic ,copy)NSString *viewState;//viewstate隐藏字段
@property (nonatomic ,copy)NSString *randomStr;//随机字段
@property (nonatomic ,copy)NSString *httpHost;//host地址
@property (nonatomic ,strong)NSMutableData *httpData;//html数据

@property (weak, nonatomic) IBOutlet UIImageView *img;//验证码图片
@property (weak, nonatomic) IBOutlet UITextField *txf;//验证码输入框
  • 获得view state、随机字段和host:
 - (IBAction)viewStateAndRandomStrGetting:(id)sender {
    NSURL *url = [NSURL URLWithString:self.mainUrl];
    NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
    request.HTTPMethod = @"GET";
    self.task = [self.session dataTaskWithRequest:request];
    self.task.taskDescription = @"getViewStateAndRandomStr";
    [self.task resume];
}

在这里重定向是交给NSURLSession代理方法去做的,每次重定向由completionHandler(request);来实现,不需要人工手动重定向。

//重定向
 - (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task
willPerformHTTPRedirection:(NSHTTPURLResponse *)response
        newRequest:(NSURLRequest *)request
 completionHandler:(void (^)(NSURLRequest * _Nullable))completionHandler{
    completionHandler(request);
    NSLog(@"%s,",__func__);
}

重定向结束,就可以在响应头(重定向最后200那一步的响应头)获得host和随机字段(这里的做法不太美观。。)

//获取host和随机串
 - (void)URLSession:(NSURLSession *)session dataTask:(NSURLSessionDataTask *)dataTask didReceiveResponse:(NSURLResponse *)response completionHandler:(void (^)(NSURLSessionResponseDisposition))completionHandler{
    completionHandler(NSURLSessionResponseAllow);
    if ([dataTask.taskDescription isEqualToString:@"getViewStateAndRandomStr"]) {
        NSLog(@"getCookies---response:\n%@",response);        
        self.httpHost = response.URL.host;
        //这里要用正则表达式提取比较好
        self.randomStr = [response.URL.absoluteString substringWithRange:NSMakeRange(21, 26)];
        NSLog(@"%@",self.randomStr);
    }
}

获取view state要从response Data中获取,响应的数据不是一次性返回的没所以要在- URLSession: dataTask: didReceiveData:方法中把数据拼接起来。在网络请求结束时再提取viewState。然后还有一点,viewState里面的特殊字符“+”和"="要做编码处理,+替换成%2B,=替换成%3D
然后关于编码问题:正方教务管理系统IOS客户端这篇文章里面说到:

正方教务系统用的编码是GB2312 框架获取下来的NSString虽然已经自动解码,但是很不稳定,有时候会得到空字符串,但是获取下来的DATA就没有这个问题,所以就要手动解码将DATA转为NSString。而且光转码也不行,在分析HTML的时候因为网页头部的编码信息也有问题,所以要做手动修改,这样才能被TFhepple正确解析。

//拼接数据 获取viewState
- (void)URLSession:(NSURLSession *)session dataTask:(NSURLSessionDataTask *)dataTask didReceiveData:(NSData *)data{
   [data enumerateByteRangesUsingBlock:^(const void * _Nonnull bytes, NSRange byteRange, BOOL * _Nonnull stop) {
       [self.httpData appendBytes:bytes length:byteRange.length];
   }];
}

- (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
   if (error) {
       NSLog(@"error:%@",error);
       return;
   }
   if ([task.taskDescription isEqualToString:@"getViewStateAndRandomStr"]) {
       //转码
       NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
       NSString *transtr = [[NSString alloc]initWithData:self.httpData encoding:enc];
       //修改编码
       NSString *htmlUTF8Str = [transtr stringByReplacingOccurrencesOfString:@"<meta http-equiv=\"Content-Type\" content=\"text/html; charset=gb2312\">" withString:@"<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\">"];
       NSData *htmlDataUTF8 = [htmlUTF8Str dataUsingEncoding:NSUTF8StringEncoding];
       TFHpple *xpathParser = [[TFHpple alloc]initWithHTMLData:htmlDataUTF8];
       NSArray *elements  = [xpathParser searchWithXPathQuery:@"//input[@name='__VIEWSTATE']"];
       for (int i=0; i<[elements count]; i++) {
           TFHppleElement *element = [elements objectAtIndex:i];
           self.viewState=[element objectForKey:@"value"];
           NSLog(@"提取到得viewstate为%@",self.viewState);
           self.viewState = [self.viewState stringByReplacingOccurrencesOfString:@"+" withString:@"%2B"];
           self.viewState = [self.viewState stringByReplacingOccurrencesOfString:@"=" withString:@"%3D"];
       }
       self.httpData = nil;
   }
}
  • 获取验证码
 -(void)shuaXinYanZhengMa{
    NSURL *url = [NSURL URLWithString:[NSString stringWithFormat:@"http://%@/%@/CheckCode.aspx",self.httpHost,self.randomStr]];
    NSMutableURLRequest *UrlRequest = [NSMutableURLRequest requestWithURL:url];
//    UrlRequest.HTTPShouldHandleCookies = YES;
    NSHTTPCookieStorage *cookieJar = [NSHTTPCookieStorage sharedHTTPCookieStorage];
    NSHTTPCookie *cookie = [[cookieJar cookiesForURL:[NSURL URLWithString:self.mainUrl]]firstObject];
    [UrlRequest setValue:[NSString stringWithFormat:@"%@=%@", [cookie name], [cookie value]] forHTTPHeaderField:@"Cookie"];
    NSURLSessionDataTask *task = [self.session dataTaskWithRequest:UrlRequest];
    task.taskDescription = @"getCheckCode";
    [task resume];
}
 - (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
if ([task.taskDescription isEqualToString:@"getCheckCode"]){
        dispatch_async(dispatch_get_main_queue(), ^{
            self.img.image = [[UIImage alloc]initWithData:self.httpData];
            self.httpData = nil;
        });
    }
}

获取cookie:

NSHTTPCookieStorage *cookieJar = [NSHTTPCookieStorage sharedHTTPCookieStorage];
    NSHTTPCookie *cookie = [[cookieJar cookiesForURL:[NSURL URLWithString:self.mainUrl]]firstObject];
  • 登录



    登录这里按照格式构造post参数即可。中文编码要注意一下。

 - (IBAction)login:(id)sender {
    NSString *paraStr = [NSString stringWithFormat:@"__VIEWSTATE=%@&txtUserName=%@&TextBox2=%@&txtSecretCode=%@&RadioButtonList1=学生&Button1=&lbLanguage=&hidPdrs=&hidsc=",self.viewState,xuehao,mima,self.txf.text];
    NSURL *url = [NSURL URLWithString:[NSString stringWithFormat:@"http://%@/%@/default2.aspx",self.httpHost,self.randomStr]];
    NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
    request.HTTPMethod = @"POST";
    NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
    request.HTTPBody = [paraStr dataUsingEncoding:enc];
    NSURLSessionDataTask *task = [self.session dataTaskWithRequest:request];
    task.taskDescription = @"login";
    [task resume];
}

登录成功后,主要这里要获得一个学生姓名的参数,这个姓名的值在后面获取课表的时候要用到。在html中像是这样的:



如果登录失败,就提取相应的错误信息对用户进行提示。

 - (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
    if ([task.taskDescription isEqualToString:@"login"]) {
        NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
        NSString *transtr = [[NSString alloc]initWithData:self.httpData encoding:enc];
        NSString *utf8HtmlStr = [transtr stringByReplacingOccurrencesOfString:@"<meta http-equiv=\"Content-Type\" content=\"text/html; charset=gb2312\">" withString:@"<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\">"];
        NSData *htmlDataUTF8 = [utf8HtmlStr dataUsingEncoding:NSUTF8StringEncoding];
        TFHpple *xpathParser = [[TFHpple alloc]initWithHTMLData:htmlDataUTF8];
        NSArray *elements  = [xpathParser searchWithXPathQuery:@"//span[@id='xhxm']"];
        if (elements.count > 0) {
            for (int i=0; i<[elements count]; i++) {
                TFHppleElement *element = [elements objectAtIndex:i];
                NSString *content = [element text];
                self.name=[content substringToIndex:[content length]-2];
                NSLog(@"姓名为%@",self.name);
            }
        }
        else{
            NSArray *errElement = [xpathParser searchWithXPathQuery:@"//script[@language='javascript']"];
            TFHppleElement *scriptNode = errElement.lastObject;//验证码不正确
            NSString *alertMessage = [[scriptNode.content componentsSeparatedByString:@";"]firstObject];
            alertMessage = [[alertMessage componentsSeparatedByString:@"("]lastObject];
            alertMessage = [[alertMessage componentsSeparatedByString:@")"]firstObject];
           ......略
        }
        self.httpData = nil;//清空数据
    }
}

4.获取课表


获取课表这里其实原理上也差不多的,按照截图的格式去构造URL就可以了,访问网页用的还是GET方式。(截这张图的时候因为我太久没操作教务系统了,所以系统给我自动退出了只好重新登录,截图里的随机字段会和上面的不一样,但实际上代码实现用的还是同一个随机字段)。
关于URL的说明:xh后接的是学号,xm后的是姓名(就是登录时候获取的那个,中文字符编码要处理一下),gnmkdm=N121603这个固定就好(不清楚是啥)
带有中文的url和NSString中文的转换

- (IBAction)courseGetting:(id)sender {
    NSString *urlstr = [NSString stringWithFormat:@"http://%@/%@/xskbcx.aspx?xh=%@&xm=%@&gnmkdm=N121603",self.httpHost,self.randomStr,xuehao ,self.name];
    urlstr = [urlstr stringByAddingPercentEncodingWithAllowedCharacters:[NSCharacterSet URLFragmentAllowedCharacterSet]];
    NSURL *url = [NSURL URLWithString:urlstr];
    NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
    request.HTTPMethod= @"GET";
    [request addValue:[NSString stringWithFormat:@"http://%@/%@/xs_main.aspx?xh=%@",self.httpHost,self.randomStr,xuehao] forHTTPHeaderField:@"Referer"];//这句一定不能漏
    NSURLSessionDataTask *task = [self.session dataTaskWithRequest:request];
    task.taskDescription = @"courseget";
    [task resume];
}

这里还有一个问题要注意一下的,[request addValue:[NSString stringWithFormat:@"http://%@/%@/xs_main.aspx?xh=%@",self.httpHost,self.randomStr,xuehao] forHTTPHeaderField:@"Referer"];这句一定不能漏,表明这个页面时从哪里跳转过来的(做模拟登录时还不要求一定要提供Referer请求头)。

请求成功后就可以从获取到的html Data 中得到课程数据了,具体要怎么解析,根据实际获得的html数据格式实际分析吧。

最后的一点感想:
不同学校的方正教务系统或多或少都会有些不同,但本质上原理还是相同的。在做教务系统爬虫的时候根据实际情况实际分析,多利用浏览器的开发者工具分析网页行为。
demo在这里

正方教务管理系统IOS客户端
使用 ASIHttpRequest 模拟登陆正方教务系统的几点心得
毕业设计想把学校教务系统的功能模块做成手机APP?
PHP模拟登陆正方系统获取课表、成绩(一看就懂!!!)
关于TFHpple第三方库解析html的用法:
https://yq.aliyun.com/articles/30672
https://segmentfault.com/a/1190000003860297

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容