最近做学校教务系统爬虫,这里写一下我遇到的一些问题和心得。
1.用到的工具
Chrome的开发者工具:分析网页行为,查看每次HTTP请求命令与参数等。
TFhepple: HTML解析库。
demo中关于网络请求部分是直接使用原生NSURLSession来完成的。
2.分析网页行为
2.1打开教务系统网页
-
当我输入教务系统网址,可以看到网页行为如图所示:
一个个点开来看:这里访问页面全部都是通过GET方式。(其中那个blank的404暂时不知道有什么用,而且也不影响,就忽略它吧)
1.第一个200:没有什么特别重要的信息,忽略。
2.接下来是连续三个重定向(response header里面的Location就是重定向的网址):
这里我们可以看到,在访问http://jw2005.scuteo.com/ 时得到了一个cookie(这个cookie只有在第一次访问时才会产生)。
在重定向的最后,我们可以看到Request URL中附加了一个字段,这个字段是随机产生的,而且后续的网页访问中这个随机字段也会出现在url中,因此要把这个随机字段保存起来(在第二张图的Request URL中也有另一个随机字段,但此时重定向并没有完成,我们要保存的是最后的那个随机字段)。
另外还有一点,在实际测试中发现,我们学校的教务系统,上面重定向最后的Request URL中的host地址是会变化的,可能这次访问的host地址是110.65.10.191下次访问得到的host地址就是110.65.10.204了。所以在这里我们也要把host地址保存下来。 -
关于验证码
在网上看到很多文章都说可以绕过验证码,但现在方正教务系统好像已经修复这个bug了。验证码识别有很多种方法,在项目中我选择把验证码图片获取下来,然后让用户手动输入。
这里和验证码有关的是CheckCode.aspx(看到了吧?那个随机字段又出现了)。如果我们在浏览器上直接访问图中那个Request URL,的确是可以获得验证码图片,但实际上它不是我们在教务系统上看到的那张。实际上,获取验证码是需要带上之前获取的那个cookie的,这个cookie保证了我们的验证码,是和账号密码在同一个网页上的。
这里总结一下,在打开教务系统网页时我们需要获取什么:1.cookie、2.重定向最后产生的随机字段、3.重定向最后的Host地址
2.2登录
登录时是POST方式,虽然被重定向,但是这一次提交,完成了数据的验证,验证的字段如图所示,第一个字段是登陆界面的一个隐藏字段,这个viewstate每次都得在登陆前获取,还是通过上面GET请求得到页面通过HTML分析工具得到对应的viwestate。txtUserName是用户名(学号),TextBox2是密码,txtSecretCode是验证码,RadioButtonList1代表的是学生。
重定向访问:(遮挡的部分是学号)
3.代码实现模拟登录
一些属性的说明:
@property (nonatomic ,strong)NSURLSession *session;
@property (nonatomic ,strong)NSString *mainUrl;//教务系统网址@"http://jw2005.scuteo.com/"
@property (nonatomic ,copy)NSString *viewState;//viewstate隐藏字段
@property (nonatomic ,copy)NSString *randomStr;//随机字段
@property (nonatomic ,copy)NSString *httpHost;//host地址
@property (nonatomic ,strong)NSMutableData *httpData;//html数据
@property (weak, nonatomic) IBOutlet UIImageView *img;//验证码图片
@property (weak, nonatomic) IBOutlet UITextField *txf;//验证码输入框
- 获得view state、随机字段和host:
- (IBAction)viewStateAndRandomStrGetting:(id)sender {
NSURL *url = [NSURL URLWithString:self.mainUrl];
NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
request.HTTPMethod = @"GET";
self.task = [self.session dataTaskWithRequest:request];
self.task.taskDescription = @"getViewStateAndRandomStr";
[self.task resume];
}
在这里重定向是交给NSURLSession代理方法去做的,每次重定向由completionHandler(request);
来实现,不需要人工手动重定向。
//重定向
- (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task
willPerformHTTPRedirection:(NSHTTPURLResponse *)response
newRequest:(NSURLRequest *)request
completionHandler:(void (^)(NSURLRequest * _Nullable))completionHandler{
completionHandler(request);
NSLog(@"%s,",__func__);
}
重定向结束,就可以在响应头(重定向最后200那一步的响应头)获得host和随机字段(这里的做法不太美观。。)
//获取host和随机串
- (void)URLSession:(NSURLSession *)session dataTask:(NSURLSessionDataTask *)dataTask didReceiveResponse:(NSURLResponse *)response completionHandler:(void (^)(NSURLSessionResponseDisposition))completionHandler{
completionHandler(NSURLSessionResponseAllow);
if ([dataTask.taskDescription isEqualToString:@"getViewStateAndRandomStr"]) {
NSLog(@"getCookies---response:\n%@",response);
self.httpHost = response.URL.host;
//这里要用正则表达式提取比较好
self.randomStr = [response.URL.absoluteString substringWithRange:NSMakeRange(21, 26)];
NSLog(@"%@",self.randomStr);
}
}
获取view state要从response Data中获取,响应的数据不是一次性返回的没所以要在- URLSession: dataTask: didReceiveData:
方法中把数据拼接起来。在网络请求结束时再提取viewState。然后还有一点,viewState里面的特殊字符“+”和"="要做编码处理,+替换成%2B,=替换成%3D
然后关于编码问题:正方教务管理系统IOS客户端这篇文章里面说到:
正方教务系统用的编码是GB2312 框架获取下来的NSString虽然已经自动解码,但是很不稳定,有时候会得到空字符串,但是获取下来的DATA就没有这个问题,所以就要手动解码将DATA转为NSString。而且光转码也不行,在分析HTML的时候因为网页头部的编码信息也有问题,所以要做手动修改,这样才能被TFhepple正确解析。
//拼接数据 获取viewState
- (void)URLSession:(NSURLSession *)session dataTask:(NSURLSessionDataTask *)dataTask didReceiveData:(NSData *)data{
[data enumerateByteRangesUsingBlock:^(const void * _Nonnull bytes, NSRange byteRange, BOOL * _Nonnull stop) {
[self.httpData appendBytes:bytes length:byteRange.length];
}];
}
- (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
if (error) {
NSLog(@"error:%@",error);
return;
}
if ([task.taskDescription isEqualToString:@"getViewStateAndRandomStr"]) {
//转码
NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
NSString *transtr = [[NSString alloc]initWithData:self.httpData encoding:enc];
//修改编码
NSString *htmlUTF8Str = [transtr stringByReplacingOccurrencesOfString:@"<meta http-equiv=\"Content-Type\" content=\"text/html; charset=gb2312\">" withString:@"<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\">"];
NSData *htmlDataUTF8 = [htmlUTF8Str dataUsingEncoding:NSUTF8StringEncoding];
TFHpple *xpathParser = [[TFHpple alloc]initWithHTMLData:htmlDataUTF8];
NSArray *elements = [xpathParser searchWithXPathQuery:@"//input[@name='__VIEWSTATE']"];
for (int i=0; i<[elements count]; i++) {
TFHppleElement *element = [elements objectAtIndex:i];
self.viewState=[element objectForKey:@"value"];
NSLog(@"提取到得viewstate为%@",self.viewState);
self.viewState = [self.viewState stringByReplacingOccurrencesOfString:@"+" withString:@"%2B"];
self.viewState = [self.viewState stringByReplacingOccurrencesOfString:@"=" withString:@"%3D"];
}
self.httpData = nil;
}
}
- 获取验证码
-(void)shuaXinYanZhengMa{
NSURL *url = [NSURL URLWithString:[NSString stringWithFormat:@"http://%@/%@/CheckCode.aspx",self.httpHost,self.randomStr]];
NSMutableURLRequest *UrlRequest = [NSMutableURLRequest requestWithURL:url];
// UrlRequest.HTTPShouldHandleCookies = YES;
NSHTTPCookieStorage *cookieJar = [NSHTTPCookieStorage sharedHTTPCookieStorage];
NSHTTPCookie *cookie = [[cookieJar cookiesForURL:[NSURL URLWithString:self.mainUrl]]firstObject];
[UrlRequest setValue:[NSString stringWithFormat:@"%@=%@", [cookie name], [cookie value]] forHTTPHeaderField:@"Cookie"];
NSURLSessionDataTask *task = [self.session dataTaskWithRequest:UrlRequest];
task.taskDescription = @"getCheckCode";
[task resume];
}
- (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
if ([task.taskDescription isEqualToString:@"getCheckCode"]){
dispatch_async(dispatch_get_main_queue(), ^{
self.img.image = [[UIImage alloc]initWithData:self.httpData];
self.httpData = nil;
});
}
}
获取cookie:
NSHTTPCookieStorage *cookieJar = [NSHTTPCookieStorage sharedHTTPCookieStorage];
NSHTTPCookie *cookie = [[cookieJar cookiesForURL:[NSURL URLWithString:self.mainUrl]]firstObject];
-
登录
登录这里按照格式构造post参数即可。中文编码要注意一下。
- (IBAction)login:(id)sender {
NSString *paraStr = [NSString stringWithFormat:@"__VIEWSTATE=%@&txtUserName=%@&TextBox2=%@&txtSecretCode=%@&RadioButtonList1=学生&Button1=&lbLanguage=&hidPdrs=&hidsc=",self.viewState,xuehao,mima,self.txf.text];
NSURL *url = [NSURL URLWithString:[NSString stringWithFormat:@"http://%@/%@/default2.aspx",self.httpHost,self.randomStr]];
NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
request.HTTPMethod = @"POST";
NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
request.HTTPBody = [paraStr dataUsingEncoding:enc];
NSURLSessionDataTask *task = [self.session dataTaskWithRequest:request];
task.taskDescription = @"login";
[task resume];
}
登录成功后,主要这里要获得一个学生姓名的参数,这个姓名的值在后面获取课表的时候要用到。在html中像是这样的:
如果登录失败,就提取相应的错误信息对用户进行提示。
- (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
if ([task.taskDescription isEqualToString:@"login"]) {
NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
NSString *transtr = [[NSString alloc]initWithData:self.httpData encoding:enc];
NSString *utf8HtmlStr = [transtr stringByReplacingOccurrencesOfString:@"<meta http-equiv=\"Content-Type\" content=\"text/html; charset=gb2312\">" withString:@"<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\">"];
NSData *htmlDataUTF8 = [utf8HtmlStr dataUsingEncoding:NSUTF8StringEncoding];
TFHpple *xpathParser = [[TFHpple alloc]initWithHTMLData:htmlDataUTF8];
NSArray *elements = [xpathParser searchWithXPathQuery:@"//span[@id='xhxm']"];
if (elements.count > 0) {
for (int i=0; i<[elements count]; i++) {
TFHppleElement *element = [elements objectAtIndex:i];
NSString *content = [element text];
self.name=[content substringToIndex:[content length]-2];
NSLog(@"姓名为%@",self.name);
}
}
else{
NSArray *errElement = [xpathParser searchWithXPathQuery:@"//script[@language='javascript']"];
TFHppleElement *scriptNode = errElement.lastObject;//验证码不正确
NSString *alertMessage = [[scriptNode.content componentsSeparatedByString:@";"]firstObject];
alertMessage = [[alertMessage componentsSeparatedByString:@"("]lastObject];
alertMessage = [[alertMessage componentsSeparatedByString:@")"]firstObject];
......略
}
self.httpData = nil;//清空数据
}
}
4.获取课表
获取课表这里其实原理上也差不多的,按照截图的格式去构造URL就可以了,访问网页用的还是GET方式。(截这张图的时候因为我太久没操作教务系统了,所以系统给我自动退出了只好重新登录,截图里的随机字段会和上面的不一样,但实际上代码实现用的还是同一个随机字段)。
关于URL的说明:xh后接的是学号,xm后的是姓名(就是登录时候获取的那个,中文字符编码要处理一下),gnmkdm=N121603这个固定就好(不清楚是啥)
带有中文的url和NSString中文的转换
- (IBAction)courseGetting:(id)sender {
NSString *urlstr = [NSString stringWithFormat:@"http://%@/%@/xskbcx.aspx?xh=%@&xm=%@&gnmkdm=N121603",self.httpHost,self.randomStr,xuehao ,self.name];
urlstr = [urlstr stringByAddingPercentEncodingWithAllowedCharacters:[NSCharacterSet URLFragmentAllowedCharacterSet]];
NSURL *url = [NSURL URLWithString:urlstr];
NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
request.HTTPMethod= @"GET";
[request addValue:[NSString stringWithFormat:@"http://%@/%@/xs_main.aspx?xh=%@",self.httpHost,self.randomStr,xuehao] forHTTPHeaderField:@"Referer"];//这句一定不能漏
NSURLSessionDataTask *task = [self.session dataTaskWithRequest:request];
task.taskDescription = @"courseget";
[task resume];
}
这里还有一个问题要注意一下的,[request addValue:[NSString stringWithFormat:@"http://%@/%@/xs_main.aspx?xh=%@",self.httpHost,self.randomStr,xuehao] forHTTPHeaderField:@"Referer"];
这句一定不能漏,表明这个页面时从哪里跳转过来的(做模拟登录时还不要求一定要提供Referer请求头)。
请求成功后就可以从获取到的html Data 中得到课程数据了,具体要怎么解析,根据实际获得的html数据格式实际分析吧。
最后的一点感想:
不同学校的方正教务系统或多或少都会有些不同,但本质上原理还是相同的。在做教务系统爬虫的时候根据实际情况实际分析,多利用浏览器的开发者工具分析网页行为。
demo在这里
正方教务管理系统IOS客户端
使用 ASIHttpRequest 模拟登陆正方教务系统的几点心得
毕业设计想把学校教务系统的功能模块做成手机APP?
PHP模拟登陆正方系统获取课表、成绩(一看就懂!!!)
关于TFHpple第三方库解析html的用法:
https://yq.aliyun.com/articles/30672
https://segmentfault.com/a/1190000003860297