IOS开发分享----爬虫技术

这段时间趁闲鱼时间,看到一段关于JAVA爬虫某知名网站的代码;试了试ios利用webview 及 AFNETWORKING网络请求 ;仿java思路 完成了一个成功的dome;

闲话不多说:

    大致流程:

         1、利用火狐、Google chrome浏览器 查看控制台  抓取 其网络请求(get、post)获取其请求头、请求体;

         2、利用webview获取cookies (https请求需要自己配置info.list)

         3、参考其请求模式,模拟请求 获取HTML响应体;

         4、解析请求体、展示给用户;     //获取有效信息 

         5、 保存数据提交自己的服务器;


1、利用火狐、Google chrome浏览器 查看控制台  抓取 其网络请求(get、post)获取其请求头、请求体;


注:以百度为例


2、利用webview获取cookies


注:web设为(0,0,0,0)给自己的UI留位置


3、参考其请求模式,模拟请求 获取HTML响应体

这个是关键,需要模拟请求

注:这个是HTTPS get请求 

遇到post的其实可以用ios原生post请求 获取 根据浏览器获取的请求方式进行:

NSURLSession*session = [NSURLSession sharedSession];

// 设置请求路径

NSURL*URL=[NSURL URLWithString:@"https://www.baidu.com"];//不需要传递参数

// 创建请求对象

NSMutableURLRequest*request=[NSMutableURLRequest requestWithURL:URL];//默认为get请求

request.timeoutInterval=5.0;//设置请求超时为5秒

request.HTTPMethod=@"POST";//设置请求方法

// 设置请求体

NSString*param=[NSString stringWithFormat:@"reportformat=21&tradeCode=%@",uesr_name];

//把拼接后的字符串转换为data,设置请求体

[requestsetValue:@"max-age=0"forHTTPHeaderField:@"Cache-Control"];

[requestsetValue:cookies forHTTPHeaderField:@"Cookie"];

[requestsetValue:@"https://www.baidu.com"forHTTPHeaderField:@"Origin"];

request.HTTPBody=[paramdataUsingEncoding:NSUTF8StringEncoding];

// 发送请求

NSURLSessionDataTask*dataTask = [session dataTaskWithRequest:request completionHandler:^(NSData*_Nullabledata,NSURLResponse*_Nullableresponse,NSError*_Nullableerror) {

// 解析数据data流过来的html编码转换成NSString

NSStringEncodingenc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);//可以在流量器上获取解码的类型

NSString* str =[[NSStringalloc]initWithData:dataencoding:enc];

// 反馈给服务器

NSLog(@"=====>>>>>%@",str);

//[data writeToFile:@"/Users/lufeng1/Desktop/c.html" atomically:YES];//可以测试看看获取的数据正确与否

}];

// 执行任务

[dataTask resume];


4、解析请求体、展示给用户

解析这里的responseObject即可 给的例子是用GB翻译的 可以用保存的方式 存储为HTML查看 

给个福利吧,查看HTML有些时候获取不全body 可以试试这句话-----

//NSString * str= [webView stringByEvaluatingJavaScriptFromString:@"document.body.innerHTML"];

5、 保存数据提交自己的服务器

自己post回去有用信息即可


文章写的比较粗糙吧,过程之中可能会遇到HTTPS请求报错 那就需要配置相对应的HTTPS.cer文件放入工程:

~openssl s_client -connect www.baidu.com:443 /dev/null | openssl x509 -outform DER > https.cer

可把www.baidu.com替换直接获取证书。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • iOS开发系列--网络开发 概览 大部分应用程序都或多或少会牵扯到网络开发,例如说新浪微博、微信等,这些应用本身可...
    lichengjin阅读 3,707评论 2 7
  • 前言 关于UIWebView的介绍,相信看过上文的小伙伴们,已经大概清楚了吧,如果有问题,欢迎提问。 本文是本系列...
    CoderLF阅读 9,011评论 2 12
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,860评论 18 139
  • 218.241.181.202 wxhl60 123456 192.168.10.253 wxhl66 wxhl6...
    CYC666阅读 1,420评论 0 6
  • iOS App开发中的Cookie 一、何为Cookie Cookie是网站为了便是终端身份,保存在终端本地的用户...
    o本是后山人o偶作前堂客o阅读 3,742评论 1 8