最近公司有一个需求,需要从某网页上获取一些数据传给后台。那就是通过固定网址下载html网页源代码,然后解析。
我先说下解析的库是Ono,他的作者是mattt,也是AFNetworking的贡献者。
Ono非常小,如果是不用CocoaPods添加的话也只需加入ONOXMLDocument.h和ONOXMLDocument.m两个文件就好了,不过还要导入libxml2系统自带的库,在Build Setting-Header Search Paths中加入 "/usr/include/libxml2"路径。(后有截图)
当然如果使用CocoaPods的话就:
pod 'Ono'
Ono库可以单独使用也可以配合AFNetworking一起用。
解析完整过程
这里的url是中国商品信息服务平台的查询接口。
首先获取html:
NSString *urlstring = [NSString stringWithFormat:@"http://search.anccnet.com/searchResult2.aspx?keyword=%@",string];
NSData *data = [NSData dataWithContentsOfURL:[NSURL URLWithString:urlstring] options:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];
url中的string是商品条形码的数字(当然也可以是商品名)。
CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000)
这是网页的编码格式,一般中国网站的编码格式都是gb2312,当然这也能在html头信息中看到(下面会讲到)。
具体内容你可以用chrome、firefox等浏览器打开看下源代码。你也可以用:
NSString *appConnect = [NSString stringWithContentsOfURL:[NSURL URLWithString:urlstring] encoding:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];
然后输出字符串查看具体内容。因为内容较多,我就把需要中到的内容展示出来(不需要的内容我删掉了):
<!DOCTYPE html>
<html>
<head>
<meta charset="gb2312" />
</head>
<body >
<form name="form1" method="post" action="searchResult2.aspx?keyword=6949322340125" id="form1">
<div class="wrap">
<div class="bodyer">
<div class="mainly">
<div id="outter">
<ol id="results">
<li>
<div class="result">
<p class="p-img" align="center"><a id="repList_ctl00_herl" target="_blank"> ![](/img/empty_90-90.8.png)</a></p>
<dl class="p-supplier">
<dt>商标:</dt>
<dd>惠松</dd>
<dt>发布厂家:</dt>
<dd>
<a id="repList_ctl00_firmLink" target="_blank">浙江惠松制药有限公司</a>
</dd>
</dl>
<dl class="p-info">
<dt>商品条码:</dt>
<dd><a href="http://www.anccnet.com/goods.aspx?base_id=F25F56A9F703ED7474EA7953D2DA975F112AE9F1ECDF18E34A679C53DA8520C047F3B14BA4309A1E" target="_blank">06949322340125</a></dd>
<dt>名称:</dt>
<dd> 复方鱼腥草合剂</dd>
<dt>规格型号:</dt>
<dd> 10ML12凭</dd>
<dt>描述:</dt>
<dd> </dd>
</dl>
<br clear="all" />
</div>
</li>
</ol>
</div>
</div>
<div id="myPager">
</div>
</div>
</div>
</html>
html的内容我就不解释了,可以在w3school 中查看。
可以看到头部中有显示是gb2312编码格式。我要获取到的就是其中商品的一些信息(包括商品条码、名称、规格型号、描述、商标和发布厂商)。
下面是解析的代码:
ONOXMLDocument *document = [ONOXMLDocument HTMLDocumentWithData:data error:nil];
HTMLMedicine *medicine = [[HTMLMedicine alloc] init];
NSString *xpath = @"//body/form/div[@class='wrap']/div[@class='bodyer']/div[@class='mainly']/div[@id='outter']/ol[@id='results']/li[1]/div[@class='result']";
[document enumerateElementsWithXPath:xpath usingBlock:^(ONOXMLElement *element, NSUInteger idx, BOOL *stop) {
NSLog(@"%@: %@", element.tag, element.attributes);
for (ONOXMLElement *celement in element.children) {
//商家和发布厂家
if ([celement.tag isEqualToString:@"dl"] && [celement.attributes[@"class"] isEqualToString:@"p-supplier"]) {
NSInteger i = 0;
for (ONOXMLElement *ccelement in celement.children) {
if ([ccelement.tag isEqualToString:@"dd"] && i == 0) {
medicine.brand = [ccelement stringValue];
i++;
}
else if ([ccelement.tag isEqualToString:@"dd"] && i == 1) {
medicine.manufacturer = [[ccelement stringValue] stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet]];
}
}
}
//商品条码、名称、规格型号、描述
if ([celement.tag isEqualToString:@"dl"] && [celement.attributes[@"class"] isEqualToString:@"p-info"]) {
NSInteger i = 0;
for (ONOXMLElement *ccelement in celement.children) {
if ([ccelement.tag isEqualToString:@"dd"] && i == 0) {
medicine.code = [ccelement stringValue];
i++;
}
else if ([ccelement.tag isEqualToString:@"dd"] && i == 1) {
medicine.name = [ccelement stringValue];
i++;
}
else if ([ccelement.tag isEqualToString:@"dd"] && i == 2) {
medicine.specificagionmodel = [ccelement stringValue];
i++;
}
else if ([ccelement.tag isEqualToString:@"dd"] && i == 3) {
medicine.descriptions = [ccelement stringValue];
}
}
}
}
NSLog(@"%@",medicine);
}];
首先把NSData转成ONOXMLDocument,然后定位到你需要的信息位置(用xpath),定位到后得到相应的ONOXMLElement,其中的tag表示节点是什么,attributes是节点中的内容,其它属性可以自己查看Ono。
具体的解析我就不讲了,这里我建了个HTMLMedicine的模型存储,包含以下属性:
@property (nonatomic, strong) NSString *code; //商品条码
@property (nonatomic, strong) NSString *name; //名称
@property (nonatomic, strong) NSString *specificagionmodel; //规格型号
@property (nonatomic, strong) NSString *descriptions; //描述
@property (nonatomic, strong) NSString *brand; //商标
@property (nonatomic, strong) NSString *manufacturer; //发布厂商
如果你的项目有集成AFNetworking这里也有个便捷的使用方式。
最后是Ono手动集成配置的截图,感谢阅读:)