关于HTML解析 For IOS

最近公司有一个需求,需要从某网页上获取一些数据传给后台。那就是通过固定网址下载html网页源代码,然后解析。

我先说下解析的库是Ono,他的作者是mattt,也是AFNetworking的贡献者。

Ono非常小,如果是不用CocoaPods添加的话也只需加入ONOXMLDocument.h和ONOXMLDocument.m两个文件就好了,不过还要导入libxml2系统自带的库,在Build Setting-Header Search Paths中加入 "/usr/include/libxml2"路径。(后有截图)

当然如果使用CocoaPods的话就:
pod 'Ono'

Ono库可以单独使用也可以配合AFNetworking一起用。

解析完整过程

这里的url是中国商品信息服务平台的查询接口。

首先获取html:

NSString *urlstring = [NSString stringWithFormat:@"http://search.anccnet.com/searchResult2.aspx?keyword=%@",string];
NSData *data = [NSData dataWithContentsOfURL:[NSURL URLWithString:urlstring] options:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];

url中的string是商品条形码的数字(当然也可以是商品名)。
CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) 这是网页的编码格式,一般中国网站的编码格式都是gb2312,当然这也能在html头信息中看到(下面会讲到)。

具体内容你可以用chrome、firefox等浏览器打开看下源代码。你也可以用:

NSString *appConnect = [NSString stringWithContentsOfURL:[NSURL URLWithString:urlstring] encoding:CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000) error:nil];

然后输出字符串查看具体内容。因为内容较多,我就把需要中到的内容展示出来(不需要的内容我删掉了):

<!DOCTYPE html>
<html>
<head>
<meta charset="gb2312" />
    </head>
    <body >
    <form name="form1" method="post" action="searchResult2.aspx?keyword=6949322340125" id="form1">
      <div class="wrap">
        <div class="bodyer">
          <div class="mainly">
              <div id="outter">
                <ol id="results">
                  
                      <li>
                        <div class="result">
                          <p class="p-img" align="center"><a id="repList_ctl00_herl" target="_blank"> ![](/img/empty_90-90.8.png)</a></p>
                          <dl class="p-supplier">
                            <dt>商标:</dt>
                            <dd>惠松</dd>
                            <dt>发布厂家:</dt>
                            <dd>
                              <a id="repList_ctl00_firmLink" target="_blank">浙江惠松制药有限公司</a>
                            </dd>
                          </dl>
                          <dl class="p-info">
                            <dt>商品条码:</dt>
                            <dd><a href="http://www.anccnet.com/goods.aspx?base_id=F25F56A9F703ED7474EA7953D2DA975F112AE9F1ECDF18E34A679C53DA8520C047F3B14BA4309A1E" target="_blank">06949322340125</a></dd>
                            <dt>名称:</dt>
                            <dd> 复方鱼腥草合剂</dd>
                            <dt>规格型号:</dt>
                            <dd> 10ML12凭</dd>
                            <dt>描述:</dt>
                            <dd> </dd>
                          </dl>
                          <br clear="all" />
                        </div>
                      </li>        
                </ol>
              </div>
            </div>
            <div id="myPager">

</div>
          </div>
          
        </div>

</html>

html的内容我就不解释了,可以在w3school 中查看。
可以看到头部中有显示是gb2312编码格式。我要获取到的就是其中商品的一些信息(包括商品条码、名称、规格型号、描述、商标和发布厂商)。

下面是解析的代码:

ONOXMLDocument *document = [ONOXMLDocument HTMLDocumentWithData:data error:nil];
HTMLMedicine *medicine = [[HTMLMedicine alloc] init];
NSString *xpath = @"//body/form/div[@class='wrap']/div[@class='bodyer']/div[@class='mainly']/div[@id='outter']/ol[@id='results']/li[1]/div[@class='result']";
[document enumerateElementsWithXPath:xpath usingBlock:^(ONOXMLElement *element, NSUInteger idx, BOOL *stop) {
        NSLog(@"%@: %@", element.tag, element.attributes);
        
        for (ONOXMLElement *celement in element.children) {
            
            //商家和发布厂家
            if ([celement.tag isEqualToString:@"dl"] && [celement.attributes[@"class"] isEqualToString:@"p-supplier"]) {
                NSInteger i = 0;
                for (ONOXMLElement *ccelement in celement.children) {
                    if ([ccelement.tag isEqualToString:@"dd"] && i == 0) {
                        medicine.brand = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 1) {
                        medicine.manufacturer = [[ccelement stringValue] stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet]];
                    }
                    
                }
            }
            
            //商品条码、名称、规格型号、描述
            if ([celement.tag isEqualToString:@"dl"] && [celement.attributes[@"class"] isEqualToString:@"p-info"]) {
                NSInteger i = 0;
                for (ONOXMLElement *ccelement in celement.children) {
                    if ([ccelement.tag isEqualToString:@"dd"] && i == 0) {
                        medicine.code = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 1) {
                        medicine.name = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 2) {
                        medicine.specificagionmodel = [ccelement stringValue];
                        i++;
                    }
                    else if ([ccelement.tag isEqualToString:@"dd"] && i == 3) {
                        medicine.descriptions = [ccelement stringValue];
                    }
                }
            }
        }
        NSLog(@"%@",medicine);
    }];

首先把NSData转成ONOXMLDocument,然后定位到你需要的信息位置(用xpath),定位到后得到相应的ONOXMLElement,其中的tag表示节点是什么,attributes是节点中的内容,其它属性可以自己查看Ono

具体的解析我就不讲了,这里我建了个HTMLMedicine的模型存储,包含以下属性:

@property (nonatomic, strong) NSString *code;                 //商品条码
@property (nonatomic, strong) NSString *name;                 //名称
@property (nonatomic, strong) NSString *specificagionmodel;   //规格型号
@property (nonatomic, strong) NSString *descriptions;         //描述
@property (nonatomic, strong) NSString *brand;                //商标
@property (nonatomic, strong) NSString *manufacturer;         //发布厂商

如果你的项目有集成AFNetworking这里也有个便捷的使用方式

最后是Ono手动集成配置的截图,感谢阅读:)


libxml2添加

Header Search Paths添加路径
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容