简单爬虫——HTML转码

首先了解html编码构成

汉字的HTML实体由三部分组成,&#+ASCII+;

python3.5之前使用:

import HTMLParser

def decodeHtml(转码文本):

    h = HTMLParser.HTMLParser() 

    s = h.unescape(转码文本)

首先先安装pip install HTMLParser

然后安装 pip install markupbase ,也可以使用下载地址,下载地址还是自己百度吧!

然后之后还是会出问题,所以不建议使用该方法转码。

python3.5+

import html

import requests

res = requests.get(url)

htmlcode = res.text

result = etree.HTML(htmlcode)

tr = result.xpath("//body/tr[@class='jdjdj']")

s = html.unescape(etree.tostring(tr).decode('utf-8'))

 print(s)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。