首先了解html编码构成
汉字的HTML实体由三部分组成,&#+ASCII+;
python3.5之前使用:
import HTMLParser
def decodeHtml(转码文本):
h = HTMLParser.HTMLParser()
s = h.unescape(转码文本)
首先先安装pip install HTMLParser
然后安装 pip install markupbase ,也可以使用下载地址,下载地址还是自己百度吧!
然后之后还是会出问题,所以不建议使用该方法转码。
python3.5+:
import html
import requests
res = requests.get(url)
htmlcode = res.text
result = etree.HTML(htmlcode)
tr = result.xpath("//body/tr[@class='jdjdj']")
s = html.unescape(etree.tostring(tr).decode('utf-8'))
print(s)