简单爬虫——HTML转码

首先了解html编码构成

汉字的HTML实体由三部分组成，&#+ASCII+;

python3.5之前使用：

import HTMLParser

def decodeHtml(转码文本):

h = HTMLParser.HTMLParser()

s = h.unescape(转码文本)

首先先安装pip install HTMLParser

然后安装 pip install markupbase ，也可以使用下载地址，下载地址还是自己百度吧！

然后之后还是会出问题，所以不建议使用该方法转码。

python3.5+：

import html

import requests

res = requests.get(url)

htmlcode = res.text

result = etree.HTML(htmlcode)

tr = result.xpath("//body/tr[@class='jdjdj']")

s = html.unescape(etree.tostring(tr).decode('utf-8'))

print(s)