py爬取的html中文乱码

今天从美剧天堂爬取网页时，中文出现乱码，从网站代码看是Charest=gb2312，所以对爬取的html进行处理。

html = unicode(html, "gb2312").encode("utf8")可得到正常的中文编码。

最后编辑于：2017.12.06 06:56:49

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python多版本控制
可以看我的博客 lmwen.top 或者订阅我的公众号简介有稍微接触python的人就会知道，python中...
ayuLiao阅读 8,495评论 1赞 5
深入分析 Java 中的中文编码问题http://www.ibm.com/developerw...
编码问题一直困扰着开发人员，尤其在 Java 中更加明显，因为 Java 是跨平台语言，不同平台之间编码之间的切换...
x360阅读 7,220评论 1赞 20

【变量】python中的字符集和编码
字符集和编码简介在编程中常常可以见到各种字符集和编码，包括ASCII,MBCS,Unicode等字符集。确切的说...
兰山小亭阅读 12,892评论 0赞 13
只有出轨才能焕发“第二春”？
前言：最近传得沸沸扬扬的“保温杯泡枸杞”事件，又让中年危机回到了大众的视线。但好像我们一讲到中年危机，马上就会联想...
十分心理阅读 4,853评论 0赞 3
ElasticSearch Bulk 源码解析
本来应该先有这篇文章,后有如何提高ElasticSearch 索引速度才对。不过当时觉得后面一篇文章会更有实际意义...
祝威廉阅读 12,017评论 5赞 6

赞1赞

赞赏

手机看全文