python编码问题

在把网页源代码爬下来之后,出现了一个问题

源代码中的中文字符全部变成“???”问号(黑人问号脸.jpg)

pycharm提示的是decode方面出现了问题,所以我上网百度了一下python的编码解码

其中http://blog.csdn.net/moodytong/article/details/8136258
这篇博文较为详细的说明了python的编码解码,所以我就按照上面的方法进行尝试,一开始看的是下面几行代码:

u = u'中文'#显示指定unicode类型对象ustr = u.encode('gb2312')#以gb2312编码对unicode对像进行编码

str1 = u.encode('gbk')#以gbk编码对unicode对像进行编码

str2 = u.encode('utf-8')#以utf-8编码对unicode对像进行编码

u1 = str.decode('gb2312')#以gb2312编码对字符串str进行解码,以获取unicode

u2 = str.decode('utf-8')#如果以utf-8的编码对str进行解码得到的结果,将无法还原原来的unicode类型

看懂后进行尝试,结果没成功,应该是因为python的版本问题所致,所以我继续往下看,又看到了几行代码:

u = u'中文'#显示指定unicode类型对象u

str = u.encode('gb2312')#以gb2312编码对unicode对像进行编码

str1 = u.encode('gbk')#以gbk编码对unicode对像进行编码

str2 = u.encode('utf-8')#以utf-8编码对unicode对像进行编码

u1 = str.decode('gb2312')#以gb2312编码对字符串str进行解码,以获取unicode

u2 = str.decode('utf-8')#如果以utf-8的编码对str进行解码得到的结果,将无法还原原来的unicode类型

依照这几行代码的提示,我终于成功的解决了python的编码解码问题

也算是较为顺利地完成了一个任务(继续加油)





最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 几个基本概念 bit二进制位, 是计算机内部数据储存的最小单位,11010100是一个8位二进制数。一个二进制位只...
    西电大侠阅读 3,590评论 1 8
  • 什么是编码 任何一种语言、文字、符号等等,计算都是将其以一种类似字典的形式存起来的,比如最早的计算机系统将英文文字...
    随风化作雨阅读 1,562评论 1 2
  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 8,580评论 0 13
  • 继上一篇文章字符集和编码详解总结了常见字符编码后,这篇文章会对python中常见的编码问题进行分析和总结。由于py...
    __七把刀__阅读 2,911评论 0 6
  • 农村孩子大都有山里经验,湖区除外。大山是神秘的、危险的,大山也是丰饶的。大山是一所野外求生学校,大山更是一座神奇的...
    惠娟桃江阅读 1,416评论 13 1