python抓取简单爬虫01

python抓取简单爬虫时,如果抓取的网页爬虫数据里面,有不能够utf-8编码的(例如html里面的简体中文),

data=data.decode('UTF-8')

print(data)

报错'gbk' codec can't encode character '\xXX' in position XX

解决办法:修改为

data=data.decode('GBK','ignore')

print(data)

学习文档:http://python.jobbole.com/77821/      http://www.cnblogs.com/sysu-blackbear/p/3629770.html    http://www.cnblogs.com/abelsu/p/5105542.html

官方文档:https://docs.python.org/3/library/urllib.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,105评论 45 523
  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 8,610评论 0 13
  • 可以看我的博客 lmwen.top 或者订阅我的公众号 简介有稍微接触python的人就会知道,python中...
    ayuLiao阅读 3,152评论 1 5
  • 《雏菊》豆瓣分8.0。雏菊花语:藏在心底的爱。设定地点:欧洲十大文化名城之一的阿姆斯特丹因为一次偶然,主人公与某人...
    神枪工作室阅读 976评论 0 0
  • 从小我就是被爸爸妈妈一手带大的,在我的影响中,母亲是苛责严厉的,只要是我犯了错误就会被母亲责罚,小时候的我只能...
    乐花阅读 541评论 6 2