爬虫必知300点

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

python想要使用汉字,需要在脚本最前面添加#coding:utf-8或者#coding=utf-8,汉字使用的编码为utf-8,否则会出现错误)

不要用控制台显示你的爬取东西,控制台的文本功能非常弱,根本不能正确显示爬取的大量文本。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 字符集和编码简介 在编程中常常可以见到各种字符集和编码,包括ASCII,MBCS,Unicode等字符集。确切的说...
    兰山小亭阅读 8,653评论 0 13
  • 年纪越大,越发现人生就是一个不断「自我否定」的过程。 曾经以为很多正确的、理所应当的事,在遭遇一次次现...
    __7f35阅读 204评论 0 0
  • 五月清风过前窗 晨曦微露来日长 车声抚琴挠清梦 鸟儿鸣笛树上绕 梧桐几时花开下 倩女犹思梦中郎
    云中听书阅读 91评论 0 1