Python 3 爬虫学习笔记 6 StringIO, DictReader, PDF,word

此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 6 reading documents

CSV file

作者提供了处理网路csvfile的一个方法,不存储,直接处理。用到了StringIO,然后直接处理。


主要还是两个步骤,一个是把urlopen得到的文件用stringio 来处理一下。得到一个stringio文件,然后直接用csv.reader 来读取一下。读取后就可以进行操作了,读取后可以进行迭代操作。

也可以将csv数据处理成字典

只是将第8句换掉就好了



第八句换成csv.DictReader。第九句只是用来检验得到的字段。

二,pdf

说实话,我没看懂,也没查到中英文的资料。



作者上面的代码少了一句 from urllib.request import urlopen.不过书中的正确代码都可以在网上找到。

作者说这个代码对处理全是text且layout比较可以的pdf效果较好。

三,word

也不懂,就把代码贴这里吧。



P.S.:没能上车的小伙伴欢迎留言,如果我会我直接回答你!如果不会,我谷歌后回答你!如果要加我微信,不行。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,026评论 19 139
  • “要以悲观的彻悟,乐观地去工作去生活”,突然对这句话有了感触。
    汐元下阅读 223评论 0 0
  • 题图来自:Zoommy. 版权声明本文首发自微信公众帐号:runner2sun;无需授权即可转载,但请自觉保留以上...
    逐日的我阅读 555评论 1 5
  • font-size属性不被直接继承:只有计算值(em或百分比时)被继承,而不是整个声明被继承。特点: 仅被传递到子...
    一只好奇的茂阅读 2,865评论 0 16
  • 自然语言处理的输入法作业成品没有做出来,但不想再在蛋疼的Win32上面耗费时间了,整理文档,记录一下心得,新手再来...
    乖乖果效36阅读 1,741评论 0 1