在这一周里的学习了哪些东西?
在这一周里围绕一个小的练手项目写了四篇
作业内容
抓取简书七日热门数据,如果有时间加以分析http://www.jianshu.com/trending/weekly
爬取数据字段:
1.用户
2.标题
3.阅读量
4.评论量
5.获赞量
6.打赏数
7.文章发表时间
(文章类别,来自哪个专题。选做)
数据保存为CSV或Excel
第一篇文章
2017/4/18爬虫作业
在第一篇文章中主要是运用了单线程来编写脚本,主要涉及的内容有异步加载,数据的获取,数据的写入
第二篇文章
2017/4/19爬虫作业
在第二篇文章中,学习了一点scrapy,xpath, 把之前的单线程爬虫改成了用scrapy框架实现的多线程爬虫,以及对BeautifulSoup和Xpath进行了对比。
第三篇文章
2017/4/20 scrapy response
在第三篇文章中所记录的,学习任务是获取每篇文章的被收录的专题,和一些更具体的内容,在这一过程中,对scrapy进一步的了解,针对于如何获取链接和跳转到该链接爬取的,深度为2的网页的爬取,对于scrapy的原理,response的传递,start_request的构建有了一点了解,以及对于特殊的数据获取---json的解析。
第四篇文章
2017/4/21 七日热门数据分析
在这一天中的学习内容是对于七日热门进行了简略地分析,所涉及的知识点是Jieba
分词的简单运用,以及对一些数据进行更加合理的处理对比。
大致总结
一周里自己所学习的深度还是不够,只是停留在如何用,至于其原理并没有去理解,用得都是稀里糊涂。对比了一下,看似一开始去探究原理很费时间,也不能很好地理解,还不如直接用,省时间,但是越到后面,不理解原理越做就越空,反而花了很多时间还是无法去解决所面临的问题。