简书非官方大数据(一)

昨天安稳的开始了Python数据分析的学习,向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析,像我这种爱好学习(不行,让我吐一下),当然是答应了。说实话,这个实战对我来说,难度很大:

1 数据的获取 :我爬取最大的数据也就是20W+,简单的scrapy还能写一点,但简书用户量巨大,第一次尝试百万级甚至千万级数据的爬取。
2 数据的清洗和处理: “一个好的数据决定一个好的分析”,昨天才开始下载anaconda玩,估计得恶补下。
3 数据分析 : 本人感觉表达能力不是特别好,本人现在也是一个研究生,社会实践项目较少,对数据的表达能力缺乏。

不过既然感兴趣,也想去做,那就做呗!然后准备就建个系列文章记录我的一个小的实战项目吧。

数据爬取分析

今天先讲讲我的爬取数据的一点分析吧。简书没有管理用户的一个系统,我的想法是:


1

2

3

第四步:就是通过URL获取用户的具体信息啦

部分成果


已经爬取了50w+数据,代码今天就不贴上了。大家有什么好的想法也可以和我讨论。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容