登录注册写文章

简书非官方大数据（一）

简书非官方大数据（一）

昨天安稳的开始了Python数据分析的学习，向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析，像我这种爱好学习（不行，让我吐一下），当然是答应了。说实话，这个实战对我来说，难度很大：

1 数据的获取：我爬取最大的数据也就是20W+，简单的scrapy还能写一点，但简书用户量巨大，第一次尝试百万级甚至千万级数据的爬取。
2 数据的清洗和处理： “一个好的数据决定一个好的分析”，昨天才开始下载anaconda玩，估计得恶补下。
3 数据分析：本人感觉表达能力不是特别好，本人现在也是一个研究生，社会实践项目较少，对数据的表达能力缺乏。

不过既然感兴趣，也想去做，那就做呗！然后准备就建个系列文章记录我的一个小的实战项目吧。

数据爬取分析

今天先讲讲我的爬取数据的一点分析吧。简书没有管理用户的一个系统，我的想法是：

1

2

3

第四步：就是通过URL获取用户的具体信息啦

部分成果

已经爬取了50w+数据，代码今天就不贴上了。大家有什么好的想法也可以和我讨论。

最后编辑于：2017.12.05 14:51:15

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,605评论 10赞 200
Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 177,218评论 25赞 709

寻梅
踏尽千山梅不见，怎奈我心寒千丈。大雪覆盖路不明，手脚前行路自开。行的千里回头望，白林之中一点红。
幻城彡小孩无爱阅读 2,118评论 0赞 0
做动作看真相之透视拉伸
跑后拉伸的重要性以及如何进行拉伸放松，在以前的很多专题培训和跑团活动中反复强调，很多跑友也通过各种途径了解过拉...
兴礼阅读 4,021评论 2赞 3
花
她躲在花园里沉思穿起了花衣服花儿成了她的保护色她埋了多余的瑕疵捡起了confidence 冲洗了发霉的皮肤...
蜕变的林林阅读 1,765评论 6赞 0

友情链接更多精彩内容

7赞8赞

1赞赏

手机看全文