scrapy对nga板块评论爬虫记录

缘起

过年了,在家有点乏味。因为放假之前在写爬虫,于是复习下scrapy框架。
nga是一个游戏玩家社区,爬一些回帖评论,分析下哪些人是shuijun

亮点

  • 替换重定向中间件,非200请求存储后下次运行时自动加入爬取
  • 自定义了多个流水线清洗数据
  • 流水线针对爬虫单独配置,互相独立
  • 增加了代理ip中间件
  • 自定义redis存储数据,每次运行结果以日期存储,避免覆盖
  • 自定义json序列化,保持中文不转成unicode
  • 通过cookie模拟登录
  • 练习了多个选择器css,xpath
  • jieba 分词库的使用
  • Python的图表库学习,绘制柱形图
  • scrapyd和scrapydweb的学习
  • 容器部署爬虫

统计

最终数据统计

  • 帖子数 10889
  • 评论数 155083
  • 用户数 16635

分析

  • 词云


    0-词云.png
20099词云.png
  • 词频
    出现最多的前10个词汇

一个 7758
就是 6816
可以 5789
这个 5018
战士 4693
现在 4571
不是 4472
什么 4472
没有 4395
自己 4091

  • 全局发帖时间分布-柱形图
0.png
  • 单个用户评论时间分布


    27353.png

代码地址

https://github.com/jsRuner/ngaspider

镜像


docker pull doudouchidou/scrapydweb:v1
docker pull doudouchidou/scrapyd_logparser:v1



 









最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容