登录注册写文章

scrapy对nga板块评论爬虫记录

scrapy对nga板块评论爬虫记录

缘起

过年了,在家有点乏味。因为放假之前在写爬虫，于是复习下scrapy框架。
nga是一个游戏玩家社区，爬一些回帖评论，分析下哪些人是shuijun

亮点

替换重定向中间件,非200请求存储后下次运行时自动加入爬取
自定义了多个流水线清洗数据
流水线针对爬虫单独配置，互相独立
增加了代理ip中间件
自定义redis存储数据,每次运行结果以日期存储,避免覆盖
自定义json序列化,保持中文不转成unicode
通过cookie模拟登录
练习了多个选择器css,xpath
jieba 分词库的使用
Python的图表库学习,绘制柱形图
scrapyd和scrapydweb的学习
容器部署爬虫

统计

最终数据统计

帖子数 10889
评论数 155083
用户数 16635

分析

词云

0-词云.png

20099词云.png

词频
出现最多的前10个词汇

一个 7758
就是 6816
可以 5789
这个 5018
战士 4693
现在 4571
不是 4472
什么 4472
没有 4395
自己 4091

全局发帖时间分布-柱形图

0.png

单个用户评论时间分布

27353.png

代码地址

https://github.com/jsRuner/ngaspider

镜像


docker pull doudouchidou/scrapydweb:v1
docker pull doudouchidou/scrapyd_logparser:v1

最后编辑于：2024.02.14 17:32:28

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"狂飙"的评论
一、背景介绍您好，我是@马哥python说[https://www.jianshu.com/u/6d95bb35...
马哥python说阅读 4,811评论 2赞 4
python爬虫——scrapy框架总结
Scrapy是用python写的一个爬虫框架，当然如果只是写一些简单爬虫，python自己就有做爬虫的库，scra...
沉吟不语阅读 3,838评论 0赞 0

【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论
[toc] 一、背景介绍您好，我是@马哥python说[https://www.jianshu.com/u/6d...
马哥python说阅读 3,077评论 3赞 3
web爬虫，scrapy模块介绍与使用
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据...
陳_CHEN_陈阅读 4,642评论 0赞 0
3、web爬虫，scrapy模块介绍与使用
【百度云搜索，搜各种资料:http://bdy.lqkweb.com】【搜网盘，搜各种资料:http://www...
攻城狮笔记阅读 3,529评论 1赞 5

友情链接更多精彩内容

赞1赞

赞赏

手机看全文