Hack On Douyu -- 2

在上一篇文章中,主要讲了我获取斗鱼弹幕和某些静态页面的方法,在数据获取到之后,如何有效的组织和存储数据直接关系到后续数据能否可以背有效使用。
为了更直观的说明获取到的这些数据如何组织和使用,我大致花了两张图来说明。

数据存储结构

通过爬虫或是直接通过tcp通讯获取到的斗鱼静态页面数据和弹幕聊天内容数据组织形式如下图所示:


mongodb数据组织结构
mongodb数据组织结构

我使用mongodb来存储和管理数据,把上述的数据存储在名为Douyu的数据库中,将数据分别存于Roominfo、chatmsg、rocket、rocketbyDay四个表中。

静态页面数据存储

其中Roominfo库主要记录通过爬虫获取到的当前开播房间信息,字段主要包括用以纪录数据获取时间的date、开播房间人气audience、房间标题roomtitle、主播名anchor、房间标签tag、当前房间封面图片img、房间标识符roomid。
在实际使用中,可以隔时执行静态页面数据获取脚本从而获取这些数据,通过对audience进行排序可以轻易获取到人气最高的房间,并且能够将这些房间信息以json的格式传输到需要的地方。而audience和tag的组合也可以获取不同类型直播房间人气对比结果。
我在项目中通过服务器上的crontab每隔10分钟执行一次静态页面数据获取任务.

0,10,20,30,40,55 * * *  * python  /path/to/allRooms.py

反应给前端的结果可以通过这个页面看到。

弹幕聊天内容

上一篇说过,最初打算是想要对弹幕聊天内容进行自然语言分析的,但是由于一直没来得及搞,也就搁浅了,对与弹幕聊天内容,只是简要的纪录了包括发送者sender_id、发送时间date和弹幕内容content,由于每次获取的弹幕数据都是获取当时人气最高的房间弹幕,所以弹幕内容大都是什么“白银三杰”、“最强王者”之类的。。。

火箭纪录

自然语言分析没搞成,所以现在的重点工作是纪录观众赠送火箭,通过这些数据做出一些图表。
对火箭信息纪录使用了两个表:rocket和rocketbyDay。
rocket主要是获取实时火箭信息,通过与斗鱼弹幕服务器建立连接,根据弹幕消息类型将赠送火箭的信息获取到,主要包括:赠送者sender_id、接受者recver_id、赠送时间date和礼物类型gift。
rocketbyDay则是通过每天0:05分统计前一天火箭随着时间的分布情况,以天为单位的date、每天火箭总数count和当天火箭具体数据data。
纪录这些内容主要是可以统计出每日逐时礼物赠送情况、每天赠送礼物的土豪排名、受到火箭主播排名等。大致结果可以点击当天火箭信息火箭历史数据查看具体内容。

消息实时转发

上述数据可以看作直播数据中的长时间数据,而其中的一些需要“保鲜”的数据例如在有土豪赠送给主播火箭之后,观众可以在两分钟内到该房间抢鱼丸礼物,对于这种需要“保鲜”的数据,我通过redis的pub/sub来接收和转发,并通过socke.io实时发送给当前打开页面的观众。大致过程如下图所示:


遇到的问题和下一步计划

在实际项目运行中,有好几次出现mongodb莫名其妙挂掉的现象,由于项目运行在腾讯1核心1gb内存的云主机上(学生优惠一个月只要一块钱,23333333),这让我很快想到是不是在写入数据的时候,mongodb占用内存过高导致挂掉(之前在学校做项目的时候曾经见到过mongodb在大量写入数据的时候数据库挂掉的现象)。
于是,打开终端,连接到云主机上, 进入到mongodb目录:

./mongo
use Douyu
db.setProfilingLevel(1)

然后静待下次数据库挂掉。果然在某个整10分钟的时候,数据又数不出来了,重启数据库,打开mongodb客户端:

db.system.profile.find().limit(2)

出现的内容:


正如猜想的那样,果然是由于写入的时候造成了数据库的问题。
这时,机智的我想到了师妹那里还有个闲置的云主机,征用过来做个读写分离试下吧(当然我也想搞个副本集,好多主、好多从、好多分片。。。关键不是没条件嘛)。减轻了服务器负载之后,数据库挂掉的现象没有再出现啦。

到目前为止,项目基本上可以正常运行,在数据操作这方面,打算在增加一些内容,比如分析某个游戏在每天随时间观众人数变化、某个主播直播时段、某个游戏人气变化情况等等。
下一篇内容主要讲后端flask的一些情况以及前后端数据传输方式等。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 179,272评论 25 708
  • 距离上次更新又有一段时间了,毕业答辩之后,确实和同学们一起出去嗨了一段时间,由于还没入职,在家清净的环境中可以好好...
    wangmengcn阅读 1,067评论 0 3
  • 在拥有了数据获取和存储的能力之后,如何利用好这些数据成为一个问题。本来也一直打算把之前学习的flask框架用起来,...
    wangmengcn阅读 768评论 0 1
  • 海岸边有一座小山,山上有一幢高楼,那楼很薄,背面已经坍塌。海啸要来了,它的高度正好到高楼的倒数第二层,如果爬到最高...
    妙宗舶攸阅读 754评论 0 0
  • 为什么大家都越来越热衷于红酒! 现代在都市中生活的人们已经越来越注重养生之道了,葡萄酒作为一种酒精饮料除了在西...
    a容人达己阅读 1,157评论 0 0

友情链接更多精彩内容