在我们的客服系统中,主要用到实时在线统计和离线统计两种.
实时在线统计热词,用户通过手机端所说的话,实时发送http 请求,通过 logstash 接收数据,然后通过 kafka 发送到 spark streaming 来进行实时处理,每分钟进行入库操作.
实时构架流程图
log --> http -->logstash --> kafka --> spark streaming --> mysql
离线统计 DAU 和 MAU
用户每次进入app,通过在 init 时进行埋点,发送 http 请求,通过 logstash 接收数据,按天按 app 形成log文件,通过定时脚本发送到 hdfs 上,每天使用 spark 进行处理并入库.
离线处理构架流程图
log --> http --> logstash --> hdfs --> spark --> mysql