关于数据处理流程的思路

1.nginx配置

让浏览网页的记录写在一个固定的文件里面。然后写一个定时任务的脚本,让任务定时切割那个文件,把每天的日志写入到以日期命名相应的对应文件夹里面。

2.LoggerUtil工具类切割日志

写一个日志切割的工具类,把日志切割为对应的键值对的形式。

1.有个纯真ip的工具,可以处理ipi地址为相应的省份地址信息。
2.处理浏览器信息

3.etl梳理

1.写一个mapper,输入text输出map,用LoggerUtil类处理得到log的map
2.过滤不合法事件,先判断是否有服务器时间,没有的返回false ,再判断是否有事件类型,没有的返回false,再判断事件类型为服务器还是客户端,如果是服务器,要查看会员id 如果没有则返回false,如果既不是服务器也不是客户端,也返回false。

4.output写入到hbase

1.写一个生成rowkey的方法,根据uuid和servertime,clientinfo
2.写一个job,设置inputpath为hdfs上面的路径,制定输出的table
3.打jar包执行语句

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容