1.nginx配置
让浏览网页的记录写在一个固定的文件里面。然后写一个定时任务的脚本,让任务定时切割那个文件,把每天的日志写入到以日期命名相应的对应文件夹里面。
2.LoggerUtil工具类切割日志
写一个日志切割的工具类,把日志切割为对应的键值对的形式。
1.有个纯真ip的工具,可以处理ipi地址为相应的省份地址信息。
2.处理浏览器信息
3.etl梳理
1.写一个mapper,输入text输出map,用LoggerUtil类处理得到log的map
2.过滤不合法事件,先判断是否有服务器时间,没有的返回false ,再判断是否有事件类型,没有的返回false,再判断事件类型为服务器还是客户端,如果是服务器,要查看会员id 如果没有则返回false,如果既不是服务器也不是客户端,也返回false。
4.output写入到hbase
1.写一个生成rowkey的方法,根据uuid和servertime,clientinfo
2.写一个job,设置inputpath为hdfs上面的路径,制定输出的table
3.打jar包执行语句