登录注册写文章

关于数据处理流程的思路

大数据修行

关于数据处理流程的思路

1.nginx配置

让浏览网页的记录写在一个固定的文件里面。然后写一个定时任务的脚本，让任务定时切割那个文件，把每天的日志写入到以日期命名相应的对应文件夹里面。

2.LoggerUtil工具类切割日志

写一个日志切割的工具类，把日志切割为对应的键值对的形式。

1.有个纯真ip的工具，可以处理ipi地址为相应的省份地址信息。
2.处理浏览器信息

3.etl梳理

1.写一个mapper，输入text输出map，用LoggerUtil类处理得到log的map
2.过滤不合法事件，先判断是否有服务器时间，没有的返回false ，再判断是否有事件类型，没有的返回false，再判断事件类型为服务器还是客户端，如果是服务器，要查看会员id 如果没有则返回false，如果既不是服务器也不是客户端，也返回false。

4.output写入到hbase

1.写一个生成rowkey的方法，根据uuid和servertime，clientinfo
2.写一个job，设置inputpath为hdfs上面的路径，制定输出的table
3.打jar包执行语句

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

关于Mongodb的全面总结
关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
中v中阅读 32,192评论 2赞 89
极迅云课（服务端教案）
一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容【Python简介】： Python 是一个...
_小老虎_阅读 11,322评论 0赞 10

oracle错误集合
ORA-00001: 违反唯一约束条件 (.) 错误说明：当在唯一索引所对应的列上键入重复值时，会触发此异常。 O...
我想起个好名字阅读 10,999评论 0赞 9
高级9、MySQL数据库架构、优化、原理详解
一、MySQL架构与历史 A.并发控制 1.共享锁（shared lock，读锁）：共享的，相互不阻塞的。 2.排...
阿休阅读 10,154评论 0赞 37
javascript复习笔记三（json）
一、首先JSON是一种数据格式 JSON 是纯文本 JSON 具有"自我描述性"（人类可读） JSON 具有层级...
jofhkg阅读 1,297评论 0赞 0

友情链接更多精彩内容

3赞4赞

赞赏

手机看全文