大数据实战之App管理平台日志分析(二)

原文链接使用的是客户端收集的日志直接输出到flume中,在flume收集完后,保存到hdfs中。其中有定义flume的自定义拦截器。

上面是把数据从客户端收集到了大数据平台的服务器中。

下面就是数据的处理部分。

需要建立hive的数据仓库。

方法一:

在收集的数据是json格式的话,如果直接使用hive的插入就需要有hive支持json的数据格式。

1.说明

      因为使用json格式存放数据,需要第三方serde库。

      下载json-serde-1.3.8-jar-with-dependencies.jar

  2.复制以上的jar包hive的lib下,分发

  3.配置hive-site.xml文件,添加jar包的声明,永久注册。

      [hive-site.xml]

        <property>

            <name>hive.aux.jars.path</name>

            <value>file:///soft/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar</value>

        </property>


方法二:

自己写代码进行数据的处理。

直接使用阿里的json处理工具,把数据处理成最后的格式。

这里面可以进行对脏数据的清洗,或是灰色数据的补齐等等操作。

在使用代码处理完之后,可以直接放到hdfs中,然后再使用hive的插入语句插入到hive中。

或是直接把数据放到hive的表下面的数据目录的地址下,不过这个需要提前建表等操作才可以。


原文链接:http://www.aboutyun.com/forum.php?mod=viewthread&tid=27036

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容