FxData - 简书

FxData

IP属地：云南

SparkSQL读取Hive数据插入Redis
（1）背景目前使用Python读取Hive表，解析转换之后并发插入Redis，使用fetchone方法读取速度较慢，Python转换处理的速度也...

6750 0 3
javax.jdo.JDOFatalUserException: Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found
javax.jdo.JDOFatalUserException: Class org.datanucleus.api.jdo.JDOPersis...

2741 0 0

Spark Yarn-cluster与Yarn-client
在Spark中，有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上，通常Yarn-cluster适用于生产环境，而Y...

1085 2 3
Caused by: java.nio.channels.ClosedChannelException
多个分区表报错：Caused by: java.nio.channels.ClosedChannelExceptionat org.apache...

5914 0 1
Unable to close OrcFileMergeOperator
报错：Caused by: java.io.IOException: org.apache.hadoop.hive.ql.metadata.Hi...

2747 0 0
Hive插入多个分区时OOM故障解决记录
一、故障情景基于Hive的数据仓库中需要做一张累积快照表，记录了客户发生各个行为的具体日期，比如激活日期、注册日期、申请日期、创建订单日期等等...

4706 0 4
数据仓库中如何做增量处理
为什么做增量数据量大，只需要增量最新被更改的数据。如何做增量（1）insert into比如行为数据，发生一条记录就插入一条，数据不会被upd...

0.1 3118 0 5

在数据仓库中如何做分桶
为什么分桶（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相...

0.1 3177 0 1
在数据仓库中如何做分区表
为什么做分区分区表将数据组织成分区，主要可以提高数据的查询速度。如果把一年或者一个月的日志文件存放在一个表下，那么数据量会非常的大，当查询这...

2094 0 0