一.安装编译nginx 1.安装PCRE PCRE 作用是让 Nginx 支持 Rewrite 功能。 下载地址 解压 编译 2.安装1.9.0 nginx nginx1.9...
一. Hive的创建文件数的限制 Hive对文件创建的总数是有限制的,这个限制取决于参数: hive.exec.max.created.files,默认值是10000。如果现...
因为首次启动JOB的时候,由于冷启动会造成内存使用太大,为了防止这种情况出现,限制首次处理的数据量 for example: 使用SparkStreaming集成kafka时...
Spark DataSource API 的提出使得各个数据源按规范实现适配,那么就可以高效的利用Spark 的计算能力。典型如Parquet,CarbonData,Post...
转自:http://hbasefly.com/2017/04/10/bigdata-join-2/ 上文简要介绍了Join在大数据领域中的使用背景以及常用的几种算法-broa...
对一些SparkSQL任务,可以通过缓存数据、调优参数、增加并行度提升性能 缓存数据sqlContext.cacheTable("tableName")或dataFrame....
首先所有核心组件都会实现org.apache.flume.lifecycle.LifecycleAware接口: start方法在整个Flume启动时或者初始化组件时都会调用...
因工作需求,研究了下flume插件开发,调通了开发断点环境。公司使用了CDH5.10.1, flume对应的版本是1.6,文档和源码请参见下面链接。http://archiv...
.Azkaban工作流引擎和Flume数据采集 Azkaban介绍 一、Azkaban简介 为什么需要工作流调度系统? 因为一个完整的数据分析系统通常都是由大量任务单元组成:...
一、业务场景 在广告追踪系统中,我们通过提供SDK给用户,把各种各样的用户数据采集到我们的服务器中,然后通过MR计算,统计各种输出。在本文中,笔者将抽取其中一种业务场景:计算...