连续两周出差和加班,只能搁浅了两周。
Algorithm
Review
一、Working with UDFs in Apache Spark
本文讲述在Apache Spark中UDF的使用方法,包括样例代码。
二、Madhukar's Blog
讲Spark和Scala的个人博客。
Tips/Technology
一、MAVEN上传jar到私服
- 在==settings.xml==文件中配置<servers>标签,添加字符用户名密码和url
- 工程==pom==文件中配置<distributionManagement>标签,注意其中的id要对应servers中的id
- 可选配置==pom==中的<repositories>和<pluginRepositories>
- 405错误码:检查repository地址是否正确
- 401、403错误码:私服仓库没有权限修改Nexus对应仓库权限Deployment Policy为“Allow Redeploy”
- 400错误码:repository仓库地址输入的不对
二、Kite中的ETL工具Morphlines
Morphlines 是一个开源框架,起源于Cloudera Search项目的一部分。它降低了 Hadoop 平台上开发和维护 ETL 流程的时间和成本,通过 Morphlines 可以抽取、转换并加载数据到 Apache Solr 、 HBase 、HDFS 、企业数据仓库或者在线分析应用。我们可以很方便的通过配置文件对 morphline 的流程进行配置,不需要进行 Java 编码工作。
Morphlines 本身是一个类库,可以嵌入到任何 Java 代码里。一个 morphline 是一个转换命令集合,这些命令对记录进行加载、转换等等。
Kite Morphline是一个Morphline版本,将Morphline应用到除Search外的数据处理中,发布了丰富的库、工具、样例、文档。
Kite Morphline支持
•Flumeevents,
•HDFSfiles,
•SparkRDDs,
•RDBMStables
•Avroobjects
已经应用到Crunch、HBase、Impala、Pig、Hive、Sqoop等。
Share
《阅读源码与阅读书籍》
在时间很紧的时候我会纠结到底是去阅读书,还是去阅读代码?不知道大家有没有这个选择综合征。其实两者并不冲突,而且都很重要。我是这么选择的:
- 当我想要快速了解一种思想,一种原理,一种方法论的时候,我去找书和相关文档,这样比较效率。
- 当我想了解具体细节,想要看到具体的算法和实现就会去翻代码。
- 当我在生产环境中遇到了突如其来的错误,比如程序中使用分库分表的中间件写一条SQL,提示成功了,但就莫名其妙的数据没有插入。这时候就需要本地复现,看源代码并调试。
- 当我需要做性能调优时我会综合两种方法,注意平时的阅读书籍积累的同时,也需要查看代码寻找细节看到底瓶颈在哪?这些参数都用在什么地方了,怎么用的。
- 书籍和文档是一种理性认识它告诉你为什么,源码是一种感性认识它告诉你如何去做。
Research
项目整理、需求调研