本宝宝天然萌

IP属地：浙江

机器学习入门之泰坦尼克号生存预测（附测试数据集）
这是在Kaggle上看到的一个机器学习入门的例子，Kaggle是一个数据分析建模的应用竞赛平台，这就是那个无数『数据挖掘先驱』们，在回答”枪我有...

11347 0 0
Apache Hadoop与第三方Hadoop（CDH、HDP等）的比较
一、Hadoop版本综述 Apache Hadoop的开源协议决定了任何人可以对其进行修改，并作为开源或者商业版发布/销售。故而目前Hadoop...

0.6 27193 0 7

利用HCatalog管理元数据
在HDFS和HBase之间，Hadoop提供了许多保存数据的方法，使得数据可以被多个应用程序访问。但将数据集中存储并提供给多个应用程序访问，这样...

6660 0 5
hcatalog简介和使用
Hcatalog是apache开源的对于表和底层数据管理统一服务平台，目前最新release版本是0.5，不过需要Hive0.10支持，由于我们...

11338 1 1
kafka原理
需要说明的是，Kafka只解决”fail/recover”，不处理“Byzantine”（“拜占庭”）问题。一条消息只有被“in sync” ...

2224 0 2
Hadoop之Pig
Pig是一种探索大规模数据集的脚本语言。MapReducer的一个主要的缺点就是开发的周期太长了。我们要编写mapper和reducer，然后对...

0.1 7118 0 4
MESOS简介
Apache Mesos 是一个集群管理器类似于YARN，提供了有效的、跨分布式应用或框架的资源隔离和共享，可以运行 Hadoop、MPI、Hy...

0.3 17219 0 7

hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：H...

7251 0 4
hive优化
1.Hive自己如何确定reduce数： reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，hive会猜测确定一个re...

3465 0 2