240 发简信
IP属地:浙江
  • 机器学习入门之泰坦尼克号生存预测(附测试数据集)

    这是在Kaggle上看到的一个机器学习入门的例子,Kaggle是一个数据分析建模的应用竞赛平台,这就是那个无数『数据挖掘先驱』们,在回答”枪我有...

  • Resize,w 360,h 240
    Apache Hadoop与第三方Hadoop(CDH、HDP等)的比较

    一、Hadoop版本综述 Apache Hadoop的开源协议决定了任何人可以对其进行修改,并作为开源或者商业版发布/销售。故而目前Hadoop...

  • 利用HCatalog管理元数据

    在HDFS和HBase之间,Hadoop提供了许多保存数据的方法,使得数据可以被多个应用程序访问。但将数据集中存储并提供给多个应用程序访问,这样...

  • hcatalog简介和使用

    Hcatalog是apache开源的对于表和底层数据管理统一服务平台,目前最新release版本是0.5,不过需要Hive0.10支持,由于我们...

  • kafka原理

    需要说明的是,Kafka只解决”fail/recover”,不处理“Byzantine”(“拜占庭”)问题。 一条消息只有被“in sync” ...

  • Hadoop之Pig

    Pig是一种探索大规模数据集的脚本语言。MapReducer的一个主要的缺点就是开发的周期太长了。我们要编写mapper和reducer,然后对...

  • MESOS简介

    Apache Mesos 是一个集群管理器类似于YARN,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行 Hadoop、MPI、Hy...

  • hive中UDF和UDAF使用说明

    Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:H...

  • hive优化

    1.Hive自己如何确定reduce数: reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,hive会猜测确定一个re...