福利 | Apache

数据系统大多数来自Apache,趁着比较清闲的时候整理了一份。
详细资料:https://pan.baidu.com/s/1qESrUMuz84qA5jb1UNUuoA

url 描述 名称 说明+应用
http://apex.apache.org/ Enterprise-grade unified stream and batch processing engine Apex 一个Hadoop YARN本地平台,它统一了流和批处理
http://avro.apache.org/ A Serialization System Avro 一个数据序列化系统
http://bahir.apache.org/ Extensions to distributed analytic platforms such as Apache Spark Bahir 为多个分布式分析平台提供扩展,通过多种流式连接器和SQL数据源扩展其范围。目前,Bahir为Apache Spark和Apache Flink提供扩展。
http://bigtop.apache.org/ Apache Hadoop ecosystem integration and distribution project Bigtop Bigtop打包Hadoop RPM和DEB,以便您可以管理和维护您的Hadoop集群。Bigtop提供了一个集成的烟雾测试框架,以及一套超过50个测试文件。Bigtop提供了用于从零部署Hadoop的流浪食谱,原始图像和(正在进行中)docker食谱。
http://carbondata.apache.org/ indexed columnar data format for fast analytics on big data platform Carbondata Apache CarbonData是一种索引列数据格式,用于大数据平台上的快速分析,例如Apache Hadoop,Apache Spark等。
http://cassandra.apache.org/ Highly scalable second-generation distributed database Cassandra 一套开源分布式数据库管理系统,由Facebook开发,用于储存特别大的数据。
http://datafu.apache.org/ well-tested libraries that help developers solve common data problems in Hadoop and similar distributed systems DataFu 一个用于处理Hadoop中的大规模数据的库集合。该项目的灵感来源于需要稳定,经过充分测试的数据挖掘和统计数据库。
http://drill.apache.org/ Schema-free SQL Query Engine for Apache Hadoop, NoSQL and Cloud Storage Drill 用于Hadoop,NoSQL和云存储的无模式SQL查询引擎
http://eagle.apache.org/ open source analytics solution for identifying security and performance issues instantly on big data platforms Eagle 开源分析解决方案,用于在大数据平台即时识别安全性和性能问题,例如Apache Hadoop,Apache Spark等。它分析数据活动,纱线应用程序,jmx指标和守护进程日志等提供最先进的警报引擎,以识别安全漏洞,性能问题和显示见解。
http://falcon.apache.org/ Data management and processing platform. Falcon 在Hadoop环境中建立各种数据和处理元素之间的关系
http://flink.apache.org/ platform for scalable batch and stream data processing Flink 一款面向分布式,高性能,始终可用且准确的数据流应用程序的开源流处理框架。
http://giraph.apache.org/ Iterative graph processing system built for high scalability Giraph 一个为高可扩展性而构建的迭代图处理系统。例如,Facebook目前使用它来分析由用户及其连接形成的社交图。
http://hadoop.apache.org/ Distributed computing platform Hadoop 是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供高可用性服务,每个计算机都可能出现故障。
http://hama.apache.org/ a Bulk Synchronous Parallel computing framework on top of Apache Hadoop Hama 一个大数据分析框架,它使用批量同步并行(BSP)计算模型,该模型于2012年成立为Apache软件基金会的顶级项目
http://hbase.apache.org/ Apache Hadoop Database HBase HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
http://helix.apache.org/ A cluster management framework for partitioned and replicated distributed resources Helix Apache Helix是一种通用的集群管理框架,用于自动管理节点集群上托管的分区,复制和分布式资源。面对节点故障和恢复,集群扩展和重新配置,Helix可自动重新分配资源。
http://hive.apache.org/ Data warehouse infrastructure using the Apache Hadoop Database Hive 数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。
http://impala.apache.org/ a high-performance distributed SQL engine Impala 提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。
http://kafka.apache.org/ Distributed publish-subscribe messaging system Kafka 一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。
http://knox.apache.org/ Simplify and normalize the deployment and implementation of secure Hadoop clusters Knox 用于Apache Hadoop生态系统的REST API和应用程序网关
http://kudu.apache.org/ A distributed columnar storage engine built for the Apache Hadoop ecosystem Kudu 开源Apache Hadoop生态系统的新成员,完成Hadoop的存储层,以实现 对快速数据的快速分析
http://lens.apache.org/ Unified analytics platform Lens 提供统一分析界面。Lens旨在通过跨多个分层数据存储提供单一数据视图和分析查询的最佳执行环境,从而削减Data Analytics孤岛。它将Hadoop与传统数据仓库无缝集成,看起来像一个。
http://madlib.apache.org/ Scalable, Big Data, SQL-driven machine learning framework for Data Scientists MADlib 一个可扩展的数据库内分析的开源库。它为结构化和非结构化数据提供了数据并行实现的数学,统计和机器学习方法。
http://mahout.apache.org/ Scalable machine learning library Mahout 用于创建可扩展的高性能机器学习应用程序
http://oozie.apache.org/ A workflow scheduler system to manage Apache Hadoop jobs. Oozie 管理Apache Hadoop作业的工作流调度程序系统
http://pig.apache.org/ Platform for analyzing large data sets Pig 一个分析大数据集的平台,其中包含用于表达数据分析程序的高级语言,以及用于评估这些程序的基础结构。Pig程序的显着特点是它们的结构适合大量的并行处理,从而使它们能够处理非常大的数据集。
http://predictionio.apache.org/ a machine learning server built on top of state-of-the-art open source stack, that enables developers to manage and deploy production-ready predictive services for various kinds of machine learning tasks Predictionio 一款开源的机器学习服务器,基于最先进的开源堆栈,面向开发人员和数据科学家,为任何机器学习任务创建预测引擎
http://ranger.apache.org/ framework to enable, monitor and manage comprehensive data security across the Hadoop platform. Ranger 一个框架,可在整个Hadoop平台上启用,监控和管理全面的数据安全性。
http://samza.apache.org/ distributed stream processing framework Samza 一个分布式流处理框架。它使用Apache Kafka进行消息传递,Apache Hadoop YARN提供容错,处理器隔离,安全性和资源管理。
http://storm.apache.org/ Distributed, real-time computation system Storm 一款免费且开源的分布式实时计算系统。Storm可以轻松地可靠地处理无限数据流,从而实时处理Hadoop进行批处理的操作。
http://systemml.apache.org/ A machine learning platform optimal for big data SystemML 为使用大数据的机器学习提供了最佳的工作场所。它可以在Apache Spark上运行,它可以逐行自动扩展数据,确定代码是否应该在驱动程序或Apache Spark集群上运行。
http://tajo.apache.org/ Big data warehouse system on Apache Hadoop Tajo 是Apache Hadoop的强大的大数据关系和分布式数据仓库系统。Tajo设计用于存储在HDFS(Hadoop分布式文件系统)和其他数据源上的大数据集上的低延迟和可伸缩即席查询,联机聚合和ETL(提取 - 转换 - 加载过程)。通过支持SQL标准并利用先进的数据库技术,Tajo允许通过各种查询评估策略和优化机会直接控制分布式执行和数据流。
http://tinkerpop.apache.org/ A graph computing framework for both graph databases (OLTP) and graph analytic systems (OLAP) TinkerPop 图形数据库(OLTP)和图形分析系统(OLAP)的图形计算框架。
http://trafodion.apache.org/ webscale SQL-on-Hadoop solution enabling transactional or operational workloads. Trafodion 事务SQL-on-Hadoop数据库
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容