阿里云E-MapReduce团队：37篇大数据之路干货分享，我收藏了

01.MySQL：互联网公司常用分库分表方案汇总

文章简介：不管是IO瓶颈，还是CPU瓶颈，最终都会导致数据库的活跃连接数增加，进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是，可用数据库连接少甚至无连接可用。接下来就可以想象了吧（并...

更多详细阅读：访问标题链接即可查看原文

02.2020计算平台事业部校招开始啦！

文章简介：前端/后端/应届生/社畜通通需要

更多详细阅读：访问标题链接即可查看原文

03.如何在E-MapReduce中玩转OSS

文章简介：在E-MapReduce中，用户可以将OSS作为Hadoop/Spark的可选数据源之一。但是在实际使用时，我们发现Hadoop读写OSS的性能不令人满意。为了解决这个问题，E-MapReduce团队...

更多详细阅读：访问标题链接即可查看原文

04.E-Mapreduce如何处理RDS的数据

文章简介：文章简介：目前网站的一些业务数据存在了数据库中，这些数据往往需要做进一步的分析，如：需要跟一些日志数据关联分析，或者需要进行一些如机器学习的分析。在阿里云上，目前E-Mapreduce可以满足这类进一步分析的需...

更多详细阅读：访问标题链接即可查看原文

05.2019年Apache Spark技术交流社区原创文章回顾

文章简介：整理了这一年分享过的来自诸多专家的实践经验，希望2020年我们仍然能够互相支持，壮大Spark社区。

更多详细阅读：访问标题链接即可查看原文

06.自建Hadoop数据迁移到阿里云EMR

文章简介：客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后，会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR...

更多详细阅读：访问标题链接即可查看原文

07.Tablestore结合Spark的流批一体SQL实战

文章简介：本文将通过结合Tablestore和Spark的流批一体存储和计算，来自建电商大屏完成电商数据的分析和可视化，

更多详细阅读：访问标题链接即可查看原文

08.Spark Operator浅析

文章简介：Spark Operator浅析本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最...

更多详细阅读：访问标题链接即可查看原文

09.如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

文章简介：目前Aliyun E-MapReduce支持了zeppelin和hue，在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-Ma...

更多详细阅读：访问标题链接即可查看原文

10.实时 OLAP 系统 Druid

文章简介：整体来看，Druid 算是一个优秀的实时 OLAP 系统，虽然有一些地方设计的并不是尽善尽美，但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况，希望可以给使用 Druid 的同学做一些参考。...

更多详细阅读：访问标题链接即可查看原文

11.Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

文章简介：Virgin Hyperloop One（超级高铁公司）是一家从事超级高铁研究的公司，致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统，我们需要收集并且分析非常大量的各种不同...

更多详细阅读：访问标题链接即可查看原文

12.玩转阿里云EMR三部曲-高级篇交互式查询及统一数据源

文章简介：利用阿里云EMR生态定制化集群，实现数据仓库满足商业/运营的查询需求，并提供横向扩展提升性能的空间，结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。

更多详细阅读：访问标题链接即可查看原文

13.玩转阿里云EMR三部曲-中级篇集成自有服务

文章简介：利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境，隔离计算和生产资源，并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

更多详细阅读：访问标题链接即可查看原文

14.列式存储系列（二）: Vertica

文章简介：本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说，Vertica 是一个纯正的列式存储数据库，为此，Vertica 设计实现了 pr...

更多详细阅读：访问标题链接即可查看原文

15.使用spark-redis组件访问云数据库Redis

文章简介：本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成，Redis使用阿里云数据库Redis。

更多详细阅读：访问标题链接即可查看原文

16.EMR Spark Relational Cache 利用数据预组织加速查询

文章简介：本文介绍了EMR Spark的Relational Cache如何从数据量较大的Cube中快速提取出所需数据加速查询的原理。通过列式存储、文件索引、Z-Order等技术，我们可以快速过滤数据，大大减少...

更多详细阅读：访问标题链接即可查看原文

17.海量监控日志基于EMR Spark Streaming SQL进行实时聚合

文章简介：从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能，支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。本文以LogHub为数据源，收...

更多详细阅读：访问标题链接即可查看原文

18.Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

文章简介：阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析，为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展，同时预测了Spark 3...

更多详细阅读：访问标题链接即可查看原文

19.玩转阿里云EMR三部曲-入门篇

文章简介：优异的自动化创建集群让小伙伴可以专心于业务开发，不再纠结于hadoop版本，spark版本，甚至某些jar版本引发的各种奇怪问题，按需集群按小时计费模式替小伙伴们极大节省了开支，可以50个节点执行1小...

更多详细阅读：访问标题链接即可查看原文

20.Flink在快手的应用实践与技术演进之路

文章简介：Flink 在快手应用场景与规模 1. Flink 在快手应用场景快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中，然后接入 Flink 做...

更多详细阅读：访问标题链接即可查看原文

21.HDFS Federation简介

文章简介：背景熟悉大数据的人应该都知道，HDFS 是一个分布式文件系统，它是基于谷歌的 GFS 思路实现的开源系统，它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架...

更多详细阅读：访问标题链接即可查看原文

22.使用Spark SQL 运行大规模基因组工作流

文章简介：将数据提取到Spark中是大多数大数据作业的第一步，但这并不是大数据旅途的终点。

更多详细阅读：访问标题链接即可查看原文

23.数据湖正在成为新的数据仓库

文章简介：新一代数据仓库实际上是数据湖，对那些用于构建和训练机器学习模型的清洗，整合和验证的数据进行管理。例如，去年秋天在Amazon re：Invent 大会上，亚马逊网络服务公布了AWS Lake Form...

更多详细阅读：访问标题链接即可查看原文

24.Spark Streaming 框架在 5G 中的应用

文章简介：在发展 5G 和 IoT 场景的准备阶段，爱立信研究了各种可扩展和灵活的流处理框架，以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使...

更多详细阅读：访问标题链接即可查看原文

25.通过Spark SQL实时归档SLS数据

文章简介：流式计算和SQL 简要介绍Spark SQL流式开发语法实时归档SLS数据到HDFS

更多详细阅读：访问标题链接即可查看原文

26.Spark内置图像数据源初探

文章简介：在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象...

更多详细阅读：访问标题链接即可查看原文

27.使用E-MapReduce,spark中读取oss文件

文章简介：运行spark报如下错误：注：已配accessKeyId，accessKeySecret，endpoint

更多详细阅读：访问标题链接即可查看原文

28.使用EMR Spark Relational Cache跨集群同步数据

文章简介：Relational Cache是EMR Spark支持的一个重要特性，主要通过对数据进行预组织和预计算加速数据分析，提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度，Relationa...

更多详细阅读：访问标题链接即可查看原文

29.漫谈分布式计算框架

文章简介：本文主要谈了一些分布式计算框架方面的心得。

更多详细阅读：访问标题链接即可查看原文

30.读取emr高安全集群的hbase数据

文章简介：想问下各位有遇到过这个问题吗：1、使用本地环境（公网环境） 2、读取emr高安全集群的hbase数据 3、通过hbase的thriftserver 9099端口代理走keytab认证报认...

更多详细阅读：访问标题链接即可查看原文

31.从数砖开源 Delta Lake 说起

文章简介：Spark AI 北美峰会的第一天，坊间传闻被证实，Databrics（俗称数砖，亦称砖厂）的杀手锏 Delta 产品特性作为 Delta Lake 项目开源！会前，笔者有幸同砖厂的两位大佬李潇和连城...

更多详细阅读：访问标题链接即可查看原文

32.浅谈 Spark 的多语言支持

文章简介：Spark架构和设计上的优秀毋庸置疑，从一出道便抢了 Hadoop 的 C 位。在开源大数据的黄金十年一时风头无两，在当下人工智能时代仍然能够与时俱进，通天之处不遑多言，美中不足之处也有不少。小的...

更多详细阅读：访问标题链接即可查看原文

33.使用hadoop restful api实现对集群信息的统计

文章简介：本文根据hadoop/spark的RESTful API，实现了对集群基本信息的统计功能，包括HDFS文件系统、job情况、资源队列情况的统计。这些API只提供了基础的数据，具体的统计与分析，还需要基...

更多详细阅读：访问标题链接即可查看原文

34.如何在E-MapReduce上使用引导操作安装kafka组件

文章简介：当前emr最新版本2.1.1没有kafka组件，需要额外安装。本文介绍如何用E-MapReduce引导操作来安装kafka_2.10-0.10.0.0版本。

更多详细阅读：访问标题链接即可查看原文

35.E-MapReduce与ODPS的区别

文章简介：“E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。大数据...

更多详细阅读：访问标题链接即可查看原文

36.使用emapreduce集群，怎么访问公网呢？包括计费等能详细解析下吗？

文章简介：“1.E-MapReduce目前默认会给集群的master节点开通公网IP，classic网络下按照流量收费，vpc网络下使用的是EIP，eip会收取使用费和流量费用，使用费按照小时计费(每个regio...

更多详细阅读：访问标题链接即可查看原文

37.关注公众号“姬远玄”

阿里云E-MapReduce团队：37篇大数据之路干货分享，我收藏了

友情链接更多精彩内容