阿里云E-MapReduce团队:37篇大数据之路干货分享,我收藏了

01.MySQL:互联网公司常用分库分表方案汇总

文章简介:不管是IO瓶颈,还是CPU瓶颈,最终都会导致数据库的活跃连接数增加,进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是,可用数据库连接少甚至无连接可用。接下来就可以想象了吧(并...

更多详细阅读:访问标题链接即可查看原文

02.2020计算平台事业部校招开始啦!

文章简介:前端/后端/应届生/社畜通通需要

更多详细阅读:访问标题链接即可查看原文

03.如何在E-MapReduce中玩转OSS

文章简介:在E-MapReduce中,用户可以将OSS作为Hadoop/Spark的可选数据源之一。但是在实际使用时,我们发现Hadoop读写OSS的性能不令人满意。为了解决这个问题,E-MapReduce团队...

更多详细阅读:访问标题链接即可查看原文

04.E-Mapreduce如何处理RDS的数据

文章简介:文章简介:目前网站的一些业务数据存在了数据库中,这些数据往往需要做进一步的分析,如:需要跟一些日志数据关联分析,或者需要进行一些如机器学习的分析。在阿里云上,目前E-Mapreduce可以满足这类进一步分析的需...

更多详细阅读:访问标题链接即可查看原文

05.2019年Apache Spark技术交流社区原创文章回顾

文章简介:整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

更多详细阅读:访问标题链接即可查看原文

06.自建Hadoop数据迁移到阿里云EMR

文章简介:客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR...

更多详细阅读:访问标题链接即可查看原文

07.Tablestore结合Spark的流批一体SQL实战

文章简介:本文将通过结合Tablestore和Spark的流批一体存储和计算,来自建电商大屏完成电商数据的分析和可视化,

更多详细阅读:访问标题链接即可查看原文

08.Spark Operator浅析

文章简介:Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最...

更多详细阅读:访问标题链接即可查看原文

09.如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

文章简介:目前Aliyun E-MapReduce支持了zeppelin和hue,在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-Ma...

更多详细阅读:访问标题链接即可查看原文

10.实时 OLAP 系统 Druid

文章简介:整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。...

更多详细阅读:访问标题链接即可查看原文

11.Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

文章简介:Virgin Hyperloop One(超级高铁公司)是一家从事超级高铁研究的公司,致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统,我们需要收集并且分析非常大量的各种不同...

更多详细阅读:访问标题链接即可查看原文

12.玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

文章简介:利用阿里云EMR生态定制化集群,实现数据仓库满足商业/运营的查询需求,并提供横向扩展提升性能的空间,结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。

更多详细阅读:访问标题链接即可查看原文

13.玩转阿里云EMR三部曲-中级篇 集成自有服务

文章简介:利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

更多详细阅读:访问标题链接即可查看原文

14.列式存储系列(二): Vertica

文章简介:本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 pr...

更多详细阅读:访问标题链接即可查看原文

15.使用spark-redis组件访问云数据库Redis

文章简介:本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

更多详细阅读:访问标题链接即可查看原文

16.EMR Spark Relational Cache 利用数据预组织加速查询

文章简介:本文介绍了EMR Spark的Relational Cache如何从数据量较大的Cube中快速提取出所需数据加速查询的原理。通过列式存储、文件索引、Z-Order等技术,我们可以快速过滤数据,大大减少...

更多详细阅读:访问标题链接即可查看原文

17.海量监控日志基于EMR Spark Streaming SQL进行实时聚合

文章简介:从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收...

更多详细阅读:访问标题链接即可查看原文

18.Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

文章简介:阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3...

更多详细阅读:访问标题链接即可查看原文

19.玩转阿里云EMR三部曲-入门篇

文章简介:优异的自动化创建集群让小伙伴可以专心于业务开发,不再纠结于hadoop版本,spark版本,甚至某些jar版本引发的各种奇怪问题,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小...

更多详细阅读:访问标题链接即可查看原文

20.Flink在快手的应用实践与技术演进之路

文章简介:Flink 在快手应用场景与规模 1. Flink 在快手应用场景 快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中,然后接入 Flink 做...

更多详细阅读:访问标题链接即可查看原文

21.HDFS Federation简介

文章简介:背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架...

更多详细阅读:访问标题链接即可查看原文

22.使用Spark SQL 运行大规模基因组工作流

文章简介:将数据提取到Spark中是大多数大数据作业的第一步,但这并不是大数据旅途的终点。

更多详细阅读:访问标题链接即可查看原文

23.数据湖正在成为新的数据仓库

文章简介:新一代数据仓库实际上是数据湖,对那些用于构建和训练机器学习模型的清洗,整合和验证的数据进行管理。例如,去年秋天在Amazon re:Invent 大会上,亚马逊网络服务公布了AWS Lake Form...

更多详细阅读:访问标题链接即可查看原文

24.Spark Streaming 框架在 5G 中的应用

文章简介:在发展 5G 和 IoT 场景的准备阶段,爱立信研究了各种可扩展和灵活的流处理框架,以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使...

更多详细阅读:访问标题链接即可查看原文

25.通过Spark SQL实时归档SLS数据

文章简介:流式计算和SQL 简要介绍Spark SQL流式开发语法 实时归档SLS数据到HDFS

更多详细阅读:访问标题链接即可查看原文

26.Spark内置图像数据源初探

文章简介:在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象...

更多详细阅读:访问标题链接即可查看原文

27.使用E-MapReduce,spark中读取oss文件

文章简介:运行spark报如下错误: 注:已配accessKeyId,accessKeySecret,endpoint

更多详细阅读:访问标题链接即可查看原文

28.使用EMR Spark Relational Cache跨集群同步数据

文章简介:Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relationa...

更多详细阅读:访问标题链接即可查看原文

29.漫谈分布式计算框架

文章简介:本文主要谈了一些分布式计算框架方面的心得。

更多详细阅读:访问标题链接即可查看原文

30.读取emr高安全集群的hbase数据

文章简介:想问下各位有遇到过这个问题吗:1、使用本地环境(公网环境) 2、读取emr高安全集群的hbase数据 3、通过hbase的thriftserver 9099端口代理 走keytab认证 报认...

更多详细阅读:访问标题链接即可查看原文

31.从数砖开源 Delta Lake 说起

文章简介:Spark AI 北美峰会的第一天,坊间传闻被证实,Databrics(俗称数砖,亦称砖厂)的杀手锏 Delta 产品特性作为 Delta Lake 项目开源!会前,笔者有幸同砖厂的两位大佬李潇和连城...

更多详细阅读:访问标题链接即可查看原文

32.浅谈 Spark 的多语言支持

文章简介:Spark架构和设计上的优秀毋庸置疑,从一出道便抢了 Hadoop 的 C 位。在开源大数据的黄金十年一时风头无两,在当下人工智能时代仍然能够与时俱进,通天之处不遑多言,美中不足之处也有不少。小的...

更多详细阅读:访问标题链接即可查看原文

33.使用hadoop restful api实现对集群信息的统计

文章简介:本文根据hadoop/spark的RESTful API,实现了对集群基本信息的统计功能,包括HDFS文件系统、job情况、资源队列情况的统计。这些API只提供了基础的数据,具体的统计与分析,还需要基...

更多详细阅读:访问标题链接即可查看原文

34.如何在E-MapReduce上使用引导操作安装kafka组件

文章简介:当前emr最新版本2.1.1没有kafka组件,需要额外安装。本文介绍如何用E-MapReduce引导操作来安装kafka_2.10-0.10.0.0版本。

更多详细阅读:访问标题链接即可查看原文

35.E-MapReduce与ODPS的区别

文章简介:“E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 大数据...

更多详细阅读:访问标题链接即可查看原文

36.使用emapreduce集群,怎么访问公网呢?包括计费等能详细解析下吗?

文章简介:“1.E-MapReduce目前默认会给集群的master节点开通公网IP,classic网络下按照流量收费,vpc网络下使用的是EIP,eip会收取使用费和流量费用,使用费按照小时计费(每个regio...

更多详细阅读:访问标题链接即可查看原文

37.关注公众号“姬远玄”

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342