计算资源调度

数据平台会用很多计算资源, 一台算不了就要分布式, 因此需要一个计算资源调度的服务.

"江河日下"的 Yarn

作为一个经常跟 Hadoop 生态打交道的数据工程师, 首先逃不掉的就是 Yarn. 虽然如今已经风光不再了, 但 Hive/Spark 等还是可以"开箱即用"的跑上去.

Apache Yarn

如日中天的 Kubernetes

如果说不了解 Kubernetes 恐怕要丢了工作了, 现在如日中天的 Kubernetes(下文统称 k8s) 的确也是一个非常优秀的资源调度框架. 通过简单的 YAML 文件 declarative 的方式声明所需的资源即可.

Kubernetes Architecture

在数据平台中, Yarn 和 k8s 结合使用, 将 Hive/Spark 的 Driver 端通过一个 Docker Image 方式跑在 K8s 中, 解决大量并发计算时 Driver 端的资源问题, 并且使用 Docker Image 后也可以走公司统一的 CI/CD 流程, 非常方便.

关于在 k8s 上其他玩法, 推荐读这篇 Google 的 Paper: Design patterns for container-based distributed systems, 其中列举的几个模式都非常实用, 例如:

  • Sidecar Pattern: 最近大家密切关注的 Service-mesh 也可以看到 sidecar 模式的应用


    Sidecar Pattern & Ambassador Pattern
  • 任务处理的场景, 非常适用工作队列模式

Work queue Pattern
  • 我认为最重要的 Scatter/gather 模式, 等我们的 Kafka 数据 sink 框架改造完成了我再来扯扯这个模式的应用.
Scatter/gather Pattern

不过"纸上得来终觉浅, 绝知此事要躬行", 还是建议找机会在 k8s 上把每个 Pattern 实现一遍

容易被忽略的虚拟机(AWS EC2)

尽管大家的关注点都在如日中天的 k8s, 也别忽略了"上个时代"(戏称, 勿喷)的虚拟机. 我用过最好用的是 AWS 的 EC2, 其他云计算厂商由于条件限制没怎么深入使用过.

为什么这么说, 因为如果一个云计算平台的 API 足够完善, 使用云计算平台启动一台虚拟机应该不比在 k8s 上启动一个 docker container 难多少(或许更简单), 那么通过 cloud-init 就可以在虚拟机启动后执行所需的任务, 然后在虚拟机节点完成任务后自动销毁节点达到节省成本的目的.

以我最熟悉的 AWS 为例, 例如计算任务脚本如下:

#!/bin/bash
# 示例脚本: job.sh

function do_job() {
    # 这是工作脚本, 会在启动的 ec2 上执行
}

function destroy_instance() {
    # 这里获取本机的 instance-id 并且发送 terminate 请求
    local instance_id=`ec2-metadata --instance-id`
    
    # terminate 需要对应的 IAM 权限
    aws ec2 terminate-instances $instance_id
}

do_job
destroy_instance

启动任务也很简单, 一行命令搞定

# 示例命令
aws ec2 run-instances\
     --image-id ami-abcd1234 \
     --count 1 \
     --instance-type m3.medium \
     --key-name my-key-pair \
     --subnet-id subnet-abcd1234\
     --security-group-ids sg-abcd1234 \
      --user-data file://job.sh

更多信息参见 AWS 官方文档

这就结束了吗? 并没有. AWS 还有一个我非常喜欢的产品: Autoscaling Group. 通过配合 SQS 就可以非常简单的实现 work queue 模式: 计算任务直接往 SQS 扔, autoscaling group 会自动根据策略扩容集群, 无需担心其他事情.

Autoscaling Group & SQS

那么还有其他的资源调度框架吗?

"老掉牙"的 MapReduce

当然, "老掉牙"的 MapReduce 也是, 你信不信?

想一下, MapReduce 是如何分配 Mapper 的? 不就是实现一个 InputFormat, 通过 getSplits计算分片策略, 然后 MapReduce 框架自然会根据计算出来的 InputSplit 分配对应的 mapper 进程进行计算最后 reduce. 如果我们不需要 reducer 就直接省略即可.

有些抽象? 应该这年头没几个人会手撸 MapReduce 代码了. 我们举几个场景:

  1. Kafka topic 中的数据需要存储到 HDFS 进行后续分析, 那么我们就可以实现一个 InputFormat, 让一个 Kafka Topic 的 partition 作为一个 InputSplit, 数据开始和结束分别是一个 offset, 每隔一段时间执行, 并且将已经读取的数据的 offset 存储下来, 供下一次任务执行作为 start.
  2. 跨机房数据迁移, 会有数据下载任务. 那么我们就可以将下载文件的列表写到一个文本文件中, 通过实现 InputFormat 将计算 InputSplit 切分下载任务, 然后提交到 MapReduce 集群进行处理.
  3. 大家熟知的 Sqoop 也是类似的原理, 不在赘述.

总结

使用一个资源调度服务也不是什么高深技术, 更多的是要会活学活用, 根据具体的场景和手里的资源, "攒"出一个能够水平扩展尽快把活儿干完的系统.

欢迎扫描或者微信搜索 haitaoyao 关注微信公众号

-- EOF --

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容