第10章 集群与存储系统

在云环境中。存储资源和计算资源的管理方式往往不同。为了能够屏蔽底层不同存储厂商存储实现的细节,K8s引入了Persistent Volume Claim(PVC)、Persistent Volume(PV)、Storage Class(SC)等API原语(Promitive),以及抽象出来一套标准的可以与K8s交互的接口(FlexVolume、SI),将具体的存储实现与K8s自身解耦。

10.1 从应用的状态谈起

在K8s集群中的应用大致分为无状态应用和有状态应用两种类型,他们对存储的需求不同。

10.1.1 无状态的应用

K8s使用ReplicaSet来保证应用Pod实例的在线数量。如果应用的某个实例由于某种原因坏了(例如Pod所在的宿主机出故障了),ReplicaSet会立刻用相同模板创建并启动一个新实例来替代它。

由于是无状态的应用,新实例和旧实例一模一样,所以新实例能做到对旧实例的无损替代。此外K8s通过负载均衡Service的方式,对外提供一个稳定的访问接口,实现应用的高可用。

10.1.2 有状态的应用

对于有状态的应用,K8s引入了StatefulSet。StatefulSet配合PVC和PV,可以将应用的状态存储到远端。这样的应用Pod在遇到宿主机等的故障迁移后,通过复用之前的远端存储,可实现应用带状态的迁移。Stateful Set是通过保持其管理的每个Pod的名字的有序性和不变性的方式,建立了Pod名字与该Pod使用的存储(通过PVC来描述)的一一对应关系,从而保证了同名的Pod发布或迁移过程中始终可以使用“同一份”远程存储。

10.2 基本单元:Pod Volume

K8s中最小的调度单位是Pod,可以认为一个Pod是一个具体的微服务实例,它一般会包含多个容器。这些容器共享根容器Pause的网络命名空间。并可共享在Pod中声明的所有的Volume。

Pod Volume是对DOcker Volume的一种更高层次的抽象,属于Pod对象的一部分,面向的是应用实例Pod,而不是容器粒度。对K8s中Pod Volume可以使用的Volume类型做一下简单分类。

(1)本地存储:Emptydir、Hostpath等,是主要使用Pod运行的节点上的本地存储。

(2)网络(分布式)存储:

 In-tree(内置):awsElasticBlockStore、gcePersistentDosk/nfs等。存储插件的实现代码是放在K8s代码仓库中的。

Out-of-trss(外置):FlexVolume、CSI等网络存储Inline Volume Plugin,存储插件单独实现,特别是,CSI是Volume扩展机制的核心发展方向。

(3)Projected Volume:Secret、ConfigMap、DownwardAPI、ServiceAccountToken,将K8s集群中的一些配置信息以Volume的方式挂载到Pod的容器中,即应用可以通过POSIX接口来访问这些对象中的数据。

(4)PVC与PV体系:K8s中将存储资源与计算资源分开管理的核心设计。

10.3 核心设计:PVC与PV体系

在K8s中通过引入PVC和PV资源对象的设计,来解耦Pod和Pod使用的存储的生命周期管理,而PVC和PV资源对象由一组单独的K8s Controller来管理。这样设计可给以下常见的场景带来良好的扩展性:

宿主机故障数据迁移(如StatefulSet管理的Pod带远程Volume迁移)

多Pod共享一个数据Volume(如共享NFS文件系统)

Volume Snapshot和在线扩容Size等功能的扩展。

而PVC和PV之间有什么区别呢?为什么K8s引入两个看起来相近的资源对象呢?

主要是为了简化用户使用存储的过程,区分存储使用方与存储服务提供方的职责。用户只需通过PVC声明自己需要的存储Size、AccessMode(单Node独占还是多Node共享?只读还是读写访问?)等业务真正关系的需求,而不用关心存储系统的实现细节,PV和其对应的后端复杂信息完全可以交由K8s Cluster或Administrator同一维护和管控。

K8s中通过PVC和PV使用存储的两种方式:

(1)预先声明PV的静态方式:所需存储类型、大小等预先定义和分配好,一般来说相应的存储是预先分配好,但是这种方式不够灵活。如下图所示。

以静态方式使用存储

(2)通过SC按需动态分配方式:SC用于声明动态申请的存储Volume将有哪种Volume Plugin创建、创建时的参数,还可以从其他功能性和非功能性角度进行描述。这种方式可按需动态分配,使用起来比较灵活,如下图所示。

以动态方式使用存储

10.4 与特定存储系统解耦

10.4.1 Volume Plugin

前面从应用的角度分析了K8s为了给在其上运行的容器化服务提供存储能力所引入的抽象出来的资源对象。接下来看一下K8s与存储系统的交互机制,以及其与特定存储系统的一步步解耦过程。我们对于存储系统的核心需求有两个:申请存储空间并将其最终挂载到应用容器中。对用户来说,只需要创建资源对象(PVC)。而真正替我们实现这两个核心需求的,是集群中存储相关控制器。

结合下图介绍一下一个包含PVC的Pod的创建过程,以及各组件的交互细节。

集群存储插件

(1)用户通过API Server创建包含PVC的Pod对象。

(2)调度器把这个Pod分配给某个节点。

(3)Kubelet开始等待Volume Manager准备好存储设备。

(4)PV Controller调用相应Volume Plugin申请存储并创建PV与PVC绑定。

(5)Attch-Detach Controller或者kubelet的Volume Manager通过Volume Plugin将存储设备挂载到节点上。

(6)Volume Manager 等待存储设备挂载完成后,将Volume挂载到Pod可访问的目录下。

(7)Kubelet启动Pod并将存储挂载到相应的容器中。

总的来说就是通过PV Controller监控PV、PVC、SC等资源对象,然后调用相应的存储插件去申请存储空间,并通过Attch-Detach Controller或Kubelet Volume Manager将相应存储空间挂载到指定节点上,然后Pod在启动的过程中将其挂载到容器可访问的目录上。

10.4.2 in-tree(内置)Volume Plugin

K8s Storagr SIG停止接受in-tree Volume Plugin,并建议所有存储提供商使用out-of-tree(内置)Volume Plugin。目前两种推荐的实现方式:FlexVolume和容器存储接口CSI。

10.4.3 out-of-tree(外置)Volume Plugin

FlexVolume把Kubelet对它的调用转化为对可执行程序命令行的调用,其基本思路就是把自己实现的卷插件程序放到制定的路径,供Kubelet创建Pod过程中的特定阶段调用,这样通过二进制命令行形式扩展存储插件能够提供的功能有限,部署不方便。

而CSI通过规定一组标准的网格Client调用接口(gPRC接口),让存储提供商去提供网络服务端的调用实现,这网存储系统就完全是外置的服务进程,甚至可以“跑”在容器中,其架构如下图所示。

集群存储CSI架构

10.5 K8s中 CSI管控组件容器化部署

通过CSI接口,K8s和Storage Provider变得泾渭分明,存储系统的功能开发从K8s中彻底剥离,并且可以将存储插件以容器化的方式部署,可借助K8s的能力大大提升存储插件的易用性和稳定性。

下图的部署方式是官方推荐的方式,与特定存储相关的组件(Third Storage Vendor Container)完全可以由普通的容器化应用通过K8s来部署,K8s与存储系统的交互也通过社区实现的通用组件(external-provisioner、csi-attacher、node-driver-registrar等)实现了标准化,存储提供方只用实现图中绿色部分就可以讲一个具体的存储系统对接到K8s中供容器化的应用使用。

10.6 基于K8s的存储

通过一个“跑”在K8s上的社区项目Rook介绍一下存储系统如何借助K8s来简化存储系统本身的运维。Rook是专用于云原生环境的文件、块、对象存储服务,它依赖K8s实现了一个可以自我管理、自我扩容和自我修复的分布式存储服务。支持自动部署、启动、配置、分配、扩容、缩容、升级、迁移、灾难恢复、监控、以及资源管理等功能,并通过FlexVolume卷插件扩展K8s的存储系统。Pod可以挂载Rook管理的块设备或者文件系统。

Rook与K8s的交互关系如下图所示。

管控组件容器化部署
Rook与K8s的交互关系

向Rook这种以服务的方式计生在容器编排系统上,并为编排系统上运行的容器化应用提供基础存储服务的做法,可大幅降低存储系统自身的运维成本,对以后存储系统的严谨也是很好的参考对象。

10.7 总结

K8s通过PVC和PV体系来简化容器化的应用存储的方式,同时通过CSI来解耦存储系统和K8s的交互流程并使其标准化。随着K8s的进一步普及,存储系统借助K8s来简化自身部署、运维,以保证自身稳定性,这也是未来趋势。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容