Dynamo: Facebook’s Data Center-Wide Power Management System

针对问题:数据中心能耗利用率低——数据中心电力传输层次结构过载和使断路器跳闸的代价非常高,有可能导致长期服务中断。

本文贡献:1.表征数据中心各种工作负载的能耗变化。量化不同层级(机架->主配电板MSB)和不同粒度(几秒->几十分钟)的能耗变化。-- 为防止现实中电源故障,控制器的功率读取周期controller power reading cycle快到几秒钟。

2.设计Dynamo一种数据中心范围的电源管理系统,该系统监视整个电源层次结构并做出协调的控制决策,以安全有效地使用已配置的数据中心电源。控制器的功率读取周期应该快-几秒钟-而不是先前工作所建议的几分钟。

2.我们描述了在实际生产环境中数据中心范围内的电源管理系统的设计。 解决了基于仿真的研究未解决的几个关键问题,(1)控制器和控件之间的可扩展通信,(2)应用程序感知和服务感知的封顶操作,(3)多个控制器实例和异构负载、数据依赖的协调。

3.提出的技术和设计已经在为数十亿用户服务的大型数据中心中进行了部署和评估。


背景:

当地的电力公司为数据中心提供30兆瓦的电力。现场变电站将公用电源馈入主配电板(MSB)。每个MSB的IT设备功率额定为2.5 MW,并具有备用发电机,可在公用事业中断时供电。

数据中心通常跨四个房间,称为套房suites,其中服务器机架排排列。每个suites最多有四个MSB。每个MSB可提供最多四个1.25 MW开关板(SB)。电源从每个SB馈送到每排机架末端的190 KW无功功率面板(RPP)。

每个RPP为(1)每行的机架和(2)一组直流不间断电源(DCUPS)供电。每个DCUPS可以为六个机架提供90 s的备用电源。机架电源架的额定功率为12.6 KW。根据服务器规格,每机架有9到42台服务器。( 传统模型使用配电单元(PDU)和PDU断路器代替SB和RPP)。

Facebook数据中心中的电力传输层次结构。

断路器的跳闸时间随功率消耗而变化。因此,功率上限技术的设计因素是对功率消耗的响应速度,以确保免受断路器跳闸的影响。

问题:在实际的生产数据中心中,功耗的变化速度有多快?

测量功率变化并推断到超额订购的方案中。细粒度--3s一次,3w台服务器,每个服务器收集6个月以上。粗粒度-- 1min一次,近三年来所有数据中心(约几十万)中所有服务器的粗粒度功率值。

功率斜率:测量能耗在不同层级,特定时间窗口(从3秒到600秒)的增加速率。图4说明了如何计算指标。对于每个时间窗口,我们将最坏情况下的功率变化计算为该时间窗口中最大和最小功率值的差。

各层级细粒度能耗变化汇总图(x轴-归一能耗变化率,y轴-累计变化函数)

1.窗口越大,变化越大。

2.由于负载多路传输,层级越高,能耗变化越小。

3.能耗变化与应用程序有关。


功率上限决定:计算功率设备的总功耗后,与功率断路器的极限值进行比较。

叶片能耗控制器使用三频带算法决定是否设定上/下限。一个上限阈值capping threshold(最高频带):为断路器极限的99%。当合计功率超过上限阈值时,功率上限会尝试将能耗降低到阈值目标caaping target(中频带)的水平:比断路器极限低5%。为避免振荡,较低的解封阈值uncapping threshold(底带),仅当总功率低于此阈值时才会触发功率解封。

三频带算法可有效消除控制振荡,同时使capping响应时间足够快,以应对数据中心的突然电涌。该算法也很灵活–我们可以在每个控制器的基础上配置上限和下限阈值,从而可以在不同功率输出层次的功率效率和性能之间进行可定制的折衷。

将服务分优先级,能耗对服务影响越大,该服务优先级越高。

叶片功率控制器限制功率时,1.计算总能耗削减total-power-cut:当前总能耗与限制目标的差。2.将total-power-cut分给服务最低优先级的服务器。 3.如果最低优先级组中的服务器不能吸收所有的总功率削减,则从属于第二低优先级的选择服务器,依此类推。

三频带算法(total-cut= capping -uncapping threshold)
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 选择题部分 1.(),只有在发生短路事故时或者在负荷电流较大时,变流器中才会有足够的二次电流作为继电保护跳闸之用。...
    skystarwuwei阅读 14,778评论 0 7
  • 针对问题:整合工作负载来降低能耗。有效利用整合技术,表征characterize应用程序的能耗。这种表征对于有效预...
    你爻阅读 3,443评论 0 0
  • 针对问题:CPU利用率可以建模平均能耗,但是对于预测峰值粒度过粗。 提出模型:表征服务器利用率和电源行为之间的关系...
    你爻阅读 3,602评论 0 0
  • A. 问答题 1. 简述运维工作中专业巡视的内容及周期。 答:运维工作中专业巡视的内容及周期如下: 1) 专业巡视...
    tomding阅读 8,948评论 0 2
  • Guide to BluetoothSecurity原文 本出版物可免费从以下网址获得:https://doi.o...
    公子小水阅读 12,732评论 0 6

友情链接更多精彩内容