数据中心容量管理的认知洞察与精准解析
数据中心容量的损失往往是多种原因造成的。 一般数据中心从设计、 建设到运行要经历很多年, 通常 10 年以上, 称之为数据中心的生命周期。在设计阶段一般假设所有的 IT 设备利用率都是 100%,而新的 IT 设备对电力和冷却的需求在前期设计是完全无法预估的。随着业务的增长 IT 的需要是不断变化的,且要在越来越短的时间内做出 IT 部署决策,就产生了容量碎片化,这些碎片化的容量很难被重新利用,也就造成了容量损失。
当数据中心开始投入使用,我们需要把 IT 设备部署到数据中心里。大多数数据中心使用的 IT 设备涉及不同的设备类型,如:从大型机、小型机,以及防火墙、负载均衡设备、交换机、 网关、存储、存储交换机,不同设备间的功耗、 发热量、重量和体积都不尽相同。而且随着新的应用系统的不断增多,日积月累的系统切换、升级,变更,导致后端服务器、网络设备与存储系统数量越来越多、数据中心规模也越来越大、 管理和运行维护的成本也爆炸性地增长,形成“服务器蔓延”的现象。这样不仅对机房的初始规划产生了不利影响,更对运行中的数据中心环境造成破坏,导致电力、空调的容量瓶颈,致使运维人员疲于修缮、 优化改进系统,不仅导致数据中心的运维工作繁重,最严重的结果是既增加了运营成本,又使数据中心的运维风险加大。因此,如何省时省力地管理众多厂商的异构 IT 设备对数据中心容量的影响,如何最大化降低风险、有效降低运维成本,是数据中心运维团队系统需要关心的问题。
与此同时,随着计算设备的更新换代以及高密度计算设备的广泛应用,能耗和散热等能源管理方面对数据中心提出了更高、更新的要求。另一方面,业务发展对数据中心资源的要求致使服务器和存储的数量大幅增长,而服务器、存储等设备快速的增长给数据中心在环境控制、电源与散热、空间管理等方面造成了巨大的压力。应用数量不断增长, 对软件的需求也十分巨大,而且与日俱增,应用的增长速度已远远超过了服务器效率和性能的增长速度。同时,有研究结果显示,服务器功率密度每年增长 4 个百分点,对于大多数类型的服务器,每单位的热负荷都在不断攀升。如果不是数据中心的管理部门进行长期的研究、优化工作,则数据中心的能源和散热问题严重失控,解决电力和散热相关问题(电力不足、热量过高)是数据中心最繁重的工作。
下图显示了数据中心生命周期与容量的关系,其中绿线表示了设计容量增长的状况,而红线则表示了实际容量增长的过程。这是由于实际业务增长对容量的需求与前期设计规划存在偏差引起的。这样就会导致容量损失。数据中心的容量不可能达到 100%, 但如果在生命周期中进行了有效容量管理,可以最大程度地提高容量利用率,减小损失。
图 1 数据中心生命周期与容量的关系
目标与业务价值
数据中心容量管理流程的目的是确保所有基础设施容量均经济合理,且能够及时满足当前和未来的业务发展需求。
容量管理对于数据中心基础设施资源容量相关问题提供一个关注和管理点。
容量管理的目标是:
■ 生产并保持最新的容量计划,该计划能够反映当前与未来的业务需求;
■ 就所有容量和性能相关问题为数据中心业务及相关领域提供建议和指南;
■ 通过管理数据中心的基础设施容量,确保基础设施资源的利用率达到或超过设定目标;
■ 协助诊断和解决与性能、与容量相关的故障和问题;
■ 评估所有变更对容量计划的影响,以及所有资源的性能和容量;
数据中心容量管理负责确保基础设施得到精心规划和安排,以便能够根据SLA 和 OLA 的规定,提供可以满足当前和未来业务需求,通过与业务及其计划相结合,容量管理能够提供一个容量计划,其中概述了支持业务计划所需要的资源,同时提供对于这一支出的成本合理性证明。
关键功能
容量管理旨在确保数据中心基础设施的容量与性能可以以最经济高效、及时的方式满足不断演进的协定的业务需求。
所以整个数据中心容量管理会持续尝试以经济高效的方式将基础设施资源和容量与不断变化的业务需求进行匹配。同时要求调整和优化现有资源,以便有效预测和规划未来资源,如下图所示。
图 2 容量规划示意图
( 一 ) 容量监视
为了支撑容量管理的基础活动,应对数据中心的电力、制冷量、机柜位、U位空间、承重、电口、网口及其使用的记录进行监视和管控。将其采集到的数据做为容量分析、容量计划 / 调优、容量报告等流程活动的数据输入,确保结果的准确性。
数据中心的容量监视应尽可能采取自动化,保证其数据的准确性和持续性。无法通过自动化的数据,也应具有系统记录,并明确相关的流程规范,确保该部分数据真实有效。
( 二 ) 容量规划 / 调优
数据中心的服务对象主要为 IT 设施,相关的容量计算均需要其硬件参数做为支撑,所以在执行数据中心容量管理前应建立 IT 设备数据库,并将 IT 设施相关的硬件参数记录在库,如设备的额定功率、端口数量、U 位高度、重量等主要参数。
在容量规划和调优中,应支持用户根据其自身的部署原则和部署设备的硬件参数进行容量智能搜索匹配,帮助用户快速找到合理的空间位置,降低用户的管理成本。
( 三 ) 容量分析
通过容量实时监控采集到的数据应进行分析,可以得知当前数据中心容量的利用率,通过定期的监控比较,数据中心管理人员可以了解各容量指标的异常情况,报告违规抢占的情况并采取相应的措施。
数据分析可以发现以下问题:
- 基础设施内的“瓶颈”或“热点”;
- 可用资源中的工作负载分配不当;
- 实际负载意外增加;
- 容量安排及利用率低。
评价指标
容量关键指标可用于判断容量管理活动的效率和有效性,部分 KPI 和衡量尺度应包括:
准确的业务预测:
- 按时生成容量负载预测(报告);
- 容量趋势预测的准确率 ( 百分比 );
- 及时在容量计划中充分考虑业务的发展计划;
- 减少业务计划和容量计划的变化数量。
了解当前和未来技术:
- 提高基础设施容量的采集技术;
- 及时根据容量计算要求调整和实施新的采集技术;
- 减少人工录入容量计算参数。
展示经济高效性的能力:
- 减少因基础设施容量超载的情况;
- 减少由于缺少足够的基础设施容量而引起的业务中断;
- 减少生成容量计划的成本。
文章来源:《数据中心基础设施管理技术白皮书》