扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
数据中心设施的哪些组件可以同时进行容错和维护?
绝大多数的数据中心均声称他们是N+1或N+2冗余,这意味着他们有多余的组件。很多时候,他们会称自己为“第三级”或“第四级”,正常运行所定义的四个层次的数据中心。第三级被定义为同时维护:“一家数据中心有同时维护冗余能力的组件和服务计算机设备的多种分配路径。在任何时间,只有一个分配路径需要服务计算机设备。”第四级被定义为容错:“容错数据中心有多个独立的物理隔离系统,提供冗余能力组件和多个独立的积极传播布局路径,同时为电脑设备服务。冗余能力和不同的路径进行配置,这样,‘N’能力便可以在任何基础设施被破坏之后为计算机设备提供电力和冷却……互补系统和配送路径必须物理相互隔离,防止任何单一事件同时影响系统或分配路径。”
当然,数据中心的第四层满足所有冗余的要求。他们没有解释的是如何在现实世界中将这些组成部分联系在一起,以便在维修过程中处理一个断电问题。例如,一家数据中心,拥有24台发电机、24个UPS、和72个CRAH后轴架。该数据中心需要每季度都对这些设备进行维护,同时又不影响操作,所以他们被配置为N+1或N+2组件配置。问题是,有没有足够的时间在一个季度内完成一个维修项目,因此数据中心只能要么减少其维修周期,要么同时维护多个系统。
您需要了解的是数据中心同时并行维护容错的影响。如果他们在同一时间维护#1发电机,UPS#2和CRAH后轴架#3,并同时遭遇他们遭受发电机#4,UPS#5和CRAH后轴架#6停电,会对客户造成什么影响?第四级指定从一个单一的事件的隔离,但您真正需要做的是保护您的关键IT基础设施与多个同时发生的事件隔离。
如何在维修过程中或计算机房空气调节(CRAC)装置/计算机房空气处理(CRAH)装置运营失败时冷却设置,以维持工作温度?
这个问题其是第一个问题的一个分支。一些数据中心将声称他们的冷却系统N+1或N+2,但那其实是对整个机房或整个数据中心来说的。如果计算机房空气处理(CRAH)装置靠近笼出现故障,多余的后轴架在机房另一边500以外,这对您没有任何好处。数据中心会为自己的机房提供进入冷却区,并为每个区域提供足够的冗余,以便为所有客户在发生故障时在每个区都保持温度吗?甚至更好的情况:他们既容错,同时又在每个区进行维护?如果他们在维护其他后轴架单位时遭受后轴架单元故障,他们仍然可以为所有客户都保持温度吗?
基础设施的平均和最大功率分别是多少?
许多数据中心都显示他们的投产年限。他们在8或10年前设计之初时,将功率密度设计的要低得多。通常,数据中心将引用瓦/柜单位来描述其功率密度,但他们不告诉您瓦/平米单位的数据。举一个例子,一家主要的数据中心提供商,数字房地产信托公司(DigitalRealtyTrust)声称他们的数据中心支持多达15kW/柜,但他们不告诉您这些笼所代表的大小。这是一个基于8-tile间距标准(32平方每柜)或者他们的间距足以实现的其计算能力呢?大多数数据中心的建立均支持平均100–175瓦/平方。更现代的数据中心支持平均225瓦/平方,并可以支持个人客户高达400瓦/平方,更高的密度与贵行内冷却。位于拉斯维加斯的SwitchNAP公司声称他们可以冷却至1500瓦/平方,但他们不会告诉您他们是如何计算的。实际上他们可以冷却48kw/柜(1500瓦/平方*32平方在8-tile间距)是不太可能的。更有可能的是,他们仅计算8-12平方,内阁本身占地和其冷排,并不算热行和死腔。如果我有机会参观他们的数据中心,那将是我的第一个问题。
机柜的功率密度也很重要。数据中心可以为每一个机柜提供冗余三相30A和50A208V电源电路,并收取较高的功率密度电路的溢价吗?如果您需要的功率密度超过6千瓦/柜,您将需要3相电源或很多的电源线,但并不是每一家数据中心都提供这些电路。记住在未来验证您今天的期望。10年前,2千瓦/柜足够供应42U的x86服务器。今天的多核,高密度的刀片服务器,则需要8KW-10KW的整个机架供电。预计电力需求将继续攀升,确保您的数据中心已计划与您的计算密度一起成长。
数据中心的负载多久测试一次其发电机?
大多数数据中心通过定期旋转来测试发电机,但很少将它们有在负载情况下运行一段较长的时间。负载测试是昂贵的,因为它消耗燃料,而且发电机负荷试验设备昂贵。数据中心偷工减料的方法之一是跳过定期负载测试,计算往往不够,他们会得到他们的生产负荷的负载测试。这可能有几个影响。首先,如果他们没有定期负载测试,那么他们很可能只能识别发电机的问题,实用电源失败,这恰恰是错误的时候发现一个问题。其次,发电机有时启动但没有负载,发电机排气系统收集未燃烧的燃料。这也被称为“湿堆积。”如果这发生得太频繁,发电机火灾发生,通常当发电机负载下由于一个实用中断。问问您的数据中心提供商他们是否在每一个发电机上进行扩展的负载测试至少每季度一次,最好每月。
该地区最坏的自然灾害风险是什么,数据中心如何减轻其影响?
每一家数据中心都会受到自然灾害的影响,但其中一些会比其他的数据中心更易受影响。加利福尼亚的数据中心的担心多是关于地震的。向数据中心咨询他们是否处在地震带,他们采取了什么保护措施。同样重要的是,他们已经与他们的供应商,尤其是他们的燃料供应商签订了什么协议。如果数据中心能从大地震中幸免遇难,但公用电力和燃料供应商无法为数据中心提供必要的供应,数据中心仍将在24–48小时内处于黑暗状态。中西部的数据中心则担心龙卷风的问题。东海岸和海湾海岸的数据中心则担心的是飓风。他们如何保护屋顶和关键基础设施免受大风致破坏?发电机外壳、水箱能否经受住龙卷风或高速飞行的碎片的打击。
冬季暴风雪也是一些数据中心所面临的一个重大问题。数据中心关于受冬季暴风雪影响,道路条件限制导致的工作人员无法正常上班有什么规定?至关重要的是,明白灾难情况可能对设施造成的影响;其二与您的供应商一起制定可能的风险的应急计划。例如,在暴雪区,可能需要您额外的投入零配件到您的设备现场,如果可能,在冬季可能会出现现场更换零件延误的情况。
员工远程操作的最低技能是什么?
绝对肯定的是,在某些时候,您的设备将需要物理接触。有时服务器需要电力循环,硬盘需要换零件,磁带需要转动的备份,电缆需要移动。您可以自己开车到数据中心,或使用他们的远程服务。许多数据中心不提供这项服务,推荐您采用第三方外包,而第三方可能不在现场。对于一些提供远程服务的数据中心,一些会在提供安全服务方面偷工减料。除非您可以信任雇佣的关键基础设施,您要确保数据中心提供的员工是IT专业人员。要求最低的工作要求并安排向服务经理了解(通常是NOC经理)谁可以24小时全天候为您提供帮助。此外,如果数据中心提供了范围广泛的IT服务与专业人员,在您的决策过程中,您就可以减少物理选址临近这一点的重要性。如果您自己的工作人员每周都要访问数据中心,您可能会考虑物理选址临近。但如果您可以依靠您的合作伙伴工作,您可以选择最佳的供应商,而不是本地供应商。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者