上周,德克萨斯州的天空湛蓝,阳光温润,我心情很好地坐在梯子上休息。一群小孩子咯咯直笑,闹闹哄哄地在游泳池边泼水嬉戏。突然,扑通一声,有一个物体以慢动作从十英尺扶梯高度滑落到地板,并且反弹了一下。
幸运的是,不是我从梯子上跌下来了,而是我信赖的iPhone,它现在像泰坦尼克号一样沉没在深水区。我亲爱的,昂贵的智能手机就这样离我而去。
但是,令人惊讶的是,它幸免于难了!将它吹干,并且做了一下清洁之后,重新启动就像什么事也没发生过一样。事实上,我的iPhone是被融合拯救了,每天相同的基础设施融合补救措施让数千个数据中心避免灾难爆发。
数据中心薄弱的地方
不是我想要点燃战火,但是iPhone6可能真的是我拥有的最伟大的一个小发明。是的,我很喜欢Fluke meter多用表;无人机也非常有趣;并且我一定不会让你夺走我的家用802.11ac Aironets.然而,iPhone还是那么地与众不同。也许是因为我略过了4S、5/5S,才特别珍惜它;又或许我只是很高兴终于有一个屏幕和 Android一样大的iPhone,或许仅仅只是因为iPhone6的设计。更有可能的是,iPhone6永远不会造成麻烦。是的,超级怪胎——我使用 iOS系统是因为我不用去考虑别的事情。(Android系统的粉丝会说我没有能力去思考,他们可能是正确的。)
作为资深的网络工程师,我们也应该差不多受够了反反复复的紧急维修,虽然这曾经是我们职业生涯的标志。在某种程度上,我们使用改进的规划,供应商提 供的新性能,主动网络监控和管理消除了大部分可避免的问题。与此同时,我们数据中心基础设施的一个变化也大大降低了硬件故障,虽然创造了新的复杂性。这一 变化就是基础设施的加速融合。
我遇到了99个问题,但是不包括交换机
先举一个融合基础设施带来可用性好处的例子:架顶式(top-of-rack, ToR)交换机。曾几何时,各种金属服务器努力互连。架顶式(top-of-rack, ToR)交换机采用的是标准做法,通过一些昂贵的高速链路与汇聚交换机互连。然而,在现代数据中心中,10 GbE和40 GbE端口很常见。于是架顶式交换机基本上都被替换:一开始是被end-of-row交换机,后来直接被大型、多模式汇聚机架替换。这可能意味着更多地互 连电缆,但是电缆和端口比原有的多机箱要可靠得多。
除了集装箱式数据中心拓扑结构的高度模块化,我们还将数十个架顶式设备汇聚成单一元素。其结果是,服务失败率有所下降。乍一看这似乎有悖常理,毕 竟,融合会减少并行。因此,会出现单点故障,可能会产生较大的潜在影响。然而,现实是大部分汇聚交换机已经存在单点故障。在这样的前提下,提高基础设施融 合度将带动供应商提高可靠性。此外,更少的机箱意味着更少的故障。更妙的是,它意味着更少的跨配置运作。
对于系统管理员而言,融合基础设施可靠性带来的好处更加明显。随着虚拟化的实施,机箱、电源供应器、内存条等数量都会大量减少。同样,在少量主机上 部署的100个虚拟机看起来像针对单点故障开得处方。但是,对于风扇和内存这种分立元件故障错误,一个独立的机箱容错率会更高。同时,存储区域网络使存储 变得更可靠。最后,物理服务器数量大大减少让我们以主动-主动待机和灾难恢复形式上有真正的弹性。
手持设备上融合的缩影
纵观融合基础设施的下一次改革,历史经验表明,日益趋同等于提高了可用性,前提是正确部署。这也恰恰是iPhone设备上发生了的变化。2015 年,iPhone由于溺水淘汰的比例不到20%,某种程度上是因为iPhone或Android Galaxy手机中组件互连的数量只是前两代的一小撮。那么,就没有什么地方可以让水进去很久,即使是玻璃和屏幕间的薄薄空间也被密封。相应地,在我们的 数据中心,也只有越来越少的空隙可以被破坏。
极客们发现,在紧急情况下,如果融合性够高真正的灾难不太会发生。在我的iPhone湿了之后,我用真空吸尘器处理了每一个端口,然后将其放在一袋 大米中。约24小时候,即使将其放在水下八尺整整一分钟,它还是可以重启并工作。完美,令人难以置信的适应能力,很大的原因是因为组件变少。
当然,此后不久,我的实用主义观念占据上风。我认为长期腐蚀可能会对设备造成不良影响,于是备份设备,驱车直奔最近的苹果专卖店,换了一个全新的iPhone。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。