Facebook：创新数据中心网络拓扑结构

Facebook的工程师们推出了一种革命性的方法以便在数据中心传送数据，他们在位于衣阿华州阿尔图纳的新数据中心展示了该方法。

Facebook位于衣阿华州阿尔图纳的数据中心的空中鸟瞰图

Facebook的数据中心每天要收到多达数十亿次的用户请求;随着这家公司不断添加成员，推出新的功能特性，请求数量在不断增加。这一切对Facebook来说基本上是好事，可是对Facebook的网络工作人员来说却是个挑战。比如说，五个月前还能满足要求的数据中心拓扑结构现在已不堪重负了。

所以除了构建大型数据中心(比如位于衣阿华州阿尔图纳的这个数据中心)外，Facebook的工程师们还在不断优化数据中心的网络设计。话虽如此，用调整和改动来形容工程师们提出并在阿尔图纳数据中心落实的的设想想法可能并不恰当，更像是他们重新编写了网络设计指南。

旧的Facebook网络

在阿尔图纳数据中心兴建之前，Facebook的工程师们将数据中心的服务器机架排列成集群，类似图A中所示的架构。在实际环境中，Facebook不是只有三个机架，而是会有数百个机架。另外该图还显示了每个机架的架顶式(TOR)交换机，架顶式交换机在服务器和上游聚合交换机之间充当中介。

架顶式(TOR)――网络连接架构

图A：架顶式(TOR)――网络连接架构

这种架构很管用，但是却给Facebook的工程师们出了几道难题。Facebook的网络工程师Alexey Andreyev解释：“首先，集群的大小受到集群交换机端口密度的限制。想建造最庞大的集群，我们就需要最庞大的网络设备，而那种设备只有一批数量有限的厂商才有售。另外，一个设备中需要这么多的端口与提供带宽最高的基础设施这种愿望相悖。更为困难的是，如何在集群大小、机架带宽和集群外面的带宽之间保持长期的最佳平衡。”

Fabric：新的网络拓扑结构

工程师们将每天那些数十亿次请求视作一种激励，决定摈弃复杂的、很耗带宽的自上而下的网络层次体系，改而换成一种新的设计，名为Fabric。图B中的幻灯片描述了新的服务器机架集群，名为pod。单单一个pod包括48个机架和架顶式交换机，架顶式交换机相互连成四只fabric交换机。“每只架顶式交换目前有4条40G上行链路，为用10G连接的服务器机架提供了总共160G的带宽容量。”

图B

这种设计方法具有下列优点：

•易于部署拥有48个节点的pod

•可扩展性得到了简化，而且没有限制

•每个pod都一模一样，都使用同样的连接

下一步是连接所有fabric交换机――图C中的幻灯片描述了这项任务是如何完成的。Andreyev表示，这个比较简单(难以想象它曾经是什么样子)。

图C

Andreyev解释，Facebook的工程师们在增添主干交换机时恪守48个节点这一原则。“为了实施覆盖整个大楼的连接，我们建立了主干交换机组成的四个独立‘平面’，每个平面里面最多可以扩展到48个独立设备。每个pod的每只fabric交换机都连接到本地平面里面的每只主干交换机。”

Andreyev接下来提到的数字大得惊人。“pod和平面共同组成了一个模块化网络拓扑结构，它能够容纳数十万台用10G连接的服务器，可扩展到数千万亿位的等分带宽，为我们的数据中心大楼提供非超额订购的机架到机架性能。”

网络运营

从架顶式交换机到网络的边缘，Fabric网络设计统一使用“第3层”技术，支持IPv4和IPv6，并且使用等成本多路径(ECMP)路由。Andreyev补充说：“为了防止偶尔出现的‘长流’(elephant traffic)大量占用带宽，导致端到端路径性能下降，我们让网络具有多种速度――所有交换机之间使用40G链路，同时通过架顶式交换机上的10G端口来连接服务器。我们还有服务器端机制，以便万一出现问题，可以绕过故障处。”

物理布局

Andreyev写道，图D中所示的新大楼布局与Facebook之前的设计区别不是很大。一个区别是，将Fabric新的主干交换机和边缘交换机放置在数据大厅X和数据大厅Y之间的第一层，并让通向外界的网络连接(最小入口点，即MPOE)跨越主干交换机和边缘交换机时代。

图D

克服挑战

Facebook的工程师似乎已克服了面临的挑战。硬件的局限性不再是个问题。不但减少了不同部件的数量，还降低了复杂性。Andreyev表示，技术团队奉行了“KISS(力求简单)”原则。他在文章的结尾处补充道：“我们新的fabric不是这种方法的一个例外。尽管这种拓扑结构规模庞大、样子复杂，但它其实是个高度模块化的系统，有许多重复部件。它很容易自动化和部署，而且运营起来比数量更少的一批定制集群还要来得简单。”

来源：51CTO

0赞

好文章，需要你的鼓励

Facebook：创新数据中心网络拓扑结构

来源：51CTO

2015

01/26

15:30

分享

点赞

重磅！康迪科技获宁德时代首个重卡换电站设备订单

可实时交互的AI生成世界，腾讯发布的AI框架Yan，会是元宇宙的破局者吗？

CCF HPC China 2025｜联想 AI 基础设施 “一横五纵” 产品矩阵精彩亮相

智能体类型与记忆系统的深度解析

OpenAI CEO计划投入数万亿美元建设AI基础设施

心理学家和心理健康专家推动使用自定义指令让AI成为治疗辅助工具

HPE焕新品牌战略，进一步拓展中国市场合作伙伴生态

浏览器是智能体AI未来的关键吗？Opera和Perplexity这样认为

福特颠覆传统装配线生产模式 制造低成本美国电动车

研究员将OpenAI开源大语言模型逆向还原为无推理"基础模型"

Asmi Linux 13 Debian版本发布：Xfce桌面焕然一新

英伟达发布大规模AI就绪欧洲语言数据集和工具

数据中心运营商涌向新兴市场建设机房

Meta牵手Pimco和Blue Owl完成290亿美元数据中心融资

5000亿美元Stargate AI基础设施项目进展缓慢面临建设挑战

数据中心运营商可持续性数据收集出现倒退趋势

Meta投资千兆瓦数据中心打造"超级智能"实验室

高通推进数据中心CPU开发，正与头部云服务商洽谈合作

降低数据中心租赁成本的六大策略

施耐德电气发布“算电协同”洞察报告 数据中心能源挑战的“三层解法”

服务器机架与机箱的区别及其重要性

电机效率：数据中心AI转型的关键功率分配策略

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

福特颠覆传统装配线生产模式制造低成本美国电动车

施耐德电气发布“算电协同”洞察报告数据中心能源挑战的“三层解法”