扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
几年前,我参与过一个重新设计大型网络管理的项目:公司总部所有员工(超过3000名)都要统一到一个标准办公解决方案(Standard Office Solution ,SOS)上。遍布国内的员工都要使用同样的软件,同样的桌面硬件,同样的网络架构。该项目的目标是为了减少开支,简化支持,为将来所有的桌面和网络应用建立起统一的配置环境。
我们小组有非常严格的时间计划--一个全新的CAT5骨干网,一个新的网络拓扑结构,一个全新的服务器群组,新的桌面电脑和3500人、为期42个月的培训。这个标准和执行架构都来自于SOS计划委员会(SOS Planning Committee),它的目标是整合所有的网络操作系统和桌面系统,而且还包括已经在企业员工内部使用的桌面和网络应用。
理论上,我们开始时有一个清晰的目标,在我们设想中,问题将出现在如何把用户迁移到新环境中,并且把他们旧的应用按照新的模式重新整理。在陈旧的建筑物里部署大约30英里的CAT5线缆,以及在超过200个工位里重新布线,重新设置机房和新的网络操作系统,还要维护现有的四台旧服务器。所有这些工作优先级都非常高,也非常重要。
当新的桌面电脑被安装好,大约10天后,旧服务器中的数据就会被导入到新的服务器中。旧的应用格式的数据将被转换成新的应用格式。我们计划在两周内完成对于所有员工进行新设备使用培训。我们为每一个接入骨干网的桌面设备设定了新的密码和一个新的用户服务编号。
我们达到了所有的目标,并且严格遵守了时间进度安排。在指定期限内,新的SOS完成了,而且工作正常。如果事情就是这样了,我们的故事也就结束了。
问题出现了
在将总部员工迁移到新的软件和硬件环境的过程中出现了一些问题,尤其是在让用户从他们所习惯的本地支持人员(我的IT同事)那里转移到新的集中式呼叫中心时,问题出现得更多。其中大部分的问题是预料之中的。把旧的IT支持人员部署到新的集中式IT架构的过程中,出现了不少摩擦。用户们对于适应新的环境有些困难,但这些都会过去的。事实上也确实如此。
可是有一些问题却并没有过去,随着我们使用SOS的时间越来越长,这些问题甚至变得更为突出和尖锐,这包括了网络压力、服务器当机和服务器空间重新分配。随着新的服务器投入使用,服务器空间重新分配的问题变得更加突出,几个部门的员工共同使用一台服务器,员工需要获取在不同服务器之间的数据。由于员工和他们所使用的服务器之间的通信量变动极大,所以负载均衡的问题也开始浮出水面。
遇到这些问题,员工们迅速做出反应。服务电话都被他们打爆了,他们抱怨糟糕的接入状况,似乎每时每刻都有电话打进来要求进行升级。我们想SOS 计划委员会(SOS Planning Committee)求助,但是他们坚持说他们只能够为"纯"的SOS架构提供帮助,而不是象我们现在在总部所使用的混合式的东西。很快我们就了解到组织内部其他大型的分支机构--有1000甚至更多员工的分支机构--都面临着相同的问题,而糟糕的是,都没有解决的办法。
火光初现
我们很快就意识到造成这些问题的一些原因。如同SOS计划委员会所述,我们确实在使用一个混合式的架构。但是我们别无选择。因为通常的企业分支机构都不会超过200员工,SOS是为了这样规模的组织设计的。这包括了网络管理、IT员工的转变、费用以及所有其他的一些技术的、或者管理的问题。我们被迫采用了更大的规模,建立更大的网络,并设计出复杂得多的管理架构--其他大型分支机构也是如此。
SOS的设计目标是为了解决企业服务器整合问题。通过依赖于地方授权机制的中央管理系统,所有经过授权的工作站都将能够访问到所有的服务器。这种架构当时还在发展之中,而且当时VPN和基于网络的WAN还没有得到普遍的应用。结果我们在总部跳进了大规模网络服务器整合的陷阱。最让我们沮丧的是,当我们把我们的构想作为未来整合的指导方针时,SOS计划委员会的成员竟然在旁边袖手旁观!我们只能让他们失望了。
那火光 . . . 是导火索
为了找到解决的办法,我们的经理开始组织大家检查我们在哪里偏离了原来SOS设计。我自己的团队是负责桌面整合和安装的,发现的问题比较少。我们只是安装了更多的机器。但是网络组需要的却不仅仅是布更多的线,还需要安装更多的复杂的 switch和路由设备,这些设备都是SOS架构的,同其他SOS架构的设备一样,它们支持的坐席都不超过200个。我们使用的工具的强壮程度也不够,而总部的规模比SOS所能支持的多了11倍!
最后服务器群组被证明是出现源源不断的支持问题的症结所在--不是因为他们偏离了标准,而是因为他们完全没有偏离原来设计的规范。
每一台服务器都是严格按照最初设计的SOS架构所规定的规模和功能进行安装的。他们严格遵守了强制性的企业标准,并且除了SOS设备之外没有安装任何东西。结果就是一百台服务器,有的很少被用到,而有些总是超负荷。一旦工作量超出负荷能力,就造成负载金衡和路由错误,这些错误影响了一半的LAN。
不用新的更大的服务器,甚至是为每个部门配备新的中型服务器来取代现在的服务器,似乎就不能有一劳永逸的解决方法。Switch和路由器被更强劲的设备取代了,网络流量被整个地分配到一个单独的网络中,但是即便为每个部门指派专门的服务器,总部LAN内部的管理压力还是非常大,而且时常出现故障。
其后不久我就离开了那家公司,所以没有看到最终的解决方法。但是几年以后那个公司的总部搬进了一个更新更大的建筑之中,无疑这家公司的管理层将牢牢记住那个项目的教训。
学到的教训
由于只考虑到了企业自己的特定需要而没有考虑总部的规模,我们的团队尝到了自己酿成的苦果。因为没有把原有的网络和服务器、项目需要覆盖的范围和最终用户的需求同新的企业标准结合在一起考虑,我们的团队从来没有真正了解这样做会引发的管理问题的数量级。
最后,真正的教训是你要注意自己的信心,和你的团队对于本地条件以及用户需求的了解。我们应该回到SOS计划委员会,然后说"这个架构对我们并不合适,这是原因。这些是我们的建议替代方案。你们能不能支持我们?"如果我们能够这样做了,并且在一年的时间里赢得这场战争,我们就能避免长达四年的痛苦经历,并且避免我们的用户对我们丧失信心。
你的员工和客户那里得到的体验是无可代替的。即便你的技术人员所完成了最好的技术规划仍然需要来自外部的反馈和建议来保障成功。你可能会拥有人类历史上最好的武器,但是如果你不能够很好地检查它里面的弹药,它可能就对你毫无用处。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者