扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共3页)
可靠性管理:可靠性保证和增长的基础
之所以把可靠性管理放在第一位,优先于可靠性设计、分析和试验,是因为我们认为后者都是具体的、细节的技术或方法,是可以短期内修正或完善的;而可靠性管理则代表了一个公司可靠性领域在流程和制度上的成熟度,需要时间、实践、经验和数据的积累和沉淀,可以说是员工心智和公司文化的体现。
H3C于2005年正式将可靠性纳入公司的流程管理,作为产品开发过程中的重要一环。对于研发的每款产品,H3C都会制定相应的可靠性规格和过程实施计划。可靠性规格是产品概念阶段在可靠性指标上的承诺,根据各方面的需求决定出要做什么样的产品。可靠性过程计划则明确定义什么阶段、由谁完成哪些可靠性工作,达到什么目标,过程如何规范,交付哪些内容,在执行上保证了规格承诺的兑现。
举例来说,器件管理和优选便是可靠性管理体系中的重要组成部分。做过产品开发的人都知道,不同厂家的同型号器件,往往很难做到所有参数完全一致。当器件参数不一致时,产品在设计初期就需要考虑通过容差设计来兼容这些器件,这样就对设计和制造提出了更高的要求,一定程度上提高了设计制造的难度和成本。随着供应商和器件型号的增加,管理费用迅速上升,彼此沟通变成了一个费时费力而且低效的工作。另一方面,设计和制造也不断出现由“兼容设计”引起的问题,允许免检直接入库的器件变少。对于这种问题,在H3C,有专门的部门负责器件优选和认证管理工作,他们跟踪业界器件技术发展的动态,对制造、客户出现的器件问题进行跟踪和数据搜集,提供各类优选器件清单,使器件选型工作简单有效。当有器件需要替代时,必需经过足够环节的审核、测试和小批量验证才能被规模使用。
可靠性增长的一个重要方法是应用FRACAS系统(Failure Report Analysis and Corrective Action System),其原理是利用“故障反馈、闭环控制、预防再发生”,通过一系列规范化的工作程序,及时报告产品故障,分析故障根因并纠正,通过临时规避措施减小故障的影响,通过预防再发生的解决措施实现产品可靠性增长。在H3C,从研发、试产、生产到客户现场,各环节不同程度都在实施故障报告和闭环。以HASA(Highly Accelerated Stress Audit,高加速应力稽核)流程为代表,该流程融入了FRACAS和8D的思路,对每一台HASA过程出现问题的设备,都建立流程跟踪,从条码记录、故障现象、故障风险分析、根本原因总结到解决措施、闭环实施,把各环节有机整合起来,实现发货前检验的高效率和问题闭环的有效性。将每个HASA失效都看作改进过程的机会,从而使解决问题的投入达到利益最大化。
根据流程,所有和可靠性相关的关键数据都集成到了QA系统的可靠性模块。在这里,可以查到某款产品在特定发货时间的市场失效情况,可以跟踪市场实际MTBF、累计失效率、制造批次相关的失效率等等。通过数据分析和同类产品比对,去发现设计、制造、管理各环节可以提高的机会,实现进一步的可靠性增长。
良好的可靠性管理通过建立一套严格的纪律,指导设计人员什么时候要做什么事情;可以让今天的教训成为明天的预防,在明天就“一次性把事情做对”;可以让我们“站在巨人的肩膀上”,做任何事情都不是从零开始。而所有的目的,只是为了实现可靠性目标的承诺,保证提供给客户的产品,在承诺的时间内是高可靠的、是满足客户要求的。
可靠性设计:关注细节,重在执行
谈到电子产品可靠性设计,我们几乎马上会想到热设计、元器件降额、容差容错设计、可靠性预计等等。可靠性设计是否成功,有两点必不可少,其一是执行,其二是细节。
首先是执行。以降额设计为例,不少公司都有降额设计规范,但这个规范是否被严格执行了,超出降额的器件有没有被专业评估,降额要求是否根据制造/市场元器件的表现调整,不同产品是否需要分别对待实现全寿命成本最优,都是可靠性设计的关键。再如热设计,在H3C,热设计由可靠性工程师保证。每款产品,在开发初期,都会对散热进行评估和仿真,提前释放散热风险。在整个评估过程中,可靠性工程师和结构工程师、产品开发人员、互连设计工程师的沟通非常紧密,结构、布局的变化会知会可靠性工程师进行散热风险评估。风险没有释放,就不能通过下一个技术评审点。
其次是细节。可靠性设计是一个需要注重细节的工作,所谓“千里之堤,溃于蚁穴”。1980年,阿丽亚娜火箭第二次试飞时,一名工作人员不慎碰落一个部件的商标,堵塞了发动机燃烧室的喷嘴,造成发射失败。1985年,美国发射“三叉戟”导弹,由于发动机燃烧室中剥落了一块黄豆大的绝缘层,结果高温火焰烧穿了那里的金属壁,燃气向外喷射,发动机爆炸。“Paying attention to details”因此被直接写入到美军标338中的,这也是经验和思考的总结。
以H3C为例,热设计中的热仿真过程不但仿真常态情况,还会对风扇停转等异常状态进行仿真;在降额设计上,对各类器件电应力进行遍历审查,对不同风扇转速下热应力进行遍历测试,保证在规定环境下每个器件承受的应力满足降额要求;对易损耗的器件进行寿命评估,保证在规定时间内设备符合用户的要求;对关键电路进行容差设计和仿真,保证器件参数随环境应力、寿命漂移时,电路依然可以可靠工作。对电路进行简洁度设计,通过SI/PI仿真减少不必要的器件,简化设计从而降低单板失效率。
可靠性分析:防患未然,心知肚明
可靠性分析主要包括三部分:可靠性预计、FMEA(故障模式影响分析)和FTA(故障树分析)。可靠性预计通过计算MTBF、返修率等指标,评估维修成本、备件成本和整网可用度,可以提前预计产品在现场运行的可靠性情况。FTA构造繁杂,对人员经验和技能要求高,通常只对重要故障进行分析。对于复杂产品,FMEA是一个防患未然的有效方法。举个简单的例子,当我们遇到十字路口红绿灯失效的情况时,哪种失效现象最不希望出现?显然,当两条路上同时出现绿灯时交通事故隐患就被埋下了。那么在开展交通信号灯控制系统的FMEA分析时,就要关注哪些器件失效会出现绿灯同时点亮的情况,是否有解决方法。
在H3C,复杂系统会开展FMEA分析工作,通过对系统中可能出现的故障模式和影响做深入分析,将故障检测和容错设计纳入产品需求,消除单点故障。对于冗余备份系统,保证失效发生时设备可以快速倒换,业务运行不受影响,从而提高产品可靠性。在可靠性预计方面,利用强大的数据支持,结合历史数据分析,对可靠性预计进行针对性修正,提高了预计的准确性。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者