您当前的位置:首页 > 问答 > 内容

设备可靠可用性包括哪些,设备可靠可用性包括哪些类型(全面剖析可靠性与可用性)

关于【设备可靠可用性包括哪些】,设备可靠可用性包括哪些类型,今天乾乾小编给您分享一下,如果对您有所帮助别忘了关注本站哦。

内容导航:1、全面剖析可靠性与可用性(附英文详解)2、设备可靠可用性包括哪些

1、全面剖析可靠性与可用性(附英文详解)

相信点开这篇文章的读者,一定或多或少接触过“高可靠”“高可用”这些字眼,但是往往或语焉不详,或罗列术语(MTBF、MTTR ...),那么我们到底应该如何定量描述系统的可靠性和可用性指标呢,这些看着很上流的术语到底意味着什么呢?

首先了解一下故障的定义:

故障定义

硬件故障(Hardware failure)

工业界通常使用“浴盆曲线”来描述硬件故障,具体如下图所示。具体来说,硬件的生命周期一般被划分为三个时期:

1) The first part is a decreasing failure rate, known as early failures

2) The second part is a constant failure rate, known as random failures

3) The third part is an increasing failure rate, known as wear-out failures

设备可靠可用性包括哪些,设备可靠可用性包括哪些类型(全面剖析可靠性与可用性)

图1 浴盆曲线(Bath tubcurve)

软件故障(Software failure)

软件故障可以通过每千行代码的缺陷数(Defects/KLOC)进行测量,称为缺陷密度(Defect Density):

Defect Density= Number of Defects / KLOC

影响缺陷密度的因素主要有如下几点:

1) 软件过程(代码评审、单元测试等)

2) 软件复杂度

3) 软件规模

4) 开发团队经验

5) 可复用代码比例(久经考验的代码)

6) 产品交付前的测试

衡量指标

平均故障间隔时间(MTBF)

英文全称:Mean Time Between Failure,顾名思义,是指相邻两次故障之间的平均工作时间,是衡量一个产品的可靠性指标。

故障率(Failure Rate)

以下文字摘自wiki,避免翻译失真:

Failure rate is the frequency with which an engineered system or component fails,expressed, for example, in failures per hour. It is often denoted by the Greekletter λ (lambda) and is important in reliability engineering.

The failure rate of a system usually depends on time, with the rate varying overthe life cycle of the system. For example, an automobile's failure rate in itsfifth year of service may be many times greater than its failure rate duringits first year of service. One does not expect to replace an exhaust pipe,overhaul the brakes, or have major transmission problems in a new vehicle.

In practice, the mean time between failures (MTBF, 1/λ) is often reported insteadof the failure rate. This is valid and useful if the failure rate may beassumed constant – often used for complex units / systems, electronics – and isa general agreement in some reliability standards (Military and Aerospace). Itdoes in this case only relate to the flat region of the bathtub curve, alsocalled the "useful life period". Because of this, it is incorrect to extrapolateMTBF to give an estimate of the service life time of a component, which willtypically be much less than suggested by the MTBF due to the much higher failurerates in the "end-of-life wear out" part of the" bathtubcurve".

为便于理解,举个例子:比如正在运行中的100只硬盘,1年之内出了2次故障,则故障率为0.02次/年。

上文提到的关于MTBF和Failure Rate关系值得细细体会,在现实生活中,硬件厂商也的确更热衷于在产品上标注MTBF(个人猜测是因为MTBF往往高达十万小时甚至百万小时,容易吸引眼球)。Failure Rate伴随着产品生命周期会产生变化,因此,只有在前述“浴盆曲线”的平坦底部(通俗点说就是产品的“青壮年时期”)才存在如下关系:

MTBF= 1/λ

平均修复时间(MTTR)

英文全称:Mean Time To Repair,顾名思义,是描述产品由故障状态转为工作状态时修理时间的平均值。在工程学,MTTR是衡量产品维修性的值,在维护合约里很常见,并以之作为服务收费的准则。

设备可靠可用性包括哪些,设备可靠可用性包括哪些类型(全面剖析可靠性与可用性)

图2 硬件MTTR估算

设备可靠可用性包括哪些,设备可靠可用性包括哪些类型(全面剖析可靠性与可用性)

图3 软件MTTR估算

可用性(Availability)

GB/T3187-97对可用性的定义:在要求的外部资源得到保证的前提下,产品在规定的条件下和规定的时刻或时间区间内处于可执行规定功能状态的能力。它是产品可靠性、维修性和维修保障性的综合反映。

设备可靠可用性包括哪些,设备可靠可用性包括哪些类型(全面剖析可靠性与可用性)

关于Availability这个计算公式,很容易理解,这里不多做解释。通常大家习惯用N个9来表征系统可用性,比如99.9%(3-ninesavailability),99.999%(5-ninesavailability)。

宕机时间(Downtime)

顾名思义,指机器出现故障的停机时间。这里之所以会提Downtime,是因为使用每年的宕机时间来衡量系统可用性,更符合直觉,更容易理解。

设备可靠可用性包括哪些,设备可靠可用性包括哪些类型(全面剖析可靠性与可用性)

图4 Availability与Downtime对应关系

延伸思考

MTBF不靠谱?

一般来说,服务器的主要部件MTBF,厂商标称值都在百万小时以上。比如:主板、CPU、硬盘为100wh,内存为400wh(4根内存约为100wh),从而可以推算出服务器整体MTBF约25wh(约30年),年故障约3%,也就是说,100台服务器每年总要坏那么几台。

上面的理论计算看着貌似也没啥问题,感觉还挺靠谱。但如果换个角度想想,总觉得哪里不太对劲:MTBF约30年,难道说可以期望它服役30年?先看看**的工程师如何解释:

It is common to see MTBF ratings between 300,000 to 1,200,000 hours for hard disk drivemechanisms, which might lead one to conclude that the specification promisesbetween 30 and 120 years of continuous operation. This is not the case! Thespecification is based on a large (statistically significant) number of drivesrunning continuously at a test site, with data extrapolated according tovarious known statistical models to yield the results.

Based on the observed error rate over a few weeks or months, the MTBF is estimatedand not representative of how long your individual drive, or any individualproduct, is likely to last. Nor isthe MTBF a warranty - it is representative ofthe relative reliability of a family of products. A higher MTBF merely suggestsa generally more reliable and robust family of mechanisms (depending upon theconsistency of the statistical models used). Historically, the field MTBF, whichincludes all returns regardless of cause, is typically 50-60% of projected MTBF.

看到这里,再联系前文对于Failure Rate的阐述,我知道各位读者有没有摸清其中的门道。其实说白了很简单,这些厂商真正测算的是产品在“青壮年”健康时期的Failure Rate,然后基于与MTBF的倒数关系,得出了动辄百万小时的MTBF。而现实世界中,这些产品的Failure Rate在“中晚年”时期会快速上升,因此,这些MTBF根本无法反映产品的真实寿命。文中也提到,**也意识到MTBF存在弊端,因此改用AFR(AnnualizedFailure Rate),俗称“年度不良率”。

其实,早在2007年,Google和CMU同时在FAST07发表论文,详细讨论了硬盘故障的问题:

CMU《Diskfailures in the real world: What does an MTTF of 1,000,000 hours mean to you?》

Google《FailureTrends in a Large Disk Drive Population》

Google采集了公司超过10w块消费级HDD硬盘数据(SATA和PATA,5400转和7200转,7家不同厂商,9种不同型号,容量从80G到400G不等),最终得出如下数据:

Google found that disks had an annualized failure rate (AFR) of 3% for the first threemonths, dropping to 2% for the first year. In the second year the AFR climbed to8% and stayed in the 6% to 9% range for years 3-5.

2、设备可靠可用性包括哪些

设备可靠可用性包括哪些

是指系统、设备或零部件在规定条件下和规定时间内,完成规定功能的能力。

设备可靠性分析

为保证设备的长时间无故障运行而进行的分析处理过程,这就是设备的可靠性分析。设备的可靠性差会导致设备发生故障的概率很大。 所谓可靠性,是指设备机能在时间上的稳定性程度,或者说在一定时间内,不发生问题的程度(概率)。设备的可靠性由固有可靠性和使用可靠性构成。所谓固有可靠性,是指该设备由设计、制造、安装到试运转完毕,整个过程所具有的可靠性,是先天性的可靠性。

设备性能

当固有可靠性低或使用可靠性低,或这两种可靠性都低时,设备就有可能发生故障。对故障采取对策,重要的是对故障原因在固有可靠性和使用可靠性上进行识别。当固有可靠性提高时,提高使用可靠性就比较容易;而当固有可靠性低时,要提高使用可靠性就十分困难。因此,从根本上讲,要防止故障的发生,最有效的对策就是注意设备固有可靠性的形成,即重视设备的设计、制造、安装和调试全过程。

设备可靠可用性包括哪些

什么是产品的.可靠性

着科学技术的发展,现代化的机器、技术装备、交通工具和探索工具越来越复杂。这些机器和设备等的可靠性受到了人们的广泛重视,我们把这种可靠性称为系统可靠性。系统愈复杂,若可靠性达不到较高的指标要求,则系统出故障的可能性愈大、造成的损失也愈大。这些损失可能是经济上的、信誉上的,甚至是造成生命安全或更严重的灾难性后果。譬如导航系统的不可靠或工作失误可导致飞机坠毁;飞机在着陆时,其控制系统如不能将飞机的滑翔轮子可靠地弹出,后果将是不可想象的。

现代化管理可以大大提高工作效率和质量,当然也应包括可靠性。但是如果处理不当,系统可靠性没有得到足够保证,那么它也会带来严重的影响。试设想一下,假如在一次重要选举当中,采用计算机统计投票结果,却由计算机失误而打乱了进程,选出一个不该当选的领导人来,将是多么可笑。因此愈是走向现代化,愈要注意可靠性。 因此,人们在走向现代化的过程,必须在各个方面提高和改善系统可靠性。没有可靠性作基础的系统只能是空中楼阁。

提高系统的可靠性,一方面要提高构成系统的各元件本身的可靠性,如:要提高飞机的可靠性,首先要提高发动机、控制系统、导航系统等的可靠性。另一方面还要提高系统承受误操作的可靠性。例如1991年的海湾战争中,美国的"爱国者"导弹出尽风头,它不仅能准确可靠地在空中击毁敌方导弹,而且在没有发现目标时,将在空中自行销毁,不造成损失。

提高系统的可靠性,要从系统的设计着手。要使系统的元器件工作在正常状态下,没有过载超负荷等现象的发生,并且要有一定的裕度。也可以采用冗余贮备,使系统即使有个别元器件或设备出现故障仍能正常工作,譬如大型客机拥有四个发动机,中型客机拥有两个发动机。也就是说有一个设备出现故障,有另一个设备顶替它工作。当然冗余设备有可能增加系统的复杂性和成本,但是如果设计得合理,在成本增加不多的情况下,使系统的可靠性有很大的提高,是完全值得的。

设备可靠可用性包括哪些

是指系统、设备或零部件在规定条件下和规定时间内,完成规定功能的能力。

设备可靠性分析

为保证设备的长时间无故障运行而进行的分析处理过程,这就是设备的可靠性分析。设备的可靠性差会导致设备发生故障的概率很大。 所谓可靠性,是指设备机能在时间上的稳定性程度,或者说在一定时间内,不发生问题的程度(概率)。设备的可靠性由固有可靠性和使用可靠性构成。所谓固有可靠性,是指该设备由设计、制造、安装到试运转完毕,整个过程所具有的可靠性,是先天性的可靠性。

设备性能

当固有可靠性低或使用可靠性低,或这两种可靠性都低时,设备就有可能发生故障。对故障采取对策,重要的是对故障原因在固有可靠性和使用可靠性上进行识别。当固有可靠性提高时,提高使用可靠性就比较容易;而当固有可靠性低时,要提高使用可靠性就十分困难。因此,从根本上讲,要防止故障的发生,最有效的对策就是注意设备固有可靠性的形成,即重视设备的设计、制造、安装和调试全过程。

本文关键词:设备可靠可用性包括哪些类型,设备的可靠性指的是,设备可靠性与安全性的区别,设备的可靠性如何定义,设备可靠可用性,包括如下哪些选项。这就是关于《设备可靠可用性包括哪些,设备可靠可用性包括哪些类型(全面剖析可靠性与可用性)》的所有内容,希望对您能有所帮助!


声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。

上一篇: 职场礼仪有哪些方面,职场礼仪包括哪些方面(工作职场里礼仪)

下一篇: 新版微信怎么发朋友圈视频(新版微信怎么发朋友圈)



猜你感兴趣

推荐阅读

网站内容来自网络,如有侵权请联系我们,立即删除! | 软文发布 | 粤ICP备2021106084号