可靠性設計基礎(一)--理解可靠性
一、理解與可靠性定義
我們總是會說:某某公司的東西“好用”;某某公司的產(chǎn)品“質量好”;我也會經(jīng)常抱怨某某系統(tǒng)“不穩(wěn)定”;某某公司的產(chǎn)品“不可靠”;某產(chǎn)品或者部件 “容易壞” ;某某品牌的東西“保養(yǎng)麻煩”。這些問題用戶或者管理人員一般都會把他們簡單歸集為“質量問題”、 “可靠性問題”或者“隱含需求”。但是嚴格追溯起來,這些問題其實往往屬于好幾個不同類型的問題。技術人員有必須先科學的對問題分類,才能在問題發(fā)生的階段去專題解決問題。
與可靠性相關的概念有以下幾個:
01可靠性
可靠性只指產(chǎn)品在規(guī)定條件下和規(guī)定時間區(qū)間內完成功能的能力。這是國家標準中給出的定義。標準的作用是用來衡量一個產(chǎn)品的好壞。那么怎么如何評價一個產(chǎn)品可靠性的好壞呢?這就需要對這個定義進行度量。
一般來說“規(guī)定條件下”是恒定不變且長期保持的,是不具備度量條件的。首先一個產(chǎn)品的“功能”基本完整才可能被視為可用的產(chǎn)品,也不具備度量條件。因此可度量的就只剩下“時間”和“能力“。而能力是個很寬泛的概念,比較通行的度量的能力的辦法就是”概率“。因此這個定義可以近似等效為:“在固定條件下和規(guī)定時間區(qū)間內保持功能完好的概率”或者”在固定條件下所有產(chǎn)品平均保持功能完好所持續(xù)的時間 (失效概率為50%)“。
這就引出了衡量可靠性的兩個參數(shù):失效概率“和”平均無故障時間“。且這兩個參數(shù)是互為相反數(shù)。值得注意的是,如果“規(guī)定條件”發(fā)生變化,是允許可靠性下降的,但下降的趨勢也是可靠性設計的需要關注指標。
本文主要講可靠性,這些概念后面還會被多次用到。
02可用性
我們經(jīng)常會聽到客戶抱怨你的設備不穩(wěn)定、不好用、不方便等等。用戶最終會抱怨是設備不可靠,不穩(wěn)定。其實準確的說這些都是可用性問題。
可用性的定義是:在要求的外部資源得到保證的前提下,產(chǎn)品在規(guī)定的條件下和規(guī)定的時刻或時間區(qū)間內處于可執(zhí)行規(guī)定功能狀態(tài)的能力。它是產(chǎn)品可靠性、維修性和維修保障性的綜合反映。因此可用性是包含了可靠性的。
可用性與可靠性的關聯(lián)在于都必須考慮設備的應用環(huán)境。但是可靠性更關注的是在這個環(huán)境中能用多久(用概率表現(xiàn)的時間),而可用性則反應的是能不能用?能不能用好?以及能不能達到用戶的期望?可用性需要考慮客戶在合理的使用條件下能完全正常的工作。比如筆記本電腦,顯然是可能被用戶帶出國,那么筆記本電腦在不同國家的電網(wǎng)的額定電壓條件下能否正常工作就是一個重要的可用性指標;臺式電腦基本就不需要考慮這種問題。埋在地下的電纜,顯然有必要考慮被老鼠啃食的問題。這些都是可用性問題。而可靠性一般只用考慮額定條件下的使用時間,兼顧非正常條件下的降效指標即可。
比如說某個設備的操作員突然由一個男士變成一個女士,設備由于沒有考慮到操作員的身高和力量的差異,導致女士操作的頻次比男士低很多,而引起系統(tǒng)的運行效率下降,我們可以據(jù)此就認為設備的可用性不好。但是由于女士操作的頻次下降卻很可能使設備的可靠性提高了。
再舉個例子,某個產(chǎn)品標稱值為額定電壓12,輸入電壓范圍為10V~15V,平均無故障時間(MTBF)為3000小時。那么它隱含的意義是期望在12V條件下工作3000小時,其失效概率低于50%(估算值)。并沒有保證客戶在輸入15V條件下也能持續(xù)工作3000小時。當然這個參數(shù)在實際中也不會差距太大(主要與產(chǎn)品壽命分布有關)。但如果產(chǎn)品提供者和使用者沒有就這個問題溝通清楚的話,會給雙方都帶來很大的困擾。這就不再是可靠性問題而變成一個可用性的問題了:“用戶實際需要的供電模式是什么?”
03安全性
很顯然,在相同條件下更可靠的設備也更安全。但是安全性與可靠性依然是兩個不同的概念,有時候甚至是矛盾的。舉例來說:核電站的要求的失效概率達到10-8~10-9以上(SIL5級)。這樣的標準要求如果換算成MTBF,沒有任何一個電子設備有可能達到這樣的指標。但通過多個電子設備的并聯(lián)、冗余、監(jiān)視、保護等措施達到這一標準卻是可能的。而新增加的這些保護、冗余等設備事實上會降低整個核電站的平均無故障時間。
為了解決安全性與可靠性的矛盾,許多應用場景會定義不同等級條件下的可靠性指標。比如地鐵車輛的規(guī)定:發(fā)生A類故障(人身安全事故)的MTBF大于1百萬小時、發(fā)生B類故障(停止運營)的MTBF大于10萬小時;發(fā)生C類故障(更換維修)的MTBF大于1萬小時。
04可維護性
從“1.1可靠性指標的定義”節(jié)內容可以看到,通過合理設計“可維修的部件”可以有效提高系統(tǒng)壽命(注意與MTBF的區(qū)別)。但是對于用戶而言任何更換維護都意味著成本,即使是免費更換也要占用用戶的時間成本。維護成本是設備全生命周期成本(LCC)的重要組成部分。因此在設計時應盡可能少的設計“可維修的部件”,迫不得已必須設計的也要盡可能的方便維護,使維護的時間和花費降低到最小。
二、理解可靠性指標
在可靠性設計時經(jīng)常會涉及兩個關鍵性的概念,平均無故障時間(MTBF)和壽命。
設備平均無故障時間(MTBF)是指“可修復產(chǎn)品“在相鄰兩次故障之間工作時間的數(shù)學期望值。對于這個定義有幾點值得推敲:
a、雖然這個指標定義是一個統(tǒng)計值,是衡量整個設備總體性能的,理論上說在系統(tǒng)設計時需要對設備的各個部分進行可靠性指標分解,即所有的單個部件的失效概率應該比整機的失效概率低很多才能保證整機的失效概率大于需求的指標。但是在實際設計中由于“短板效應”的存在,絕大多數(shù)電子設備的平均無故障時間(MTBF)都是由于設備中壽命最短的那幾個部件所決定的。
b、對于不修復產(chǎn)品,其產(chǎn)品壽命就等于設備平均無故障時間。
c、對于“可修復產(chǎn)品”,其產(chǎn)品壽命由其不可修復的部件的最短壽命決定其設備壽命。
再進一步引申:改善一個產(chǎn)品MTBF指標的關鍵點就在于提高設備部件壽命的瓶頸。而改善一個產(chǎn)品壽命指標的關鍵是將某些壽命瓶頸部件變成“可維修的部件”。舉例來說:對于一輛汽車而言,如果以整車來看其平均無故障時間(無故障里程)是超過15000公里或者12個月,這顯然是由機油這個部件的壽命來決定的。但是因為運行更換機油、更換剎車、皮帶等保養(yǎng)措施的存在,一輛車的設計壽命可以達到20年;電腦的顯示屏和硬盤的MTBF顯然是低于其他部件的,因此電腦銷售時這兩個部件的質保期也經(jīng)常會單列。
比如在激光加工設備中,光源顯然是屬于整機的壽命瓶頸,設計時就需要將其設計為“可修復單元”。因此需要為其設計為方便的維修方式,如果更換一個光源需要把整個激光加工生產(chǎn)線都拆了,這樣造成的長時間停工是很難讓用戶接受的。對于公司售后維護來說也將是沉重的負擔和風險。
當然也有反向的例子,手機電池是手機的壽命瓶頸,因此手機發(fā)明之初都是將其設計為“可修復單元”。但是隨著電池壽命的提高,同時很多廠家為了提高手機更換頻次的商業(yè)目的,現(xiàn)在更換手機電池已經(jīng)非專業(yè)人士不可了,基本可以被認定為“不可修復單元”了。這其實是降低了手機的整機壽命。
本文以電子設計為主要對象,而電子器件很多都是焊接在板卡上,一般很難更換,這里就不再考慮更換和維修這一條件,因此本文后續(xù)的壽命就等同于平均故障時間,不再仔細區(qū)分這兩個概念了。
三、可靠性指標的運用
絕大多數(shù)設備銷售都有質保期的規(guī)定的,質保期怎么定往往由行業(yè)標準、市場策略、銷售模式、銷售價格、成本利潤控制等多方面因素共同決定的。但是不管怎么定質保期是絕對不能超過設備平均無故障時間的。超過這個時間就意味著很多設備沒有過質保期就已經(jīng)不能正常工作了,這時用戶如果要求退換、維修、甚至賠償?shù)脑捲O備供應商就不可能盈利。
標稱MTBF時間一般以小時計算。而質保期一般按年計算。這就存在一個對應關系。這個關系不是簡單的365*24的關系。因為只有很極端的設備才會完全工作在這種全年無休的情況。而且即使是這樣的設備,也不會處在滿功率、滿負荷并且極惡劣的工況下工作。因此其計算也不必如此保守。一般而言可以分為以下幾個種類:
年使用時間 | 舉例 | |
一般民用設備 | 1500~2000小時 | 電視機 |
高頻民用設備 | 3000小時 | 冰箱、電燈、手機 |
低負荷工業(yè)設備 | 3000小時 | 網(wǎng)絡交換機 |
高負荷工業(yè)設備 | 5000小時 | 地鐵,火車 |
超高頻工業(yè)設備 | 8000小時 | 核電站 |
一般來說醫(yī)療設備,參照高頻民用設備標準即可。
軍品一般來說沒有明確的使用時間要求。但是要求在標稱的使用時間內超低故障率。因此一般而言軍品會提高一個標準設計。比如說需求為3000小時的,一般會非硬約束(比如材料特性約束)部分的設計標準至少都要達到5000小時以上。因此我們一般會感覺軍品的質量更高。
但是我確實曾經(jīng)見到過銷售的設備標稱MTBF是3000小時,但是銷售商承諾的免費質保期確是三年的情況。這種情況很多時候是銷售人員基于市場壓力做出來了一種商業(yè)策略。這是一種很不嚴謹?shù)膽B(tài)度,是很難人信服的。
你可能會有疑問,家里的電器標準只有1年,但是我家里卻用了很多年了也沒有壞?。吭趺锤杏X這個值和理論值差異這么大呢?這有以下幾個原因:
1、絕大多數(shù)人的使用頻次其實沒有理論那么高。以電視為例,計算時是以3000小時為1年計算的,但實際上你需要每天看8個小時以上的電視才能達到一年3000小時,很多人連一半的時間都達不到。
2、即使是讓電器設備運行著,很多時候電器也并沒有全功率運行。例如很多人的手機會24小時開機,但是絕對不會有人24小時都在連續(xù)打電話。
3、設備運行環(huán)境更優(yōu)。隨著生活條件的改善,現(xiàn)在的人已經(jīng)很難想象誰會在35度以上的高溫環(huán)境下長時間看電視了。即使看也很有可能開著空調、開著風扇。同時國家電網(wǎng)的改進、防雷措施的升級等,都會大大提高設備的使用壽命(環(huán)境因素對設備壽命的影響詳細見本文后半部分的內容)。
4、公司采用了更高的設計標準。對于工廠而言每年1%的故障率并不算太高,但是對于客戶而言就是100%了,1%的故障率同時意味著每售出10萬臺的設備就要面對上千人次投訴,當有競爭對手的更有的性能進行對比后,就會發(fā)酵為非常惡劣質量事故。因此為了降低客戶投訴和與對手競爭的需要,很多廠家不得不提高設計標準。
5、多數(shù)的家用電器設計使用在廣大的范圍內銷售的,因此設計人員會按最為惡劣的方式進行計算(也有可能是多年教訓的積累)。比如你不可能讓一臺冰箱在東北能用一年而到了廣東就只能用三個月,也不可能讓電視機在室內能用三年在室外就只能用一個月。因此設計人員只能按照最惡劣的條件進行設計,這無形中又提高了設計標準。
6、設備的局部性能的改進。一個新設計的電子設備的推出后不久往往很快就會在用戶反映出很多設計不足的問題。由于“二八效應”和“短板效應”的存在,設備的問題經(jīng)常會集中在兩三個點上,因此廠家往往會針對性的對其做出改進并應用于后續(xù)機型上。同時由于技術的進步很多部件的質量也是再緩慢提高的,因此后續(xù)機型的質量往往會優(yōu)于前面的機型。但是再沒有國家標準或者市場因素推動時,廠家一般也不會再重新投入成本做可靠性檢測和認證,所以指標還是沿用以前的。
7、銷售策略。很多廠家提供一個國家標準要求的最低質保期限,客戶如果要求延長質保期就要額外收費了,但是從經(jīng)濟性上來說廠家很少會為延長質保的客戶提供差異化的機型。
當然設備壽命也不是越長越好,除了更高的設計指標意味著更高的成本外,更高的壽命會降低用戶更新?lián)Q代的頻次,甚至會降低用戶的使用體驗。以手機為例,由于“安迪-比爾定律”的存在軟件技術會不斷升級換代,因此手機的硬件存儲資源和處理能力很快就會顯得不足。因此用戶一般都會在兩三年內更換手機,否則新的軟件應用就會體驗很差。這就意味著如果手機廠家把硬件的壽命設計的很長,除了增加自己的成本外還會莫名其妙的背上性能差的惡名。所以現(xiàn)在手機的設計壽命都不超過2年。