【可用性】
產(chǎn)品在任一時刻需要和開始執(zhí)行任務(wù)時,處于可工作或可使用狀態(tài)的程度。可用性的概率度量成可用度。
【固有可用度】
僅與工作時間和修復(fù)性維修時間有關(guān)的一種可用性參數(shù)。其一種度量方法為:產(chǎn)品的平均故障間隔時間與平均故障間隔時間和平均修復(fù)時間的和之比。
【可達可用度】
僅與工作時間、修復(fù)性維修和預(yù)防性維修時間有關(guān)的一種可用性參數(shù)。其一種度量方法為:產(chǎn)品的工作時間與工作時間、修復(fù)性維修時間、預(yù)防性維修時間的和之比。
下面談?wù)剶?shù)據(jù)中心關(guān)于可靠性與可用性的理解
(1)絕大部分產(chǎn)品對象對業(yè)務(wù)連續(xù)性提出了非常高的要求;
(2)任何設(shè)備和系統(tǒng)都是要發(fā)生故障的,這是不爭的事實;
(3)連續(xù)性要求意味著,希望把故障影響的時間縮到短,也就是說系統(tǒng)要有可修復(fù)能力,修復(fù)時間越短越好;
(4)于是就出現(xiàn)了衡量修復(fù)能力和修復(fù)時間的指標:平均修復(fù)時間MTTR(Mean Time Repair)
(5) 可靠性指標之一是平均*時間MTBF(Mean Time Between Failures)
(6)有了MTBF和MTTR,就可以表達系統(tǒng)可用性(可用度)A(t)
(7)可用性A(t)的定義:電子系統(tǒng)在使用過程中,可以正常使用的時間與總時間之比。
越來越多的廠商和用戶已經(jīng)形成這樣一個共識: 真正能為用戶帶來價值的是其可用性,在概念上它包含了系統(tǒng)中設(shè)備的可靠性、可管理性和可維護性??捎眯愿咭馕吨o用戶更多的正常使用時間。可用性成為數(shù)據(jù)中心規(guī)劃設(shè)計的功能指標,對可用性的研究促進了數(shù)據(jù)中心技術(shù)的全面發(fā)展,成為數(shù)據(jù)中心規(guī)劃設(shè)計、建造、設(shè)備研發(fā)制造的重要的思維方法和企業(yè)哲學(xué)。
當(dāng)然,我們還經(jīng)常遇到持久性說法,持久性和可用性的含義,可以用下面這個圖來理解。
這個圖只是簡要的說明含義,實際系統(tǒng)中還有集群、容災(zāi)等等各種環(huán)節(jié),為了不分散焦點,無關(guān)本質(zhì)的部分都略去不提。
簡單的說,數(shù)據(jù)可訪問就叫available——可用(這個翻譯很靠譜)。而數(shù)據(jù)暫時不可訪問,但是過段時間費些力氣能找回來,這樣的狀態(tài)已經(jīng)不能叫available,但仍然屬于durable——持久(這個翻譯實在讓人抓狂,可是既然從早年數(shù)據(jù)庫領(lǐng)域就一直這么翻譯,現(xiàn)在已經(jīng)成了固定用法,手動無奈)。只有數(shù)據(jù)*丟失,永遠找不回來的狀態(tài),才超出durable的范圍。
可見,持久性比可用性更基礎(chǔ),前者是后者的必要非充分條件。從數(shù)值描述上,持久性≥可用性。
一般談?wù)摮志眯院涂捎眯?,都需要或隱或顯的在百分數(shù)前面加個“年度”的限定。比如99%可用性,是指每年宕機時間不超過3.65天,即87.6小時。而99.9%可用性,就意味著每年宕機時間不超過8.76小時。人們常提的5個9高可用,即99.999%可用性,折算下來每年宕機時間才僅有5.256分鐘。
那么一個霸氣側(cè)漏的每年5個9高可用系統(tǒng),在100年時間里可用性是多少呢?理論上似乎是仍然足夠威風(fēng)的99.9%可用性(計算結(jié)果應(yīng)該是略小于99.90005%一丟丟),可是這顯然不太合常理。再強壯的硅基物種,在機房里負重蹲上100年,肯定早就*散架了。
所以持久性和可用性的另外一個隱含限定——正常壽命之內(nèi)??上杌锓N正常壽命的界定,也是真假信息混雜。
可靠性與可用性之間的關(guān)系
(1)可靠性表達式之一:
故障率λ(t): 將單位時間內(nèi)損壞的元件數(shù)據(jù)與在該時間斷間內(nèi)工作元件總數(shù)之比作為表示在該時間段內(nèi)元件可靠性程度的數(shù)據(jù)。也可以說成是在單位時間內(nèi)的故障數(shù)相對于依然正常工作的元件數(shù)的比值,在值稱為“故障強度”或失效率。
(2)可靠性表達式之二:
可靠度R(t):設(shè)備或系統(tǒng)在一段時間內(nèi)不發(fā)生故障的概率
(3)可靠性表達式三:
平均*間隔時間MTBF:
(4)可用性表達式:
可靠性與可用性之間的關(guān)系
(5)從“不停電”觀念的變化看可靠性與可用性的區(qū)別:
(6)R(t)、A(t)、MTBF、MTTR都是概率指標
MTBF與產(chǎn)品生命周期無關(guān)
舉例:
以50萬個25歲的人作為抽樣;
在一年的時間內(nèi),收集這些人口的“故障”(死亡)數(shù)據(jù);
這些人口的生活時間是500000×1年=50萬人年;
在這一年當(dāng)中,有625個人“出現(xiàn)故障”;
故障率為625個故障/50萬人年=0.125%/年;
MTBF是故障率的倒數(shù),即1/0.00125=800年;
設(shè)備的MTBF是以產(chǎn)品穩(wěn)定運行階段(舉例中的25歲)的失效率計算的,所以與產(chǎn)品生命周期無關(guān)。
如果產(chǎn)品MTBF=10萬小時;
失效率λ=0.00001;
還可以計算出月失效率、日失效率、小時失效率;
如果在產(chǎn)品生命周期內(nèi),λ為常數(shù);
則在任意一個時間段內(nèi),產(chǎn)品都有失效(故障)的可能性;
產(chǎn)品安裝后,隨時都可能發(fā)生故障嗎,但不等于沒達到MTBF=10萬小時指標。
可靠性與可用性的幾個概念
(1)可靠性和可用性定義的范圍屬性:
① 元件可靠性;
② 部件可靠性;
③ 設(shè)備可靠性;
④ 系統(tǒng)可靠性(UPS系統(tǒng)、1+1 UPS系統(tǒng)、2N UPS系統(tǒng)、整個供電系統(tǒng));
⑤ 在冗余容錯系統(tǒng)中,設(shè)備故障不等于系統(tǒng)故障,設(shè)備故障率,不等于系統(tǒng)可靠性。
(2)可靠性和可用性定義的時間屬性;
① 月可靠性;
② 年可靠性;
③ 整個生命周期內(nèi)的可靠性
(3)產(chǎn)品功能、應(yīng)用范圍的界定
被比較的產(chǎn)品必須在功能、性能及應(yīng)用方面相同或相似。如果是UPS、功能是為所連接的IT負載提供備用電源。如果沒有相似的應(yīng)用,就不可能進行公正的MTBF比較,例如對工業(yè)用途和IT用途的UPS進行比較是不切合實際的。
MTBF比較中所用系統(tǒng)的邊界必須等同。以使用外部電池的UPS系統(tǒng)為例,某些供應(yīng)商可能選擇不包括由這些電池導(dǎo)致的故障,其他供應(yīng)商可能選擇包括電池故障??赡軐?dǎo)致不一致邊界的組件還包括輸入和輸斷路器。旁路系統(tǒng)。保險絲和控制系統(tǒng)。
(4)故障定義:
① 是否將用戶操作失誤(人為因素)導(dǎo)致的故障計在內(nèi)?
② 是否將由供應(yīng)商維修人員導(dǎo)致的負載停用也統(tǒng)計在內(nèi)?產(chǎn)品設(shè)計本身是否有提高風(fēng)險程序出現(xiàn)故障的可能性?
③ 如果設(shè)備上的LED(發(fā)光二極管)出現(xiàn)故障,是否屬于故障(雖然它沒有影響設(shè)備的運行)?
④ 如果耗材(例如電池)的使用期比預(yù)期的時間要短,是否屬于故障?
⑤ 運輸造成的損壞是否屬于故障,這可能表明包裝的設(shè)計不當(dāng)?
⑥ 安裝過程導(dǎo)致的故障是否統(tǒng)計在內(nèi),此故障可能是供應(yīng)商技術(shù)人員引起的?
⑦ 如果用戶沒有購買推薦的維護合同或監(jiān)視系統(tǒng),是否將故障統(tǒng)計在內(nèi)?
⑧ 系統(tǒng)運營達不到標準水平;
⑨ 用戶對設(shè)備的性能不可接受;
⑩ 發(fā)電機啟動時有啟動成功率問題;
? 交流輸入*斷開時,電池供電有成功率問題。