[慕家驍 羅森文 宗凌 黃建華 馬波]
某運(yùn)營(yíng)商在西北某省公司大型IDC數(shù)據(jù)機(jī)房?jī)?nèi)的IP數(shù)據(jù)設(shè)備、電源設(shè)備先后發(fā)生200多臺(tái)次以上的大面積重啟、瞬斷、宕機(jī)等故障,該運(yùn)營(yíng)商集團(tuán)公司匯集了國(guó)內(nèi)頂尖的數(shù)個(gè)通信設(shè)備制造商、集團(tuán)級(jí)技術(shù)權(quán)威專家數(shù)十人,歷時(shí)超過(guò)大半年時(shí)間均未能找到造成這些設(shè)備發(fā)生故障的任何原因,后通過(guò)采用QC因果分析法,終于找到了造成這些故障的原因,并予以排除這些故障。
全面質(zhì)量管理產(chǎn)品質(zhì)量控制因果分析法簡(jiǎn)稱QC(Quality Control),QC因果分析法在我國(guó)制造業(yè)推廣應(yīng)用較多,但在運(yùn)營(yíng)商行業(yè)維護(hù)工作中應(yīng)用較少,QC的因果分析法如圖1所示。

圖1 產(chǎn)品質(zhì)量控制因果圖
某大型IDC數(shù)據(jù)機(jī)樓內(nèi)共發(fā)生電源、IP數(shù)據(jù)設(shè)備重啟、宕機(jī)、誤碼等故障逾數(shù)百臺(tái)次以上,其中大量交、直流電源和IP數(shù)據(jù)設(shè)備每次重啟的設(shè)備在時(shí)間、廠家、型號(hào)等方面都不完全一樣,具有明顯的離散性;其中數(shù)據(jù)設(shè)備共發(fā)生重起22次,涉及設(shè)備重起事件104次,涉及的設(shè)備有某設(shè)備供應(yīng)商163網(wǎng)國(guó)家骨干設(shè)備2臺(tái)12 008,163網(wǎng)省網(wǎng)核心設(shè)備1臺(tái)12 816,省網(wǎng)匯聚設(shè)備1臺(tái)12 416以及省網(wǎng)接入設(shè)備2臺(tái)6 509、2臺(tái)3 750、1臺(tái)3 550、2臺(tái)7 513、2臺(tái)4 500、2臺(tái)7 513;某設(shè)備廠家的1臺(tái)窄帶接入服務(wù)器A8010、1臺(tái)接入交換機(jī)A8016、2臺(tái)BRAS 5200G、1臺(tái)接入交換機(jī)6506R、1臺(tái)接入交換機(jī)3 528;某設(shè)備廠家的接入交換機(jī)1臺(tái)T64G、6臺(tái)3 952;某公司BRAS設(shè)備ERX 705一臺(tái)。部分設(shè)備故障發(fā)生如圖2所示。

圖2 部分設(shè)備頻繁啟動(dòng)記
根據(jù)IDC數(shù)據(jù)機(jī)房電源和IP數(shù)據(jù)設(shè)備維護(hù)管理實(shí)際情況,我們可以做出如下排除疑難故障的分析方法和思路,如圖3所示。根據(jù)圖3我們逐一進(jìn)行故障原因排查。

圖3 IDC數(shù)據(jù)機(jī)房莫名其妙故障原因因果圖
3.2.1 關(guān)于電源問(wèn)題
(1)關(guān)于市電輸入:根據(jù)動(dòng)環(huán)監(jiān)控系統(tǒng)和現(xiàn)場(chǎng)示波器監(jiān)控顯示,市電在發(fā)生故障期間一直正常,盡管從市電在現(xiàn)場(chǎng)的示波器上觀察情況來(lái)看,輸入的電源確有干擾,有振蕩波形和毛刺尖峰較多,但這幅度很小,都在規(guī)范要求范圍之內(nèi),跟據(jù)這些檢測(cè)到的現(xiàn)象并不會(huì)對(duì)設(shè)備造成直接的故障因素,除此之外示波器并未記錄下任何電源的波動(dòng)情況會(huì)引起電源和IP數(shù)據(jù)設(shè)備的故障。因此市電輸入原因可以排除。
(2)關(guān)于二次交、直流電源:相關(guān)電源設(shè)備廠家研發(fā)專家專程到現(xiàn)場(chǎng)確認(rèn),二次交流(UPS)、直流(開(kāi)關(guān)電源)設(shè)備的軟硬、件均正常,二次交、直流電源設(shè)備模塊工作也正常,并未出現(xiàn)工作異常,因此二次交直流電源無(wú)問(wèn)題。
為了進(jìn)一步排除由于二次交、直流電源引起的嫌疑,設(shè)備廠家重新更換了全新的二次交、直流電源設(shè)備,這些二次新電源設(shè)備安裝后,IP數(shù)據(jù)設(shè)備故障依然在不斷地發(fā)生……因此可以完全確認(rèn)二次交直流電源設(shè)備的引起故障的因素也完全可以排除掉。
(3)關(guān)于地線系統(tǒng):①大樓接地電阻值:通過(guò)三角法測(cè)量大樓接地電阻為0.35 Ω,遠(yuǎn)低于A級(jí)機(jī)樓1 Ω 的規(guī)范要求;②大樓地線連接:經(jīng)檢查,各接地線、接地銅排、地線線纜接頭等接觸良好可靠;③零地電壓:直流電源設(shè)備正極對(duì)地電壓均為0 V,交流設(shè)備零線對(duì)地電壓均小于1 V,均屬正常;④地線電流變化:人為重啟MA5200G、S8016設(shè)備,冷重啟(開(kāi)關(guān)電源),監(jiān)測(cè)到地線電流發(fā)生突變(0.5 V到1.5 V左右),屬正常;熱重啟(網(wǎng)管命令操作),均未監(jiān)測(cè)到地線電流明顯變化,但I(xiàn)P數(shù)據(jù)設(shè)備疑難故障依然在不斷發(fā)生……說(shuō)明地線系統(tǒng)不是引起這些疑難故障的原因。
為了更進(jìn)一步排除地線系統(tǒng)引起的故障,該IDC數(shù)據(jù)機(jī)樓重新花費(fèi)20多萬(wàn)元的投資,全面改造了整個(gè)IDC機(jī)樓的地線系統(tǒng),然而故障依然,說(shuō)明故障原因并非地線系統(tǒng)所引起,也可以完全排除地線系統(tǒng)的故障原因。
3.2.2 關(guān)于硬件問(wèn)題
各有關(guān)IP數(shù)據(jù)設(shè)備廠家的研發(fā)高級(jí)工程師也專門對(duì)其設(shè)備進(jìn)行過(guò)DIA檢測(cè),可確認(rèn)設(shè)備硬件均未出現(xiàn)異常,此類設(shè)備在網(wǎng)運(yùn)行數(shù)量很多,且在其它機(jī)樓均未出現(xiàn)類似故障,故也可以排除IP數(shù)據(jù)設(shè)備硬件工作異常導(dǎo)致。因此硬件所引起的原因也可以排除。
3.2.3 關(guān)于軟件問(wèn)題
若是軟件原因,則系統(tǒng)軟件會(huì)留下計(jì)算錯(cuò)誤、死循環(huán)類的意外事件紀(jì)錄,各個(gè)IP數(shù)據(jù)設(shè)備廠家研發(fā)的專家多次對(duì)設(shè)備檢查,并未發(fā)現(xiàn)任何此類紀(jì)錄,且此版本在網(wǎng)運(yùn)行數(shù)量很多,均未出現(xiàn)類似故障。故也可以排除由于IP數(shù)據(jù)設(shè)備軟件運(yùn)行異常導(dǎo)致這些疑難故障的發(fā)生。
3.2.4 關(guān)于人為問(wèn)題
為了排除人為因素,故障排除人員作出了如下的措施:
(1)對(duì)口令管理制度逐條進(jìn)行落實(shí),對(duì)口令定期修改、口令字的組成要求、口令的使用登記、廠家口令的使用管理以及遠(yuǎn)程登陸的口令管理等進(jìn)行了全面的自查,對(duì)登陸設(shè)備設(shè)置的登陸帳號(hào)和口令絕對(duì)不允許在兩臺(tái)及其以上的設(shè)備設(shè)置相同的帳號(hào)和口令;對(duì)口令管理和使用人員進(jìn)行清理,相應(yīng)設(shè)備的口令只允許包機(jī)人和中心主任掌握;清除所有為廠商支撐等設(shè)置的登陸權(quán)限和登陸帳號(hào)及口令。
(2)在數(shù)據(jù)局局域網(wǎng)的互聯(lián)網(wǎng)出口設(shè)備上采取端口映射的方式,使用SNIFFER軟件對(duì)所有與局域網(wǎng)交互的流量進(jìn)行抓包監(jiān)控分析。
(3)將該機(jī)樓所有IP網(wǎng)數(shù)據(jù)設(shè)備的日志集中自動(dòng)上傳至日志服務(wù)器,并定期對(duì)所有上傳的日志進(jìn)行了認(rèn)真、細(xì)致的分析。
(4)采用NTP的方式將所有IP網(wǎng)設(shè)備時(shí)間進(jìn)行了統(tǒng)一。
(5)對(duì)該IDC數(shù)據(jù)機(jī)樓IP網(wǎng)所有數(shù)據(jù)設(shè)備的配置進(jìn)行了逐一梳理和核對(duì),同時(shí)加強(qiáng)了對(duì)該數(shù)據(jù)機(jī)樓內(nèi)的IP網(wǎng)所有數(shù)據(jù)設(shè)備的數(shù)據(jù)制作的審核,凡是涉及到局部數(shù)據(jù)增加和修改時(shí),必須由中心主任審核;涉及到全局?jǐn)?shù)據(jù)修改時(shí),必須由運(yùn)維部主任審核,并對(duì)所有的操作的操作時(shí)間、操作內(nèi)容、執(zhí)行的命令等進(jìn)行嚴(yán)格的登記,嚴(yán)禁未經(jīng)允許的操作。
(6)嚴(yán)格規(guī)定了IP數(shù)據(jù)設(shè)備和電源設(shè)備的操作審批流程,所有涉及到對(duì)該機(jī)房?jī)?nèi)數(shù)據(jù)設(shè)備、電源等的操作必須經(jīng)過(guò)公司運(yùn)維部的審核批準(zhǔn)。
(7)在重起期間,進(jìn)入機(jī)房的外來(lái)施工人員和操作情況進(jìn)行了逐一核實(shí),并加強(qiáng)了對(duì)外來(lái)人員進(jìn)入機(jī)房的管理,所有外來(lái)人員到機(jī)內(nèi)房進(jìn)行的操作必須有相應(yīng)的人員陪同和監(jiān)督。
通過(guò)以上嚴(yán)格的人為操作管理,避免人為因素的影響,然而電源設(shè)備和IP數(shù)據(jù)設(shè)備的重啟、宕機(jī)等故障依然在發(fā)生,因此完全可以排除人為的因素。
3.2.5 關(guān)于黑客外部攻擊
(1)該IDC數(shù)據(jù)機(jī)樓一樓、三樓、四樓所有IP網(wǎng)數(shù)據(jù)設(shè)備只容許采取本地終端的方式進(jìn)行登錄。
(2)對(duì)于高級(jí)的黑客而言是可以實(shí)現(xiàn)控制大量設(shè)備同時(shí)或不同時(shí)間進(jìn)行復(fù)位,并且在日志中無(wú)法查到相關(guān)信息(可通過(guò)編譯代碼、修改日志代碼輸出實(shí)現(xiàn));但是在現(xiàn)場(chǎng)出現(xiàn)了多次設(shè)備在未啟動(dòng)完全的時(shí)候,設(shè)備再次重啟的情況發(fā)生,對(duì)此,就目前的認(rèn)知而言黑客基本無(wú)法做到;設(shè)備在啟動(dòng)的時(shí)候是有類似于PC上BIOS一樣的BOOTROM芯片在控制,這是黑客很難侵入系統(tǒng),無(wú)法對(duì)設(shè)備進(jìn)行控制。
由以上情況來(lái)看,認(rèn)為因素和黑客破壞因素也完全可以排除。
3.2.6 關(guān)于環(huán)境問(wèn)題
環(huán)境因素包括:溫度、濕度、潔凈度、電磁感應(yīng)、靜電感應(yīng)。
(1)關(guān)于溫度:為了準(zhǔn)確檢測(cè)機(jī)房?jī)?nèi)的溫濕度,機(jī)房維護(hù)單位新購(gòu)置了6臺(tái)溫濕度計(jì),經(jīng)過(guò)一個(gè)星期的校準(zhǔn)后,檢測(cè)室內(nèi)溫度基本都保持了20~25℃范圍之內(nèi),完全符合機(jī)房規(guī)范對(duì)溫度的規(guī)定和要求。
(2)關(guān)于濕度:該數(shù)據(jù)機(jī)樓內(nèi)的相對(duì)濕度非常低。為了準(zhǔn)確檢測(cè)機(jī)房?jī)?nèi)相對(duì)溫濕度,維護(hù)部門專門新購(gòu)置檢測(cè)相對(duì)濕度的儀表,且都經(jīng)過(guò)了一個(gè)星期檢驗(yàn)和校準(zhǔn)。根據(jù)近一個(gè)月的檢測(cè),該IDC數(shù)據(jù)機(jī)樓內(nèi)的相對(duì)濕度都非常低,一般相對(duì)濕度都在15%以下,有時(shí)甚至還低于10%,該IDC數(shù)據(jù)機(jī)房?jī)?nèi)的環(huán)境相對(duì)濕度遠(yuǎn)遠(yuǎn)超過(guò)了一類通信機(jī)房規(guī)范要求的30~70%,如圖4所示。為何該機(jī)樓的機(jī)房?jī)?nèi)相對(duì)濕度是如此之低呢?根據(jù)現(xiàn)場(chǎng)調(diào)查和了解,原來(lái)該機(jī)樓的機(jī)房精密空調(diào)原本是有加濕功能的,但由于出現(xiàn)過(guò)加濕水管漏水現(xiàn)象,故維護(hù)人員把該機(jī)房精密空調(diào)的加濕功能全部擅自取消了,才導(dǎo)致該機(jī)樓里機(jī)房?jī)?nèi)的相對(duì)濕度極低。

圖4 IDC數(shù)據(jù)機(jī)房?jī)?nèi)相對(duì)濕度低于15%
(3)關(guān)于潔凈度:該IDC數(shù)據(jù)機(jī)房?jī)?nèi)的潔凈度堪憂。目視就可以看到各種設(shè)備上落有厚厚的積塵,用人手即可以在IP數(shù)據(jù)設(shè)備上和數(shù)字電路板上面隨便寫字,如圖5所示。

圖5 IDC數(shù)據(jù)設(shè)備電路板和金屬外殼上厚厚的灰積塵
(4)關(guān)于電磁干擾影響:經(jīng)過(guò)對(duì)射頻電場(chǎng)強(qiáng)度、射頻磁場(chǎng)強(qiáng)度、射頻功率密度等相關(guān)技術(shù)指標(biāo)測(cè)試后,現(xiàn)場(chǎng)電磁環(huán)境測(cè)試數(shù)據(jù)完全符合相關(guān)標(biāo)準(zhǔn)和規(guī)范的要求。
電磁測(cè)試項(xiàng)目監(jiān)測(cè)數(shù)據(jù):電磁測(cè)試項(xiàng)目監(jiān)測(cè)數(shù)據(jù)如表1所示。
測(cè)試數(shù)據(jù)分析:現(xiàn)場(chǎng)電磁環(huán)境測(cè)試數(shù)據(jù)符合相關(guān)標(biāo)準(zhǔn)要求,7月24日16:00~17:30之間S8016設(shè)備重啟,在該時(shí)間段儀表監(jiān)測(cè)到電場(chǎng)強(qiáng)度最大為11.53 V/m,這一突變數(shù)據(jù),分析有三種可能產(chǎn)生:(1)外界突發(fā)電磁干擾,儀表捕捉到這一變化,該干擾導(dǎo)致S8016設(shè)備重啟;(2)S8016設(shè)備由于其他原因重啟,其自身在重啟過(guò)程中產(chǎn)生一定的電磁輻射(不同于穩(wěn)態(tài)運(yùn)行狀態(tài)),儀表捕捉到這一變化;(3)人為干擾,在儀表附近使用無(wú)線電設(shè)備(GSM、(GSM、PHS等)。7月25日,人為重啟S8016設(shè)備,儀表監(jiān)測(cè)數(shù)據(jù)無(wú)較大變化;同時(shí),到7月27日期間,機(jī)房多次多個(gè)設(shè)備發(fā)生重啟故障,儀表監(jiān)測(cè)數(shù)據(jù)均無(wú)較大變化。

表1 電磁測(cè)試項(xiàng)目監(jiān)測(cè)數(shù)據(jù)
小結(jié):機(jī)房電磁環(huán)境正常,達(dá)到一級(jí)機(jī)房要求標(biāo)準(zhǔn)。外界電磁環(huán)境正常且無(wú)突發(fā)干擾,不會(huì)導(dǎo)致設(shè)備重啟;設(shè)備重啟過(guò)程產(chǎn)生的電磁輻射也屬正常;7月24日儀表捕捉到的突變數(shù)據(jù)可能為人為干擾影響;除此之外長(zhǎng)時(shí)間監(jiān)測(cè)無(wú)突發(fā)干擾,且設(shè)備重啟故障前后,儀表數(shù)據(jù)均無(wú)明顯變化,故也可以排除電源和IP設(shè)備故障是由電磁感應(yīng)干擾引起的因素。
(5)關(guān)于靜電感應(yīng):靜電感應(yīng)電壓非常高。經(jīng)測(cè)試,該機(jī)房?jī)?nèi)靜電感應(yīng)電壓非常之高,一般都達(dá)到1 000 V以上,甚至到達(dá)2 000 V以上的也不少。遠(yuǎn)遠(yuǎn)超過(guò)IDC數(shù)據(jù)機(jī)房?jī)?nèi)絕對(duì)值不超過(guò)│200 V │的絕對(duì)值規(guī)范要求(如圖6),而且不斷發(fā)生重啟、瞬斷、宕機(jī)的故障特點(diǎn)也與靜電感應(yīng)電壓引起故障的特點(diǎn)極為類似和吻合。
根據(jù)以上對(duì)電源、硬件、軟件、人為、黑客和環(huán)境等六個(gè)方面的全部檢測(cè)和分析可知。前面五個(gè)因素完全符合IDC數(shù)據(jù)機(jī)房?jī)?nèi)設(shè)備的軟硬件要求,因此可以排除在外。現(xiàn)在就剩環(huán)境因素,而環(huán)境因素中的電磁感應(yīng)干擾影響也可以完全排除在外,現(xiàn)在就剩下環(huán)境因素中的相對(duì)濕度、靜電感應(yīng)和灰塵三個(gè)因素均遠(yuǎn)遠(yuǎn)超過(guò)IDC數(shù)據(jù)機(jī)房對(duì)環(huán)境條件的要求,而且超出標(biāo)準(zhǔn)要求也非常之多和嚴(yán)重,現(xiàn)進(jìn)一步分析如下:
該IDC數(shù)據(jù)機(jī)房?jī)?nèi)的相對(duì)濕度極低,而且遠(yuǎn)低于IDC數(shù)據(jù)通信機(jī)房環(huán)境條件標(biāo)準(zhǔn)下限30%的要求,就是說(shuō)機(jī)房?jī)?nèi)相對(duì)濕度一般都在15%以下,有時(shí)甚至低于10%,造成IDC數(shù)據(jù)機(jī)房?jī)?nèi)非常干燥,而相對(duì)濕度極低又會(huì)導(dǎo)致IDC數(shù)據(jù)機(jī)房?jī)?nèi)靜電感應(yīng)電壓非常之高,這個(gè)自然現(xiàn)象就像我們?cè)诟稍锢鋬龅亩纠锏教帟?huì)碰到被靜電擊到的現(xiàn)象一樣。

圖6 IDC機(jī)房?jī)?nèi)靜電感應(yīng)
在IDC數(shù)據(jù)機(jī)房?jī)?nèi)對(duì)靜電感應(yīng)電壓有明確的要求,靜電感應(yīng)電壓的絕對(duì)值不得高于│200 V │,然而現(xiàn)場(chǎng)測(cè)試靜電感應(yīng)電壓則遠(yuǎn)遠(yuǎn)超過(guò)這個(gè)最大值的數(shù)倍,乃至10倍以上,如圖6所示。當(dāng)這些靜電感應(yīng)電壓高于這些設(shè)備主控電路板上的電子電路彼此之間的絕緣強(qiáng)度時(shí),就會(huì)發(fā)生瞬時(shí)靜電感應(yīng)電壓放電現(xiàn)象,從而引起設(shè)備自動(dòng)重啟、產(chǎn)生誤碼、宕機(jī)等故障現(xiàn)象,而當(dāng)靜電感應(yīng)電壓放完靜電之后,這些電路板卡上又恢復(fù)了正常運(yùn)行,由于室內(nèi)空氣非常干燥,這些電路板卡上又會(huì)不斷產(chǎn)生靜電感應(yīng)電壓……而電源控制電路板和IDC數(shù)據(jù)機(jī)房?jī)?nèi)的IP數(shù)據(jù)設(shè)備的數(shù)字電路板卡無(wú)規(guī)則且多次大面積重啟現(xiàn)象的特征也正是與靜電感應(yīng)電壓引起的故障特征現(xiàn)象非常吻合。
機(jī)房?jī)?nèi)普遍積塵很大,各類電源設(shè)備和控制電路板卡及IP數(shù)據(jù)設(shè)備的金屬外殼甚至這些設(shè)備的電路卡板上的積塵也非常大,如圖5所示。積塵的厚度完全可以用手在上面隨便寫字。那么灰塵大會(huì)對(duì)設(shè)備的正常運(yùn)行究竟會(huì)造成哪些影響呢?
當(dāng)機(jī)房?jī)?nèi)灰塵掉落在各種電子設(shè)備的電路板上時(shí),由于現(xiàn)在電路板卡上都是精密電子元器件和電路構(gòu)成,電路板卡上的電路之間彼此距離都非常靠近和密集,若空氣中的相對(duì)濕度比較大時(shí),這些空氣中的大量水分子就會(huì)被沉積在數(shù)字電路板上的大量灰塵所吸收,導(dǎo)致這些精密電路板卡上的電路之間的絕緣強(qiáng)度下降,甚至造成瞬間短路,從而產(chǎn)生數(shù)據(jù)設(shè)備控制電路板卡的自動(dòng)重啟、誤碼和宕機(jī)等故障現(xiàn)象。由此可見(jiàn),把電子設(shè)備內(nèi)電路板卡上灰塵清潔干凈是非常重要,這些灰塵也是導(dǎo)致在潮濕季節(jié)里電路板卡瞬時(shí)短路而造成自動(dòng)重啟、瞬斷、誤碼和宕機(jī)等故障的極大隱患之一。
綜上所述,由于上述機(jī)房存在特殊的環(huán)境條件,最終造成了設(shè)備自動(dòng)重啟、宕機(jī)、誤碼等疑難故障:當(dāng)機(jī)房相對(duì)濕度很低時(shí),就會(huì)產(chǎn)生極高的靜電感應(yīng)現(xiàn)象,這些極高的靜電感應(yīng)電壓就會(huì)造成電源、IP數(shù)據(jù)設(shè)備的自動(dòng)瞬斷、誤碼、宕機(jī)等故障;而當(dāng)這些電源設(shè)備和IP數(shù)據(jù)設(shè)備由于靜電感應(yīng)太高而發(fā)生靜電感應(yīng)電壓放電而這些設(shè)備瞬間宕機(jī)后,這些電源和IP數(shù)據(jù)的電路板卡上的靜電感應(yīng)電壓瞬間就消失,于是這些電源和IP數(shù)據(jù)設(shè)備就恢復(fù)正常狀態(tài),就會(huì)重新再次起動(dòng),造成這些電源設(shè)備和IP數(shù)據(jù)設(shè)備不斷地隨著靜電感應(yīng)電壓的重復(fù)放電和不斷地發(fā)生自動(dòng)重啟、宕機(jī)、瞬斷和誤碼等故障現(xiàn)象的發(fā)生。
而當(dāng)該IDC機(jī)樓機(jī)房?jī)?nèi)相對(duì)濕度很高時(shí),比如夏季濕度達(dá)到80%以上時(shí),電源和IP數(shù)據(jù)設(shè)備上沉積的大量灰塵會(huì)由于灰塵會(huì)吸附空氣中大量的水分子,這些大量的水分子加上灰塵一起就會(huì)造成這些精密電子電路板上的電子元器件和電路之間的絕緣下降,同樣也會(huì)造成精密數(shù)字控制電路卡板上電路之間瞬間短路故障,產(chǎn)生自動(dòng)瞬斷、誤碼、宕機(jī)等故障現(xiàn)象;而當(dāng)這些電子元器件放電產(chǎn)生熱量后,這些精密數(shù)字電路卡板上電路上的相對(duì)濕度就降低,密數(shù)字電路卡板上電路上的絕緣強(qiáng)度又會(huì)恢復(fù)正常啟動(dòng),于是這些電源和IP數(shù)據(jù)設(shè)備又會(huì)自動(dòng)恢復(fù)正常運(yùn)行狀態(tài),這才造成了該機(jī)樓里疑難故障的復(fù)雜性。
根據(jù)上述分析,故障原因基本就可以鎖定為該機(jī)樓的機(jī)房?jī)?nèi)相對(duì)濕度極低而導(dǎo)致靜電感應(yīng)電壓奇高和該機(jī)房?jī)?nèi)灰塵大這兩個(gè)方面,于是該IDC數(shù)據(jù)機(jī)房維護(hù)人員全面清理該機(jī)房?jī)?nèi)設(shè)備內(nèi)外及數(shù)據(jù)板卡上的積塵,并把機(jī)房?jī)?nèi)精密空調(diào)的加濕功能重新啟用,且保持機(jī)房?jī)?nèi)相對(duì)濕度到達(dá)45%以上,如圖7所示。

圖7 IDC數(shù)據(jù)機(jī)房相對(duì)濕度達(dá)到45%以上
該IDC數(shù)據(jù)機(jī)房?jī)?nèi)的靜電感應(yīng)電壓也大幅下降到規(guī)范標(biāo)準(zhǔn)要求之內(nèi),同時(shí)全面清理該IDC機(jī)樓機(jī)房?jī)?nèi)的灰塵后,困擾維護(hù)人員達(dá)大半年之久的該大型IDC數(shù)據(jù)設(shè)備機(jī)樓的達(dá)數(shù)百臺(tái)次以上的自動(dòng)重啟、瞬斷、誤碼等故障亦隨之消失。該大型IDC數(shù)據(jù)機(jī)樓里的所有設(shè)備至今運(yùn)行正常,再未出現(xiàn)過(guò)此類疑難故障現(xiàn)象。
在我國(guó)國(guó)標(biāo)GB和行標(biāo)GBT 50174-2008-I、YDT 1821-2018、YDT 983-2018、GB/T 2887-2011等相關(guān)的標(biāo)準(zhǔn)中,對(duì)各類通信和大型IDC機(jī)房的環(huán)境要求如下:
(1)對(duì)各類通信和IDC機(jī)房?jī)?nèi)對(duì)潔凈度的要求:
A~D類通信和IDC機(jī)房?jī)?nèi)不應(yīng)有導(dǎo)電的、鐵磁性和腐蝕性的粒子,其濃度應(yīng)滿足直徑大于0.5 μm的灰塵粒子濃度<18 000粒/升。對(duì)通信設(shè)備有腐蝕性的氣體和對(duì)人身有害的氣體以及易燃易爆的氣體,應(yīng)防止流入機(jī)房?jī)?nèi)。
(2)對(duì)各類通信和IDC機(jī)房?jī)?nèi)對(duì)溫度和相對(duì)濕度的要求:
有冷熱通道隔離各類通信和IDC機(jī)房?jī)?nèi)對(duì)溫、濕度的要求如表2所示。

表2 有冷熱通道隔離各類通信和IDC機(jī)房?jī)?nèi)對(duì)溫、濕度的要求

表3、無(wú)冷熱通道隔離或設(shè)備無(wú)進(jìn)風(fēng)口機(jī)房?jī)?nèi)對(duì)溫、濕度的要求
(3)A~E類通信和IDC機(jī)房的靜電感應(yīng)電壓要求:
靜電感應(yīng)電壓絕對(duì)值不超過(guò)<│200 V │。
(4)電磁場(chǎng)干擾要求
無(wú)線電干擾環(huán)境場(chǎng)強(qiáng):機(jī)房?jī)?nèi)無(wú)線干擾磁場(chǎng)在頻率范圍0.15 MHz~1 000 MHz時(shí)不大于126 dBμV。
磁場(chǎng)干擾場(chǎng)強(qiáng):機(jī)房?jī)?nèi)磁場(chǎng)干擾場(chǎng)強(qiáng)不大于800 A/m(相對(duì)于100 e)。
對(duì)于大型IDC數(shù)據(jù)機(jī)樓和綜合性樞紐機(jī)樓里發(fā)生的疑難故障建議嚴(yán)格按照GBGBT及YD等國(guó)標(biāo)和行標(biāo)執(zhí)行,才能保障大型IDC數(shù)據(jù)機(jī)樓和各類通信機(jī)房里所有設(shè)備正常安全可靠地運(yùn)行,尤其環(huán)境條件往往會(huì)被忽略,這才是造成IDC機(jī)樓和核心樞紐機(jī)樓疑難故障的很大隱患。如果大型IDC數(shù)據(jù)機(jī)樓和綜合樞紐大樓機(jī)房里和其它機(jī)樓里出現(xiàn)了自動(dòng)重啟、誤碼、宕機(jī)等疑難故障時(shí),建議應(yīng)該采用QC因果分析法不失為一種很好的分析和解決問(wèn)題的方法,逐個(gè)故障因素去排除,最后鎖定到產(chǎn)生故障的真正原因上面,并予以排除和解決,它是解決此類疑難故障的很有效的方法,可以達(dá)到事半功倍的效果。