陳煒,王鵬
(1 中國移動通信集團上海有限公司,上海 200233;2 中國石油天然氣管道局第六工程公司,天津 300272)
隨著電信網絡技術更新步伐的加快,公眾和企業對高價值通信服務需求愈加強烈。高價值的服務源于高品質的網絡,而高品質的網絡來自于對整個網絡生命周期進行有效管理。設備在生命周期不同階段,表現出不同的質量品質和不同的成本消耗。
通信設備生命周期管理就是從設備的生產、使用和消亡的生命全過程進行管理。采用工作流的技術,將設備生命周期內各環節產生的數據流串起來,形成設備從申請采購到報廢整個過程的閉環管理。也是對網絡的質量和成本的綜合管理。
20世紀后20年,發達國家設備綜合管理學科隨著工業技術的高速發展,在理論和實踐方面都得到了日趨豐富和完善。其中以英國為代表的《設備綜合工程學》,美國為代表的《預防性維修》,日本為代表的《全員生產維修》,已經成為當今發達國家最為先進的設備維修及管理的體系。
設備綜合工程學就是以壽命周期費用作為評價設備管理的重要指標,追求設備生命周期最經濟。以“無維修設計”為可靠性可維護性的理想極限。英國推行設備綜合工程學的顯著成效是英國的設備維修費用和設備故障大為降低。美國目前大部分的企業推行的是預防性維修體系,它的精髓在于降低設備壽命周期成本,提高設備綜合利用率,以設備的“0”事故,“0”故障,“0”質量缺陷,“0”浪費為目標各級員工參與和持續的改進。
預防性維修的基本形式:定期維修,強調有計劃的維護,以時間為基礎,維修周期相對固定的維修(類似于維護作業計劃);預見維修,以設備狀態為依據,維修周期相對變動的維修方式(類似于網絡巡檢)。
由于預防性維修需要強大的系統和統一的平臺來實現信息共享,相繼出現了多款軟件,基本模塊包括設備管理模塊,工單管理模塊,資源管理模塊,作業管理模塊等,大部分思想都移植到了通信領域。
對一臺設備來說,前三個階段包括設計,制造,安裝成本是它的一次性成本。一旦完成就固定下來,而運行維護費用將伴隨著設備的運行反復發生可能是10年甚至是20年。前三個階段實際上已經決定了設備的可靠性高低,如果未做合理的投入,最后的運行維護費用將會居高不下。
通信網絡的情況同樣如此,考慮到物理網絡的使用期限,如果片面的壓低采購成本,采用了質量不穩定的產品,則可能會大大增加運營商的運維成本。
通信設備經過多年升級換代逐漸走向統一模式。基本上采用機框加插板的硬件架構,有利于設備按需配置,以及升級和維護。對成本和故障范圍控制都有較大優勢。由于機框基本上采用的是無源設計模式,生命周期相對較長,決定設備生命周期長短的主要因素將由插板的生命周期來決定。
影響通信設備生命周期的主要因素包括設備采購質量,安裝質量,設計合理性,運行環境,維護手段等多種因素。
如前所述,采購階段的設備質量對設備穩定運行起著關鍵作用,元器件質量和使用壽命,生產工藝,生產質量控制,運輸存放條件等等都會對設備生命周期產生決定性影響。
工程質量也是決定網絡及設備的生命周期長短主要因素之一。
網絡設計同樣會影響設備生命周期。設備安裝位置,機架排列,發熱量高的板件是否分開放置,網絡負荷是否平衡。這些都會成為影響設備生命周期的因素。
網絡的運行使用環境,溫濕度控制,顆粒物濃度控制,電壓,接地條件,電磁輻射條件,腐蝕性其他濃度等等也都會對設備生命周期形成較大影響。
設備生命周期與故障率存在一定的有規律的聯系。分為硬件和軟件,有不同的表現形式。
早期故障期:新產品往往存在各種設計和制造缺陷,故障率通常較高。隨著產品成熟,故障率逐步下降,直至穩定階段。
偶發故障期:硬件故障率基本處于穩定狀態。在此期間,故障發生是隨機的,故障率低且穩定,是設備的正常工作期或最佳狀態期。在此間發生的故障多因網絡設計及設備安裝調試質量不佳造成。
損耗故障期:在硬件使用后期,由于硬件元器件老化、磨損等原因,故障率不斷上升。通過及時更換板卡,可以有效降低故障率。
硬件故障率在三個不同階段表現形式詳見圖1所示。
分析該曲線的意義在于:便于對處于硬件板卡全生命周期不同階段的板卡采用針對性的維護手段,如對處于損耗故障期的在役板卡實行針對性的健康度測試計劃,并提前準備充足的備板。

圖1 硬件故障率曲線圖
對于損壞比環比增長迅速的板卡型號,在排除外部環境和使用不當原因外,應重點分析損壞板卡的平均MTTF和超期服役的板卡比例。
軟件在運行和使用期間,雖然不存在硬件那樣的老化和磨損問題,但存在退化問題,因此廠商在售后提供持續的軟件維護工作對保障通信設備的運行質量非常重要。
早期故障期:早期故障率的高低取決于軟件設計水平、檢查項目數、軟件規模、軟件調試徹底與否等因素。
在軟件的生命初期,隱藏的軟件Bug會使程序具有較高的故障率,當這些Bug改正后曲線逐漸開始下降并趨于穩定。
退化故障期:由于這些軟件Bug的多次修復,以及修復過程中可能引入新的Bug,所以故障率曲線呈現圖中所示的鋸齒狀,同時曲線的底部不斷抬高,從而產生了軟件的退化現象。
軟件故障率不同階段表現形式詳見圖2所示。

圖2 軟件故障率曲線圖
分析該曲線的意義在于:
(1)對處于軟件全生命周期不同階段的軟件采用針對性的維護手段,如對于軟件Bug數量環比增長迅速的設備型號,可結合MTBF環比分析,重點分析Bug數量發散的原因;
(2)對處于軟件質量退化中后期的設備型號,需及時向廠商反映,提前做好軟件版本升級的準備。
以傳輸設備為例,其質量評估體系根據故障率及軟件版本升級次數以及故障修復時長等多項因素加權得出。
從表1可知相關的定義如下:
(1)一級指標產品質量縮寫為P,等級級別為Ap、Bp、Cp、Dp、Ep,定性值為R(p)。(2)二級指標縮寫為N(i),其中i為二級指標的序號。(3)二級指標的權重縮寫為W(i),其中i為二級指標的序號。
(4)二級指標的危險值縮寫為D(i), 其中i為二級指標的序號。
(5)二級指標的目標值縮寫為O(i), 其中i為二級指標的序號。
(6)二級指標的定性值縮寫為R(i), 其中i為二級指標的序號。定性值取值為-1,0或+1。
首先設定權重W,危險值D,目標值O;
一級指標P的等級級別(Ap、Bp、Cp、Dp、Ep)在0至2W(p)內選擇;
通過數據采集得到統計值M(i);

表1 指標量化卡
確定不同廠家入網設備的占比,用X(i)表示,i為廠商編號。
R(i)計算方法
* 若M(i)≥D(i),則R(i)=-1
* 若O(i)< M(i)< D(i),則R(i)=0
* 若M(i)≤O(i),則R(i)=+1 R(P)計算方法

* 若P>A(p),則R(p)=100
* 若B(p)
* 若C(p)
* 若D(p)< P≤C(p),則R(p)=40
* 若E(p)< P≤D(p),則R(p)=20
* 若P≤E(p),則R(p)=0
通過十多年發展,中國移動部署的傳輸設備從單一SDH設備發展到目前PTN,OTN等多種高速率IP化設備。SDH技術相對穩定,質量穩定,但早期部署的網絡逐漸開始走向生命周期后半程,隨著廠商服務年限縮短,設備及備件采購都逐漸困難。PTN等IP化產品作為中國移動首選的SDH替代技術,目前還處在生命周期的前半程,同樣面臨故障率高,產品升級換代快,版本多等問題。如何從全生命周期管理的角度做好兩種技術的平滑演進和過度成為擺在中國移動面前一個重要課題。
根據全生命周期管理的理念,對SDH這類技術和質量都相對穩定,且處在生命周期后半程的產品,需要更加關注它的故障率,通過新舊替換的方法,適當延長網絡服務年限3~5年。對于PTN等新技術產品需要加大部署的力度,已經完成部署的網絡應盡可能承載低等級業務,暴露問題,盡快度過早期故障期。對高等級業務可暫時保留在原網絡上。通過3~5年技術成熟期,PTN等新技術逐漸穩定,SDH等老產品服務期也開始接近尾聲,此時可以考慮將重要業務往PTN等新技術上遷移。實現兩種技術的新老交替,平滑過渡,減少業務損傷。
本文對設備生命周期管理概念進行了定義,從多個維度對生命周期管理的應用進行了闡述,并從設備軟硬件的全生命周期與網絡質量的關系進行了深入分析,便于生產維護人員和廠商及時掌握設備軟硬件所處的生命周期的不同階段的特點,更有效地進行質量管理和控制。
[1] 劉盛軻. 基于全生命周期理論的設備管理信息化方案[J]. 科技創業月刊, 2010,(7).
[2] 陳堅,高飛. 電力設備生命周期管理[J]. 電力信息化, 2005,3(5).