汪曉玫 姜 浩
(國網新源水電有限公司新安江水力發電廠,浙江 建德 311608)
配置命令本質上就是一個模式識別的進程,在操作過程中具有樣本數量龐大以及向量維數高等特征。在對配置命令進行分類的過程中,目前比較常用的有互信息、期望交叉熵、信息增益以及詞頻方法等算法。這些算法分別針對不同種類的文本類型,其應用效果也略有不同。在對配置命令進行分類時,如果只是簡單的運用一種算法,就會存在配置命令權重繁雜或者過度冗余等情況。想要在網絡煩瑣的信息中精確找到需要定位的訊息,并且對文本命令進行有效修改,其中智能匹配占據著極其重要的地位,其可以精確管理并組織這些信息,大幅提升信息搜索的速度,為了更好地對配置命令進行分類,技術人員在傳統算法的基礎上引入了信息熵進行改革優化,從而提出一種新算法,根據實驗可以發現,運用信息熵對網絡設備進行智能修復會更加精準、效率更高。
最早熵的概念是由克勞德·香農提出的,其實熵最開始是應用在熱力學統計中的,對熵的數值進行計算,可以判定出一個系統中的混亂程度,熵的數值越小,表示其系統越穩定、混亂程度越低。在熱力學統計中,使用的是熵增原理[1]。對于文本信息來說,要求熵的數值只能減少,使用的是熵不增原理。
從隨機過程角度來看,熵的概念為:假設X是一組隨機發生的事件:x1、x2、x3…xn,其中它們出現的概率為p(xi)=pi(0≤pi≤1),則p1+p2+p3+…pn=1,那么這組隨機事件的信息熵便是其信息量的平均統計值,則H(x)=E(-log2Pi),其中E為統計平均值。
在實際應用過程中,對于無序結構來說,熵比較實用。一個非負熵的數值可以充分表現信息的不確定程度,熵是一個全局變量,其數值大小直接決定了樣本中信息的重要程度,同時可以利用熵值對純度進行表述,通常情況下數值越小,純度越高。
從信息熵的起源來看,信息論之父克勞德·香農在長期的研究過程中逐步對信息熵的性質進行概括,其基本性質主要體現在3個方面。1)單調性。事件發生概率與其所對應攜帶的信息量之間存在著緊密聯系,發生概率越高時,其對應所攜帶的信息量越低。2)非負性。信息熵可以直接作為一種廣度量,非負性是一種合理的、必然的趨勢。3)累加性。多隨機事件同時發生存在的不確定性總量度與各個事件不確定性的量度和一樣,這一表現形式也充分體現了信息熵的廣度量特性。
從理論角度來對信息熵的基本型性質進行理解,信息熵的單調性主要指的是當一個事件發生的概率越低的情況下,在該事件發生時所給出的信息量也就越大,從一個相對特殊的事件來看,例如“太陽從西邊升起”所攜帶的信息量會遠遠高于“太陽從東邊升起”所攜帶的信息量,這主要是“太陽從東邊升起”是一個亙古不變的事實,不需要特別強調,而“太陽從西邊升起”是根本不可能發生的,當出現這一現象時,就說明存在更多的不可預測性,例如太陽系的異常變化、物理法的變化等。從這個角度來看,信息熵的單調性特性也從側面暗含了一種對信息含量的先驗假設,也就是在一些特定的時候,假定某些事實是不含信息量的,這種情況下,將默認定標該情況的信息量為0。對累加性特性的理解方面,主要是由于信息熵的定義中涉及了對事件發生概率的考慮,那么,可以假設信息熵是事件發生概率的函數:

式中:H(X)表示為某一事件X的信息熵,H(p(x))表示為某一事件X發生的概率。
對于2個相對獨立的事件X=A,Y=B來說,其同時發生的概率可以表示為:

式中:P(X=A,Y=B)表示獨立事件X=A,Y=B同時發生的概率。
而在這一條件下,同時發生的信息熵,根據其累加性,可以表示為:

在式(3)中,滿足2個變量乘積的函數值等于2個變量函數值的綜合,那么根據這一特性,只有對數函數滿足這一特點。由于概率都≤1,在取對數之后的值<0,由于信息熵具有非負性,因此需要在前邊加上負號。
例如有一組演示數據,見表1。

表1 每匹馬的獲勝概率
在賭馬比賽之中,每1一匹馬獲勝的概率見表1。所示,之后,我們將哪匹馬獲勝作為最后的隨機變量X,我們需要用最少的二元問題對隨機變量的值進行選取。
例如問題1是A獲勝了嗎?問題2是B獲勝了嗎?問題3是C獲勝了嗎?我們最多用3個二元問題,就可以推斷出哪批匹馬最終贏得了比賽。
直線度誤差的評定一般有最小條件法、兩端點連線法兩種[5]。用最小二乘法最容易實現最小條件[6]。根據測量點數x和輪廓最低點到評定基準的距離y可以得到最小二乘直線的方程和參數為:
如果X=A,那么我們需要問1次二元問題(問題1),獲勝概率為1/2。
如果X=B,那么我們需要問2次二元問題(問題1與2),獲勝概率為1/4。
如果X=C,那么我們需要問3次二元問題(問題1、2與3),獲勝概率為1/8。
如果X=D,那么我們需要問3次二元問題(問題1、2與3),獲勝概率為1/8。
那么在該此種例題中,為了確定X取值詢問的問題數量為:

根據信息熵計算公式,可以發現信息熵計算為:

熵的一個最為突出的應用就是,在一些領域,通過最大化熵的應用,可以確定科學和工程中眾多現象相聯系的原始分布,例如均勻分布,作為一種特殊的分布形式,其并不是唯一的,而是存在一定的約束條件,而其他的分布可以最大化熵。在很多領域,信息熵有著廣泛的應用,為發揮熵在問題處理方面的作用,一些專業人員會將基于離散概率的信息熵推廣到基于概率密度函數的信息熵,這種信息熵理論基礎的轉變,為信息熵價值的發揮創造了良好的前提條件。
3.1.1 分類模型
使用信息熵對網絡設備配置命令的分類進行算法設計時,主要運用了信息熵數值的大小對已有配置的命令短語是否具有相同或者相似進行判定[2]。當信息熵的數值為0且檢測到配置命令文本時,需要先對特征向量進行處理,在該基礎上,在運用信息熵技術,對已經處理提出的特征向量進行優化,并將最終取得的結果在配置命令集中進行保存。在優化過程中,信息熵直接決定了在配置命令集中的一條命令短語是否存在。
其算法流程如下。設定一個一定類別C中具有k個配置文本命令的集合,其特征詞集合為{fi1、fi2、fi3…fin}(i=1、2、3…k),其中等待加入的配置文本是xk+1,其特征詞的集合為{d(k+1,1),d(k+1,2),d(k+1,3)…d(k+1,n)}。
依據預處理的流程步驟,對配置命令文本抽選特征向量,可以得到特征詞集合為{fi1、fi2、fi3…fin}。
對各個命令配置中的特征詞詞頻進行統計,并且設立一個閾值。在這個閾值下的特征詞需要直接忽略,高于這個閾值的特征詞才會計入統計,并且可以對已經選出的特征詞進行排序。之后運用信息熵技術原理,對每一個特征詞計算熵值,當特征詞的熵值是0或者接近0時,要取消該特征詞。
對于新進入的配置文本命令,要依據以上流程對特征詞進行選取,并對特征詞的信息熵進行計算,對于符合要求的特征詞進行保留,從而實現對配置命令的合理分配。
將配置命令文本分類好后,將其特征詞加入詞庫中,并對每一個特征詞計算信息熵,之后再次對命令文本進行分類。在整個操作過程中,可以根據實際情況,在命令該文分類之后對信息熵的閾值進行動態調整。
3.1.2 分類算法
在該算法中,應當使用詞頻方法對特征詞進行初步選取,并且結合信息熵技術原理,對已經選出的特征詞的信息熵數值進行計算,將其數值與閾值進行比較,當數值低于閾值時,直接忽略該特征詞,對不重要的文本進行有效排除,保證文本原有數據的特征。
對于已經給定的文本信息,要對其關鍵短語進行劃分,利用關鍵短語文本可以鮮明地表述文本內容,可以從3個方面對關鍵短語進行確定。1)結構上,關鍵短語應當具備優良的凝固性。2)語義上,關鍵短語應當具備完整性與專指性。3)統計上,關鍵短語應當具備可重用性。在配置命令文本中,通常英文表達較多,因此對于英文分詞進行劃分極為重要。但是英文分詞系統主要負責基礎檢測劃分,沒有必要針對每一個信息的應用領域都建設英文分詞系統。這樣做不僅浪費資源,而且分詞效果不佳。因此可以直接使用DAG思想配置元集無關性算法。DAG是指有向無環圖,其主要描述含有公共子式的表達式或系統運行的過程。其算法描述分為5步。1)將集合設為S,利用掃描器對配置文本進行預處理。1)如過S為非空集合,就可在T(狀態轉換樹)中選取一條命令L,如果不是非空集合,則退出程序。3)如過L為非空,則對L中的一個單詞順勢進行讀取,為W。如果L為空,且可以在T中尋查到終態葉子節點,則可以完成對L的識別標注,且轉換到2)執行。4)如果L的第一個單詞就是W,則在T中、Root直接節點上、尋查到W中的字符。如果L的第一個單詞不是W,則應順次向下查找匹配。如果以上2種現象,均無法找到匹配字符,則需轉換到5)執行。5)如果產生無法匹配的現象,觀測兄弟節點中是否存在“¥”或者“$ ”的符號,如果存在,則視W詞性進行匹配,并轉換到3)執行。
以上算法可以有效識別集合之中的命令文本,從而為設備智能診斷奠定基礎。
該種算法更容易提取特征項、配置命令。對配置命令文本進行預處理,主要可以劃分短語,為之后關鍵短語的確定奠定基礎,處理的最終結果會將非結構化配置命令變得結構化,大幅提升短語的匹配效率。操作流程主要分為2步。1)運用非漢字符號以及英文標點符號,對英文表述的配置命令進行切分,將其切分為比較短的短語。2)運用漢字的標點符號進行切分,同時使用連接詞庫,將“or”、“and”等單詞去除,進一步切分文本句子。
在對配置命令文本進行預處理后,會導致原有的文本變為一個個分割的短語,為了方便處理,可以將這些短語集中放入一個集合T之中。并對T不斷進行掃描,將最終確定下來的短語放入keys Set集合中進行保存,其掃描處理過程是對已經進行過預處理的配置命令文本中的分詞詞頻進行統計,并將對已經達到閾值的分詞進行提取,而后將其保存到keys Set集合中。對于不存在完整意義的分詞,對停用詞庫進行查看,如果其中含有無法運用的單詞直接刪除,如果不含無法運用的單詞,則進行下一步。對給定的配置命令文本由前向后按照順序掃描,直至所有短語處理結束。對于keys Set集合中的詞語運用信息熵原理,進行優化,從而實現分類處理。

圖2 信息熵結構框架
要分別對不同網絡設備之中的配置命令文本進行統計,將不一致的關鍵詞集組成各類的關鍵詞組進行描述。對配置命令文本的處理大致包括建設特征庫、訓練樣本、測試短語、分類4個部分,即建設特征庫、訓練樣本、測試短語和分類,其系統框架如圖2所示。
在真實網絡設備的故障診斷過程中,有待處理的信息量非常龐大,但是其中可以幫助故障診斷的只占據極小的一部分?;谛畔㈧貙W絡系統進行智能修復,可以有效提升檢錯效率、縮短響應時間,為后續修復提供強有力的保障。