馬占海,張俊超,田光欣
(國網青海省電力公司信息通信公司,青海西寧 810008)
人機對話系統是一種新型的計算機工作模式,用戶對象可通過終端顯示屏幕掌握核心計算機的運轉情況,且二者之間始終以對話的方式進行信息溝通。用戶對象不但可以借助計算機終端來使用機器,還能夠向核心網絡發出明確的指令要求。常見的對話語言編程方法包含LISP、APL、BASIC 等幾種形式,一般來說,由于所處文本環境的不同,主機元件所采取的編程模式也會有所不同[1-2]。電網人機對話系統是同時聯合電網主機與常規人機對話系統的文本信息處理體系,能夠準確分析用戶對象所處的語言環境,并可以在電力主機元件的作用下,完成對數據信息參量的按需處理。
在電網人機對話系統中,隨著用戶對象所需信息的改變,與之相關的文本意圖傳輸行為也會不斷變化。這也是導致電量信號出現過度消耗情況的主要原因。傳統多級負荷聚類型識別方法通過分別查詢上下文信息參量的方式,對短文本用戶的行為意圖進行分類。再借助關聯信道組織,將這些數據信息匹配至既定電力節點中,從而實現對用戶意圖的識別與處理[3]。然而該方法的實用能力有限,并不能解決現有的電量信號過度消耗的問題。為避免上述情況的發生,設計一種新型的電網人機對話系統短文本用戶意圖自動識別方法,并通過對比實驗的方式,突出該方法的實際應用價值。
電網人機對話系統以Hadoop 框架作為搭建基礎,在短文本字符串的作用下,對短文本用戶的行為意圖進行分析與處理。
Hadoop 框架作為電網人機對話系統的核心組成結構,可以在分析電力文本數據信息的同時,借助多個用戶行為意圖節點,對這些信息參量進行分布處理,并能夠聯合既定電網人機對話組織,完成對短文本數據信息的準確識別[4]。在電網人機對話系統中,與用戶對象相關的文本數據始終保持散亂分布的存在形式,且由于行為意圖節點的存在,這些文本數據在被整合處理的同時,能夠繼續保持其原有傳輸形式,不但能夠滿足電網人機對話組織對于信息參量的分辨需求,還能使得最終所獲用戶意圖識別結果的準確性水平大幅提升[5-6]。在Hadoop 框架中,電力文本數據的傳輸行為只能由用戶意圖節點指向電網人機對話組織。
由于信息與信息節點之間的供求關系不同,所以與短文本字符串相關的數據參量匹配結果也會有所不同[7]。設E1、E2、…、En表示n個不同的電網人機對話系統短文本信息定義項,n表示數據信息參量的最大編碼次數,在不考慮其他影響條件的情況下,E1≠E2≠…≠En的不等式條件恒成立。β表示既定的用戶意圖文本提取系數,表示n個短文本信息定義項的均值結果。聯立上述物理量,可將電網人機對話系統中的短文本字符串匹配表達式定義為:
電量信號傳輸意圖分析也稱針對電網人機對話系統的短文本用戶意圖行為分析,在已知短文本字符串匹配結果的前提下,待處理文本信息的堆積量越大,電網主機中用戶行為意圖的表現情況也就越明顯[9-10]。規定u1、u2表示兩個隨機選取的電量信號節點編碼系數,在電網人機對話系統中,u2>u1的不等式條件恒成立。s表示電網主機對于短文本用戶意圖信息的判別系數,在實際應用過程中,該項物理指標的最小取值結果只能等于自然數1。在上述物理量的支持下,聯立式(1),可將電量信號的傳輸意圖分析結果表示為:
其中,表示電力信號的傳輸意圖趨向指標,d表示與電網人機對話系統匹配的傳輸意圖向量,ΔT表示電力用戶意圖信息的單位識別時長。由于電網人機對話系統的負載能力有限,所以電量信號傳輸意圖的單次行為強度不宜過大。
在電網人機對話系統中,按照用戶意圖信息相關度估算、識別窗口寬度計算、長度計算的處理流程,完成電網短文本用戶意圖自動識別方法的設計與應用。
用戶意圖信息相關度是指在電網人機對話系統中,兩個短文本用戶意圖行為數據之間出現完全相似的可能性[11]。對于自動識別算法而言,兩個短文本用戶意圖行為數據之間的相似性程度越高,則表示電網人機對話系統中兩個用戶對象的行為意圖越相關,因此該項指標參量可作為衡量識別算法應用能力的關鍵物理條件[12]。設λ表示基于電網人機對話系統的短文本意圖信息判別系數,χ表示既定的信息參量標度值,一般來說,指標λ的取值結果恒大于指標χ。表示短文本用戶意圖行為數據的識別標量結果,δ表示既定的識別權限指標。聯立上述物理量,可將用戶意圖信息相關度估算表達式定義為:
用戶意圖信息相關度估算結果可作為核心參考條件,為后續識別窗口寬度與長度值的計算提供取值約束作用。
識別窗口是具有自動化能力的短文本用戶意圖數據識別結構,其運行能力完全符合電網人機對話系統的規劃標準,能夠在保證數據信息傳輸完整性的同時,獲得精準的信息參量識別結果[13]。
識別窗口寬度是與識別窗口橫向覆蓋面積相關的物理系數項指標,一般來說,該項系數參量的取值結果越大,則表示識別窗口在單位時間內所能容納的短文本用戶意圖數據越多,反之則越少[14]。
設→j表示識別窗口的寬度法向量,v1、v2表示兩個不同的窗口結構體橫向移動速率值,μ表示短文本用戶意圖數據的橫向識別標度值,表示短文本用戶意圖數據的橫向分布特征值,γ表示橫向分布指標。聯立上述物理量,可將識別窗口寬度計算表達式定義為:
電網人機對話系統短文本用戶意圖自動識別指令的制定,必須參考識別窗口的寬度計算表達式。
識別窗口長度是與識別窗口縱向覆蓋面積相關的物理系數項指標,一般來說,該項系數參量的取值結果越大,則表示識別窗口在單位時間內所能容納的短文本用戶意圖數據標度越長,反之則越短[15]。
設表示短文本用戶意圖數據的縱向分布特征值,γ2表示縱向分布指標,表示單位時間內電網人機對話系統所能識別的短文本用戶意圖信息均值,ξ表示自動化識別權限指征,表示待識別信息參量的標度參量。在上述物理量的支持下,聯立式(3),可將識別窗口長度計算表達式定義為:
在實際應用過程中,識別窗口長度值指標與寬度指標具有相同的約束作用能力,因此電網人機對話系統短文本用戶意圖自動識別方法的設計必須對這兩項指標參量進行同時參考[16]。
為避免人機對話系統中的電量傳輸信號出現過度消耗的情況,按照如下步驟設計對比實驗:1)將新型短文本用戶意圖自動識別方法的執行指令輸入電網人機對話系統中,并將所得數據指標作為實驗組變量。2)將多級負荷聚類型識別方法的執行指令輸入電網人機對話系統中,將所得數據指標作為對照組變量。3)將實驗組、對照組指標參量與理想數值進行對比。4)分析在實驗組、對照組應用方法作用下,相關實驗指標的具體數值變化情況。
在電網人機對話系統中,隨著用戶意圖行為的改變,電量信號的消耗水平會呈現出明顯的數值差異。一般來說,電量信號的消耗量越大,則表示用戶意圖行為數據的累積量越大,此時用戶主機所面臨的識別任務相對較為繁重,對于短文本信息的識別準確性也就相對較低;相反,若電量信號的消耗量較小,則表示用戶意圖行為數據的累積量較小,此時用戶主機所面臨的識別任務相對較為輕松,對于短文本信息的識別準確性也就相對較高。
圖1 反映了電量信號消耗水平的理想數值變化情況。

圖1 電量信號的理想消耗水平
分析圖1 可知,在10~30 min 的實驗時間內,電信號理想消耗量呈現出不斷增大的數值變化狀態;在30~40 min 的實驗時間內,電信號理想消耗量則呈現出較為穩定的數值存在狀態;在40~50 min 的實驗時間內,電信號理想消耗量雖然有一定程度的下降,但整體下降幅度較小,基本可以忽略不計;在50~80 min 的實驗時間內,電信號理想消耗量數值繼續增大;80~90 min 的實驗時間內,電信號理想消耗量數值先呈現上升趨勢,再小幅下降,整體變化趨勢呈現上升遠大于下降的情況。
表1 記錄了實驗組、對照組電量信號消耗水平的實際數值變化情況。

表1 電量信號的實際消耗水平
實驗組:在整個實驗過程中,實驗組電信號消耗量的變化情況基本與理想數值變化趨勢保持一致,當實驗時間處于10~40 min 之間時,實驗組數值雖然略大于理想數值,但二者之間的差值水平極低;從第50 min 開始,實驗組電信號消耗量數值始終小于理想數值,直至實驗結束,實驗組電信號消耗量最大值也僅達到了105.8×107kW·h,與理想最大值110.2×107kW·h 相比,下降了4.4×107kW·h。
對照組:在整個實驗過程中,對照組電信號消耗量始終保持不斷增大的數值變化趨勢,初始數值25.0×107kW·h與理想初始數值22.3×107kW·h相比,上升了2.7×107kW·h;全局最大值115.9×107kW·h與理想最大值110.2×107kW·h 相比,上升了5.7×107kW·h,遠高于實驗組均值水平。
綜上可知該次實驗結果如下:1)在新型短文本用戶意圖自動識別方法的作用下,電網人機對話系統中的電量信號消耗情況得到了較好控制。2)與多級負荷聚類型識別方法相比,新型應用方法能夠較好應對用戶意圖,避免其用電行為出現過度表現的情況,這對于輔助用戶主機精準識別短文本信息能夠起到較強的促進性影響作用。
電網人機對話系統短文本用戶意圖自動識別方法在傳統多級負荷聚類型識別方法的基礎上,聯合Hadoop 框架,對短文本字符串進行匹配處理。又通過分析電量信號傳輸意圖的方式,確定信息參量之間的相關度水平,從而得到更為準確的識別窗口寬度與長度計算值結果。從對比實驗的角度來看,對于電網人機對話系統而言,隨著用戶意圖行為的改變,電量信號的消耗水平得到了較好控制,能夠得到更為準確的短文本信息意圖識別與分析結果。