于亮,鐘宏偉,李海濤,陳海洋,杜欣然
(國網(wǎng)北京市電力公司客戶服務中心,北京 100078)
數(shù)據(jù)挖掘可通過大數(shù)據(jù)分析的方式,從海量數(shù)據(jù)中發(fā)現(xiàn)其中所蘊含的存儲規(guī)律,大體上由數(shù)據(jù)準備、規(guī)律尋找、規(guī)律表達三個環(huán)節(jié)組成。數(shù)據(jù)準備是指在待挖掘數(shù)據(jù)信息中,提取所需的信息參量,并將其整合成全新的數(shù)據(jù)集合文件[1-2];規(guī)律尋找可通過多種方法,將數(shù)據(jù)集合文件所蘊含的信息規(guī)律表達出來;規(guī)律表示則是以用戶對象可以理解的方式,將已尋找到的規(guī)律條件翻譯成計算機識別語言。
輿情分析是根據(jù)問題需要,對該問題的輿情進行深度分析,并得出最終結論的處理過程。對企業(yè)單位來說,由于互聯(lián)網(wǎng)平臺的出現(xiàn),客戶言論具備了更為廣闊的交流空間,可使輿情信息得到快速地傳播與培育。傳統(tǒng)入侵檢測型監(jiān)控系統(tǒng)通過離群程度分值計算的方式,確定客戶輿情信息參量的實際傳輸能力,再借助各級硬件設備結構,實現(xiàn)對預警條件的準確表達。然而此系統(tǒng)對于預警信息的增刪處理能力有限,并不能實現(xiàn)對客戶輿情數(shù)據(jù)的準確查詢。為避免上述情況的發(fā)生,設計基于數(shù)據(jù)挖掘的客戶輿情預警監(jiān)控系統(tǒng),在數(shù)據(jù)簇中心提取結果的支持下,對監(jiān)控樣本條件進行準確定義,再按照客戶輿情數(shù)據(jù)的轉換方式,計算得到準確的預警復雜分值結果。
客戶輿情預警監(jiān)控系統(tǒng)的硬件執(zhí)行環(huán)境搭載,包含數(shù)據(jù)挖掘架構連接、客戶輿情數(shù)據(jù)轉換方式表達等多個處理環(huán)節(jié),具體操作方法如下。
數(shù)據(jù)挖掘架構作為客戶輿情預警監(jiān)控系統(tǒng)搭建的基礎硬件執(zhí)行結構,由客戶輿情信息數(shù)據(jù)庫、客戶信息系統(tǒng)、預警監(jiān)控引擎、用戶審核平臺等多個模塊共同組成,如圖1 所示。其中,輿情信息數(shù)據(jù)庫負責存儲與企業(yè)客戶信息相關的數(shù)據(jù)參量,可在企業(yè)中轉站體系的作用下,按照既定挖掘規(guī)則對數(shù)據(jù)信息進行重新排列,并將全新的數(shù)據(jù)包文件傳輸至系統(tǒng)預警監(jiān)控引擎中[3-4]。客戶信息系統(tǒng)分列于預警監(jiān)控引擎與用戶審核平臺兩端,可在提取數(shù)據(jù)庫組織中關鍵客戶輿情信息參量的同時,生成與初始形態(tài)完全不同的可發(fā)布信息參量,并可將其中的部分待審核數(shù)據(jù)信息文件反饋回企業(yè)中轉站。

圖1 數(shù)據(jù)挖掘架構示意圖
在客戶輿情預警監(jiān)控系統(tǒng)中,數(shù)據(jù)挖掘引擎可在網(wǎng)絡爬蟲結構的作用下,對待傳輸?shù)臄?shù)據(jù)信息參量進行轉換處理,一方面可將存儲于數(shù)據(jù)庫主機中的原始客戶輿情信息調度成更加積極的傳輸狀態(tài),另一方面也可使處于空閑狀態(tài)的數(shù)據(jù)挖掘引擎得到良性化占據(jù)[5-6]。一般情況下,原始的客戶輿情信息只能以網(wǎng)絡資源的形式存儲于數(shù)據(jù)庫主機中,而隨著采集指令的實施,這些格式已定的數(shù)據(jù)參量則會自發(fā)轉換成HTML、URL 等多種形式的信息文件,在預警監(jiān)控索引條件的支持下,完成轉換的客戶輿情數(shù)據(jù)可自動存儲于系統(tǒng)數(shù)據(jù)庫主機中,且其后續(xù)傳輸行為也不再對數(shù)據(jù)挖掘框架的應用穩(wěn)定性造成影響。客戶輿情數(shù)據(jù)轉換原理如圖2 所示。

圖2 客戶輿情數(shù)據(jù)轉換原理
客戶輿情信息的自身結構功能由預警搜索程序、監(jiān)控指令編碼、挖掘數(shù)據(jù)列表三類條件共同組成。其中,預警搜索程序能夠定義客戶輿情信息的初始查詢能力,在已知數(shù)據(jù)轉換方式的情況下,待傳輸?shù)臄?shù)據(jù)參量值越大,客戶輿情信息所能遍歷的監(jiān)控設備元件數(shù)量也就越多[7-8]。監(jiān)控指令編碼能夠約束客戶輿情信息的實際傳輸距離,可在數(shù)據(jù)挖掘架構體系的作用下,實現(xiàn)對系統(tǒng)預警監(jiān)控功能的初步完善。挖掘數(shù)據(jù)列表的結構功能相對較為單一,僅能表達客戶輿情信息的現(xiàn)有應用能力,并可借助相關信道組織,建立企業(yè)中轉站與輿情客戶端主機之間的物理連接關系[9-10]。自身結構功能定義如表1所示。

表1 客戶輿情信息的自身結構功能定義
在相關硬件設備結構體系的支持下,按照數(shù)據(jù)簇中心提取、監(jiān)控樣本定義、預警復雜分值計算的處理流程,完成系統(tǒng)的軟件執(zhí)行環(huán)境搭建,兩相結合,實現(xiàn)基于數(shù)據(jù)挖掘客戶輿情預警監(jiān)控系統(tǒng)的順利應用。
數(shù)據(jù)簇中心提取是數(shù)據(jù)挖掘算法實施的必要處理環(huán)節(jié),可在已知客戶輿情信息自身結構功能條件的基礎上,將預警監(jiān)控系統(tǒng)的執(zhí)行模塊劃分成多個功能性結構,其中一部分功能性結構用于構建全新的數(shù)據(jù)挖掘框架,另一部分功能性結構則用于獲取系統(tǒng)預警監(jiān)控指令中的非合理傳輸信息。在不考慮其他干擾條件的情況下,數(shù)據(jù)簇中心提取結果受到信息數(shù)據(jù)傳輸時長、系統(tǒng)預警監(jiān)控系數(shù)幾項物理指標的直接影響[11-12]。信息數(shù)據(jù)傳輸時長可表示為ΔT,由于數(shù)據(jù)挖掘框架體系的存在,該項物理量在客戶輿情信息的處理過程中,不具備無線延長的能力。i、j分別代表兩個不同的系統(tǒng)預警監(jiān)控系數(shù),在客戶輿情信息的單位傳輸時長中,i>j的物理表達式恒成立。聯(lián)立上述物理量,可將客戶輿情預警監(jiān)控系統(tǒng)的數(shù)據(jù)簇中心提取結果表示為:

其中,n代表單位時間內的客戶輿情信息定義項參量,xi、xj分別代表i與j條件下的客戶輿情信息數(shù)據(jù)特征值。
監(jiān)控樣本是以客戶輿情信息傳輸需求為基礎的系統(tǒng)應用指令判別條件,在預警監(jiān)控系統(tǒng)的實施環(huán)境中,數(shù)據(jù)挖掘框架所能定義的監(jiān)控樣本總量越大,系統(tǒng)主機所具備的客戶輿情信息篩選能力也就越強。規(guī)定yˉ代表獨立數(shù)據(jù)挖掘框架中客戶輿情信息參量的傳輸均值,通常情況下,隨著預警監(jiān)控指令執(zhí)行時間的延長,該項物理量的數(shù)值形式也會呈現(xiàn)不斷增大的變化狀態(tài),進而促使待定義監(jiān)控樣本的數(shù)量級水平不斷增多[13-14]。λ代表既定的客戶輿情信息監(jiān)控指標參量,受到系統(tǒng)應用時長、數(shù)據(jù)信息傳輸量等多項物理條件的影響,該項物理系數(shù)指標的數(shù)值水平將直接影響監(jiān)控樣本參量的實際定義結果。在上述物理量的支持下,聯(lián)立式(1),可將客戶輿情信息的監(jiān)控樣本定義結果表示為:

式中,f代表與數(shù)據(jù)挖掘框架匹配的客戶輿情信息單向傳輸系數(shù),代表數(shù)據(jù)信息參量的預警監(jiān)控特征參量值。
預警復雜分值計算是客戶輿情預警監(jiān)控系統(tǒng)設計的末尾處理環(huán)節(jié),可在數(shù)據(jù)挖掘框架結構的支持下,在預存儲客戶輿情信息中選擇出最關鍵的數(shù)據(jù)指標參量,再根據(jù)系統(tǒng)執(zhí)行指令所屬的具體操作環(huán)節(jié),對系統(tǒng)數(shù)據(jù)庫主機進行清空處理,從而使得待傳輸?shù)目蛻糨浨樾畔⒌玫接行У剞D存處理[15-16]。設r1、r2分別代表兩個不同的客戶輿情預警系統(tǒng)監(jiān)控指征值,由于數(shù)據(jù)挖掘框架體系的存在,上述兩項物理指標在整個系統(tǒng)執(zhí)行周期內,始終不具備相等的可能。在上述物理量的支持下,聯(lián)立式(2),可將系統(tǒng)的預警復雜分值計算結果表示為:

其中,β代表系統(tǒng)環(huán)境中的客戶輿情信息清空處理系數(shù),kmax代表最大的信息數(shù)據(jù)傳輸指標參量,kmin代表最小的信息數(shù)據(jù)傳輸指標參量。至此,實現(xiàn)各項軟、硬件基礎執(zhí)行模塊的搭建,在數(shù)據(jù)挖掘框架體系的支持下,完成新型客戶輿情預警監(jiān)控系統(tǒng)的設計[17]。
在圖3 所示的運行環(huán)境中,分別將實驗組、對照組應用主機與數(shù)據(jù)傳輸網(wǎng)絡相連,其中實驗組應用主機搭載基于數(shù)據(jù)挖掘的客戶輿情預警監(jiān)控系統(tǒng),對照組應用主機搭載傳統(tǒng)入侵檢測型監(jiān)控系統(tǒng)。出于實驗公平性考慮,除所應用監(jiān)控系統(tǒng)不同外,實驗組、對照組所有信息參量數(shù)值始終保持一致。

圖3 客戶輿情預警監(jiān)控系統(tǒng)運行模式
UDR 指標能夠反映系統(tǒng)所獲客戶輿情信息與原始客戶輿情信息間的匹配度水平,通常情況下,UDR指標數(shù)值越大,所獲信息與原始信息間的匹配度水平也就越高,反之則越低。表2 記錄了實驗組、對照組UDR 指標的具體數(shù)值情況。

表2 UDR指標記錄數(shù)值
表2 中,實驗組UDR 指標在前20 min 的實驗時間內,始終保持絕對平穩(wěn)的數(shù)值變化趨勢,而從第25 min 開始,UDR 指標的數(shù)值變化趨勢開始逐漸趨于穩(wěn)定且連續(xù)的波動。對照組UDR 指標在前35 min的實驗時間內,一直維持不斷上升的數(shù)值變化態(tài)勢,而從第40 min 開始,這種數(shù)值變化狀態(tài)開始逐漸趨于穩(wěn)定。整個實驗過程中,實驗組最大值68.20%與對照組最大值40.18%相比,上升了28.02%。
PPS 指標則反映了系統(tǒng)主機對于客戶輿情信息的處理能力,在既定網(wǎng)絡環(huán)境中,PPS 指標均值水平越高,系統(tǒng)主機對于客戶輿情信息的處理能力越強。具體實驗記錄值如表3 所示。

表3 PPS指標記錄數(shù)值
上述實驗數(shù)值結果顯示,實驗組PPS 指標數(shù)值始終保持連續(xù)上升的變化狀態(tài);對照組PPS 指標則始終保持相對穩(wěn)定的數(shù)值變化趨勢。從平均值角度來看,實驗組均值71.43%與對照組均值44.67%相比,上升了26.76%。
綜上可知,隨著新型客戶輿情預警監(jiān)控系統(tǒng)的應用,UDR 指標數(shù)值、PPS 指標數(shù)值均出現(xiàn)了不同程度的提升,不僅大幅提升了系統(tǒng)所獲客戶輿情信息與原始客戶輿情信息間的匹配度水平,能夠實現(xiàn)對客戶輿情信息的快速準確判定,為后續(xù)安排客戶服務相關舉措提供有力支撐。
在傳統(tǒng)入侵檢測型監(jiān)控系統(tǒng)的基礎上,新型客戶輿情預警監(jiān)控系統(tǒng)引入數(shù)據(jù)挖掘框架,在定義客戶輿情數(shù)據(jù)轉換方式的同時,實現(xiàn)對數(shù)據(jù)簇中心參量的準確提取,不僅加強了監(jiān)控樣本信息的實用性能力,也計算得到了更為標準的預警復雜分值結果。從實用性角度來看,UDR 指標與PPS 指標數(shù)值的提升,可在互聯(lián)網(wǎng)平臺中較好地維護客戶言論的交流空間,從而對企業(yè)客戶服務工單進行輿情監(jiān)測。