周 玲,鐘 璐,黃淵軍,吳方權,湯成佳
(1.貴州電網公司信息中心,貴州 貴陽 550003;2.貴州電網公司客戶服務中心,貴州 貴陽 550003;3.貴州電網有限責任公司信息中心,貴州 貴陽 550003)
目前,電力企業服務體系已經初具技術融合特征,可以從多個角度對用戶進行服務。但從細化角度來看,其服務精準度始終存在缺陷。
以某用戶用電習慣為例。電力企業服務系統能根據用電習慣制定服務策略。但結果顯示:因為用戶登記了他人身份,所以服務系統并未對該用戶進行服務,服務策略未能對實際用戶目標產生能效。此類問題在現代電力服務系統應用當中并不罕見。通過用戶畫像和標簽功能,可以準確核實用戶信息,避免此類問題的發生。
用戶畫像和標簽功能是以畫像為主,根據工作需要對不同用戶進行標簽標志,幫助工作人員持續性地完成服務的功能。
原理上:用戶畫像功能主要根據用戶行為,獲取其行為日志以及相關數據,與用戶帳號相對應;確認用戶信息之后,利用Hadoop分布式集群方式與大數據技術結合,對用戶信息進行深入分析,得到用戶用電喜好、興趣,并依照分析結果對用戶進行標簽標志。此外,大數據分析功能主要由K-means算法實現。但傳統算法對于初始化中心太過依賴,會增加很多不必要的麻煩。
對此,在先進理論上,需要對K-means算法作改進,降低改進算法對初始化中心的依賴,并提高其準確性。這一點在先進理論中已經實現。因此,本文也將在該算法基礎上,展開相關研究工作[1-2]。
用戶畫像功能建設必須先擁有初始數據集以及運行框架。對此,本文在征得許可的前提下,采用某電力企業智能系統中的用戶行為日志以及其他信息作為初始數據集,并以該單位網絡服務架構為運行框架。初始數據集中大多為用戶日志,即用戶在瀏覽服務網頁時留下的歷史記錄,例如用戶MAC地址、訪問時間、接入設備瀏覽頁面類型、頁面URL、客戶端類型等。此外,用戶日志只能反映用戶需求在某時段的變化,因此用戶畫像功能應當將其他相關信息作為輔助信息一同導入分析系統。而為了獲取輔助信息,需要增加輔助數據采集模塊。在該模塊應用下,可使功能自動化程度增加。此外,為了實現人機交互,需要建設可視化模塊,使工作人員可以看到用戶畫像[3-6]。
用戶畫像與標簽功能實現需要多項技術支撐,即網絡爬蟲技術、大數據技術、可視化技術。下文將進行相關分析。
①網絡爬蟲技術。
根據相關理論可知,現代具有用戶畫像與標簽功能的電力服務系統,都是采用網絡爬蟲技術實現該功能的,說明此項技術是功能設計中的關鍵技術。網絡爬蟲技術系統與萬維網連接,根據用戶發出指令去下載網頁,并向用戶展示網頁,同時補充初始數據缺陷。此項技術可實現用戶畫像與標簽功能[7]。
②大數據技術。
大數據的形態眾多,但在用戶畫像與標簽功能設計中,主要以大數據處理平臺形態為主。大數據處理平臺主要由Hadoop以及Hive組成。其中,Hadoop屬于開源分布式計算平臺,具備分布式儲存功能。其功能由Hadoop分布式文件系統(Hodoop distributed file system,HDFS)實現,具有較高兼容性。但其缺陷在于:在面對實時性較強的儲存要求時,無法滿足實時性要求。但在本文設計中并不會出現此類影響,說明其具備良好的應用表現。Hive屬于Hadoop組成結構,應用中根據結構化各部分文件特征,文件會呈數據庫表形式被保存。當用戶進行搜索,Hive會根據搜索關鍵詞對用戶展示結果,同時還能把SQL語言轉變為MapReduce任務。此外,在Hadoop的連接關系上存在Sqoop工具。其雖然不屬于Hadoop組成部分,但對大數據處理平臺的功能有較大影響。本質上,Sqoop工具屬于數據交互遷移工具,其在與Hadoop保持連接的條件下,可以根據關系型數據庫中的關系邏輯,完成數據遷移,使數據進入HDFS或者將HDFS數據遷移到數據庫,說明該工具決定了平臺應用靈活性[8-11]。
③可視化技術。
綜上可見,可視化模塊是實現人機交互的重要模塊,因此需要進行相關設計。在通常情況下,可視化模塊主要由Spring、Spring MVC、Mybatis組成,相應形成了一個以網頁為基礎的開發框架。Spring屬于開源框架,具有良好的便捷性,在應用開發過程當中,可以將復雜開發過程簡易化。原理上,Spring包含了IOC容器。該容器在進行業務對象替換時,相較于其他開發框架要更加簡單。Spring MVC同樣屬于開發源框架的一種,但其與Spring的功能表現不同,主要提供網頁全功能應用程序MVC服務、分離控制器服務、模型目標服務、分派器服務、處理程序;My Batis屬于定制化SQL、存儲過程和高級映射的支撐框架[12]。
在本文設計思路中,用戶畫像系統的框架結構由四個部分組成:數據源層、數據采集層、大數據分析平臺層、數據可視化層。以下將對各層設計內容進行介紹。
①數據源層。
本文數據源層主要開放了若干個數據接口。其中,有三個接口是必須存在的,即互聯網開放數據接口、電力用戶行為數據接口、第三方數據接口。在接口應用中,因為數據源層與數據采集層直接連接,所以數據采集層的采集功能是直接對所有接口中的數據進行采集[15-16]。
②數據采集層。
數據采集層位于數據源層上方,兩者上下直接連接。當系統接受到數據采集要求后,將根據要求特征,連接數據源層的某個接口;或者直接連接所有接口,通過網絡爬蟲技術、Web數據接口實現采集。此外,在數據采集層上方存在大數據分析平臺層。相應數據采集層得到的所有數據都會被遷移到該層中。
③大數據分析平臺層。
大數據分析平臺層主要具備Sqoop大數據入庫、Sqoop數據導出兩個功能。其中,Sqoop大數據入庫支持多種數據入庫,即用戶行為日志、用戶個人數據、設備數據、影視數據等。在這些數據入庫之后,如果用戶對系統進行了用戶標簽、設備標簽、用戶統計信息、設備統計信息操作,則會激發Sqoop數據導出功能,啟動內部Hive ETL數據處理功能與MapReduce算法模型,綜合對各類數據進行分析處理,準確對應后則完成上述操作。
用戶畫像系統框架設計結果如圖1所示。

圖1 用戶畫像系統框架設計結果
所以,為了保障功能流程正確,需要進行功能模塊規劃工作。數據采集模塊放置于最下層;大數據分析平臺模塊能對用戶數據進行清洗、規范化、分析與處理,并獲得各類信息權重,因此設置于中層;數據可視化模塊能展示大數據平臺分析結果,實現人機交互,因此設置在最上層。
圍繞三大模塊,本文將介紹各模塊的應用流程。數據采集模塊包括三個部分:用戶行為數據爬取模塊、用電信息數據爬取模塊和源數據對接模塊。
其中,采用第三方應用程序編程接口(application programming interface,API)連接用戶行為數據爬取模塊、源數據對接模塊,借助相應接口即可實現數據采集;用電信息數據爬取模塊通過網絡數據接口,與電力單位官網連接,可以相應得到網絡中用戶反饋的信息以及操作行為信息。
源數據對接模塊與其他兩個模塊連接,只要提供接口服務。在大數據分析平臺層中,所有由數據采集模塊得到的數據都會被相應處理,可以了解用戶基本行為,并根據人工操作需求,生成相應的用戶畫像。畫像類型包括人像、用戶分布圖、用戶訪問時間等。
圖2為大數據分析平臺層生成的用戶訪問時間。

圖2 用戶訪問時間
本文用戶標簽模型安裝在大數據分析模塊中。其具有兩種表現形式,即基本標簽模型、改進K-am算法標簽模型。
①基本標簽模型。
基本標簽模型可以根據大數據分析結果,對用戶地址、用戶設備(例如手機、電腦)類型進行標簽標志。
②改進無監督的聚類算法(K-Means,K-am)標簽模型。
改進K-am算法標簽模型,可以對用戶使用UT的次數、初次使用到最近一次使用間隔、用戶在線總時長進行記錄,并將其作為用戶價值模型指標進行計算。電力工作人員根據結果了解不同用戶的電力消費價值,相應推出針對性的服務。
本文主要對用戶畫像和標簽在電力服務系統中的應用進行了分析,通過分析得到結論:用戶畫像和標簽在現代電力服務系統中并不普及,但根據相關案例確認,其可以提高電力服務精準度,具有良好應用表現;進行了用戶畫像和標簽設計工作,了解了功能組成以及實現方法;對用戶標簽模型應用進行了分析,了解了其兩種形態,并介紹了其功能表現。
綜上分析可知,在用戶標簽模型的應用下,電力服務系統的服務體系更加細化,可以圍繞用戶的各種信息數據,判斷用戶特征;相應地,在人工觀察下,可以對用戶進行標簽標志操作,隨后依照標簽推出相應服務體系,或制定性的服務對策,說明其服務精準度提高。