李卓 顏少偉 符樹雄 余加喜 黎值源


摘 要:針對傳統搜索引擎在電力專業領域中對查詢條件搜索耗時較長的問題,開展對電力調控智能搜索引擎關鍵技術研究。通過基于自然語言處理的電力調控語言處理和智能搜索引擎推理控制策略,設計一種基于自然語言處理的電力調控智能搜索引擎。通過實驗證明,該引擎與傳統引擎相比可有效縮短搜索耗時,進一步提高搜索引擎的效率。
關鍵詞:自然語言處理;電力調控;智能搜索引擎;關鍵技術
中圖分類號:TP391.3 文獻標識碼:A 文章編號:1001-5922(2021)05-0085-03
Research on Key Technologies of Power Control Intelligent Search Engine Based on Natural Language Processing
Li Zhuo,Yan Shaowei,Fu Shuxiong,Yu Jiaxi,Li Zhiyuan
(Power Dispatching Control Center of Hainan Power Grid Co., Ltd., Haikou 570000, China)
Abstract:Aiming at the problem that traditional search engines take a long time to search for query conditions in the field of electric power, the research on key technologies of electric search and control intelligent search engines is conducted. Through the power control language processing based on natural language processing and intelligent search engine reasoning control strategy, a power control intelligent search engine based on natural language processing is designed. Experiments have proved that this engine can effectively reduce the search time and improve the efficiency of search engines compared with traditional engines.
Key words:natural language processing; power control; intelligent search engine; key technologies;
0 引言
現代化科技的快速發展促進著搜索引擎技術的不斷進步,針對各種問題類型的搜索引擎層出不窮,但目前針對電力企業中的相關專業性質更強的搜索引擎較少,造成了電力知識的利用率被嚴重制約。目前傳統搜索引擎的構成主要包括上位機中的人機交互界面、全球廣域網服務器以及網絡瀏覽器[1]。當用戶在人機交互界面中,通過瀏覽器輸入相應的檢索內容,再通過全球廣域網服務器在數據庫中搜索相應的內容,最后將搜索結果返回給用戶。這種搜索引擎應用到電力領域中,一方面會造成搜索結果與用戶所需存在較大差異,主要原因是由于搜索結果的數量過多,且結果精準度不高,冗余結果信息過多;另一方面,會出現電力知識量少、效率低等問題。當前,自然語言的處理是人工智能領域研究學者們重點研究的內容之一,利用自然語言處理可以有效地實現人與計算機之間利用自然語言進行通信。自然語言處理涉及計算機科學領域、人工智能領域、語言學領域等多個學科領域的綜合處理方法。對此,本文利用自然語言處理的優勢,開展基于自然語言處理的電力調控智能搜索引擎關鍵技術研究。
1 基于自然語言處理的電力調控智能搜索引擎
1.1 自然語言處理
在文章中提出的電力調控智能搜索引擎總體框架結構中,對電力調控語言的處理主要包括查詢內容概念提取、查詢擴展以及自動文摘。概念提取主要是利用自然語言處理技術中的漢語分詞實現,查詢擴展主要利用自然語言處理技術中的短語識別及同義詞處理實現。
漢語分詞是將由用戶端發送的初始查詢條件劃分為多個不同的關鍵詞,對于英文而言,一個單獨的詞語即可作為一個關鍵詞。而對于漢語而言大量電力調控語言存在著不同的含義,對于某些特殊的漢字,分詞可能存在較多的結果差異。例如,用戶端發送的初始查詢為“電力系統”,則通過分詞處理后,可能產生“電力系統”、“電力”、“系統”三種不同的關鍵詞分詞結果。因此在用戶搜索時會產生與上述三種關鍵詞相關的大量與用戶主觀搜索內容不相關冗余結果。對于上述這一問題的產生,可通過在知識庫中對上述類似漢字進行總結、分析,并計算出每個漢字組成出現的概率以及相關詞語之間的關聯信息,從而在最大程度上排除容易產生歧義的搜索結果,準確地表達出用戶所需的查詢請求及相應的文檔信息。
查詢擴展中的短語識別是將用戶輸入的初始查詢內容概念提取后,根據相應的語法結構從知識庫中搜索相應的知識。由于漢語語法存在一定的復雜性,因此當用戶使用漢語在電力調控智能搜索引擎中查詢時,需要對漢語短語中的語法結構進行適當的分組。例如,當查詢內容為“電力的運營”時,短語中的“電力”與“運營”是存在一定的關聯性的,因此,若不將二者聯系在一起則會出現分別與“電力”和“運營”相關的冗余知識,降低搜索結果的精準度。
查詢擴展中的同義詞處理是將用戶輸入的初始查詢內容概念提取后,電力調控智能搜索引擎自動根據概念中的內容去查詢同義詞典,并加入新的概念。擴展出的概念是整個概念集中各個概念的同義詞,因此,用戶端發出的最終的查詢請求是由概念集中各個概念以及其相互之間的同義詞構成。假設概念集為A={a1,a2,a3,…,an},經過同義詞處理后將得到:B={A(a1),A(a2),A(a3),…,A(an)},其中A(a1)表示為同義詞典中與a1有相同語義的概念集。同義詞處理的一種方法是通過人工構造同義詞表。由于本文設計的電力調控智能搜索引擎是針對電力企業這一專業領域而提出的,因此利用人工構造的方式可以有效提高構建同義詞表的效率。
自動文摘是在搜索引擎將搜索知識返回到文檔中的簡要概述,是語言理解和語言生成的綜合結果。語言理解是對文檔中的每個語句進行語義及語法上的分析,當完成對全篇所有內容分析后,準確地將文章所要表達的意思理解。語言生成則是利用符合文章語義的恰當詞匯及語句表達文章的總體內容。本文提出一種更加有效的文摘構建方法,將被提取出的搜索結果文檔中權值最高的概念作為返回到用戶端的文摘,用戶可通過各個獨立的概念推理出文章的中心現象,以及找出自己所需的知識。
1.2 電力調控智能搜索引擎及引擎推理控制策略
基于自然語言處理的優勢,該搜索引擎的總體框架結構是由知識庫、用戶端、自然語言處理以及相關的推理控制策略構成,如圖1所示。
由于在電力調控智能搜索引擎中用戶端的用戶具備一定的語言知識以及對現實世界的認知,因此選用自然語言處理實現人機交互對于用戶端而言十分簡單,而智能搜索引擎內部的知識庫結構應當根據自然語言習慣,將電力調控語言進行相應的推理組成[2]。下面將針對本文提出的智能搜索引擎中基于自然語言處理的電力調控語言處理及智能搜索引擎推理控制策略進行詳細的設計說明。
智能搜索引擎推理控制策略主要可分為沖突消除策略和推理方向策略。沖突消除策略主要針對,在推理過程中,智能搜索引擎會根據當前用戶端所有的搜索內容,對知識[3]庫中的知識進行檢索。從而找到與實際內容匹配的知識。當找到的匹配知識為多條時,需要根據沖突消除策略從眾多知識中進行推理,從而將最貼近初始查詢的知識返回到用戶端。將沖突消除策略中的排序方式分為:優先度排序、詳細度排序以及電力專業領域特點排序3種。優先度排序是將存儲在知識庫中的每項知識設定對應的優先度參數,優先度更高的知識首先進行執行;詳細度排序是針對初始查詢內容中條件較多、較為詳細的搜索內容制定的排序規則,將與用戶搜索的內容更接近、更詳細的結果返回到用戶端;電力專業領域特點排序是根據電力專業的特點,在這眾多檢索結果中挑選出與電力專業相關的內容返回到用戶端。
推理方向策略可分為正向推理控制策略和反向推理控制策略。正向推理控制策略的具體流程為:用戶端發出初始查詢;電力調控智能搜索引擎根據搜索內容在知識庫中找到相應匹配可用的知識;利用沖突消除策略選出最優化的搜索目標;在對應數據庫中檢索;獲取檢索結果;判斷結果是否符合查詢要求,符合則將查詢結果顯示在用戶端界面中。反省推理控制策略的具體流程為:用戶端發出初始查詢;電力調控智能搜索引擎根據搜索內容在知識庫中找到較多匹配可用的信息;再次檢索可用信息當中的相關知識,并判斷相關知識中所包含的條件是否完全滿足用戶會話,若滿足則將該知識的搜索目標發送到當前的數據庫中進行檢索,若不滿足則將該知識作為條件,重新檢索目標,直到各個子搜索目標全部出現為止,得到搜索結果;最后將搜索結果顯示在用戶端界面中。
2 實驗論證分析
為了驗證本文設計的基于自然語言處理的電力調控智能搜索引擎對電力調控語言查詢的有效性,設計了如下對比實驗:
為了保證實驗結果的客觀性,將電力專業領域的相關內容構建兩種引擎統一的知識庫,在用戶端提出5個與電力專業相關的查詢內容,并對應查詢內容設置標準的5個查詢結果,在查詢的過程中分別利用本文設計的引擎和傳統引擎對初始查詢條件進行查詢設置本文引擎搜索為實驗組,傳統引擎搜索為對照組,記錄兩種方法獲取到最終標準搜索結果的用時,如表1所示。
根據表1中的實驗結果可以看出,實驗組在對5個不同的初始查詢條件搜索時消耗的時間明顯小于對照組的消耗時間。其主要原因是在兩種引擎搜索的過程中,本文引擎可利用自然語言處理及推理控制策略,在知識庫中眾多的知識內容中篩選出更加符合初始查詢條件的知識內容,而傳統引擎則是將與初始查詢條件相關的所有知識全部檢索,造成了大量冗余知識產生,嚴重制約著其搜索速度。因此,通過對比實驗證明,本文設計的基于自然語言處理的電力調控智能搜索引擎可有效提高傳統搜索引擎的搜索速度,進一步提高引擎整體運行的效率。
3 結語
智能搜索引擎也將不斷地完善和提高。文章在對電力調控智能搜索引擎關鍵技術進行研究的同時,利用自然語言處理提出了一種全新的基于自然語言處理的電力調控智能搜索引擎,將自然語言處理中的漢語分詞、語句識別和同義詞處理等技術應用到搜索引擎中,是實現電力專業領域信息時代對搜索引擎智能化挑戰的有效手段。
參考文獻
[1] 閃鑫,陸曉,翟明玉,等.人工智能應用于電網調控的關鍵技術分析[J].電力系統自動化,2019,43(01):49-57.
[2]薛蕾,井天軍,陳義,等.基于相似搜索與多開端重組的配電網兩時間尺度無功協調控制[J].電網與清潔能源,2019,35(05):10-19.
[3]蘇適,李康平,嚴玉廷,等.基于密度空間聚類和引力搜索算法的居民負荷用電模式分類模型[J].電力自動化設備,2018,38(01):129-136.
[4]李功新.基于可拓推演方法的調控一體防誤操作系統研究與應用[D].武漢:武漢大學,2014.
[5]辛耀中,米為民,蔣國棟,等.基于CIM/E的電網調度中心應用模型信息共享方案[J].電力系統自動化,2013,37(08):1-5.
[6]蔣宏圖,袁越,程偉.智能變電站站控層在線防誤的設計與實現[J].電力自動化設備,2013,33(08):147-151.
[7]盧君波,李小敏.基于人工智能的電網調控技術研究與分析[J].粘接,2019(11):178-181.
[8] 郝杰.智能電網調度控制系統安全技術基本框架研究[J].粘接,2020(07):104-107.
[9] 李陽,朱伯濤,胡志亮,等.物聯網技術在電力智能監控系統中的應用探究[J].微型電腦應用,2020(11):154-156+167