劉應潔,楊政
(1.云南電網有限責任公司,昆明 650032;2.云南電網有限責任公司電力科學研究院,昆明 650217)
科技創新管理系統是基于云南電網公司科技創新管理系統中的項目評審歷史信息和專家庫信息,通過語義提取、智能推薦、專家檢索網絡爬蟲等技術進行研究,并針對科技評審專家通過智能分詞和語義解析技術[2]生成專家關鍵詞,實現評審專家的智能推薦和合理選定。
目前檢索技術主要有限制檢索、布爾檢索、截詞檢索、詞位檢索等技術。限制檢索:通過限制檢索范圍,達到優化檢索結果的方法。限制檢索的方式有多種,例如字段限制、匹配度限制、時間限制等;布爾檢索:是數據庫檢索最基本的方法,是用邏輯“與”、“或”、“非”等算符對相關信息進行定性選擇;截詞檢索:在檢索詞的適當位置進行截斷,可以防止漏檢、節省輸入字符;詞位檢索:又稱位置算符檢索,利用算符限定兩個檢索詞之間的位置關系,或限定檢索詞在數據庫記錄中的位置,彌補了布爾檢索只是定性選擇的限制,從而提高查準率。
隨著云南電網科技項目、成果申報規模的擴大,科技專家在科技項目立項評審、中期檢查、結題驗收以及科技成果的網絡評審、專家投票、專業組表決等環節發揮著重要作用[3]。上述的搜索技術,只能讓相關人員指派專家或根據評審目標的專業從系統中進行機械地選取專家,無法快速準確選定合適評審專家,從而導致專家評審不熟悉的技術領域,影響科技評審結果的客觀性和公正性[4]。因此,使用智能檢索技術遴選科技評審專家是有必要的。
依托于云網大量專家信息,以數據 + 算法+ 系統為核心,結合云網在輸變配、營銷、電能計量、通信等多方面深厚的數據技術積累,為科技評審工作提供合適的專家推薦服務。主要從以下幾個方面進行智能推薦技術的研究:
2.1.1 內容分析
1)根據專家的元數據、內容以及與內容相關的行為綜合進行分析;
2)提供不同的語義處理模型的訓練功能,對專家進行自動處理,形成專家的專業、標簽等要素;
3)提供專家的相關行為的分析,得出指定專家在特定時間和特定地域的流行度。
2.1.2 智能配置
1)提供數據處理規則的編輯、管理功能;
2)針對不同的分析內容,面向數據處理訓練可以配置不同的算法;
3)提供算法的參數配置功能;
4)提供多類別的推薦專家列表;
5)針對不同類別的推薦專家列表,提供配置權重的功能靈活控制推薦專家列表內容。
網絡爬蟲是遵循http 協議, 檢索Web 文檔的軟件。網絡爬蟲是一個功能強大的自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成部分[5]。通用網絡爬蟲隨著網絡的迅速發展,網絡上充斥著大量的有用或垃圾數據,人員無法進行快速有效的篩選,這就需要搜索技術來自動進行提取。網絡爬蟲可以幫助用戶檢索信息,幫助用戶方便的搜集互聯網上的相應信息。但是,通用網絡爬蟲也存在著一定的局限性:
1)用戶的需求不一樣,檢索的目標內容不同,通用網絡爬蟲的檢索結果包含大量的干擾內容;
2)通用網絡爬蟲的目標是盡可能大的網絡覆蓋率[6-7],但服務器資源是有限的,這就限制了網絡數據的獲取量;
3)網絡上的數據類型復雜,網絡資源類型的不斷增多,圖片、音視頻、壓縮包、加密數據等不同格式數據越發龐大,通用網絡爬蟲往往對這些類型的數據識別率不高,造成檢索結果缺少和偏差;
4)通用網絡爬蟲一般是基于關鍵字進行檢索,往往無法滿足用戶需求。
專家檢索網絡爬蟲技術可以很好的解決通用網絡爬蟲的問題,該技術可以定向抓取網絡上專家資源,根據需要的技術領域,有選擇地抓取網絡上的信息內容,獲取所需的專家信息。
與通用網絡爬蟲相比,專家檢索網絡爬蟲追求檢索結果的準確性,而不是網絡的大面積覆蓋,從而為云網科技評審工作補充專家資源。
專家智能檢索技術應用的關鍵是現有專家數據的完整和準確,通過聯系云網各公司各部門相關負責人搜集專家信息,并聯系專家本人確認、補充相關信息,形成了一套高質量的專家信息。把搜集到的專家基礎信息、擅長領域、工作經歷結合評審歷史信息進行智能分詞、語義分析等過程后,生成專家標簽,再把這些信息存儲在系統里面,當需要的時候可以通過信息檢索器來尋找相應的專家;通過專家檢索專用網絡爬蟲技術,抓取網絡上的相關專家信息,經過篩選后進入專家庫,對現有專家進行補充。
本文成果應用于云網科技創新管理平臺,有效的解決了科技評審工作分配專家過程中存在的工作繁瑣、專業不熟悉等問題。
專家智能推薦技術及專家檢索網絡爬蟲技術的研究不僅具有實際應用價值,也同樣具有廣泛的學術意義。在現有專家信息、項目評審歷史數據的基礎上,進行深入挖掘,與定量研究方法相結合,提出專家智能檢索方法,滿足目前云網范圍內科技項目及科技成果評審工作的公平公正、合理科學的要求,從而促進云網科技的創新和現代化管理的需要,這在當前具有十分重要的意義和推廣應用價值。