江華麗 曹祺 陳剛
(1. 武漢大學國家網絡安全學院,武漢 430072;2. 灰覡集團有限公司,北京 100080)
政府信息公開制度,是確保關聯方及時獲悉和學習國家方針政策,了解政府工作動態,進而有效執行的前提和基礎。鑒于該制度的重要性,2007年4月5日,國務院通過《中華人民共和國政府信息公開條例》(國令492號)[1],并于2008年5月1日起正式實施。李盛[2]指出,“如果政府和群眾之間的信息溝通渠道不暢通,就可能引發社會恐慌,甚至造成嚴重的社會危機”。國務院網站公布的文件,是按照政府信息公開條例目前的執行標準《政務信息資源目錄體系》(GB/T 21063),該標準的主要作用在于盡可能相對完整和科學地保存政府公文的內容信息。而廣大普通用戶通常是通過大眾的媒體渠道,如各種搜索引擎和新媒體等方式獲取公開海量的政府信息,這也需要對相關公文進行自動化標引。同時,具體通過標引來添加相關標簽,以便更好地被用戶閱讀訪問和二次加工。
目前,對于政府公開信息的自動化標引研究主要分為兩類研究方法:一類是基于計算機相關技術,先從技術上來分析詞頻、詞義,然后進行相關的標引,最后由行業專家進行修正;另一類是基于行業知識,先由行業專家進行分析和加工,進而進行人工或者計算機類輔助分析。本文主要是第一類研究方法。
對于第一類研究方法,賈君枝等[3]對比分析了各種自動標引方法的優缺點,將標引法分為詞典標引、統計標引、單漢字標引、語義標引、神經網絡標引和專家系統標引。……