〔摘要〕提出了一種基于術語間本體關聯度的文檔相關度計算方法,該方法利用樹狀本體結構計算術語間基于本體的關聯關系,通過術語組間的本體關聯度得到兩組詞語的本體關聯關系,最后結合文檔標引詞的權重計算兩個文檔的相關度。新方法從本體的角度將語義信息融入傳統向量空間模型,提高了文檔相關度計算的準確性。實驗選取計算機領域本體作為實驗數據,對新方法和傳統方法進行綜合對比評測,實驗結果驗證了新方法的有效性和合理性。
〔關鍵詞〕本體;術語關系;文檔相關度
文檔相似度或相關度的計算早已成為數據挖掘和信息提取領域中的基本問題,是文本處理的核心[1-3]。傳統的文檔相似度計算方法主要包括基于向量空間模型方法,基于集合運算模型方法[4],基于文檔結構方法[5]和基于引文圖方法[6]等,其中以向量空間模型方法最為常見,后兩種方法偏重于研究文檔間結構的相似程度。
4結語
輿情強度評測指標體系對于高校輿情工作來說,具有預警、參考、統計3個方面的作用。首先,高校可以將本體系的最終得分進行分段,在日常輿情監測過程中,按照以上體系通過軟件進行輿情自動化分析,一旦發現輿情熱度指數達到相應數值就啟動藍色、黃色、橙色、紅色預警,并隨之啟動相應的應急預案。其次,高校可以通過分析該體系的每一項指標得分和走勢,根據第二部分提出的建議予以針對性的應對,以提高輿情應對的及時性和科學性。最后,高校還可以通過該體系定期統計涉及本校的輿情走勢,從中發現規律,增強輿情應對的預見性。當然,本研究也有很多不足,如評測指標的確立,以及指標分值的設置都有值得商榷的地方,如隨著信息技術和網絡技術的發展,新興媒介層出不窮,它們對于輿情熱度的影響還尚待研究;此外,媒介激烈競爭造成不同類型媒介影響力的此消彼長,需要高校經常更新相關指標權重數據,才能做到盡可能準確。這些問題都有待進一步研究加以改善。
參考文獻
[1]張元龍.關于“輿情”及相關概念的界定與辨析[J].浙江學刊,2009,(3):183.
[2]吳紹忠、李淑華.互聯網絡輿情預警機制研究[J].中國人民公安大學學報:自然科學版,2008,(3):38-42.
[3]戴媛,姚飛.基于網絡輿情安全的信息挖掘及評估指標體系研究[J].情報理論與實踐,2008,(6):873-876.
[4]謝海光,陳中潤.互聯網內容及輿情深度分析模式[J].中國青年政治學院學報,2006,(3):95-100.
[5]錢愛兵.基于主題的網絡輿情分析模型及其實現[J].現代圖書情報技術,2008,(4):49-55.
[6]王青,成穎,巢乃鵬.網絡輿情監測及預警指標體系構建研究[J].圖書情報工作,2011,(4):55-56.
[7]何紹華,方清華.信息傳遞中的信息損失認知與技術分析[J].情報理論與實踐,2006,(6):764-765.
[8]張一文,齊佳音,方濱興,等.非常規突發事件網絡輿情指標體系建立初探[J].北京郵電大學學報,2010,(4):10.
[9]梁睴,熊立,王國華.一種群決策中確定專家判斷可信度的改進方法[J].系統工程,2004,(6):91-94.
[10]薛耀文,楊根科.算術平均和幾何平均在群組決策中獻比較研究[J].太原重型機械學院學報,1994,(1):91-96.
[11]查先進.信息分析與預測[M].武漢:武漢大學出版社,2000:187-192.
(本文責任編輯:孫國雷)