田 野 賈李蓉 李園白 劉 靜 劉麗紅 李敬華 于 彤 楊 策 張竹綠
(中國中醫科學院中醫藥信息研究所,北京市東城區東直門內南小街16號,100700)
近年來,隨著INTERNET網絡在國內的普及以及互聯網用戶的大量增加,以文本信息為載體的網絡論壇已經成為人們獲取信息[1],發表個人看法或評論,與其他人進行交流的重要平臺[2-3]。每天在線論壇中皆會涌現大量主題信息,這些信息的特點往往是數量巨大,難于持久,也就是說發表過的主題隔一段時間就會被后來出現的主題所替代,最終淹沒在諸多主題信息中。這些信息雖然數量龐大,但往往內容雜亂,即使有一些信息是有效的,也很容易被淹沒摻雜在無效垃圾信息之中。
從這些海量的、有噪聲的數據中提取挖掘出隱含其內、但又有用的信息知識是我們要嘗試進行探討的問題。數據挖掘是一門新近的熱門研究方法,它是從大型數據集中發現可行信息的過程,數據挖掘使用數學分析來派生存在于數據中的模式和趨勢。通常,由于這些模式的關系過于復雜或涉及數據過多,因此使用傳統數據瀏覽無法發現這些模式。它主要探討如何在海量的、有噪聲的、模糊的數據資料中,挖掘出潛在的有用信息,從而為相關決策人員提供數據參考。
2.1 選擇數據 數據的選擇是根據需求設定數據抽取目標。對本文而言,數據的抽取目標就是當前熱點中醫藥網站論壇中的詞條。隨著網絡的極速發展,疾病、健康、養生,已不僅是醫生才關心的問題,越來越多的普通大眾開始予以關注。在絕大多數醫藥網站中都專門辟有溝通平臺——網絡論壇。各種角色的人們活躍在論壇上各抒己見。我們試對這些論壇上的詞條進行抽取來作為數據的選擇。需要注意的是,為了避免人為導向因素的影響,抽取時不對具體內容進行篩選,僅按順序對詞條進行抽取。抽取內容包括論題標題及所有回貼信息。
2.2 數據預處理 數據挖掘對數據的要求比較高,因此對未規范化的數據進行預處理就十分必要。數據的預處理是一個對數據進行格式轉化的過程,它的一般過程包括數據清理、用戶識別、會話識別、路徑補充、事務識別等等[4]。這其中,數據清理是整個數據預處理工作的基礎,在數據挖掘中起著至關重要的作用。在這一階段,可根據挖掘任務的不同對抽取后的詞條進行整理轉化,如消除噪聲、清除重復記錄,并對不完整數據進行處理等等,使之成為一種可用形式。
人們在論壇中所使用的往往是自然語言,自然語言因其用詞不夠規范,或者詞匯的重復使用造成了查全率和查準率低下,這就對詞條內信息全面抽取工作帶來了一定的影響,因此對選擇的數據進行預處理就成為了一項不可或缺的工作[5]。
2.3 數據轉換 數據轉換的主要目的是降維,也就是從初始特征中找出真正有用的特征。在此可以選擇中文分詞技術[6-7]。網絡論壇的特點決定了使用者的用詞遣句往往不是那么標準嚴謹,而是以自然語言為主。中文分詞技術剛好屬于自然語言處理技術范疇[8]。對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解[9]?這個處理過程就需要分詞算法技術的支持。中文分詞方法的基本原理是針對輸入文字串進行分詞、過濾處理,輸出中文單詞、英文單詞以及數字串等一系列分割好的字符串[10]。

圖1
2.4 數據挖掘 聚類方法最早應用于20世紀70年代中后期,近年逐漸被廣泛應用于各個領域,并為我們的研究提供了參考與借鑒[11]。針對本文研究的情況,對主題論壇中的論題標題及相關回貼信息中的信息進行分詞處理后,對詞語進行兩兩統計,得出其在同一論題中出現的次數,形成共詞矩陣[12]。共詞分析認為兩個詞語在同一篇文獻中出現的頻率越高,表示主題間的關系越緊密。以共同矩陣為基礎進行聚類分析,通過分析確認與中醫藥信息相關的詞語間的聯系,進而分析學科結構的變化[13]。
要想找到詞語之間真正的共現關系,需要對詞語之間的共現強度按照特定公式進行計算。常用Salton指數表示詞語之間的關聯強度,其計算公式為:

通過SPSS軟件對詞語進行聚類分析,最終形成共詞聚類樹。把每一點作為一類,找出距離最小的dij,從而得出距離最近的兩類i、j,把它們合并成為層次最高的一類。此動作重復進行,直到所有的點都并成一個大類。再根據實際需要確定以第幾層的類為最終分類標準。
我所作為中醫藥信息領域的研究機構,可以國內中醫藥領域的論壇為基礎,通過對這些論壇數據的提取,匯聚,運用數據挖掘的技術及時獲得中醫藥領域熱點問題,掌握中醫藥科研機構的最新動向,以及普通民眾對于中醫藥的關注話題[14],為我所及數據庫建設今后的工作提供一些新的思路[15]。
[1]熊莉君.虛擬社區中信息交流的引導機制研究[J].圖書館學研究,2011,29(09):45 -47.
[2]汪祖柱,錢程,儲節旺.專業虛擬社會區知識服務的概念及其機制研究[J].情報理論與實踐,2011,34(5):27 -29.
[3]謝珍,崔旭.關于專業虛擬社區中個人知識管理的研究[J].情報雜志,2010,29(2):105 -109.
[4]周愛武,肖云,封軍.Web日志挖掘數據預處理優化[J].計算機技術與發展,2011,21(01):42 -45.
[5]劉紅芝.中文分詞技術的研究[J].電腦開發與應用,2010,23(3):1-3.
[6]龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術,2009,5(10):2605 -2607.
[7]馬婷婷.中文自動分詞系統概述[J].電腦知識與技術,2010,6(33):9336-9338.
[8]趙新輝,郭瑞.基于數據挖掘技術的網絡輿情智能監測與引導平臺設計研究[J].電腦知識與技術,2012,8(1):1 -2,4.
[9]韓月陽,鄧世昆,賈時銀,等.基于字分類的中文分詞的研究[J].計算機技術與發展,2011,21(7):29 -31,35.
[10]席朝瓊.面向中文全文索引的中文分詞策略[J].電腦知識與技術,2012,18(3):722 -726.
[11]章成志,梁勇.基于主題聚類的學科研究熱點及其趨勢監測方法[J].情報學報,2010,29(02):342 -349.
[12]王玨,曾劍平,周葆華,等.基于聚類分析的網絡論壇意見領袖發現方法[J].計算機工程,2011,37(5):44 -46,49.
[13]魏莎莎,熊海靈.中文分詞中的歧義識別處理策略[J].微計算機信息,2010,26(10):190 -192.
[14]陳永剛,孫卉垚.互聯網輿情研究[J].情報雜志,2011,30(S1):85-88.
[15]于慧新,阮建海.高校圖書館如何參與網絡輿情監測工作[J].現代情報,2012,32(2):71 -72,106.