[摘 要]目前的TBT預警研究,使用經濟理論和數(shù)學模型分析產業(yè)數(shù)據(jù)進行預警,數(shù)據(jù)收集困難,時效性差。針對以上不足,本文首次將改進的話題檢測技術應用于TBT預警,設計了基于改進的話題檢測技術的TBT預警系統(tǒng)模型,將改進的話題檢測技術成功應用于TBT預警研究。實驗結果證明,改進的話題檢測技術顯著提高了話題檢測的精確度。
[關鍵詞]數(shù)據(jù)挖掘;話題檢測;TBT預警;文本挖掘
doi:10.3969/j.issn.1673-0194.2009.15.001
[中圖分類號]TP391.1[文獻標識碼]A[文章編號]1673-0194(2009)15-0004-03
1 引 言
1.1 話題檢測技術原理及應用現(xiàn)狀
話題檢測是通過計算機技術,自動將新聞數(shù)據(jù)流中的大量報道歸入不同的話題,從而發(fā)現(xiàn)知識的過程[1]。
圖1 話題檢測的基本思想
話題檢測是話題檢測與跟蹤(Topic Detection and Tracking,TDT)評測中的一項評測任務,在TDT評測研究的過程中,對話題檢測的建模和檢測算法進行了廣泛的研究。如文獻[2]基于Chow膨脹理論和依存剖析樹提出了依存結構語言模型,提高了話題檢測的建模準確度。文獻[3]提出了變量空間隱馬爾可夫模型,實驗證明,此模型降低了算法時間復雜度,且提高了話題檢測的精度。目前關于話題檢測的研究多集中在改進建模方法或算法,應用于特定領域的研究數(shù)量較少。
1.2 技術性貿易壁壘預警研究現(xiàn)狀
技術性貿易壁壘(Technical Barriers to Trade,TBT)預警對我國出口企業(yè)生存發(fā)展發(fā)揮著重要的作用,在當前經濟危機背景下,其作用更為重要。在目前的TBT預警系統(tǒng)研究中,多應用經濟理論和數(shù)學模型,對一個國家的宏觀經濟形勢、產業(yè)發(fā)展趨勢做TBT預警分析。……