桑海龍, 李建中
(哈爾濱工業大學 計算機科學與技術學院, 哈爾濱 150001)
21世紀,隨著信息時代的來臨,更容易通過網絡信息的傳播進行“搶帽子”交易。“搶帽子”交易是指證券公司、證券咨詢機構、專業中介機構及其工作人員,買賣或者持有相關證券,并對該證券或其發行人、上市公司公開做出開放性評價、及預測。而且提出進入或者投資建議,以便通過期待市場波動獲取經濟利益的行為。這種行為不僅嚴重威脅了廣大投資者的利益,同時也給證券市場的監管帶來了諸多不利因素。而傳統的人工篩選信息的方式已不能滿足網絡信息時代的需求。
文本挖掘采用信息采集、信息過濾、信息抽取和信息分析等技術從非結構化文本數據中發現知識。文本挖掘技術為處理大量的文本信息提供了技術解決手段。隨著證券市場信息電子化水平逐漸提高,網絡信息格式也日趨標準化,將文本挖掘技術應用于中國股票市場信息監控既迎合了形勢上的急迫要求,也具備了技術上的操作可行性。
迄至目前,已陸續開發有一些基于文本挖掘的系統,并在證券市場上使用,同時已取得了良好的效果。許多同類研究都傾向于使用文本挖掘從網絡上發現信息,再使用這些信息預測證券市場的變化趨勢[1-5]。另外,也可見到一些通過文本挖掘技術分析情感因素對證券投資影響的研究[6-8]。文本挖掘技術還可應用于上市公司財務評價指標體系和數據挖掘初步結果后的聚類方法結果分析[9-10]。和當前國內外的研究進展相比,基于文本挖掘的網絡信息監測系統,在收集信息方面更具有針對性,信息來源于主要的財經網站,而不是整個網絡上的各項信息。這種做法的優點是信息更具典型性,缺點是可能遺漏一些關鍵信息。而且系統更傾向于研究文本挖掘結果對證券市場監管的影響,重點挖掘網絡信息中可能存在的諸如“搶帽子”的市場欺詐行為。這一內容在目前國內外仍鮮見有關研究問世。
薦股分類模塊主要由決策樹分類器、J48分類器、隨機森林分類器三個算法分類器組成。首先,待分類文章從外部系統進入薦股分類模塊,在經過基本的預處理之后,將使用決策樹分類規則進行分類判斷,如果決策樹分類規則無法判斷文章是否為薦股文章,則調用文本向量轉換模塊對待分類文章實現文本轉換,獲取輸入文本的文本向量。接下來,可選擇調用J48分類器或隨機森林分類器進行分類判斷,得到最終的分類結果后,將薦股判斷結果返回到外部系統,供其它模塊決策使用。基于文本挖掘的網絡信息監測系統薦股分類模塊體系結構設計如圖1所示。

圖1 薦股分類體系結構圖Fig. 1 Recommended stocks architecture
文章進入薦股分類模塊時,首先使用決策樹分類規則進行分類,決策樹分類規則采用3個標準判斷薦股文章,分別是:
(1)標題或文中是否出現股票名;
(2)標題中是否出現“標題薦股關鍵字”;
(3)標題中是否出現“非薦股關鍵字”。
在此基礎上,可指定不同的權重進行薦股判斷,此時會提取出標題中的薦股關鍵字和非薦股關鍵字。若此部分無法判斷文章是否為薦股文章,則繼續調用后續模塊進行文本向量轉換后將送至J48分類器,或者由決策樹形成隨機森林,可以設置隨機森林樹的個數和屬性數,輸入隨機森林分類器進行薦股判斷。J48決策樹分類器和隨機森林分類器調用了Weka開源代碼,采用數據庫已標注數據進行特征訓練。經過J48或隨機森林分類器后,將判斷結果返回至決策樹分類器,最終返回到外部系統。系統薦股分類流程設計則如圖2所示。

圖2 薦股分類流程圖Fig. 2 Classification flow chart
信息抽取算法的主體設計思想是準確并完整地抽取出文章中所存在的薦股要素,其中文章包括文章標題、小標題以及文章正文,使用這些信息調用抽取算法抽取出股票名稱或代碼、薦股分析師和推薦機構等薦股要素。外部系統調用信息抽取接口進行信息抽取,其中包括對股票權重的計算以及各個要素的抽取等模塊;信息抽取過程進一步調用文章詞語詞性判斷模塊,得到文章的詞性判斷;之后,調用最底層的中科院分詞模塊對文章來構建分詞進程。對于股票名稱,通過標題出現、多只股票的首次出現、與薦股關鍵詞的位置關系(包括:同分句、同句、同段)等求出權重。對于推薦機構,通過查找文中推薦機構名稱(含全稱和簡稱)列出文中出現推薦機構。對于分析師,通過推薦機構最近匹配找出文中分析師對應推薦機構列表,再經后續判斷完成抽取。基于文本挖掘的網絡信息監測系統信息抽取體系結構即如圖3所示。
信息抽取部分是系統的主要功能模塊,在非結構化文檔中,文章信息比較雜亂,這部分內容是文本挖掘系統中最具研究難度的部分。基于文本挖掘的網絡信息監測系統信息抽取總體流程如圖4所示。由于有些文章是多篇薦股信息的匯總,有些文章是行業分析與推薦股票的結合,因此會出現一篇文章中提到多只股票和多家推薦機構的情況。為了抽取文中真正推薦的股票,采用以股票為中心的方法進行信息抽取。抽取過程需要使用文章標題、小標題以及正文內容,并對其展開分詞處理。然后根據行業資料庫,提取股票名稱、推薦機構和分析師。對股票的抽取,按其出現的位置賦以不同的權重,在有多只股票出現的情況下,可以按權重大小對這些股票進行排序。對出現位置權重可做具體設定如下:
西北鉛鋅冶煉廠為年產10萬t電鋅規模,采用三段鋅粉- 銻鹽凈化工藝,即一段低溫(55~60 ℃)除銅鎘,二段高溫(85~90 ℃)除鈷鎳,三段低溫除殘鎘,具體工藝流程見圖1。
a1=股票名稱出現在標題中的權重;
a2=股票名稱在文中首次出現的權重;
a3=股票名稱與關鍵字同分句權重;
a4=股票名稱與關鍵字同句權重;
a5=股票名稱與關鍵字同段權重。

圖3 信息抽取體系結構圖Fig. 3 Information extraction structure

圖4 信息抽取流程圖Fig. 4 Information extraction flow chart
根據上面對股票權重定義,對于一只股票s,相應權重w用式(1)表示:
w=f(a1,a2,a3,a4,a5)
(1)
依據對單只股票權重的計算,可獲得文中的按股票權重排序的股票列表L,則權重列表可用式(2)表述如下:
L=[(s1,w1),(s2,w2),...,(sn,wn)]
(2)
采用以股票為中心的抽取方式,可進一步制定分析師和推薦機構的信息抽取策略,抽取出其它關鍵要素。對于分析師和推薦機構的抽取,需要定義一些信息模式,經過對網絡文章的研究發現,部分文章的出現類似(推薦機構,分析師)這種結構,所以在抽取時考慮這種結構的信息抽取,對出現已定義結構的分析師與推薦機構,就可運用這種模式直接抽取。對于多只股票的抽取,由于存在推薦機構與股票之間的對應問題,所以需要單獨進行研發處理,匹配方式采用向前/向后最大距離匹配。
文本溯源首先對進入的文本開啟預處理進程,包括對輸入文本進行分詞、去除停用詞,并將分詞列表返回到文本溯源核心操作、即最大匹配模塊。該模塊重點是對數據庫中已人工標注處理的文章,逐一調用單元匹配模塊進行匹配度計算(其間調用文本向量轉化模塊獲得文章文本向量,并調用匹配度計算模塊計算兩者相似度),最后根據閾值設置,選取相似度大于閾值的最相似文章(若有文章大于完全匹配閾值,則選取這類文章的最早文章)返回至外部系統。單元溯源模塊對從最大匹配模塊中返回的文章整合加載了溯源操作。文本溯源體系結構設計如圖5所示。由于在預處理階段已經對數據庫中所有的文章均設計展開了匹配計算,通過回溯操作就可以找到輸入文章的源頭文章。其中,匹配度計算使用余弦相似度算法獲得研究實現。在相似度計算過程中,分析推得流程步驟可表述如下:
(1) 使用TF-IDF算法找出文章中的關鍵詞,TF即關鍵詞詞頻,是指一篇文章中關鍵詞出現的頻率,TF的值可由公式(3)求得:
TF=N/M
(3)
式中,N表示該關鍵詞的個數,M表示文章詞的總數。
IDF指逆向文本頻率,是一個用于衡量關鍵詞權重的指數,IDF的值即可由公式(4)運算給出:
IDF=log(K/Kw)
(4)
式中,K為文章總數,Kw為關鍵詞出現過的文章數。
(2)在文本向量模型中,D表示文本,特征項T是指出現在文檔D中且能夠代表該文檔內容的基本語言單位,主要是由詞或者短語構成。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權重表示其重要程度,即:
D=D(T1,W1;T2,W2;…;Tn,Wn)
(5)
在此,可簡記為:
D=D(W1,W2,…,Wn)
(6)
式中,Wk表示Tk的權重,Tk表示文檔D中的第k個特征值。綜上可知,式(6)即可稱做文本D的權值向量表示。其中,1≤k≤n。
(3)2個文本D1和D2之間的內容相關度Sim(D1,D2)常用向量之間夾角的余弦值表示,計算公式可見如下:
(7)
式中,W1k為文本D1的第k個特征項的權值,W2k為文本D2的第k個特征項的權值。其中,1≤k≤n。
(4)根據上述方法可以對所有文章進行兩兩之間的相似度計算,通過測試設置一定的相似度閾值,即可獲得文章的溯源結果。

圖5 文本溯源體系結構圖Fig. 5 Text traceability structure
最后進行文本挖掘和溯源的結果,將文本挖掘得到的各項信息和文章既有信息相結合,產生結果可分為每日數據的輸出和整體溯源結果的輸出。其中,每日數據只輸出當天文章的結果,而整體溯源則將輸出所有數據的結果。結果統計與輸出模塊將信息抽取和溯源結果整合后,即以Excel形式輸出,形成文本挖掘系統的最終結果。而且,還需要額外設定處理分析師及推薦機構與數據庫信息是否匹配的問題。
本文詳細論述了基于文本挖掘的網絡信息分析方法,由此設計提出的系統使用相關爬蟲工具獲取網絡信息,通過文本分詞、薦股分類、信息抽取、文本溯源等文本挖掘的相關技術對網絡非結構化信息進行分析,得到文本挖掘結果,并最終將挖掘結果用于市場監察,形成文本證據。本文取得的主要成果有:
(1)將文本挖掘應用于市場監察,提高了效率。傳統市場監察過程由于需要人工處理媒介信息,就會耗費大量的人力物力資源,且較易遺漏重要的信息,給監察工作帶來不便。應用文本挖掘技術將信息獲取與分析轉換為自動的過程,系統可以直接給出最后的文本挖掘結果,生成文本證據,大大提高了整個監察過程的效率。
(2)將多種分類算法相結合,進行文本分類。在文本分類方面,系統使用了以決策樹分類規則為分類入口,結合隨機森林分類模型以及J48分類模型的分類方法。進行文本分類時,先由決策樹進行判斷,成功則無需進入下層,否則進入模型分類,這種算法模型結構,能夠提高分類效率,降低誤判率。
(3)系統實現采用三層式架構,其中業務邏輯層分為業務調用和邏輯設計兩層,架構模塊耦合低,易調用。這種架構設計方便外部系統對系統模塊的單獨調用,而在日后開發其它系統時,也利于直接調用本系統內部模塊,使整個系統的可移植性較高,能推進文本信息資源庫的構建與完善。
本文的研究尚有一些不足之處,如信息源只局限于網絡文章、整體運行資源消耗過多等,后續的改進研究主要集中在對信息源的拓展上,可增加微博、微信公眾號等信息的文本挖掘,并進一步優化本系統。研究中,使文本證據收集變得更加廣泛,有利于市場監察作用的良好及長效發揮。
[1] 何印. 基于互聯網新聞文本挖掘的投資與監管輔助決策系統[D]. 成都:西南財經大學,2013.
[2] 趙麗麗,趙茜倩,楊娟,等. 財經新聞對中國股市影響的定量分析[J]. 山東大學學報(理學版),2012,47(7):70-75,80.
[3] HAGENAU M, LIEBMANN M,NEUMANN D. Automated news reading: Stock price prediction based on financial news using context-capturing features[J]. Decision Support Systems,2013,55(3):685-697.
[4] HUANG C J,LIAO Jiajian,YANG Dianxiu,et al. Realization of a news dissemination agent based on weighted association rules and text mining techniques[J]. Expert Systems With Applications,2010,37(9):6409-6413.
[5] 鄶媛媛. 基于語義的文本相似度算法研究[J]. 計算機光盤軟件與應用,2014(9):302-303.
[6] 刁力力,王麗坤,陸玉昌,等. 計算文本相似度閾值的方法[J]. 清華大學學報(自然科學版),2003,43(1):108-111.
[7] 韓春,田大鋼. 對股票市場信息的文本挖掘[J].中國高新技術企業,2008(23):6-8.
[8] GROTH S S, SIERING M, GOMBER P. How to enable auto-mated trading engines to cope with news-related liquidity shocks? Extracting signals from unstructured data[J]. Decision Support Systems,2014,62:32-42.
[9] 袁赟,張英杰. 基于投影聚類算法的Web文本挖掘證券投資系統[J]. 邵陽學院學報(自然科學版),2009,6(4):61-65.
[10]胡燕. 基于Web信息抽取的專業知識獲取方法研究[D]. 武漢:武漢理工大學,2007.