莫 倩,趙 威,苑 崢
(北京工商大學計算機與信息工程學院,北京100037)
由于近年來我國互聯網和證券市場高速蓬勃的發展,一些不法分子開始以一種新的手段牟取暴利,他們通過對網絡證券輿情的操控達到自己的目的。本課題所研究的證券輿情多空判別和傳統意義上的漲跌預測存在著本質的差別。漲跌預測研究的目標是分析證券漲跌的客觀規律,其數據來源包括公司業績、行業分析、來自傳統媒體以及網絡媒體的各類信息,以客觀數據為主。
以國內中科院計算所、北京大學[1]、北京理工大學[2]為代表的國內高校科研機構在證券輿情分析、輿情監測與預警方面進行了大量的研發工作,他們的部分成果已經形成了相應的系統并投入使用。由人民網、證券時報和人民在線一起發起,建立了中國上市公司輿情中心[3],其目的就是希望通過提供專業高效的輿情監測平臺,為上市公司服務、為證券市場服務。
本文介紹了一種互聯網證券輿情多空傾向性判別方法,闡述了證券輿情系統的建立以及關鍵技術;介紹了證券輿情相關語料庫的建立;描述了單篇文章的多空文章判別技術和多空綜合判別技術。
本課題所設計的互聯網證券輿情監測系統是一個針對證券領域的網絡輿情監測系統,總體框架如圖1所示。互聯網證券輿情監測系統可以分為主要的三個模塊:證券信息的收集模塊、證券信息清理分析模塊和證券信息服務模塊。該系統以互聯網信息抽取、信息的智能分析與處理等技術為基礎,完成互聯網上證券輿情的自動采集、自然語言處理、排重去噪、自動分類、觀點傾向性分析等功能,實現對網絡證券輿情的監測。
(1)證券輿情采集模塊:系統設計采用Web信息抽取工具,對互聯網上各種交互式數據源中的證券輿情信息進行數據的采集。
(2)證券輿情的分析與處理模塊:此模塊利用各種自然語言處理技術與文本挖掘技術通過數據訪問接口對采集到的證券輿情信息進行智能的分析與處理,包括語言分析、自動消重、自動摘要、關鍵詞提取、自動分類、關聯分析、話題跟蹤、傾向性分析等。
(3)證券輿情的服務模塊:證券輿情的服務模塊是系統用戶和證券輿情系統的接口,該系統利用證券輿情信息清理和分析模塊的各項技術為用戶提供服務,如輿情的預測預警、檢索、簡報制作等。

圖1 互聯網證券輿情監測的總體架構圖
本課題選用可視化Web信息抽取(Visual Web In-for mation Extraction)[4-7]工具——VWIE 來進行證券輿情的采集工作。該工具是本課題組自行研制開發的一種基于Wrapper的Web信息抽取工具,采用了基于DOM的Web信息抽取技術。該技術對網頁的DOM(Document Object Model)結構進行分析,將HTML格式看成XML格式來進行處理,經解析器Parser分析網頁,生成樹形圖。利用Xpath對樹形圖的節點進行定位,用XSLT的抽取規則完成信息抽取[8]。
在抽取web網頁之前,系統要對Web網頁的文本進行清理分析。采用基于JAVA的HTML Parser對頁面進行預處理,對標簽進行定位,構建頁面的DOM樹。基于DOM的方法,能從較大的邏輯節點抽取信息,也能對小的單元節點進行操作。而且,此DOM樹是可以進行編輯的,經過簡單的編輯可以很容易地生成一個全新的網頁。本系統采用XPath對DOM樹中的各個節點進行定位處理。
證券輿情語料庫主要針對多空判別的需求,對證券輿情消息中常見的概念進行分類,并建立不同類別直接的關聯關系。多空判別不同于傳統基于主題的分析,簡單的通過分類聚類的技術,或者是采用傾向性判別技術往往很難達到理想效果。
證券實體對象庫是多空判別的研究對象,主要包括在上交所、深交所、港交所等上市的公司企業信息、股票代碼信息、行業信息等數據。
(1)首先從上交所、深交所、港交所、新浪財經、和訊等網站抽取證券實體對象的名稱、股票代碼、行業等基本屬性信息;
(2)從專業股票軟件如:大智慧、通達信等獲取證券實體對象的基本屬性信息;
(3)將抽取的信息和從專業軟件獲取的信息進行對比,校正并補齊缺失信息。
證券輿情信息點庫主要包括證券市場多空的評價角度,根據金融專業的分類規則,描述如下:上市公司人員情況、財務狀況、股權變更、經營狀況、股價異常等幾個方面。具體見表1。

表1 證券輿情信息點庫
創建證券輿情信息點庫的完整流程如下:
(1)創建證券輿情信息點庫的第一層信息點。
根據金融專業的領域專家提供的分類規則,確定上市公司層次下的第一層信息點,包括六個主要信息點,如表1所示。
(2)對第一層每個信息點進行擴展,生成第二層信息點。
由于滬深300指數能夠反映中國證券市場股票價格變動的概貌和運行狀況,并且可以作為投資業績的評價標準[9,10],因此我們選取滬深300中的100只股票作為候選代表。這里提出了一種基于搜索引擎的證券輿情信息點的抽取方法。將滬深300中的這100只股票的名稱與第一層信息點中的信息結合,形成一個詞對,描述為WP=<stockname,keyword>。將詞對WP輸入到搜索引擎中,得到返回結果的列表集RL。將列表集的前20條記錄作為候選結果進行抽取,抽取的每一條記錄都是一個小文本。對每一個小文本進行關鍵詞提取[11~13]的操作,得到相應的關鍵詞集。
(3)迭代計算。將股票名稱與第二層信息點組成新的詞對WP’=<stockname,key word’>,重復使用基于搜索引擎的證券輿情信息點抽取方法,迭代計算,得到第三層信息點集合。
(4)根據經驗與金融行業規則,補充相應的金融信息點。
對初步得到的證券輿情信息點庫進行完善,根據金融行業規則和日常生活經驗,對結果集進行補充,得到最終的證券輿情信息點庫。
證券輿情多空屬性庫包含表示多空屬性的詞語及表示多空程度的詞語。
(1)抽取300篇證券輿情信息作為初始證券輿情多空屬性詞庫的數據源。
(2)對這300篇證券輿情信息進行語料預處理,將文本進行分句,然后進行分詞和詞性標注處理,并識別其中的名詞、動詞、形容詞等最可能表示多空屬性的詞性類別。
(3)讀取x ml文件,將名詞、動詞、形容詞提取出來作為生成的候選詞集合,然后利用“哈工大信息檢索研究中心同義詞詞林擴展版[14,15]”,以現有的候選詞集合為基礎,查找其同義詞,補充到候選詞集合中。
(4)候選特征詞過濾,對候選詞集進行人工篩選,剔除不滿足條件的詞語,得到最終的證券輿情多空屬性庫。
多空綜合研判主要應用行為金融學的模型框架,形式化表述如式(1):

式中,m是單獨的消息、M是整個消息的集合、d是信息點、D是信息點的集合、bb_credit是多空計算的函數、BBCredit是多空判別函數、object是需要判別的證券實體對象。
主要判別過程如下:
(1)統計每條微觀消息的多空態度與權重。
(2)消息的可信度計算:主要依據消息的媒介形式、信息來源、作者、轉載情況、回復數量等情況綜合計算。
(3)消息的影響力分析,主要依據消息的點擊以及回復的數量,同時考慮消息的媒介形式、發表的媒體、消息作者。
(4)按照每天微觀消息的信息點進行分類整理;綜合計算每個信息點的多空對比數據。
證券輿情存在“報喜不報憂”的傳統。因此,本課題要進一步修改綜合判斷模型,具體想法為:引入歷史多空數據維度,也就是觀察一段時間的情況,看多消息總數量和比例的特征。因此,判別模型需要修正如下:

式中,t為時間戳,α為調節因子,由歷史多空數據與當前數據比對計算得出。結果如果是1.0不一定就是100%的看多,其結果更多的是一種比較意義。需要基于歷史數據,進行機器學習,通過調節因子,得出更具準確度的結果。
本文的研究目的是從互聯網海量異構數據源的證券信息中采集并分析出民眾對特定證券對象的觀點、意見和看法,依據微觀的傾向性數據綜合計算出輿情看空看多的走勢。
在現有工作成果上,增加并改進證券輿情系統的功能,將那個證券本體的理論引入證券信息分類中,在分類中加入機器學習的方法,提高證券信息分類準確率,更精準地構建證券資訊與股票價格之間的關系,輔助證券監管部門的決策支持,為廣大股民提供服務。
[1] 李曉明,朱家稷,閻宏飛.互聯網上主題信息的一種收集與處理模型及其應用[J].計算機研究與發展,2003,40(12):1667-1671.
[2] 仇 晶,廖樂健.網絡輿情與網絡文化安全預警技術研究[J].信息網絡安全,2008,6:59-61.
[3] 佚 名.中國上市公司輿情中心啟動[J].青年記者,2011,19:33.
[4] Turney P D,Litt man M L.Measuring praise and criticism:Inference of semantic orientation from association[J].ACM Trans.Inf.Syst.2003,21(4):315-346.
[5] Cope J,Craswell N,Hawking D.Automated discovery of search interfaces on the Web[C].In:Proceedings of the 14th Australasian Database Conference(ADC2003).Adelaide.2003:181-189.
[6] Chang K C,He B,Li C,Patel M,Zhang Z.Structured databases on the web.Observations and Implications[C].SIGMOD Record,2004,33(3):61-70.
[7] Zhang Z,He B,Chang K C.Understanding Web query interfaces:best-effort parsing with hidden syntax[C].In:Proceedings of the 23th ACM SIGMODInternational Conference on Management of Data.Paris.2004:107-118.
[8] 滕 偉.面向Web信息集成的Web信息抽取中若干關鍵問題的研究[D].上海:上海交通大學,2007.
[9] 林 瀟.滬深300指數套期保值效果的實證研究[D].成都:電子科技大學,2007.
[10]方 智.基于多技術指標模型的滬深300指數走勢預測[D].南昌:江西財經大學,2012.
[11]梁偉明.中文關鍵詞提取技術[D].上海:上海交通大學,2010.
[12]蔣昌金,彭 宏,陳建超,等.基于組合詞和同義詞集的關鍵詞提取算法[J].計算機應用研究,2010,27(8):2853-2856.
[13]方 俊,郭 雷,王曉東.基于語義的關鍵詞提取算法[J].計算機科學,2008,(6):148-151.
[14]程 濤,施水才,王 霞,等.基于同義詞詞林的中文文本主題詞提取[J].廣西師范大學學報(自然科學版),2007,(2):145-148.
[15]田久樂,趙 蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報(信息科學版),2010,(6):602-608.