朱碧穎 趙爽








【摘要】投資中自上而下的分析方式是被廣泛認可的,資產在行業間的配置問題,對整體投資效果的影響舉足輕重。Black_Litterman模型改進于傳統的Markowitz模型,自提出后逐漸為人們所接受,并得到推廣。本文結合計算機技術,提出一種基于文本挖掘算法,使用網絡爬蟲抓取互聯網中行業熱點情緒,形成Black_Litterman模型的投資者觀點矩陣、以及觀點置信度,進而確定行業資產配置權重的PSM_Black_Litterman(public sentiment mining Black_Litterman)模型。進行實證分析,以申萬行業作為行業分類標準,進行資產行業間配置,與流通市值行業配置、傳統Markowitz模型資產配置進行比較。實證結果表明,本文所提模型可有效提高資產配置的平均收益率與幾何收益率,并減小方差。
【關鍵詞】資產配置 Black_Litterman模型 文本挖掘 市場情緒 網絡爬蟲
在選擇金融產品進行投資時,普遍采用自上而下(Top-to- Down)的研究方式。在選股方面,首先確定資產在行業間的配置比例,再在各行業中進行個股選擇是常用的方式。本文旨在Markowita模型、Black_Litterman模型的基礎上,提出一種利用文本挖掘方法挖掘輿論熱點,得到市場情緒作為觀點矩陣,繼而得到資產在行業間的配置方案的方法。克服了Black_Litterman模型存在的對分析師主觀態度難于量化表示的缺點。
一、Markowitz與Black_Litterman資產配置模型
(一)Markowitz資產配置模型
Markowitz在1952年發表論文《PORTFOLIO SELECTION》,在論文中提出了均值-方差模型,這篇論文標志著現代投資組合理論的開端。Markowitz理論的思想基礎是:把資產投資收益率看做隨機變量,研究其期望與方差。Markowitz資產配置模型基于五條假設:證券市場具有有效性;投資者是風險厭惡的;投資者進行資產配置選擇的依據是投資收益率的概率分布,而這個概率分布是可知的;用期望收益率衡量未來的收益水平,用方差衡量收益的不確定性,即收益的風險;市場是無摩擦的。
設市場存在n種風險資產,將第i種風險資產的的收益率記為ri,r=(r1,r2,…,rn)’,期望收益率記為μ=Er,資產間的協方差矩陣記為Σ,Σ=Var(r),無風險收益率記為rf,n種風險資產的投資比例為ω=(ω1,ω2,…,ωn)’。那么資產組合的期望收益率為μω=ω’μ,資產組合的風險為σ2ω=ω’Σω。
那么,當資產組合中僅存在風險資產時,均值-方差模型記為:
當資產組合中可以存在無風險資產時,均值-方差模型記為:
使用拉格朗日乘數法則,可直接求得上述均值-方差模型的最優解。投資者可以依據個人偏好的無差異曲線找到對應的最優組合。此模型同時表明,最優組合的選擇往往并非單獨取決于單個資產的數字特征,同時也取決于資產間的相關性。
Markowitz資產配置模型是在一系列嚴格的假定條件下推導出來的。因此,模型從面世之日起,眾多學者便提出由于模型的假定條件與實際金融環境存在差異,導致構建的投資組合存在難以理解、對輸入的參數過于敏感、以及估計誤差被放大等問題。
(二)Black_Litterman資產配置模型
在高盛銀行任職的Fischer Black和Robert Litterman于1990年提出了Black_Litterman模型,于1992年又在《金融分析》期刊上對Black-Litterman模型作了詳細說明。他們將Markowitz的均值-方差模型最優化理論和bayesian估計相結合,并且基于資本資產定價模型(Capital Asset Pricing Model,CAPM)以及夏普提出的逆最優化理論建立了Black_Litterman資產配置模型。在國外理論界,Bevan和Winkelmann,He、Litterman,Satchell和Scowcroft、Drobetz都對Black-Litterman模型做了進一步的完善,并對國際資產配置做了實證分析。在實際投資運作中,很多大型投資機構將Black-Litterman模型運用在全球資產配置中,并已取得了豐厚收益。
Markowitz的均值-方差模型模型的主要投入要素為預期報酬率及方差。投資者必須利用長期的歷史資料,提出對投資組合所有的預期報酬率的看法,而這些看法皆為100%的信心水準,Black和Littermam認為投資者的看法在實際情況下,很難達到完全預測正確。在Black-Litterman資產配置模型中,投資者可以將自己的觀點和對這種觀點的信心程度量化并輸入模型中。
Black-Litterman資產配置模型的另一大優點在于它的輸入是非常具有彈性的。投資者可以輸入對某些資產預期收益的一種觀點或者幾種觀點,也可以不輸入任何觀點。這樣就減少了投資人觀點設定的隨意性。需要指出的是,因為模型加入了主觀觀念,使模型的估計變得相對復雜。這也成為現階段該模型研究的主要方向。
以市場均衡為先驗知識,使用bayesian框架將先驗知識與主觀觀點矩陣融合起來,得到后驗分布,其中:
其中,τ表示的是資本資產模型的不確定性度量,當τ趨近于0時,Black-Litterman計算出的權重將趨近于市場均衡權重;Σ代表各資產超額收益的協方差矩陣;Π表示隱含均衡收益向量,Π=δΣωeq,δ為風險規避系數,ωeq為市場基準配置權重向量。P是一個K×N維矩陣,每一行代表投資者的一個觀點對應的相關資產的權重,相對觀點的權重和為0,絕對觀點的權重和為1;Q是一個K×1維向量,分別對應于P矩陣中的每個觀點的期望收益;Ω是一個K×K維對角矩陣,表示投資者對每個觀點的信心程度。
舉一個簡單的例子,一個投資者對三個資產的主觀觀點是:資產1的收益率被高估了2%,資產2的收益率會比資產3的收益率低3%,他對自己這兩個觀點的信心程度分別是w11和w22。那么,對應的P、Q、Ω分別為:
運用Black-Litterman資產配置模型,投資者可以輸入關于任何投資類別的任意數量的觀點,并與市場均衡狀態相結合,輸出最優投資組合權重和預期收益。
本文致力于尋求一種更具普適性的,更易于量化的得到投資人觀點矩陣(即得到P、Q、Ω)的方法,即基于網絡文本挖掘的市場情緒度量方法。
二、基于網絡爬蟲的文本挖掘算法
本章闡述基于網絡爬蟲技術得到傳統Black_Litterman資產配置模型觀點矩陣以及置信度矩陣的方法。
(一)數據源的選擇
本文旨在使用網絡上的市場情緒作為分析依據,得到Black_ Litterman模型觀點矩陣以及置信度矩陣。那么必然對要分析的新聞文本具有一定要求,需要慎重選擇文本來源。文本來源選擇的是否適當,將直接關系到black_litterman模型的輸入,進而左右模型整體效果。數據源的選擇既要符合文本挖掘技術數據源的一般性要求,也要符合金融新聞類市場情緒文本的特殊性要求。筆者認為,至少需要具有全面行、權威行、和實效性。全面性保證得到的市場情緒可以代表多數人的觀點,減小偏差;權威性保證觀點來源于金融專業知識相對完備、經驗相對豐富的分析師,而且他們的觀點將會通過多種途徑傳播,進而影響大眾觀點,成為大眾情緒;實效性保證情緒文本的及時性,減少滯后偏差。
鑒于此,本文選擇“搜狐證券—研究報告—行業研究”(網址:http://stock.sohu.com/hyyj/) 中的新聞標題短文本作為研究對象。它來源于各知名券商研究報告或者權威報刊,根據行業分類進行過整理,新聞標題短文本后給出了新聞發布時間,符合全面行、權威行、和實效性準則。
(二)網絡爬蟲獲取文本
已經選定數據源,接下來使用網絡爬蟲技術抓取網頁上的新聞標題短文本。網絡爬蟲(Network Spider),是一種按照預先給定的規則,在運行中自動地抓取萬維網信息的程序或者腳本。它將一個網頁URL作為起始,讀取此頁面內容,并通過此頁面上的超級鏈接作為線索找到另一個或多個與之有關聯的網頁。重復此操作,遍歷網絡頁面,依次將其文本和URL存入到網頁數據庫中。
爬蟲基本工作流程如下:
Step1.選取種子URL;
Step2.將這些URL放入待抓取URL隊列;
Step3.將URL隊列中對應的網頁內容抓取下來,存儲到已抓取網頁庫中,并將這些URL放到已抓取URL隊列中;
Step4.對已經抓取到的URL隊列中的URL進行分析,試圖從中分析出待抽取的新URL,將這些URL放入待抓取的URL隊列,從而進入下一次循環。
使用網絡爬蟲技術,以網址:http://stock.sohu.com/hyyj/ 作為起始URL,抓取此URL對應頁面的HTML文本,存入文本文件中。其中除所需新聞短文本標題外,還包含了大量的HTML標記,以及非新聞標題短文本以外的文字類信息,需要將其過濾掉。使用XPath與正則表達式技術,通過分析DOM結構,使用正則表達式定位到具體位置。
(三)中文分詞
通過網絡爬蟲抓取得到待處理文本之后,需要對其進行中文分詞。中文分詞包括三類算法:基于字符串匹配的分詞;基于理解的分詞;基于統計的分詞。將一個中文句子進行拆分,從一個句子中解析出名詞、動詞、形容詞、副詞等。這樣做的目的是:拆分出的名詞部分,可作為本條文本的對象詞,匹配數據庫中的申萬行業類別表,從而得到這條文本是描述的哪個行業的市場情緒的;拆分出的形容詞(副詞)部分,可作為本條文本的情緒詞,匹配數據庫中的通過調研得到的情感極性詞極性表,從而得到這條文本是正面情緒還是負面情緒,以及情緒的強弱程度。
本文使用中科天璣的ICTCLAS詞法分析系統,由張華平博士歷經多年開發研制,開源,并提供了多種開發語言接口,包括C/C++/C#、Java、Python、Hadoop等,可以用于對需要進行分析處理的文本做初始分詞。具體算法分為三個步驟,即原子切分;找出所有可能的原子間組詞方案;N-最短路徑選擇算法。各步驟的具體算法在ICTCLAS詞法分析系統主頁http://ictclas.nlpir.org/ docs可以得到。
例如,將“房地產業:房產稅謠言四起,樓市溫和上行”進行分詞,效果如圖1所示。
將結果匹配數據庫中的申萬行業表和情感極性表。以“房地產業:房產稅謠言四起,樓市溫和上行”為例:得到這條文本是表述“房地產”行業市場情緒的;“謠言”是負極性詞,極性強度是-1,“上”是正極性詞,情感極性是+2,故而這條文本的綜合情感是正極性的,綜合情感極性是+1。
由于中文反義句多以“反義詞+形容詞(副詞)”的形式出現,需設計否定詞處理模塊,當遇到否定詞(如“不”,“沒”,“別”,“非”,“無”,“未”,“反”等)時,這個否定詞的作用對象取它后面最鄰近的一個情感極性詞,將其極性取反處理。
(四)構建觀點矩陣及觀點置信度矩陣
以上是為了得到Black-Litterman資產配置模型中的P、Q、Ω,其中P代表了觀點與觀點對應資產的匹配關系,分為絕對收益和相對收益兩種、Q代表了對應于P矩陣中的每個觀點的期望收益、Ω代表了對每個觀點的信心程度。
至此,得到了Black-Litterman資產配置模型的輸入矩陣P、Q、Ω。
三、實證研究
在國內A股申萬一級行業間使用本文所提PSM_Black_Litterman模型進行實證分析。設兩組對照,以市值為權重進行資產配置;使用傳統Markowitz資產配置模型得到的權重進行資產配置。
(一)數據
從申萬一級行業28個分類中,選擇相關系數較小的13個行業;選擇自2010年2月至2015年1月61個月的行業指數數據,以及各行業類別中所含流通股市值,數據來源東方財富Choice數據。這樣共13*61個樣本內數據。樣本外取自2015年2月至2015年12月進行實證分析。
(二)市場情緒P、Q、Ω
在本文應用背景下的P為N×N單位矩陣,可不再做計算;Q為N×1維向量,設第i種行業類別對應的分量為Qi,Ω為N×N維對角矩陣,設第i種行業類別對應的分量為Ωii。當月數據由上月數據計算得到,見表1。
(三)PSM_Black_Litterman模型效果分析
使用上一小節得到的P、Q、Ω矩陣數據,計算各行業類別的最優資本權重,即由PSM_Black_Litterman模型得到的資本權重,記為WA;另外,由流通市值計算而得的權重記為WB;由Markowitz資產配置模型計算而得的權重記為WC。并計算當按照這樣的權重進行投資時的組合月度收益率。當月權重由上月數據計算得到。增加不許做空限制。見表2。
根據三種方式得到的行業配置權重WA、WB、WC,計算2015年2月至2015年12月,共計11個月各自收益情況如下表所示。見表3和表4。
可見,使用由Markowitz資產配置模型計算得到的權重WC為依據進行行業配置,在收益率均值、幾何收益率角度,優于由流通市值計算而得的權重WB為依據進行的資產配置;但方差效果卻劣于它。而使用本文所提PSM_Black_Litterman模型,利用由網絡熱點新聞作為權重調節方式得到的權重WA進行資產配置,其收益率均值、方差、幾何收益率均優于傳統Markowitz模型,同時優于由流通市值計算而得的權重WB為依據進行的資產配置。
四、結論
Black_Litterman模型的關鍵問題之一是需要輸入分析師觀點,本文通過網絡爬蟲技術,抓取門戶網站內的相關行業情緒,使用文本挖掘技術,提出一種將市場情緒量化為Black_Litterman模型所需P、Q、Ω矩陣的方法,由此提出一種PSM_Black_Litterman(public sentiment mining Black_Litterman)模型。通過實證分析,該模型可有效提高資產配置的平均收益率與幾何收益率,并減小方差。在后續的研究中,筆者希望通過過濾無效新聞、擴充情感詞庫等方法,致力于進一步提高模型效果。
參考文獻
[1]H.Markowitz.1952.PORTFOLIO SELECTION[J].JOURNAL OF FINANCE,7(1):77-91.
[2]溫琪.金融市場資產選擇與配置策略研究[D].中國科學技術大學,2011.
[3]南方基金管理有限公司 柯曉.Black-Litterman模型的初步介紹及應用[N].上海證券報,2008-12-10007.
[4]E.C.B.Bekaert G,Harvey C R,et.1998.al.Distributional characteristics of emerging market returns and asset allocation[J].Journal Portfolio Management,24(2):102-116.
[5]S.S.S.A.2000.demystification of the Black-Litterman model:managing quantitative and traditional construction[J].Journal of Asset management,1(2):138-150.
[6]D.W.2001.How to avoid pitfalls in portfolio optimization?putting the Black-Litterman approach at work[J].Financial Markets Portfolio Managemen,15(1):59-75.
[7]韓正宇.現代投資組合理論述評[J].經濟研究參考,2013,60:53-61.
[8]孫立偉,何國輝,吳禮發.網絡爬蟲技術的研究[J].電腦知識與技術,2010,15:4112-4115.
[9]王強,武港山.對XPath模式定位能力的擴充[J].計算機研究與發展,2001,06:674-678.
[10]周程遠.中文自動分詞系統的研究與實現[D].華東師范大學,2010.
[11]張華平,劉群.基于N-最短路徑方法的中文詞語粗分模型[J].中文信息學報,2002,05:1-7.
[12]李存青.中文意見挖掘中的特征詞提取以及情感傾向分析[D].重慶大學,2010.
作者簡介:朱碧穎(1990-),女,漢,北京,碩士研究生,研究方向:文本挖掘,資產配置;趙爽(1990-),男,漢,北京,碩士研究生,主要研究方向:宏觀經濟、計量經濟。