王彥博 楊璇 劉曦子
2015年全球對沖基金表現
2015年,全球范圍內對沖基金經歷了2008年以來的第二次業績寒冬。根據對沖基金研究機構HFR(Hedge Fund Research Inc.)公布的資料顯示,2015年四季度全球新成立對沖基金183家,較第三季度的269家下降32%,是2009年以來新增數量最少的季度。2015年全年累計新成立對沖基金968家,較上一年度下降7%。此外,諸多對沖基金在慘淡的業績面前紛紛清盤。數據顯示,2015年累計979家對沖基金清盤,較2014年864家的數據上漲13.3%,是自2009年1023家對沖基金清盤以來的又一波高峰。這波浪潮中,諸多國際大型對沖基金也未能幸免:全球20大對沖基金之一貝萊德宣布關閉旗下一個10億美元規模的宏觀對沖基金;文藝復興科技投資公司宣布清盤旗下一只量化對沖策略基金 ——復興機構期貨基金(RIFF)。
然而,對沖基金數量的減少并沒有影響其總體規模沖上新高。根據HFR統計數據顯示,截至2015年底,全球對沖基金管理資產規模達2.9萬億美元,較2014年增長約1千億美元。
機構數量的減少和資產管理規模的增長再次印證了全球對沖基金行業“強者恒強”的現狀。雖然近年投資者逐漸增加了對中小型對沖基金的投入,但行業集中度居高不下的局面并未得到改善。2015年研究機構Preqin在其發布的報告中將7617家對沖基金公司中管理資產規模在10億美元以上的統一劃入“10億美元俱樂部”。報告顯示,盡管“10億美元俱樂部”包含570只對沖基金,卻管理了對沖基金中92%的資產規模。而其余大部分的對沖基金合計管理規模只占8%。這意味著對沖基金行業中大多數資金集中在少數公司手中。
從投資策略來看,復合策略、股票多空策略、宏觀策略是2015年業績表現最好的三個策略,全年累計收益分別為3.62%、3.57%、2.27%。2014年表現“一枝獨秀”的CTA受累于大宗商品的暴跌,2015年累計收益僅1.28%,遠低于去年同期的16.42%。可轉換套利和股票市場中性策略收益高于2014年,分別取得全年累計收益1.6%和0.09%,其余子策略的收益表現均低于2014年。
回顧2015年,造成全球對沖基金業績欠佳的主要原因包括以下幾點,第一,市場因素:黃金、石油等大宗商品的暴跌拖累投資大宗商品的對沖基金和投資能源行業的對沖基金;希臘債務危機陰云不散,投資歐洲市場的對沖基金業績受到波及;中國股災影響包括歐美股市、新興市場股市等在內的全球股市。第二,客戶因素:HFR主席Kenneth Heinz指出,隨著客戶風險厭惡傾向不斷加強,客戶對其資產波動性的容忍程度也相應下降,業績表現不佳的對沖基金面臨著強大的客戶贖回壓力。
基于數據挖掘的量化投資技術
作為對沖基金的重要手段,量化投資技術一直被大量應用并不斷深化。1971年,電子工程師約翰·麥奎恩利用美國富國銀行的信托投資平臺建立起全球第一個定量投資系統。隨后,量化投資界的傳奇人物詹姆斯·西蒙斯創立了文藝復興科技公司,并運用量化模型在公司成立后的20多年中為基金賺取了平均每年35.6%的收益率。然而,隨著計算機科學的進步和大數據時代的到來,全球數據量呈現指數級增長,傳統的公司財務數據和市場行情數據已難以全面描繪市場狀況;同時,數據庫存儲的數字、符號信息等結構化數據形式逐漸向文本、圖像、音頻、視頻等非結構化數據形式轉變。因此,市場亟需更先進的模型和算法來滿足對更大量級、更多類型的數據進行處理,基于大數據量化策略的研究已然成為量化投資新的研究方向和熱門研究領域。
文本挖掘在量化投資中的應用
主題投資作為股票市場上一種重要的投資策略,反映了投資者對市場上發生的熱點事件的解讀,也反映了不同市場參與者的心理博弈過程。傳統的量化分析對主題的把握主要依賴個股的財務數據(如EPS、PE、收盤價、開盤價、成交量等)和行業數據(如行業指數漲跌幅等)。然而,這些結構化數據中所隱含的投資信息大部分已被挖掘,投資者亟需從更廣闊的非結構化數據中探求市場規律。
文本挖掘是指從文本數據中抽取有價值的信息和知識的計算機處理技術,是數據挖掘的一個分支。將文本挖掘應用于量化投資的核心邏輯在于:第一,文本數據研究與相對成熟的數值型數據研究相比,更容易在新數據源中獲得超額收益;第二,財經相關的網絡文本信息某種程度上反映了投資者的情緒和投資意向;第三,爆發式增長的網絡文本數據在數量和時間維度上足夠構建較為成熟的量化模型;第四,一個主題的異動往往會帶來關于該主題大量持續的報道,甚至在該主題還未在市場上有所表現的時候,就已經有大量的新聞報道產生,從而使與該熱點相關的新聞數量在某一時間段達到一個突發的高峰。通過對相關文本信息進行分析挖掘,可以有效預測市場熱點和動向,發掘主題投資機會。
互聯網財經選股策略是基于文本挖掘技術的量化選股方式之一。通過爬取主流財經媒體報道文章的文本信息,利用文本挖掘技術對熱點事件進行深度挖掘,進而完成對投資主題的預測。互聯網財經選股策略總體框架分為“數據獲取”、“數據處理”以及“策略構建”三部分:
數據獲取。引入“網絡爬蟲技術”,首先分析待批量爬取的主流財經媒體網頁結構,主要關注網頁中需要特定爬取的相關結構和內容;其次,發現財經媒體網站上待爬取信息的網頁URL相關規律,通過網絡爬蟲程序遍歷并提取所有待爬取財經網頁中的薦股欄目信息,獲得各網站薦股數據。在大數據時代,單機爬取的速度往往難以滿足大規模數據爬取需求,可以考慮引入Hadoop平臺技術,實現分布式存儲與并行信息爬取策略。
數據處理。包括數據清洗和數據挖掘兩部分。數據清洗是篩選出所有網頁訪問正常且內容完整有效的數據信息;數據挖掘是指針對處理后的文本信息,通過分析各網站的文本結構,并利用文本分詞、文本分類、文本聚類等技術進行主題關鍵詞的挖掘和分析。
策略構建。分析數據挖掘得到的規律,并制定相應的交易策略。單個財經頻道選股策略為:在每個交易日,根據文本挖掘的薦股信息,在推薦后的第一個交易日以開盤價買進該個股;如果該股停牌,則不買入;持有期到期后以收盤價賣出該個股,如果個股在持有期末停牌則延遲賣出,直至可以賣出。多財經頻道智能選股策略是在單財經頻道的基礎上拓展了數據范圍,考慮了各個網站在過去一段時間內單個策略下的表現,優先選取過去一段時間內收益率超過某設定標準(如對比上證指數)的前若干個網站,結合當前交易日推薦個股構成超配組合。
神經網絡算法在量化投資中的應用
神經網絡算法是數據挖掘中的重要模型,它的產生得益于生理學和醫學對人腦的探索成果。科學證實:腦神經系統具有豐富的層次結構,“神經-中樞-大腦”的工作過程是一個不斷迭代、不斷抽象的過程。人工神經網絡正是一種應用類似于大腦神經突觸連接結構進行信息處理的數據挖掘模型。
神經網絡由大量的節點(或稱神經元)相互連接構成,每個節點代表一種特定輸出函數,也稱為激勵函數,每兩個節點間的連接代表一個對于通過該連接信號的加權值,即權重。神經網絡的輸出則根據網絡的連接方式、權重值和激勵函數的不同而有所差異。常見的神經網絡模型通常將節點分成三個層次:輸入層,輸出層和隱含層。輸入層即給定的模型輸入,輸出層即神經網絡預測的結果,隱含層是神經網絡內部自動運算過程。
將神經網絡模型應用于量化投資分析的基本假設在于:市場存在著人類無法直接判斷但是計算機可以挖掘產生的規律和邏輯。與基于傳統統計學假設檢驗的方法論不同,神經網絡作為一種數據挖掘模型技術,并不需要投資者事先對邏輯進行完整的預判,而是依賴于計算機通過輸入參數對輸出結果進行學習。因此可以有機會打破人類固有的思維局限,從更高量級的數據中發掘隱藏規律。結合西蒙斯的“壁虎式”投資理論可知,投資時在短線內是可以進行方向性預測并捕捉到短期套利機會的。因此,基于神經網絡的交易策略正是借助于該原理對大量的歷史交易數據進行學習,建立預測模型,從而在實際交易中捕捉到短期的交易機會。
以基于神經網絡的高頻股價預測模型為例,其核心邏輯在于:市場上買賣雙方的交易行為決定了股票價格的形成和波動,通過基于神經網絡的數據預測模型對高頻市場行情數據進行分析和挖掘,對短期內股指期貨的漲跌進行預測,然后根據預測結果確定股指期貨的買賣信號。預測模型的輸入是短期內的股票價格數據、價格的變化范圍信息、買賣盤價格和委賣委買量數據等,預測模型的輸出是未來短期內的漲跌方向。從實證結果來看,該模型將大量期貨歷史交易數據作為學習集,通過大量訓練,對一秒鐘高頻下的股指期貨漲跌進行預測,并能在預測模型樣本外的測試數據樣本中達到73%的準確率。據廣發證券應用該模型后披露的數據顯示,自2013年初至2014年7月,累計收益率達到99.6%,年化收益率為77.6%,最大回撤為-5.86%。
值得一提的是,近年“深度學習”在人工智能上所取得的技術突破迅速引起金融行業的極大關注。目前已經有行業研究者開始嘗試將深度學習應用于量化投資以獲取超越傳統神經網絡量化模型的收益。深度學習并不特指某一個算法,而是Sparse Coding、RBM、深信度網絡等技術方法的總稱。與傳統神經網絡模型2~3層隱含層不同,深度學習模型的隱含層數可達8~9層,甚至更高。因此當該思想被提出之初,海量的訓練數據和很高的計算復雜度超出了當時硬件的承受能力,但由于近年計算機硬件性能的提升,深度學習算法在準確率方面的優勢迅速凸顯,這也使得深度學習在量化投資領域的應用前景越來越廣闊。
對沖基金資產配置建議
2015年,全球對沖基金行業陷入業績低谷,盡管管理資產規模仍呈上升趨勢,但行業整體業績慘淡,諸多對沖基金面臨清盤。除了2015年大宗商品表現不佳、希臘債務危機反復、中國股災波及全球等市場因素外,投資者風險厭惡傾向上升,對沖基金還面臨著巨大的贖回壓力。這些都給對沖基金的發展提出了嚴峻的挑戰。
然而,隨著量化技術的不斷發展,特別是大數據時代數據挖掘技術的迅猛發展,使得對沖基金用以研究、跟蹤市場的工具愈發強大。數據挖掘攜手對沖基金,將在大數據時代為量化投資帶來不斷創新能力。
對銀行投資顧問而言,建議在深化對市場把握的過程中,更多關注基金模型的底層基本原理,特別是數據挖掘的基本邏輯,更好地為客戶提供專業意見。從銀行資產配置工作實際來看,目前市場上已經出現了多支公募基金與互聯網公司合作的大數據基金產品,如:廣發基金與百度合作的“中證百度百發策略100指數型基金”、南方基金與新浪合作的“大數據100指數型基金”等。該類產品類型涵蓋了指數型、股票型和混合型基金以及集合資產管理計劃。銀行應進一步拓寬視野,加強對國內各大基金與互聯網公司合作推出的“大數據基金產品”予以關注,并考慮引進其中優秀產品,以期為客戶提供更為優質的資產配置服務。
(作者單位:中國民生銀行,對外經貿大學信息學院)