鐘小強
摘要:基本面量化投資是近年來金融科技和量化投資研究的新熱點。作為人工智能的代表性技術,機器學習能夠大幅度提高經濟學和管理學中預測類研究的效果。
關鍵詞:機器學習;基本面;量化投資
互聯網及大數據模式下的經濟活動促使了更多高維、復雜經驗數據的產生,機器學習在科學研究領域的應用為新范式下的經濟研究提供了新型的研究方法,進而促使經濟學研究由當前的線性、低維、有限樣本、抽象模型向非線性、高維、大樣本、復雜模型的轉向。經濟學實證研究及計量經濟學模型理論研究中對機器學習的應用及相關文獻的出現,是這次轉向的主要標志。
1機器學習的內涵界定
廣義的機器學習認為,機器學習是計算機科學的一些分支領域的集合,也是機器一系列在計算機科學、工程學、統計學尤其是社會科學中發展和使用。由于機器學習算法廣泛應用于不同學科,不同領域或學科對機器學習的界定也不同。狹義的機器學習則來自各個學科對機器學習的分別界定。如計算機科學認為,機器學習是數據科學的核心,是現代人工智能的本質,機器學習簡單來說就是涵蓋了統計推斷的人工智能。工業和工程學等領域認為,機器學習是對能基于現有經驗自動改進計算機算法的研究,這種算法對人工智能的發展具有關鍵的促進作用。統計學認為,機器學習是從數據中挖掘出有價值的信息,是更高層次、更智能化的數據挖掘方法。統計學對機器學習三個層次的劃分是基于計算機視覺理論創始人馬爾關于計算機視覺的三級論定義的,他并將機器學習分為初級、中級和高級三個層次。初級機器學習是獲取數據和提取數據特征;中級機器學習是數據處理與分析,包括應用問題導向的模型和方法的應用,也就是數據挖掘,但機器學習的數據挖掘更強調問題導向,重在提出和發展模型、方法及算法,并探討其背后的數學原理或理論基礎;高級機器學習是通過統計推斷而達到某種智能與認知。統計學認為,機器學習和數據挖掘具有相同的本質,只是數據挖掘更偏向于數據端,而機器學習則偏向于智能端。計量經濟學認為,機器學習是一種應用計量經濟學研究方法,是傳統計量經濟學研究方法在數據處理與預測領域的一種進步,是大數據背景下計量經濟學回歸分析及預測方法的發展,機器學習基于計算機的算法,其本質是對計量經濟學工具箱的一種豐富。經濟學認為,機器學習是一個領域,旨在開發應用于數據集的算法,這些算法主要集中于回歸(預測)、分類和聚類任務,分為有監督機器學習和無監督機器學習兩類:有監督的機器學習是在樣本數據或向量預先設定好“標簽”(一系列的預先假定,如分類的標準)的前提下,總結出樣本向量的映射關系,如正則化回歸和分類;無監督的機器學習是在沒有對樣本數據或向量設定任何“標簽”的情況下,從數據中識別出其內部蘊含關系的一種“挖掘”工作,聚類是典型的無監督機器學習。從機器學習的算法出現及其學科應用來看,機器學習具有計算機與人工智能的學科背景,涵蓋部分統計學學科內容,研究方法具有高度兼容性,可應用于各個領域、學科門類,對機器學習泛泛的廣義界定或基于某個領域、學科門類的狹義界定,都是不恰當的。因此,基于對機器學習的研究對象、學科主旨、學科特點和方法論基礎,我們對機器學習的內涵作出如下界定:機器學習是旨在通過數據、文本、圖片等現實經驗信息,通過計算機算法來進行深度挖掘,進而對經驗現實進行建模及預測的一門科學。機器學習強大的數據、文本、圖片處理功能,基于計算機和人工智能的深度挖掘功能和基于數據、文本、圖像等高度復雜經驗信息的模型選擇及預測功能,使其廣泛應用于現實世界的各個領域,并與各個領域現有研究方法相結合,演化并生成了適合各個領域獨特研究的系列機器學習算法,并伴隨著各領域的發展而不斷進化生成新的算法體系,這使得機器學習成為一門以多學科交叉共融為其首要特點的經驗科學。從機器學習本身的學科特征看,機器學習以現實的經驗信息為研究對象,以計算機和人工智能相結合的算法為研究方法,以數據科學、人工智能為算法邏輯基礎,以對現實復雜的經驗信息進行系統化表達與準確預測為學科宗旨,以多領域的交叉共融的高度兼容性和進步性為學科特點。從機器學習學科的方法論基礎看,機器學習以邏輯實證主義為其方法論基礎,以數據導向的研究模式為其研究范式,以模型與經驗信息的一致為其模型體系的特征。
2基本面量化投資分析
基本面量化投資融合了量化投資(計算機驅動)與價值投資(人為驅動),是近年來備受關注的一種智能量化投資方式。其核心是分析股票的基本面因素和風險溢價(或超額收益)之間的關系,或股票收益的準確預測。當前學術研究中的基本面因素通常來源于市場異象的研究,即能夠提供超額收益的公司特征。盡管現有研究提出了數以百計的被認為能夠提供超額收益的市場異象因子,但后續的樣本外檢驗發現大部分因子難以持續地提供超額收益。異象因子的大量涌現也對傳統的資產定價方法提出了技術挑戰:①資產風險溢價的候選因子多達數百個,且很多因子極為相近,而傳統的組合排序和Fama-MacBeth回歸并未綜合考慮各因子,也未考慮因子間的交互作用;②當因子維度變大時,線性和非線性的考慮使得預測函數形式的搜索復雜度急劇增加,幾乎無法通過人工去指定,但現有研究方法并未提供高維因子與預測函數形式選擇的建議。以上兩個技術難題呼喚著新研究工具的介入,前美國金融學會會長Cochrane認為,在處理如此眾多的因子時,必須使用“不同的研究工具”。作為人工智能的代表性技術,機器學習和深度學習是其中強有力的備選工具。機器學習和深度學習包含眾多類型的研究方法,如監督學習、無監督學習、半監督學習等。這三種研究方式的主要區別在于對數據樣本標簽的要求。監督學習需要樣本的標簽(比如股票收益),無監督學習無需標簽,半監督學習則需要部分標簽。本文選擇(監督)機器學習來分析異象因子與超額收益之間關系,原因有三:①資產收益預測本質上是一個預測問題,而機器學習和深度學習旨在自動地尋找數據中的復雜結構和模式來輔助預測。在資產收益預測中,收益數據的存在從本質上決定了該問題是一個監督學習的任務。因此,監督學習中的回歸方法天然地適用于資產收益預測研究。②針對前述兩個技術難題,機器學習的三個特性使其適用于該預測問題。通過眾多備選的預測函數形式,無論線性模型還是非線性模型,機器學習提供了一系列豐富的方法來實現更加準確的預測;很多機器學習方法(如深度神經網絡等)專門被設計用于逼近復雜的非線性關系;參數正則化和模型選擇等技術使得在選擇預測函數時不易過擬合而導致虛假發現。③現有研究中豐富的異象因子為機器學習提供了有理論基礎的輸入變量,使得本文的研究區別于很多純粹的金融數據挖掘。盡管機器學習和深度學習研究方法天然地適用于解決股票收益預測面臨的挑戰,但根據機器學習理論中的“沒有免費午餐定理”,本文并不能預知哪個算法會取得最好的預測效果。因此,機器學習算法在中國股票收益預測問題上的表現也就成了一個實證問題,需要系統性檢驗。但是現有機器學習方法預測股票收益多從方法論的創新出發,仍缺乏系統性的研究來檢視其作用和效果。
結束語:本文對機器學習在經濟學和管理學中的應用研究具有重要的啟示。機器學習在經濟學和管理學中的應用主要有兩個視角:①運用機器學習處理非結構化數據并提取代理變量,比如運用機器學習算法從文本中提取投資者情緒指標等;②在經濟學和管理學中的預測問題上運用機器學習方法以提升其預測能力,尤其是樣本外預測的效果。
參考文獻:
[1]?? 黃乃靜,于明哲.機器學習對經濟學研究的影響研究進展[J].經濟學動態,2018,(7):115-129.
[2]?? 李斌,林彥,唐聞軒.ML-TEA:一套基于機器學習和技術分析的量化投資算法[J].系統工程理論與實踐,2017,37(5):1089-1100.