劉峻杉,張磊,尹寓
(1.四川大學計算機學院,成都610065;2.四川省大數據分析與融合應用技術工程實驗室,成都610065)
中國作為新興的發展中國家,自改革開放以來,企業對外直接投資(Outward Foreign Direct Investment,OFDI)取得長足進展,《2019 年度中國對外直接投資統計公報》[1]指出:2018 年末,中國對外直接投資存量達2.2 萬億美元,分布在全球188 個國家和地區,影響力不斷擴大,也催生出一大批具有較強跨國經營能力、能夠在全球范圍內布局生產網絡的跨國公司。但是,相對于西方發達國家在跨國投資上的豐富經驗,中國企業OFDI 起步較晚,經驗不足,在新形勢下仍面臨許多問題和困難。同時,國際局勢風云變幻,各種不確定因素疊加,主要發達國家逆全球化思潮抬頭,給中國企業OFDI 帶來了風險和挑戰。
在中國企業OFDI 過程中,往往需要考慮多方面的因素,其中區位選擇是一項非常重要的決策,事關投資成敗。對相關文獻進行梳理發現,以東道國為單位的研究容易忽略企業間的異質性,而以企業為單位的研究又容易忽略了區位間的差異性。并且,主流社會科學研究普遍采用統計方法來描述或檢驗自變量與被解釋變量之間的關系,因此常常做出不切實際的假設[2]。此外,由于回歸的統計數據通常僅代表平均結果,因此無法確定個別公司相關的特定關系的上下文關系[3]。與傳統統計方法相比,用計算機領域的方法來解決現實世界的金融問題,能夠考慮所有相關的特征[4]。
因此,針對上訴存在的問題以及實際需求,本文引入計算機方法來解決了中國企業OFDI。首先,自組織映射算法常被用來確定不明確聚類數目問題的初始聚類[5],但是,自組織映射用作聚類的一個缺陷在于,樣本在特定聚類中的隸屬度并不總是容易判斷的。為此,本文采用模糊C 均值聚類,該方法融合了模糊理論的精髓,賦予每個樣本屬于每個簇的隸屬度。其次,神經網絡在許多不同的領域中得到了應用,其中BP 神經網絡是一種應用最為廣泛的神經網絡,已證明它具有實現任何復雜非線性映射的功能[6]。因此,本文基于自組織映射和模糊C 均值聚類的結果,采用遺傳算法優化的BP 神經網絡構建中國企業OFDI 的投資額預測模型,解決了金融數據高維特征問題的同時,也對中國企業OFDI 的投資額進行了預測。
一方面,在過去十年中,OFDI 已成為全球資本流動的一個主要因素,相關文獻構建了這一領域的綜合研究框架。跨國企業所有權優勢、內部化優勢和區位優勢的不同組合決定了它們從事國際經濟活動的方式[7-8]。其中,OFDI 驅動因素、進入模式和區位選擇是論文最多的類別,占總數近70%[9]。現有文獻大多認為,中國企業OFDI 具有區位偏好特征,Liu 和Deseatnicov 研究了過去經驗對中國企業OFDI 區位選擇的影響,發現OFDI 的企業會根據其他企業的投資經驗進行區位選擇[10]。Aw 和Lee 認為OFDI 不僅取決于東道國的因素,還取決于企業的生產力[11]。之后,Marti 等人便認為跨國公司的區位選擇受到公司層面和國家層面的綜合影響[12]。事實上,當地市場潛力、生產成本、運輸成本、稅收、地理、文化和制度距離[13-14]等都會對企業OFDI 產生影響。研究大多是運用財務模型和統計方法進行的實證研究。很少有人將計算機科學方法與OFDI 數據聯系起來。
另一方面,一些研究者們將自組織映射和模糊聚類相結合進行特征提取,解決了很多實際問題。Xu 等人使用自組織映射和改進的模糊聚類算法對手機用戶進行了用戶特征聚類[15];Das 和Basudhar 根據已有的圓錐貫入試驗結果,使用自組織映射和模糊聚類技術來分離分層土中的不同層[16];Yu 等人提出了一種利用上粒子群優化的全局能力的改進的模糊C 均值聚類算法將全國省份劃分成不同的大類[17]。一些研究者將BP神經網絡用于金融領域。Yang 和Ji 設計了基于BP 神經網絡的風險識別工具,用于在商業銀行貸款的風險預警[18]。Mao 和Liu 等構建了一個動態結合解釋性BP神經網絡和時間序列BP 神經網絡的區域財政一般預算收入預測模型[19]。Wu 和He 構造了一個三層BP 神經網絡對我國股票價格的波動趨勢進行擬合[20]。Liu和Ding 提出了遺傳算法和禁忌搜索算法解決了傳統的BP 神經網絡優化問題的同時,也提高了經濟效益評價指標及其評價不確定性下的投資效益[21]。Shen 和Zhang 等在宏觀投資中,利用改進的BP 神經網絡建立了投資決策模型,實驗證明BP 神經網絡模型能反映投資各要素之間高度非線性的映射關系,可廣泛應用于投資問題[22]。
通過相關文獻啟發,本文針對OFDI 所面臨的復雜信息結構,采用自組織映射和模糊聚類的方法對大量東道國特征進行聚類以提取區位特征,然后結合基于遺傳算法優化的BP 神經網絡構建中國企業OFDI 的投資額預測模型,以輔助企業投資者進行投資決策。
在本文中,我們引入了一種新方法,將確定初始聚類的自組織映射和挖掘區位特征的模糊C 均值聚類算法結合起來,加以應用于基于遺傳算法優化的BP 神經網絡的投資額預測模型。圖1 是SOM-FCM-GA-BP(SFGB)算法的設計步驟。

圖1 SFGB算法的設計步驟
自組織映射(Self-organization Mapping,SOM)算法是一種無監督的神經網絡算法,自動完成聚類過程,不需要預先設置初始簇數,因此用來作為不確定聚類數目情況下的預聚類[23]。SOM 由輸入層和輸出層構成,輸入層根據輸入神經元的數目獲取屬性信息,輸出層根據用戶的輸入數據進行競爭輸出,并根據其結構的不同,可以分為一維線性結構或者二維平面陣列,本文使用二維結構,便于可視化初始聚類結果。

(3)尋找獲勝神經元
計算輸入樣本與輸出神經元之間的距離dj,并選擇距離最小的神經元c 作為獲勝神經元,本文使用歐氏距離作為判斷依據,即:

(4)參數調整
本文對獲勝神經元及其領域內hj,i( t )所有神經元的權值作如下式(3)調整,領域外的神經元權值保持不變:

其中,0 <η( t,r )<1 為學習率,是關于領域半徑r和迭代次數t 的函數,領域半徑r 一般隨t 的增加逐漸減小,并且調整的幅度也越來越小,趨于聚類中心,本文將學習率調整如下式(4):

(5)循環學習
將新的輸入模式帶入到下一輪迭代學習中,尋找新的獲勝神經元并調整相應的參數,直到t=T 時結束循環,其中T 為設定的迭代次數。
對于傳統的聚類算法,聚類的數目都需要提前的確定,對于不知道聚類數目的數據,隨機確定的聚類數目往往會影響到聚類結果的優劣。而SOM 算法的優勢就是不用提前確定聚類數目,其無監督的特性可以自動分類數據。因此,本文使用SOM 算法對區位特征進行初始聚類,確定聚類數目,并將結果用于下一步模糊C 均值聚類算法的初始輸入。
在實際情況下,數據集中的樣本不能劃分成為明顯分離的簇,指派一個樣本到一個特定的類不能滿足實際的需要。而模糊聚類的思想就是估計樣本點與聚類中心的隸屬度,每個樣本點都有對于聚類中心的不同隸屬度,反映了該樣本屬于該聚類的程度。當然,基于概率的方法也可以給出這樣的權值,但是有時候我們很難確定一個合適的統計模型,因此本文使用具有自然地、非概率特性的模糊C 均值(Fuzzy C-means,FCM)。


(1)模型結構
在BP 神經網絡模型中,有三層結構,輸入層、隱藏層、輸出層。
原始數據集是由連續特征和分類特征組成,其中分類特征是離散的、無序的。而分類器通常數據是連續且有序的,因此本文使用獨熱編碼來處理分類特征。輸入層節點數由企業特征和區位隸屬度確定。輸入層共有n 個神經元。
隱藏層的設計是一個非常困難和復雜的問題,特別是要確定隱藏層的數量及其節點數[24]。隱藏層節點數由細分的企業特征確定。隱藏層共有m 個神經元。
輸出層節點為投資額。輸出層共有l 個神經元。
(2)遺傳算法優化
遺傳算法(Genetic Algorithm,GA)是一種“優勝劣汰,適者生存”的并行隨機搜索最優化方法。BP 神經網絡用遺傳算法得到的最優個體的權值和閾值來初始化,能夠提高模型的精度和性能。
GA 優化可以采用實數編碼和二進制編碼。本文采用了三層BP 神經網絡,并使用實數編碼的方式,編碼長度L 為:

GA 在優化的過程中根據個體的適應度值,本文采用均方誤差MSE 作為適應度函數:

GA 通過不斷的選擇、交叉和變異,計算個體的適應度值,找到最優適應度值的個體。圖2 是GA-BP 的流程圖。

圖2 GA-BP流程圖
本文數據來源于前期已經匹配整合的四個數據庫:
●第一個是商務部公布的境外投資企業機構名錄,它包括了境內投資主體、境外企業名、業務范圍、投資流入地以及投資時間等信息;
●第二個是商務部公布的《中國企業對外直接投資公報》,它包括了中國對每一個東道國的OFDI 流量和存量信息;
●第三個是Wind 數據庫、CSMAR 數據庫,它包括了滬深兩地股市2004-2015 年期間持續存在的上市企業的所有企業信息和財務數據;
●第四個是中國工業企業數據庫,它包含了企業相關的基礎信息;
●第五個是世界銀行、國際貨幣基金組織以及ICRG(International Country Risk Guide)等數據庫,它包含了東道國的特征變量信息,如政治風險、基礎設施、技術水平、資源稟賦等。
本文通過對上述數據進行整合、匹配,獲得了2004-2015 年參與OFDI 的1000 多家企業國別對外投資數據。通過數據預處理,最終將建立包括近80 個企業層面與東道國層面的特征因素的中國企業投資信息數據庫。圖3 是預處理后的樣本數據。

圖3 數據樣本
該階段首先利用SOM 算法對國家因素進行初始聚類,確定聚類數目。本文通過調整輸出神經元參數,每種情況進行了10 次自組織映射算法實驗,計算平均聚類數目。圖4 是不同輸出神經元參數下的平均聚類數目。

圖4 平均聚類數目
本文將數據映射到二維地圖空間的U-Matrix 改進到三維平面,便于更方便的顯示輸出神經元之間的關系。圖5 是輸出神經元之間的距離,神經元之間的距離越遠顏色離紅色越近,在圖中表示為山脊;神經元之間的距離越近顏色離紅色越遠,在圖中表示為山谷。

圖5 三維U-Matrix
由實驗結果可知,本文選擇10×10 的輸出神經元可以得到最好的初始聚類結果,設置初始聚類數目為4。然后輸入到FCM 算法,得到企業投資區位的特征分布。表1 是根據聚類的中心選出的部分具有最大值的屬性,通過對其分析,總結了每一簇的區位所具有的區位優勢,其中將區位隸屬度差距不大的樣本同時歸于兩個區位。

表1 每一簇的代表屬性和區位特征
表2 是通過FCM 聚類過后企業投資區位所具備優勢的程度,也就是FCM 聚類得到的隸屬度,并將結果用于下階段的投資額預測模型。

表2 區位特征隸屬度
該階段是基于GA 優化的BP 神經網絡的投資額預測模型。因為企業樣本中存在不同層面的屬性指標,本文將其分為企業綜合能力屬性(市值、周轉率、收益等),企業人員規模屬性(獨董比例、監管層持股比例等)以及行業屬性(所屬行業、工業占比、服務業占比等),以及區位的隸屬度,所以本文使用單個隱藏層,并將節點數設置為4。并且在輸入層和隱藏層都加了一個偏差節點。圖6 是BP 神經網絡模型的結構。

圖6 BP神經網絡模型結構
本文將原始數據按7:3 的比例劃分訓練集和測試集,經過實驗,當學習率η=0.1 時MSE 具有最好的結果。圖7 與圖8 是基于BP 神經網絡和基于GA 優化的BP 神經網絡的MSE 與MAE 的比較。

圖7 均方誤差MSE的比較(η=0.1)

圖8 平均絕對誤差MAE的比較(η=0.1)
基于GA 優化的BP 神經網絡在四個區位的MSE和 MAE 表 現 分 別 為 0.00406、0.00035、0.00462、0.00333 和0.02009、0.00980、0.02101、0.01806,要優于BP 神經網絡的0.00542、0.00067、0.00578、0.00426 和0.02127、0.01057、0.02177、0.01902。其中,在區位2 上面MSE 和MAE 的表現都是最優的。
表3 是基于GA 優化的BP 神經網絡和BP 神經網絡迭代1000 步以內達到預設目標的比較。

表3 迭代1000 步以內達到預設目標的比較
基于GA 優化的BP 神經網絡在區位1 和區位2上迭代1000 步達到預設目標的目標率均為100%,在區位3 和區位4 上分別為86.7%和93.3%均要優于BP神經網絡。相比于BP 神經網絡,基于GA 優化的BP神經網絡能夠更迅速地擬合數據以達到預設目標。
本文將計算機技術應用于中國企業OFDI 中,是一次有益的嘗試,為實現智能化投資決策探索新方法提供新思路。針對金融數據的高維數據特征,本文提出自組織映射和模糊C 均值聚類的方法將東道國因素按區位特征進行聚類,并結合GA 優化的BP 神經網絡構建投資額預測模型,進行有針對性的投資決策。從實驗結果看,該算法在解決數據高維問題的同時也能有效的進行中國企業OFDI 決策。并且,與常用算法的對比實驗可以得出,基于GA 優化的BP 神經網絡具有更好性能和實用價值。
當然,本文還有很多不足之處。中國企業OFDI 影響因素復雜多變,黑天鵝等突發事件往往會影響到企業決策者的投資選擇,加入實時特征是企業對外直接投資決策更深一步的工作。