999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非平衡樣本集下公私合作(PPP)可融資性評價
——基于改進邊界樣本自適應算法

2021-09-11 11:36:12沈俊鑫
科技管理研究 2021年16期
關鍵詞:分類融資評價

沈俊鑫,程 墻,吳 以

(昆明理工大學管理與經濟學院,云南昆明 650093)

公私合作(public-private partnership,PPP)作為新型融資模式,已成為地方政府擴大公共基礎設施供給、提升項目運營效率、激發民間投資的重要政策工具。自PPP 改革推行以來,國內PPP 模式在深度和廣度方面都得到了巨大發展,但在PPP 可融資性分析方面尚未引起足夠重視,導致PPP 項目落地率和融資交割率普遍較低,阻礙了PPP 模式的健康發展。項目落地難已成為制約我國PPP 健康持續發展的關鍵問題[1]。開展PPP 可融資性評價,是提升PPP 項目落地率的重要手段之一[2]。對PPP 可融資性進行科學評價,將有助于縮短項目入庫周期、優化入庫流程[3]。現有PPP項目主要存在政府變相兜底、重建設輕運營等問題,普遍缺乏有效的商業化運營,大部分仍為政府購買服務,導致偽PPP 頻出,而且地方政府、社會資本對政府購買服務類PPP 項目的可融資性普遍重視不足[4]。本研究基于社會資本視角,以財政部政府和社會資本合作中心(China Public Private Partnership Center,CPPPC)的管理庫和示范庫PPP 項目(以下簡稱“入庫項目”)為研究對象,建立PPP 可融資性集成學習評價模型,分析項目落地率影響因素,探尋PPP 項目落地難形成機理。

1 文獻回顧

金融界通常認為可融資性指項目根本上是否可以融資、是否具有積極的或明顯的現金流[5]。Akintoye 等[6]認為可融資性是吸引社會資本、銀行或其他金融機構參與項目的基礎。葉曉甦等[7]認為可融資性研究是解決公共項目投資者資本回收或貸款償還問題的有效途徑。吳亞平[8]認為項目可融資性取決于項目主體、投資主體和地方政府三大信用組合。上述觀點雖不完全一致,但基本都認為融資是PPP 項目落地和實施的關鍵,合理的融資方案和規范的融資行為是PPP 項目成功的重要保障。

PPP 可融資性評價可分為兩個階段:第一階段是政府通過招標吸引社會資本,從政府視角完成了第一輪融資;第二階段是項目從準備階段進展至采購階段,從項目公司視角向金融機構進行再融資。受限于數據可獲得性,本研究僅從社會資本視角進行PPP 可融資性研究。由于財政部對PPP 入庫項目特別是示范性項目采取嚴格的篩選制度,入庫項目通常為優質項目,而大量落地率低、失敗、中途退庫的PPP 項目由于中途夭折,因此往往披露信息少之又少,項目數據集分布呈顯著不平衡狀態,即非平衡樣本數據集。非平衡樣本數據集容易導致評價的最終結果偏向樣本數量多的類別,往往會出現過擬合現象,因此,如何降低因樣本非平衡產生的評價失真是本研究擬解決的重點問題。

現有解決非平衡數據集問題主要有采樣優化和集成學習方法。采樣優化主要包括過采樣或欠采樣,通過不同的抽樣方式調整數據集樣本分布以實現樣本集平衡。其中,過采樣是對少數類樣本進行多次有放回抽取,增加少數類樣本數量,從而實現數據集平衡,這種方法容易導致過擬合;欠采樣是通過隨機抽樣方式從多數類樣本抽取與少數類樣本數量相同的樣本數,實現數據集平衡,這種方法會丟失與多數類樣本相關數據與信息。對于體量較小的樣本集,大多數學者均從過采樣角度研究平衡樣本集。過采樣的改進算法最為經典的是Chawla 等[9]提出的人工合成樣本(SMOTE)算法,借助少數樣本以及鄰域樣本生成新樣本,實現樣本數據集平衡;但SMOTE 算法合成樣本較為粗放,未能針對實際樣本空間分布合成數據,可能造成合成錯誤分類樣本或冗余樣本。盡管如此,SMOTE 算法仍為解決數據不平衡問題提供了重要思路,眾多學者針對SMOTE 缺陷開展了算法優化研究,改進思路大致概括為兩類:一是精化合成樣本的操作,使人工合成樣本分布更加符合現實問題需求,例如Wang 等[10]和Molinari 等[11]改進提出的邊界自適應合成樣本算法(Borderline-SMOTE,B-S)、自適應綜合過采樣方法(ADASYN 算法)等,這些算法對合成少數類樣本進行精化處理,通過改善樣本合成機制降低合成樣本所帶來的噪音影響;二是混合采樣算法,將采樣算法與其他算法(如支持向量機SVM、聚類等)相結合,SMOTE 混合采樣算法并非在合成樣本時進行操作,而是對合成結束后的樣本進行多次分類,清除其中噪音樣本或冗余樣本[12],例如林宇等[13]、衣柏衡[14]、陶新民等[15]將人工合成樣本導入SVM或其他分類模型中進行再分類,去除不良樣本點,多次重復以降低不良樣本點對分類結果的負面影響,陳思等[16]、李衛紅等[17]通過聚類算法對合成結果進行欠采樣,刪除新樣本集中的冗余數據。混合采樣算法的核心思路即對SMOTE 算法合成樣本進行再次處理,以提高合成樣本質量,其本質上只是對合成樣本再次分類,而分類意味著仍會存在分類錯誤情況,最終形成的新訓練集仍可能存在噪音。Borderline-SMOTE 算法根據K 近鄰算法 (K-nearst neighbors,KNN)對樣本進行分類,合成樣本時僅針對邊界樣本點,不易合成冗余樣本或錯分類樣本,適合科技領域PPP 項目這類復雜的非平衡樣本集。

集成學習解決樣本非平衡問題通常采用訓練多個弱可學習分類器方法,將多個弱可學習的分類器集成轉換為強可學習的分類器,進而提高算法的準確率,其中最為經典的為裝袋算法(Bagging)、提升算法(Boosting)、改進提升算法(Adaboost)等集成算法。為提高集成算法在不平衡數據集下的表現,部分學者嘗試從如何進行弱分類器輸入樣本采樣這一角度入手,如曹瑩等[18]提升算法框架(Bootstrap)。

抽樣算法類似欠采樣實現數據集平衡,形成分布平衡的弱分類器訓練集[19]。Liu 等[20]提出EasyEnsemble 算法,使用隨機欠采樣算法抽取多數類樣本與少數類樣本合并,構成弱分類器訓練集。然而,這些算法均通過欠采樣實現弱分類器樣本平衡,這不可避免會丟失大量與多數類相關的信息,科技領域PPP 項目數據集的數據量本身就不足,如果損失部分數據易導致最終模型分類不準確。

綜上,本研究在以上兩種思路基礎上,結合PPP 項目數據集特征,綜合樣本合成算法與集成算法的優點,提出改進邊界自適應合成樣本算法(Borderline-SMOTE Bagging)。B-S 算法通過合理合成樣本實現正負樣本平衡,構成基分類器訓練集以提高Bagging 算法中基分類器的多樣性,保證最終模型的準確性及其性能發揮。

2 問題研究

2.1 大數據驅動PPP 決策

從研究方法看,現有PPP 研究主要采用博弈論、實物期權、數值模擬、系統動力學、案例研究、扎根理論、定性比較分析(QCA)等方法,這些方法主要基于中小樣本集進行數值測算,數據來源以單個項目數據信息或問卷調查為主,主觀性較強。截至2020 年年底,CPPPC 已形成相對完備的項目管理庫和項目儲備庫,共收錄、發表項目信息13 352 個,為基于大數據方法開展PPP 研究提供大量數據。在大數據時代,PPP 項目融資管理理論與實踐也將發生根本性改變。王守清等[23]指出,大數據對市場信息的收集與分析可有效解決PPP 現階段存在的預測難和“樂觀估計”問題。傳統統計回歸模型或計量相關算法雖具備可解釋性和較好穩定性,但往往要求變量之間的相關性不能很強,同時自變量需要服從某種統計分布,顯然實踐中往往無法滿足這類假設,也無法處理復雜指標數據,不適合在大數據環境下用于開展評價研究。

從研究范式看,現有PPP 研究主要以模型驅動研究為主,包括選定模型的組成變量、建立模型的基本假設、模型的模擬與求解、實證檢驗以及分析結論5 個步驟。在大數據時代,模型驅動已難以適應管理決策研究的需要,數據驅動研究范式因其可最大限度利用巨量數據所提供的有價值信息而表現出模型驅動研究范式不可比擬的優勢,未來的管理決策研究必將由數據驅動研究范式所主導。因此,PPP 可融資性評價模型構建應充分考慮數據驅動與機器學習,集成模型驅動與數據驅動兩大范式,以適應大數據變化。

從數據角度而言,隨著PPP 不斷發展,財政部、國家發改委及各省(區、市)財政部門已積累了大量項目信息,但數據獲取存在明顯缺陷:一是已有數據因渠道分散、標準不統一、公開程度不一致等原因難以獲取,典型的如各省(區、市)有各自數據庫、國家發改委有獨立數據庫等;二是數據流失的情況,如退庫項目或部分未入庫項目均難以獲取相關數據。未來,若數據獲取通道持續優化,完善各類PPP 項目庫數據獲取路徑和標準,PPP 項目樣本數量將進一步提升。同時,PPP 決策往往需要結合宏觀經濟、金融財稅以及市場等信息,相比傳統方法,大數據技術在解決多源、多維、異構、海量數據方面更具優勢,因此采用機器學習算法進行PPP 研究具備動態反饋性和可持續優化能力,大量PPP 數據動態更新可以進一步訓練、優化學習模型,提升模型精度和泛用性。

2.2 模型思路

基于CPPPC 數據采用機器學習方法開展PPP可融資性評價,主要面臨以下3 個問題:一是由于CPPPC 的入庫項目大多為優質項目,導致從整體上或者各個領域間均產生樣本數據集類別不平衡現象,可融資性強的項目數量遠大于可融資性弱的項目數量,即樣本不平衡性;二是由于PPP 項目具有一次性特性,可融資性評估縱向數量相對較少,而項目可融資性優劣受多方面因素綜合影響,評價維度更為復雜,高維樣本點意味著樣本空間復雜,為人工合成新樣本增加了復雜度;三是樣本點之間在樣本空間中分布特征存在較大差異,導致訓練中存在大量噪音樣本,這部分特殊樣本對分類器有較大影響。

由于上述問題,直接使用欠采樣實現正負樣本平衡將損失大量多數類樣本信息,采用過采樣方法實現數據集平衡雖不會損失信息,但過采樣處理后樣本數據集在高維空間上樣本點的位置卻不會發生任何變化,例如采用SVM 算法分類時,目的是在樣本數據集中找出可以劃分正負樣本的最大間隔分離超平面,使用過采樣算法的效果并不佳。因此,為使非平衡樣本集實現平衡,本研究文采用SMOTE 算法人工合成數據。但由于PPP 項目樣本點在超平面分布較為復雜,SMOTE 算法雖然能在訓練集上實現正負樣本平衡,但因未精化選擇參與合成的少數類樣本點,容易冗余樣本和噪音樣本點。以SMOTE 算法合成二維樣本數據集為例,如圖1 所示,A點屬于少數類樣本點,處于多數類樣本點中,對于A點而言,其最近鄰同分類樣本點為點B,通過SMOTE算法合成的樣本點C從實際意義而言,判定為多數類樣本點會更準確,但SMOTE 算法會將其合成為少數類樣本點,這無疑會增加分類器結果偏差,影響結果準確率。因此,需要改進SMOTE 算法以提升噪音樣本點處理能力。

圖1 SMOTE 算法人工合成樣本示例

比較Borderline-SMOTE 算法與SMOTE 算法合成樣本的差異。如圖2(a)所示,淺灰色樣本點為少數類樣本,深黑色樣本點為多數類樣本,分別使用SMOTE 算法和B-S 算法對原始樣本數據集進行處理。采用 SMOTE 算法對原始樣本數據集中所有的少數分類樣本計算近鄰,并根據k-means 算法合成樣本,結果呈聚集狀,如圖2(b)中淺灰色樣本點所示。由于原始樣本數據集中本身存在大量少數類樣本,采用SMOTE 算法合成樣本對評價性能提升影響較小,主要原因在于在少數類噪音樣本點合成過程中,SMOTE 算法分類容易產生錯誤,而且由于合成的樣本大部分都是由安全樣本合成,在樣本空間中集中,所以對模型分類性能影響不大。如圖2(c)所示,采用B-S 算法合成后樣本點呈箭頭狀,樣本數據集中于邊界樣本。對于與多數類樣本差異明顯、容易區分的安全樣本而言,B-S 算法并不會有太多改變,新合成樣本集中出現在邊界樣本區域,便于對邊界樣本進行近鄰插值,因此B-S 算法合成樣本的分布比SMOTE 算法更為合理。B-S 算法不會對噪音樣本進行處理,雖損失少量信息,但最終模型的準確率會有所提高,避免出現如SMOTE 算法容易生成錯誤分類樣本的情況。因此,本研究將采用B-S算法進行人工合成樣本,以解決PPP 項目樣本數據集的邊界少數類樣本點錯誤合成導致分類模型偏差變大的問題。

圖2 不同采樣算法合成樣本數據集比較

在處理完不平衡樣本數據集后,通常將新的樣本數據集和傳統分類器如邏輯回歸(LR)、SVM 等相結合,然而人工合成的樣本在本質上仍是人為虛構,樣本數據集在實現平衡的同時為了避免給模型帶來噪音,導致模型偏差變大,因此,本研究融合B-S算法和Bagging 算法,改進后可以實現的具體效果包括:一是降低噪音少數類樣本對合成樣本集準確率的影響;二是避免合成過多冗余數據影響分類性能;三是集成算法因在多個基學習器多次采用和訓練,可最大限度降低人工合成樣本帶來噪音的負面影響。當不平衡的訓練集樣本使用B-S 算法處理后,新的訓練集樣本的正負樣本比例將達到平衡,最終測試集中樣本分類采用投票(voting)模式,人工合成樣本帶來的噪音產生的負面影響將大幅度下降。

2.3 模型設計

SMOTE 算法是最為經典的合成少數類過采樣技術,其基本原理是根據現有少數類樣本點,使用KNN 算法合成新的少數類樣本點,與多數類樣本點相組合實現正負樣本的平衡。算法思路如下:

(1)針對所有樣本點X(少數類),計算它到k個相鄰樣本點(少數類)的歐式距離,其中k根據KNN 算法確定;

(2)計算正負類樣本不平衡比例,根據正負類樣本比例確定采樣倍率(sampling rate),對所有樣本點X(少數類),根據采樣倍率從k近鄰中隨機抽取若干個樣本;

(3)假設選擇的近鄰為x(1),x(2),x(N),對任意x(i)(i=1,2,,N),根據式(1)計算,通過原樣本合成新的樣本:

而B-S Bagging 算法在每次抽取樣本時均進行了精化處理,僅針對邊界樣本合成新樣本,避免生成錯分類樣本或冗余樣本。算法思路如下:

(1)針對所有樣本點X(少數類),計算它到k個相鄰樣本點(少數類)的歐式距離,其中k根據KNN 算法確定。

(2)根據k近鄰將少數類樣本分為3 類:安全(safe)、邊界(danger)和噪音(noise)。劃分標準如下:設在k近鄰中有m個屬于多數類樣本,其中0 ≤m≤k,若樣本點0 ≤m

(3)計算正負類樣本不平衡比例確定采樣倍率,對所有樣本點X(少數類)根據采樣倍率從k近鄰中隨機抽取若干個樣本,假設選擇的近鄰為x(1),x(2),x(N),對任意x(i)(i=1,2,,N),根據式(2)計算,通過原樣本合成新的樣本:

重復上述步驟,直到多數類與少數類樣本數量相當,合并原有樣本與新合成樣本,構成新訓練集Sk’。

(4)從Sk’中隨機抽樣x條樣本,輸入弱分類器A1,作為第一個基學習器B1;

(5)再次從Sk’中有放回隨機抽樣x條樣本,輸入弱分類器A2,作為第二個基學習器B2;

(6)按步驟(4)(5)的方式重復n次,構建n個基學習器B1至Bn。

(7)對測試集的每一個樣本Pi均輸入n個基學習器進行測試,通過voting 決定測試集樣本的分類結果。將樣本Pi輸入模型,其中n個基學習器進行voting,預測為多數類的票數有m票,預測為少數類的有n-m票,則:若n-m≤m,樣本Pi被判定為多數類樣本;反之,被判定為少數類樣本。

3 實證研究

3.1 數據預處理

為驗證B-S Bagging 算法對PPP 可融資性評價效果,本研究結合項目本身和當地政府兩方面特征,構建基于社會資本視角的PPP 可融資性評價模型,為地方政府及時調整和優化可融資性較差的項目和社會資本投資PPP 項目決策提供決策依據。以CPPPC 的入庫項目為例(以下簡稱“案例數據”),首先通過人工收集和爬蟲的方式獲取入庫項目數據,并將項目分為可融資性強和可融資性弱兩種,通過項目所處階段和項目發起年份兩個指標確定:發起年份在2018 年以前且處于識別階段或者準備階段的項目,標記為可融資性弱,記為-1;所有處于采購階段和執行階段的項目,標記為可融資性強,記為+1。通過網絡爬蟲獲取19 個領域共計10 848 個PPP 項目數據信息,根據上述規則對原始數據進行數據預處理后,清除無法使用規則進行標簽定義的項目共475 個,最終樣本集包括10 373 個PPP 項目(以下簡稱“案例項目”)。其中,標簽為可融資性強的項目為7 445 個,標簽為可融資性弱的項目為2 928 個。

從本質上而言,PPP 可融資性評價問題即傳統意義上的分類問題,案例數據集的數量不平衡體現在兩個方面:一是19 個PPP 領域均存在顯著不平衡現象。PPP項目全行業可融資性數量比較如圖3所示,可見市政工程、交通運輸以及生態建設與環境保護這3 個領域的項目數量遠大于其他領域,其中市政工程領域PPP 項目數量占了總項目數量約38.53%。二是各領域內部間正負樣本比例差距較大。

圖3 不同領域PPP 入庫項目可融資性比較

表1 統計了正負樣本比例大于2 的十大領域,其中林業最高,其次是能源,其他領域不平衡比例為2%~3%之間,存在高度不平衡現象的領域占比高達57.89%,表明領域內部正負樣本不平衡現象普遍存在。為方便后文分析,對這部分領域根據其現有樣本量進行分類,可劃分為3 類:第1 類為樣本數量較少的領域,主要包括林業、能源、科技和政府基礎設施;第2 類為樣本數量較多的領域,主要包括市政工程、交通運輸;第3 類為樣本數量居中的領域,主要包括生態建設與環境保護、教育、城鎮綜合開發、水利建設。

表1 PPP 可融資性正負樣本比例排名前十領域不平衡程度

由上述分析可知,案例數據無論整體或者在領域內部均存在樣本集數量不平衡問題;當輻射面從單個領域擴展開后,項目總量將達到萬級,且都存在樣本不平衡問題。PPP 項目本身情況復雜,因此應基于社會資本角度構建相對詳細的評價特征體系。

3.2 數據評價特征

基于社會資本視角,同時考慮數據可獲取性限制,對案例項目可融資性的評價特征包括項目本身和地方政府兩個核心維度,即項目本身特征和地方政府的各項實力特征,具體如表2 所示。由表2 可知,案例樣本數據集共有24 個特征,去除部分不需要參與計算的特征,仍有19 個特征作為模型的輸入特征。為了避免與可融資性相關性較小的特征可能給模型帶來噪音,首先計算評價特征與可融資性之間的相關性系數,按相關性系數的絕對值大小排序,最終選出排名前10 的特征作為模型的輸入特征。在模型輸入特征中,項目和政府相關特征基本各占一半,包含項目的基本特征、地方政府財政實力以及地方政府清廉程度等。在計算相關性系數前,對類別型字段采取人工賦值或者采用one-hot 熱編碼轉換成數值型,并對所有特征進行歸一化處理。

表2 PPP 可融資性評價特征體系

3.3 模型評價標準

將案例數據根據真實情況和模型預測情況的組合劃分為4 種情形:真正例(TP)、假正例(FP)、真反例(FN)、假反例(TN),分類結果的混淆矩陣如表3 所示。

表3 PPP 可融資性評價混淆矩陣

將PPP 可融資性強的項目定義為正例,可融資性弱的項目定義為負例。非平衡數據集一般使用準確率(Precision)、召回率(Recall)、G 均值(G-mean)、F值(F-measure)等特征進行算法評價,計算方法分別如下:

式(3)至式(6)中:Precision 為正確分類的正例樣本數占所有預測為正例樣本數的比例;Recall為被正確分類的正例樣本數占實際所有正例樣本數的比例;G-mean 為綜合考慮了正類分類和負類分類的準確率,表示正例分類準確率和負例分類準確率的均衡值;F-measure 值是準確率和召回率的加權調和平均;β為參數,本研究采用的是當參數β=1 時的F值,F1值越高說明算法分類結果越好。

3.4 模型結果與分析

運用Python 調用imblearn 庫和sklearn 庫進行樣本合成和模型訓練,采用10 折交叉驗證法確定每組樣本組中算法的最優參數。為保證每次算法中所劃分的訓練集和測試集的數目均相同,在劃分數據集時將變量random_state 固定為統一常數值;同時為保證采用SMOTE 算法和B-S 算法每的每個對照組均合成同樣的樣本,在合成樣本時將變量random_state值設定為統一常數。對原始數據預處理后,將數據按4∶1 的比例劃分為訓練集和測試集。在實證研究前,首先對訓練集數據進行了標準化處理,消除量綱對參數估計的影響。為更好驗證算法的可行性和優越性,將案例項目的原始數據集分為A、B、C、D共4 組。其中,A組數據為全領域樣本數據集;B、C、D這3 組分別從前文中第一、第二、第三這3 類領域選取其中樣本不平衡性最高的行業作為樣本數據集,即B組為林業領域樣本數據集,C組為市政工程領域樣本數據集,D組為生態建設與環境保護領域樣本數據集。這4 組樣本可展示當數據量在萬級、千級、百級和十位數級時模型的不同表現,選擇其中不平衡程度最高的行業作為樣本集有助于體現模型對非平衡樣本集的處理能力。結果具體分析如下:

(1)非平衡樣本集在不同分類器效果比較分析。4 組原始數據集均為非平衡樣本集,對4 組數據不進行任何處理,直接劃分訓練集和測試集,分別使用邏輯回歸模型、支持向量機模型、決策樹(DT)模型等傳統分類算法對訓練集進行學習,并與Bagging算法在數據集的表現進行比較,模型測試結果如表4、表5 所示。其中,B組采用SVM 算法的各項評價指標均相當之高,有3 項指標值均超過0.9,然而G-mean值僅0.554 4,但這并非意味著模型性能優異,而是因為B組本身總數據量極小,劃分后的測試集數據量更小,分析實驗結果發現,該算法訓練時幾乎將所有的樣本全部預測為正例樣本,這樣的結果在現實應用中毫無意義。除此之外,觀測4 組實驗結果,相對其他3 項指標,Recall 指標最高,原因在于目前實驗的數據未經過任何處理,正負樣本之間存在極大的不平衡,因此即使實驗結果FN 相當高,但仍遠遠小于TP 值,最終指標顯示算法效果極佳,但實際上算法卻難以識別負類樣本,由此表明使用傳統單一算法建立PPP 可融資性評價模型的效果不佳。另外,各實驗組中Bagging 算法的各項評價指標比其他3 類算法的評價指標都更為優秀,但G-mean值仍較低,說明該算法對于負類樣本的識別性能依舊不夠優秀,Bagging 算法在每次重復采樣時,原始樣本數據集本身就存在不平衡問題,重復采樣僅可緩解這類負面影響,無法徹底消除。

表4 非平衡樣本集在不同分類器下的可融資性評價結果(一)

表5 非平衡樣本集在不同分類器下的可融資性評價結果(二)

(2)平衡樣本集在不同分類器效果比較分析。對4 組數據集均采用B-S 算法進行處理后,與非平衡樣本集在不同分類器中算法相結合,驗證對比B-S Bagging 算法與其他算法之間的性能差距。對B-SLR、B-S-SVM、B-S-DT 和B-S Bagging 共4 類算法進行了測試,分別計算出Precision、Recall、G-mean、F-measure 等特征,用以評價算法的性能。如表6、表7 所示,案例數據實現平衡后,在表4、表5 中存在的特殊情況不再出現,經B-S 算法處理非平衡樣本數據集后再次使用傳統分類器進行分類測試,新的測試結果表明效果均有小幅度提升,但在實際運用中效果仍不夠理想,可能原因在于經處理后,在負類樣本數量上實現了與正類樣本的平衡,但單一算法得到的TN 雖在數量絕對值上有大幅度提升,但相較FN 的提升效果仍不明顯,故最終從評價指標上模型精度依然不夠優秀。

表6 平衡樣本集在不同分類器下的可融資性評價結果(一)

表7 平衡樣本集在不同分類器下的可融資性評價結果(二)

從 表6、表7 可 知,B-S Bagging 在Precision、Recall、G-mean 和F-measure 這4 個指標表現均最為理想,綜合表4 至表7 可知,Bagging 或者是B-S Bagging 等集成算法對少數類樣本的分類性能要優于單分類器的分類性能。B-S Bagging 算法在4 個實驗組中均有較為不錯的表現,4 項指標結果比較均衡,這意味著該算法對PPP 整體行業(實驗組A)或者領域間(實驗組B、C、D)的樣本不平衡問題有良好的解決能力。其中,與表4、表5 中Bagging算法結果相比,Precision 和Recall 兩項評價指標在實驗組A和C均取得了明顯的提升,A組的提升幅度分別為39.55%和14.73%,C 組的提升幅度分別為50.32%和7.01%,特別是Precision 有了較大幅度提升;而B、D組中的Recall 值有所下降,原因在于負類樣本達到平衡后,FN 在數值上可能稍有提升,導致Recall 下降,但G-mean 和F-measure 兩項指標均有大幅提升。綜上分析表明,融合后的B-S Bagging 算法識別負類樣本的性能得到了明顯提升。

(3)不同樣本集平衡方式性能比較分析。為比較SMOTE 算法和B-S 算法性能優劣,分別用兩種算法對4 組訓練集進行處理,將平衡后樣本集結合Bagging 算法進行訓練,測試集結果如表8 所示。可知在4 組實驗組中,相較于傳統SMOTE 算法,B-S算法下各項指標結果均更優秀一些,且指標結果之間相差幅度較大,說明B-S 算法合成少數類樣本時忽略噪音樣本的能力更強,能有效提高模型準確率,避免生成錯誤樣本影響最終模型性能,同時也并未因損失少量數據影響對少數類樣本分類能力。

表8 不同樣本集平衡方式的可融資性評價結果

綜上所述,B-S Bagging 算法在解決非平衡樣本數據集的效果最優。在數據集平衡方面,B-S 算法能有效避免過擬合,提高最終模型對少數類樣本的識別能力,而在實踐中,PPP 項目長期面臨樣本量較少且樣本數據集非平衡問題,因此,B-S 模型對解決現實問題具有一定參考意義;在集成學習算法優化方面,對于非平衡樣本數據集而言,Bagging 算法性能優于其他傳統分類器,因此當各分類器與B-S結合后,各項評價指標效果均有所提升,且能夠進一步減少因合成樣本帶來的噪聲。這表明Boderline-SMOTE Bagging 算法在對PPP 項目進行可融資性評價上有著顯著效果。

4 結論及建議

4.1 研究結論

本研究以CPPPC 管理庫和儲備庫入庫項目為樣本數據,綜合比較多類機器學習算法處理非平衡樣本數據集的性能,建立PPP 項目可融資性評價模型。研究結果表明,Borderline-SMOTE Bagging 算法效果最佳,能有效解決非平衡樣本數據集導致的偏向問題,削弱了SMOTE 算法因噪音產生的負面影響,且在新的數據集上具有良好的泛化能力。得到主要結論如下:

(1)在大數據背景下,使用機器學習方法研究PPP 項目可融資性具有可行性。同時,基于PPP 可融資性評價特征體系,結合Borderline-SMOTE 算法和集成算法等機器學習方法,可從社會資本視角對PPP 可融資性進行全面評價,能有效解決樣本不平衡問題,且能有效解決因高維特征導致樣本空間復雜度高進而影響數據合成質量問題。

(2)Borderline-SMOTE Bagging 模型具有較高的分類性能。對人工合成樣本形成新的平衡樣本數據集,Borderline-SMOTE Bagging 算法在Precision、Recall、G-mean、F-measure 等指標上發揮性能最佳,該模型對負類樣本有著更為優秀的識別能力,實驗結果驗證了應用大數據技術開展PPP 管理決策的可行性。

(3)Borderline-SMOTE Bagging 模型具備推廣性。當PPP 的決策主體從本研究中的社會資本視角切換至地方政府、金融機構等,通過增加修改特征集后,可基于不同視角開展PPP 項目可融資性評價,幫助相關決策主體及時發現落地率或可融資性較低的項目,提升PPP 整體運作效率。

4.2 建議

本研究基于社會資本視角構建PPP 可融資性評價模型,可進一步擴展為基于金融機構視角評價其他領域PPP 項目可融資性。開展PPP 可融資性評價,有助于從項目識別、采購、落地執行全過程監控項目運作情況,及時解決因不良融資產生的負面問題,有助于推動PPP 健康可持續發展。根據以上實驗過程中遇到的問題,對未來PPP 數字化發展提出以下建議:

(1)政府部門應盡可能全面地收集PPP 項目數據,新增退庫項目庫和待入庫項目庫,并實現項目數字化,全面記錄PPP 項目實施全過程,并逐步實現不同部門、不同層級PPP 項目數據開放共享,借助大數據技術提升PPP 管理效率和精準度。

(2)加強政府部門和社會不同領域數據的開放共享,包括宏觀經濟數據、財政稅收數據、企業社會信用數據等,擴寬大數據技術在PPP 中的應用領域和應用主體,包括基于地方政府實力、項目市場前景、社會資本資信等。

(3)不同領域PPP 項目可融資性具有顯著差異性。新冠疫情暴發后,新型基礎設施建設(以下簡稱“新基建”)成為了我國投資轉型升級建設重點,因此,合理開展新基建PPP 可融資性評價對政府和社會資本都有著積極的現實意義。對地方政府而言,識別可融資性差的項目可以及時、有效地對劣質項目進行改進,“回爐重造”或者尋找其他方式建設項目,有助于提高PPP 項目整體可融資性和落地率水平;對社會資本而言,Borderline-SMOTE Bagging模型可以起到有針對性的推薦作用,有助于社會資本選擇可融資性較高的項目。

猜你喜歡
分類融資評價
融資統計(1月10日~1月16日)
融資統計(8月2日~8月8日)
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
分類算一算
融資
房地產導刊(2020年8期)2020-09-11 07:47:40
融資
房地產導刊(2020年6期)2020-07-25 01:31:00
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于Moodle的學習評價
主站蜘蛛池模板: 亚洲 欧美 日韩综合一区| 伊人成人在线| 欧美α片免费观看| 人妻无码AⅤ中文字| 无码粉嫩虎白一线天在线观看| 精品人妻系列无码专区久久| 久久精品无码一区二区日韩免费| 欧美国产菊爆免费观看| 片在线无码观看| 久久国产精品无码hdav| 91在线播放国产| 久久国产精品嫖妓| 中文字幕在线日本| 97久久免费视频| 久久久久中文字幕精品视频| 成人福利在线免费观看| 国产精品微拍| 久久成人国产精品免费软件| 狠狠躁天天躁夜夜躁婷婷| 免费一看一级毛片| 免费毛片a| 国产精品九九视频| 国产成人永久免费视频| 99精品在线看| 国产男女免费完整版视频| 久久精品国产在热久久2019| 看你懂的巨臀中文字幕一区二区| 亚洲无码视频一区二区三区 | 国产拍在线| 国产福利观看| 欧美综合中文字幕久久| 成人福利在线视频| 无套av在线| 18禁黄无遮挡免费动漫网站| 操美女免费网站| 中文字幕亚洲精品2页| 国产网友愉拍精品| 亚洲va欧美ⅴa国产va影院| 国产91丝袜在线播放动漫| 国产精品女主播| jizz在线观看| 国产一级妓女av网站| 999国产精品永久免费视频精品久久| 无码精品一区二区久久久| 中文字幕波多野不卡一区| 欧美a√在线| 欧美精品色视频| 免费观看欧美性一级| 免费在线色| AV熟女乱| 综合人妻久久一区二区精品| 亚洲视频二| 91热爆在线| 欧美在线三级| 1024国产在线| 无码精品国产dvd在线观看9久| 欧美在线天堂| 国产不卡网| 亚洲一区二区三区麻豆| 亚洲福利片无码最新在线播放| 国产精品亚洲а∨天堂免下载| AV不卡在线永久免费观看 | 国产成人精品一区二区不卡| 国产成人亚洲综合A∨在线播放| 国产精品99一区不卡| 亚洲高清无在码在线无弹窗| 免费aa毛片| 亚洲欧州色色免费AV| 国产精品成人免费视频99| 色亚洲成人| 国产精品视频公开费视频| 亚洲第一页在线观看| 日本在线亚洲| 22sihu国产精品视频影视资讯| 国产成人精品免费av| 亚洲欧美在线看片AI| 国产91精选在线观看| 亚洲精品麻豆| 91丝袜在线观看| 91在线一9|永久视频在线| 亚洲精品国产自在现线最新| 国产精品99在线观看|