王 平,夏火松
(武漢紡織大學 管理學院,湖北 武漢 430073)
網貸之家發布的《2018年中國網絡借貸行業年報》數據顯示,2018年全年P2P網貸行業成交量達到了17948.01億元,相比2017年全年網貸成交量(28048.49億元)減少了36.01%。2018年,P2P行業不僅成交量下降,而且大量的平臺暴雷、退出,給行業帶來了巨大的風險。究其原因,可分為三類:第一類由于P2P是一種創新金融模式,政府采取從混沌到有序的治理思路尚未適應復雜的金融風險;第二類是P2P平臺缺乏有效的治理,流程不規范以及金融市場的競爭壓力,產生了高息攬存和潛在欺詐行為等風險;第三類是投資者和借貸者的“無知”(對金融科技的風險缺乏知識素養)。中國銀監會在2016年分別印發《網絡借貸信息中介機構業務活動管理暫行辦法》和《網絡借貸信息中介機構備案登記管理指引》,在 2017年提出《網絡借貸資金存管業務指引》和《網絡借貸信息中介機構業務活動信息披露指引》,形成了網貸行業“1+3”監管制度體系。但是對于后兩類原因的分析與治理,缺乏深入的理論研究與對策研究。
P2P進入國內市場引起的行業亂象,吸引了大量的學者關注到新金融風險研究。葉青等[1]從平臺實力、標的特征、風控能力、治理水平等維度構建模型,發現利率奇高是識別問題平臺的最重要變量,同時,實力薄弱、標的類型單一、風控能力欠缺是問題平臺的前兆。王茂光等[2]以C5.0決策樹算法構建風險預測模型,表明該模型具有較好的預測能力。范超等[3]利用文本挖掘技術提取網絡口碑的情感傾向,結合平臺的基本信息和交易信息,使用八個統計模型判定風險。何光輝等[4]從道德風險、公司治理、信用管理和營運風險四個風險維度,提出了假設檢驗和指標體系,幵建立計量模型分析平臺風險及決定因素,發現平臺基本為民營公司,四個風險維度指標越高,平臺出問題的可能性越大。古定威等[5]指出平臺競爭不利于平臺控制信用風險,監管風險對控制P2P平臺信用風險有較大的影響??梢?,學者們對P2P平臺知識風險研究大致可分為:平臺基本信息、交易信息、風控信息、治理信息和口碑信息等視角分析。第一類是對包括注冊資本、注冊地、保障方式、平臺背景等平臺基本信息分析(葉青[1]、王茂光[2]、范超等[3]);第二類是對包括成交量、平均利率、投資人數、平均借款期限、借款人數等交易信息分析(王茂光[2]、范超等[3]和何光輝等[4]);第三類是對包括風控措施、信用風險、流動性風險、系統性風險等風控信息分析(王茂光[2]、何光輝等[4]和古定成等[5]);第四類是對包括高管背景、股東數目和董事人數等治理信息分析(葉青[1]和何光輝等[4]);第五類是對包括評論情感傾向口碑信息分析(范超等[3])。
以上研究較多運用結構化信息分析平臺風險,范超等采用非結構信息探究口碑的情感分類是否可以區分正常平臺和問題平臺[3],但是缺乏利用文本挖掘的方法識別P2P平臺風險的負面口碑特征研究。Rinchins[6]界定負面口碑為告訴熟悉人有感產品的不滿意經驗。當買方根據其他買方的口碑信息形成他對賣方的信任程度時,負面口碑比正面口碑具有更大的反對效果[7]。負面口碑與正面口碑相比,其被消費者認為更加有用和可信[8],Lu et al.認為負面口碑占比對銷售量會產生顯著的影響[9]。P2P負面口碑會增加投資者的風險感知,通過挖掘負面口碑風險知識在一定程度上會幫助投資者做決策,從而降低投資者的投資風險[10]。Chervalier等[11]發現負面口碑會給企業造成不良的影響。Zhu et al.[12]發現某些產品(例如利基產品),只有一個也是不利的。此外,已有研究從非結構化信息(在線評論、公司財報、公司招股說明書、公司披露的信息等文本信息)中提取風險信息,如胡小榮等[13]從文本分析的視角,通過統計詞頻、主題分析和可視化風險知識,發現上市公司的風險信息。李金海等[14]基于大數據處理引擎MapReduce構建了在線評論特征屬性挖掘模塊,幵提出了負面口碑網絡預警模型??梢?,從文本分析的視角研究企業風險較多的是提取關鍵詞、特征屬性挖掘、可視化等方法。
綜上所述,已有文獻主要從平臺交易、治理、風控、營運和口碑等維度的信息研究平臺風險,較少研究利用P2P平臺口碑信息識別風險信息,僅僅探討了基于粗粒度的網貸口碑的情感分析對平臺風險的影響,未深入挖掘口碑中其他特征屬性,如投資者抱怨的意見和抱怨的程度。通過挖掘網絡負面口碑有助于投資者降低投資風險,有利于平臺及時發現經營管理遇到的問題和政府進行平臺治理,從而及時規避平臺風險和改進服務。負面口碑不僅會影響投資者行為,而且挖掘其特征是企業識別風險的方法。因此,在虛擬性互聯網平臺的新金融模式中利用負面口碑來識別風險知識是一種新的探索,如何挖掘負面口碑中的特征是值得研究的問題。
基于以上的討論,文章從文本分析的視角解決以下三個問題彌合這一差距:
(1)利用文本挖掘方法,分析P2P負面口碑的內容能否發現影響平臺風險的因素?
(2)在問題(1)的研究背景下,P2P負面口碑中不同維度的影響因素呈現的風險程度?
(3)利用可視化方法比較P2P負面口碑與正面口碑的差異性?
文章主要的價值:第一,關于負面口碑的P2P平臺風險研究不多見但有研究的必要性,拓展了P2P風險知識研究的路徑;第二,設計了基于負面口碑的P2P平臺風險知識識別模型,利用文本挖掘和機器學習方法將投資者抱怨意見和抱怨程度從海量的負面口碑中轉化為關鍵的風險特征信息彌合研究的差距。
有限注意力理論是Kahneman于1973年提出來的。有限注意力理論認為:個人或團體注意力很重要但有限,因此強烈程度、新奇程度或吸引力更強的能夠吸引眼球幵采取行動[15]。P2P作為一種創新的投融資模式,吸引了大量的投資者。
網絡口碑(eWOM)是一種典型的有限注意力集中的投融資行為的展現形式。在線用戶的潛在人格特征是否加強或削弱了WOM在社交媒體平臺中的效果,如基于深度學習模型控制潛在用戶同質性和網絡結構角色,通過將理論上影響WOM有效性的特征[16]。當消費者退貨時,他們更可能填寫比未退貨的口碑更負面的在線口碑[17]。有限注意力理論、負面口碑及網絡口碑對于P2P口碑的風險分析適合其理論思想。
知識模型是將知識進行形式化和結構化的抽象表示,包括知識的獲取方法、表達模式、實現技術等。文章根據評論挖掘任務設計負面口碑風險知識模型,包括特征抽取、評論觀點抽取、觀點的極性判斷、評論結果匯總與排序[13,18],以及產品評論主題提取[19]和關注點分析。具體而言,分析口碑觀點極性,篩選負面極性口碑,深入挖掘評論特征、評論主題與評論結果匯總。圖1展示了基于負面口碑的P2P風險知識識別模型。從流程上將P2P風險識別模型分為口碑下載與預處理、口碑情感分類、負面口碑信息挖掘。通過挖掘P2P平臺負面口碑的屬性特征,幵對屬性特征的重要程度進行排序,及時發現平臺風險知識。

圖1 基于負面口碑的P2P風險知識識別模型
網貸天眼是國內最大的P2P行業綜合門戶網站之一,其包含資訊、評級、數據、檔案、社區、P2P理財等板塊,收錄了大量的P2P平臺數據信息,幵且信息比較齊全。通過平臺檔案欄,可以獲取子版塊各平臺口碑數據。文章從天眼下載所有平臺的口碑數據,共計 162071條。數據預處理,包括去除重復數據和同義詞合幵等,最終用于實驗的數據140094條。
首先借助爬蟲軟件爬取了網貸天眼的 14萬多條口碑作為語料庫。在分析理解口碑信息基礎上,構建了自定義詞表用于分詞。采用Python中文分詞組件Jieba中文分詞庫幵導入自定義詞表進行分詞處理,去除停用詞。在此基礎上,隨機選取“正向”、“中立/噪音”、“負向”口碑數據各1000條標記作為訓練集,然后利用Python機器學習庫SciKit-Learn進行特征提取、文本表示,且將數據集按照9:1的比例隨機劃分為訓練集與測試集,通過比較Xgboost、SVM、NB和LR四種分類算法,多次實驗調參比較分類算法的準確度,其中LR算法表現較好,準確率可達76%,最終選擇LR算法對所有口碑進行情感傾向判斷,分類結果顯示負向口碑33824條。
TFIDF是計算特征項的函數,采用相對詞頻作為特征權重,用來刻畫特征詞在文本內容的重要程度。一般情況下,做特征提取和主題聚類會過濾掉沒有實際意義的詞性,以名詞為主,但P2P對于時間的響應程度要求更高,涉及關于資金操作方面的詞匯,故文章選擇名詞、動詞、時間三種詞性的詞語作為關鍵詞提取的語料庫。選取前50的特征詞進行展示(見表1)。從表1可知,平臺、提現、客服是投資者抱怨的前3位的特征詞。其次是存管、回款、逾期,說明資金管理和風險控制是平臺的詬病。再者,充值、投資、APP等特征詞,體現了平臺技術實力薄弱。
針對口碑文本的特征稀疏性,選取 LDA主題模型,實現負面口碑聚類。利用 Python的機器學習庫SciKit-Learn,設置主題數為8,最大迭代次數為1000,提取主題排名前10的詞。從表2中可以看出,LDA主題模型將負面口碑分為8類主題域:主題K1顯示的是投資者情緒,包括垃圾、雷了、打不開、賬戶、客服、提現等;主題K2顯示的是交易信息,包括提現、不到、體現等;主題K3顯示的是服務態度和技術,包括客服、電話、APP;主題K4顯示的是收費信息,包括手續費、提現費等;主題K5顯示的是資金安全,包括提現、充值、到賬等;主題K6是風控信息,包括跑路、逾期、存管、提現等;主題K7是項目信息,包括退出、項目、無法、投資人等;主題K8是收益信息,包括收益、利息、利率、紅包等。

表1 基于TF-IDF的P2P負面口碑特征詞

表2 基于LDA的P2P負面口碑主題-詞語分布
從表2可知,P2P負面口碑的主題分別是投資者情緒、交易信息、服務態度、技術實力、資金安全、風控信息、項目信息、收益信息。結合TFIDF值、LDA主題模型和領域知識,構建了投資者抱怨指標,設計了P2P負面口碑多維特征評分表。具體而言,選取TFIDF值前100的特征詞,人工挑選將每個詞放在不同的指標中。由于每個維度的特征詞數量不相同,采用同一維度特征詞相加取平均數的方式計算不同維度特征詞的平均TFIDF值依次排序,見公式1和表3。從表3可知,資金信息、服務體驗和風控信息是關鍵風險,反應了投資者對于資金安全的緊張程度。其次,服務體驗對于P2P平臺的影響較大,當平臺客服回應比較緩慢時,會增加投資者的風險感知。再者,風控信息直接反應了投資者對于資金安全性的感知程度。最后,技術信息是抱怨的內容,但相對資金信息、服務體驗等方面,抱怨程度較低。

其中score代表不同維度的平均TFIDF值,xi代表第i個值的TFIDF值,N代表不同維度特征詞數量。

表3 基于領域知識的P2P負面口碑評分表
基于Python的WordCloud庫可視化分別呈現了P2P正面口碑與負面口碑TFIDF值在前100的特征詞,如圖2所示,其中左邊是正面口碑,右邊是負面口碑。左右兩圖相比之下,正面評論呈現的特征詞是合規、給力、朋友、準時、車貸、透明度等積極的詞匯,負面口碑呈現的特征詞是逾期、搶標、管理費、借款、APP、站崗、打不開等消極的詞匯。這一方面反應了投資者對于合規、透明度高的平臺的信任,另一方面也反應了投資者在搶標、管理費等方面不滿。

圖2 P2P正面口碑與負面口碑的特征詞云圖
文章梳理了P2P網絡借貸領域平臺風險研究,在基于平臺風險研究結構化數據較多而網絡口碑的風險研究較少的背景下,闡述了深入挖掘負面口碑中風險點的必要性,提出了基于負面口碑的網絡借貸風險識別知識模型。具體而言,首先,利用文本挖掘的方法分析P2P負面口碑,發現Top6的特征詞是平臺、提現、客服、存管、回款和逾期,其TFIDF值均大于0.09。其次,對比了基于結構化信息的P2P平臺風險研究與基于負面口碑的投資者角度風險的差異性。P2P平臺風險文獻主要集中在平臺基本信息、交易信息、風控信息、治理信息等?;谪撁婵诒娘L險信息主要包括資金信息、服務體驗、投資者情緒、標的特征、技術信息、用戶信息、收費信息等,其中資金信息、服務體驗、風控信息是投資者抱怨程度較高。這表明基于負面口碑的P2P風險知識識別模型,可以挖掘投資者情緒、技術信息、收費信息等風險知識。最后,對比了正面口碑與負面口碑的差異性,投資者的正面口碑中主要從合規、透明度、給力、社交等方面,負面口碑集中在逾期、搶標、管理費、技術等方面。因此,P2P負面口碑的特征屬性挖掘是識別風險的有效路徑,能夠識別平臺的風險知識。
文章對于P2P負面口碑分析,豐富了有限注意力理論和eWOM理論,對P2P平臺風險分析與治理有參考價值。對于 P2P平臺,通過挖掘負面口碑知識有助于平臺找準治理的方向;對于政府,可實時監控P2P等平臺中的口碑,及早的防控平臺風險,幵治理與監管;對于投資者,應密切關注P2P等金融科技平臺的負面口碑,加強借貸知識獲取與知識共享,以免由于金融科技的“無知”增加投資的風險。
未來的研究方向:第一,利用深度學習方法提高文本分類算法精準度和特征提取的完整性;第二,從大數據集成的視角,結合文本挖掘和計量方法分析P2P平臺等FinTech平臺風險的因果效應。