□文/賈延延 馮 鍵
(1.中國再保險(集團)股份有限公司博士后科研工作站;2.中國科學院計算技術研究所;3.中國再保險(集團)股份有限公司信息技術中心 北京)
[提要] 各行各業在生產運營過程中,不斷產生珍貴的數據資產,這種積累的大數據,為機器學習算法的發展提供了良好的基礎,如何利用機器學習算法挖掘大數據中蘊含的價值和規律關乎企業的核心競爭力。本文分析各種機器學習算法的特點,剖析保險企業的發展痛點,探討如何用機器學習算法賦能保險企業發展,并給出金融科技的典型應用案例。
人工智能是計算機科學的一個分支,它利用計算機模擬和擴展人類智能,它包括自然語言處理、圖像分析、語音識別、機器人等多個子領域。機器學習算法是人工智能發展到一定階段的產物,正是強大的機器學習算法創造了自動駕駛、智能家居、語音助手、人臉識別等各種方便人們生產生活的技術條件。不僅如此,在人工智能時代,金融企業也不甘落后,大力倡導金融科技。如何用技術賦能傳統金融行業,如何用機器學習算法挖掘大數據所蘊含的商機是所有金融企業正在認真思考的問題。
(一)機器學習的概念。機器學習旨在研究如何通過計算機手段,利用經驗來改善系統自身的性能。此處,經驗可以理解為數據,機器學習算法即為從數據中產生模型的算法。模型通常指從數據中學習得到的結果,可以是一條規則也可以是一棵決策樹或者是其他的表示形式。通俗來講,機器學習是指通過計算機學習數據中的內在規律,獲得新的經驗和知識,賦予計算機智能性,使計算機能夠像人類那樣去決策。
(二)機器學習算法分類
1、有監督的機器學習。有監督的機器學習算法使用帶標簽的訓練數據集進行訓練,輸入由數據特征和標簽兩部分組成。按照預測標簽的數據類型劃分,若輸出標簽為離散值,則將這種有監督的機器學習算法稱為分類算法;若輸出標簽為連續值,則為回歸分析。典型的有監督學習算法,例如線性回歸、支持向量機等。
(1)線性回歸:以最基礎的線性回歸模型為例來闡述回歸分析的原理。通過樣本屬性的線性組合可以得到一個預測函數,如公式(1)所示,其中xi代表樣本的某一個屬性維度,wi和b表示待確定的權值和偏差。線性模型雖然簡單,但是很多復雜的非線性模型都可以通過在線性模型的基礎上加入高維映射或者層級關系得到。線性回歸即試圖學習到一個能夠盡可能準確的預測樣本實數型輸出的線性模型。

(2)支持向量機:將樣本集表示為{(x1,y1),(x2,y2),…,(xn,yn)},其中,yi可以取正負兩類,如何在樣本空間中找到一個超平面,使得不同類別的樣本被合理分開呢?這是分類學習的典型目的。如果存在若干個能將樣本正確分類的超平面,選擇哪一個超平面能提高分類魯棒性呢?支持向量機(SVM)學習方法能解決這個問題,SVM法用公式(2)定義超平面,其中w標記了平面法向量,b為決定超平面和原點距離的位移項。根據公式,可以計算樣本點到超平面的距離。支持向量為距離超平面最近的幾個樣本點。將異類樣本點對到超平面的距離之和稱為“間隔”,支持向量機法的基本思想即通過優化參數w和b,找到使得“間隔”最大的超平面。

2、無監督的機器學習。無監督的機器學習算法是指訓練樣本無標簽,通過對樣本特征進行分析,找出樣本間存在的規律和關系。典型的無監督學習算法如K均值聚類和密度聚類。
(1)K均值聚類:K均值聚類算法的基本做法為:首先在樣本集合中選擇K個樣本作為初始均值,這K個均值代表聚類中存在K個聚類簇。然后,重復下列操作:①計算每一個樣本與各均值之間的距離。②根據每個樣本點最近的均值向量確定樣本點的簇標記,將樣本點歸入該簇。③新計算均值。直到均值向量不再更新。
(2)密度聚類:基于密度的聚類假設樣本的密度反映了樣本的聚類關系,通過樣本密度來確定樣本之間的可連接性,再通過樣本間的可連接性劃分聚類簇。
3、半監督的機器學習。半監督學習是有監督學習和無監督學習的結合,旨在利用未標記樣本的信息來提升學習性能。典型的半監督學習算法如半監督支持向量機、半監督聚類等。
(1)半監督支持向量機:支持向量機法試圖找到具有最大間隔的劃分超平面,但是在半監督學習中,樣本空間中存在大量的未標記類別的樣本點,此時,半監督支持向量機法不僅要找到將兩類有標記樣本分開的劃分超平面,而且此超平面必須穿過未標記樣本的低密度區域。典型的半監督支持向量機法例如TSVM。
(2)半監督聚類:當在無監督聚類中引入某些“必連”或者“勿連”的監督信息時,無監督學習轉化為半監督學習。此處“必連”是指樣本必然屬于同一簇,相應的,“勿連”是指樣本必然不屬于同一簇。典型算法如帶約束的K均值算法。
4、強化學習。強化學習是指算法根據一定的概率(P)執行某種動作(A),改變自身的狀態(X),獲得某種獎勵(R),與環境(E)發生交互的循環過程。學習目標是找到使得長期積累獎勵最大的策略。
層出不窮的保險產品已經成為人類生命健康、財產安全的保護傘。然而,傳統保險行業存在銷售渠道單一、銷售人員業務水平良莠不齊、保險條款晦澀難懂、保險理賠困難等嚴重制約保險業務發展的痛點問題。不僅如此,保險行業的科技化和智能化程度也令人堪憂,主要體現在以下幾個方面:
(一)保險欺詐問題嚴重。據保監會統計,國際保險詐騙金額約占保險總賠付額的10%~30%,某些特殊險種的欺詐金額占比甚至達到總賠付額的50%。與發達國家相比,我國的保險欺詐問題更為嚴重。并且,無論在保險行業層面或者政府層面,我國都缺乏保險反欺詐的專業機構,難以利用高科技手段,大規模查殺保險欺詐行為;加之,對保險欺詐行為的行政處罰或經濟處罰力度不夠,使得保險欺詐問題成為保險行業發展的毒瘤,不僅增加了保險公司的運營成本,造成資源浪費,還極大地損傷了保險消費者的正當權益,破壞市場秩序。
(二)保險產品創新乏力。我國保險市場細分程度不高,保險產品結構相對單一;大量保險公司的產品理念過于保守,造成保險產品種類不夠豐富,難以滿足客戶的實際需求。與主流電商平臺相比,保險公司的科技化和智能化程度明顯落后,難以充分挖掘歷史保單信息的價值,無法高效實現保險產品的智能推薦和精準營銷。更不善于利用科技手段分析歷史銷售數據,針對不同目標人群的特點開發新款保險產品。不僅如此,大量保險公司甚至急需數據治理手段,需解決將大量歷史數據電子化、信息化的問題,然后才能為人工智能算法提供條件。
(三)承保和理賠環節智能化程度低。保險承保是指保險人對投保人所提出的投保申請進行審核并做出決定的過程。在這一過程中保險核保是尤為重要的一環。在這一環節中人工智能算法大有可為,然而目前保險核保的智能化水平還較低,造成了大量的資源浪費和效率損失。
保險理賠困難是長期困擾保險業的棘手問題。它是多方面原因造成的。一方面,我國保險銷售職業門檻不高,從業人員數量巨大,但是人員綜合素質普遍偏低,中高級從業人才稀缺。正是由于銷售人員專業知識不夠,對保險產品的權責不明確,單純為了業績而銷售,并且從業人員流動性大。造成一旦出現賠付糾紛,消費者經常找不到負責人,進而對保險行業產生懷疑。另一方面,對于非專業人士的普通消費者來說,保險合同條款顯得篇幅冗長,內容晦澀難懂,投保人很難獨立理解保險權責,這使得消費者在投保的過程中天然的處于弱勢地位。傳統的依靠提升保險銷售人員素質去解決保險理賠糾紛問題的效果是緩慢且微弱的。那么,變線下銷售為線上銷售,借助人工智能算法來另辟蹊徑,改變投保人在保險知識層面的弱勢地位就變得尤為重要。
在人工智能時代,科技是否能夠另辟蹊徑,為保險行業注入活力呢?答案是肯定的,機器學習算法可以從以下幾個方面賦能傳統保險行業:
(一)保險詐騙預警。通過對投保人、被保險人、保險合同信息、保險事故信息的各種特征進行提取,利用分類或聚類等機器學習算法分析保險詐騙案例和正常投保行為在哪些指標(特征)上有顯著差異,能夠起到保險詐騙預警的作用。
(二)保險產品設計與精準營銷。通過協同過濾等典型的推薦算法,分析歷史保單中保險產品或者投保人之間的相似性,可以高效地實現保險產品推薦,提高保險營銷效果。不僅如此,挖掘保險產品特征和投保人特征之間的潛在關聯與規律,還可以設計更受歡迎的新款保險產品。
(三)智能核保。對投保人的信用信息,消費記錄、經濟狀況等數據進行分析,實現風險等級的自動評估,調整承保策略?;诖髷祿?,利用人工智能算法便于規避惡意投保行為,降低逆選擇風險,提高核保效率和效果。
(四)保險合同條款概要。保險合同條款晦澀難懂是保險銷售人員和投保客戶產生誤解的根源,用深度學習等機器學習算法為冗長的保險合同提取出簡明易懂的合同條款概要,解釋保險專業術語,有利于顧客明晰權責,順暢投保。