大數(shù)據(jù)指大小超出常規(guī)數(shù)據(jù)庫(kù)軟件,具有采集、存儲(chǔ)、管理和分析等能力的數(shù)據(jù)集。相較于傳統(tǒng)意義上的數(shù)據(jù)分析,大數(shù)據(jù)具有更大的體量,包含更多的信息和維度,蘊(yùn)含著更大的潛在價(jià)值,其特點(diǎn)如圖1所示。
可以說(shuō),大數(shù)據(jù)的便利已經(jīng)滲透至各行各業(yè),而本身就依賴于大量數(shù)據(jù)進(jìn)行分析、預(yù)測(cè)的保險(xiǎn)領(lǐng)域,更是早已廣泛運(yùn)用大數(shù)據(jù)相關(guān)技術(shù)來(lái)提升自身的業(yè)績(jī)與容錯(cuò)率,主要應(yīng)用于精準(zhǔn)營(yíng)銷與風(fēng)控。精準(zhǔn)營(yíng)銷是利用大量匯集的用戶資料,通過(guò)數(shù)學(xué)模型進(jìn)行分析、聚類,定位優(yōu)先級(jí)較高的目標(biāo)客戶群體,在有力發(fā)展目標(biāo)客戶群體的同時(shí)減少大量“地毯式營(yíng)銷”的成本;風(fēng)控則是基于“未來(lái)是過(guò)去的重復(fù)”這一理念,通過(guò)分析之前發(fā)生過(guò)的模式與邏輯而預(yù)測(cè)未來(lái)風(fēng)險(xiǎn)走勢(shì)。

圖1 大數(shù)據(jù)的特點(diǎn)
決策樹(shù)(Decision Tree)是一種在已知各種情況發(fā)生概率的基礎(chǔ)上,將各種情況的結(jié)果分類成不同輸出的圖解法。決策樹(shù)是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)均表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類別,如圖2所示。
決策樹(shù)模型有回歸樹(shù)(Regression Tree)、分類樹(shù)(Classification Tree)等類別,其區(qū)別在于分類節(jié)點(diǎn)與剪枝策略的選擇不同。
K最近鄰(k-Nearest Neighbor,KNN)算法,是一個(gè)理論上比較成熟的分類算法。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,如圖3所示。

圖2 決策樹(shù)模型示例

圖3 K最近鄰算法模型示例
首先,在現(xiàn)場(chǎng)開(kāi)始大數(shù)據(jù)審計(jì)工作前,審計(jì)人員需要制定初始規(guī)則庫(kù)作為早期大數(shù)據(jù)分析的邏輯依據(jù),其規(guī)則會(huì)隨著審計(jì)工作的進(jìn)行不斷更新、完善。其次,審計(jì)人員從公司業(yè)務(wù)系統(tǒng)中導(dǎo)出審計(jì)期間的所有數(shù)據(jù),在獨(dú)立的服務(wù)器中搭建測(cè)試環(huán)境,這樣既減少審計(jì)工作對(duì)于正常業(yè)務(wù)開(kāi)展產(chǎn)生的影響,也防止IT人員在審計(jì)實(shí)施中對(duì)原始數(shù)據(jù)進(jìn)行修改與刪除。再次,根據(jù)原始數(shù)據(jù)和規(guī)則庫(kù),審計(jì)人員初步篩選出所需要的庫(kù)表與字段信息。最后,將相關(guān)字段提取后,得到的中間表即為第一次導(dǎo)出的疑似問(wèn)題清單。
例如,在“倒簽單”規(guī)則中,對(duì)應(yīng)的業(yè)務(wù)邏輯為,保單的核保時(shí)間晚于保險(xiǎn)起期,即保單在完成審核之前已經(jīng)開(kāi)始其保險(xiǎn)期即為倒簽單。因此,在該邏輯中最關(guān)鍵的字段便是“核保時(shí)間”與“保險(xiǎn)起期”,只要以二者的時(shí)間先后關(guān)系作為判定依據(jù),即可發(fā)現(xiàn)某一保單是否為“倒簽單”,并將所有重要的相關(guān)信息調(diào)取出來(lái),形成一份有價(jià)值的中間表。審計(jì)人員可從中間表中看到倒簽保單的投保人、被保險(xiǎn)人、險(xiǎn)種、保額、保費(fèi)、暫保期、是否出險(xiǎn)等重要信息,并且這些信息將成為挖掘問(wèn)題原因與細(xì)化規(guī)則的重要依據(jù)。
“保單拆分”規(guī)則在業(yè)務(wù)邏輯上的定義非常明確,即將一個(gè)保單拆分為兩個(gè)甚至多個(gè)保單,總保險(xiǎn)期間不變。因此,審計(jì)人員在分析該規(guī)則時(shí),需要以所有保單的起止日期、投保人、被保險(xiǎn)人、標(biāo)的名稱、保額與保費(fèi)等信息作為匹配的依據(jù)。
審計(jì)人員可以利用決策樹(shù)算法按照不同類別細(xì)分,設(shè)計(jì)出完善的程序模塊,進(jìn)一步分析疑似問(wèn)題清單中的大批量保單數(shù)據(jù)。
在“倒簽單”規(guī)則中,得到所有倒簽保單的列表后,審計(jì)人員可以將其按照有無(wú)暫保單、是否曾經(jīng)出險(xiǎn)、車險(xiǎn)/非車險(xiǎn)等不同維度進(jìn)行分類,對(duì)所有倒簽保單進(jìn)一步分析,逐步生成如圖4所示的決策樹(shù)模型。根據(jù)項(xiàng)目需要和實(shí)際數(shù)據(jù)特點(diǎn),可以選擇相應(yīng)的剪枝方法。根據(jù)規(guī)定,車險(xiǎn)是“見(jiàn)費(fèi)出單”,故不允許出現(xiàn)倒簽單現(xiàn)象,這就說(shuō)明險(xiǎn)種為車險(xiǎn)的“倒簽單”現(xiàn)象均為疑似問(wèn)題,需進(jìn)一步檢查;而對(duì)于具備暫保單的非車險(xiǎn)倒簽保單,則需再檢查其暫保期間是否符合保監(jiān)會(huì)與公司的相關(guān)規(guī)定,若暫保期過(guò)長(zhǎng),也被視為疑似問(wèn)題保單。值得關(guān)注的是曾經(jīng)出險(xiǎn)的倒簽單,因?yàn)樵擃惐魏苡锌赡転楣編?lái)了實(shí)際的經(jīng)濟(jì)損失(未出險(xiǎn)的倒簽單存在風(fēng)險(xiǎn),但未造成實(shí)質(zhì)性影響)。
在“保單拆分”規(guī)則中,數(shù)據(jù)邏輯與業(yè)務(wù)邏輯之間的轉(zhuǎn)換存在一定難度:雖然從業(yè)務(wù)邏輯上保單拆分的定義非常明確,但從數(shù)據(jù)邏輯中這一定義并不是很好界定。在實(shí)際調(diào)取數(shù)據(jù)時(shí),審計(jì)人員需要嘗試多種方式,準(zhǔn)確地將規(guī)則邏輯轉(zhuǎn)換為計(jì)算機(jī)語(yǔ)句來(lái)執(zhí)行,而不能簡(jiǎn)單地通過(guò)調(diào)取字段數(shù)據(jù)來(lái)判定問(wèn)題。在編寫計(jì)算機(jī)語(yǔ)句時(shí),還需進(jìn)行反復(fù)測(cè)試,把其中的干擾邏輯找出來(lái)。如保險(xiǎn)期本身就小于一年的保單,著重篩選特定模式的保單,如同一投保人的連續(xù)兩個(gè)保單,第一單的保險(xiǎn)止期在12月31日,第二單的保險(xiǎn)起期在次年1月1日;或同一投保人連續(xù)兩個(gè)保單的保險(xiǎn)期間加和為一年等。通過(guò)各種特定模式的規(guī)則細(xì)化,不斷完善數(shù)據(jù)邏輯,盡量做到準(zhǔn)確找出所有拆分保單。
在把規(guī)則轉(zhuǎn)化為計(jì)算機(jī)語(yǔ)句并篩選出所有疑似問(wèn)題清單后,審計(jì)人員可利用清單尋找規(guī)則之間的關(guān)聯(lián)性與潛在的可挖掘點(diǎn)。在篩選出“保單拆分”的問(wèn)題清單后,將清單中不同類別的拆分保單進(jìn)行深層分析,從中找出相似的模式。例如,若某公司較集中出現(xiàn)將保單拆分成“前一保單保險(xiǎn)止期為當(dāng)年12月31日、后一保單保險(xiǎn)起期為次年1月1日”,則可以查看該機(jī)構(gòu)歷年的保費(fèi)收入曲線,是否經(jīng)常出現(xiàn)1月份的保費(fèi)收入較高的現(xiàn)象。因?yàn)椴鸱直慰梢允贡YM(fèi)收入分別在不同時(shí)點(diǎn)確認(rèn),所以如果經(jīng)常出現(xiàn)上述拆單模式,很大可能是該機(jī)構(gòu)為了保證完成次年的保費(fèi)收入任務(wù),將當(dāng)年超額完成的一部分保費(fèi)收入通過(guò)拆分的方式轉(zhuǎn)到次年。通過(guò)這種關(guān)聯(lián),審計(jì)人員可收集各機(jī)構(gòu)的保費(fèi)收入趨勢(shì)并建立模型,從而在未查看所有保單的情況下初步預(yù)測(cè)其中可能存在的問(wèn)題。
利用k最近鄰模型,審計(jì)人員可歸納出虛假賠案的特征,并利用所發(fā)現(xiàn)的特征對(duì)賠案進(jìn)行聚類,若有特征相似的賠案,即可暫時(shí)歸類為重點(diǎn)關(guān)注賠案。這樣可以大大減少翻閱賠案紙質(zhì)單據(jù)及查看系統(tǒng)界面的工作量,鎖定可能存在的虛假賠案范圍,如圖5所示。

圖4 “倒簽單”決策樹(shù)示例圖

圖5 虛假賠案k最近鄰模型示例圖
大數(shù)據(jù)分析在財(cái)險(xiǎn)審計(jì)中的應(yīng)用還處于起步階段,很多成熟的大數(shù)據(jù)模型與工具還未被完全應(yīng)用于財(cái)險(xiǎn)審計(jì)中,財(cái)險(xiǎn)審計(jì)發(fā)展前景可期。當(dāng)信息技術(shù)越來(lái)越成熟、系統(tǒng)數(shù)據(jù)越來(lái)越完善,大數(shù)據(jù)分析必將為財(cái)險(xiǎn)審計(jì)提供更多的幫助。
主要參考文獻(xiàn)
王磊.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)公司內(nèi)部審計(jì)中的運(yùn)用研究[D].山東財(cái)經(jīng)大學(xué), 2015
武茗馨.大數(shù)據(jù)技術(shù)在金融行業(yè)內(nèi)部審計(jì)中的應(yīng)用探究[J].時(shí)代金融, 2016(11):269-270+276