999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種健康醫療保險格式條款的結構化處理方法

2018-09-05 10:19:04張晶杜明
智能計算機與應用 2018年3期
關鍵詞:文本

張晶 杜明

文章編號: 2095-2163(2018)03-0087-04中圖分類號: 文獻標志碼: A

摘要: 關鍵詞: (School of Computer Science and Technology, Donghua University, Shanghai 201620, China)

Abstract: Introduce the data structure and concept level of Chinese insurance contract format clauses, and treat its unstructured insurance clause data set as the object of processing. First, analyze and study the structure and meaning of insurance format clauses, and then use template extraction and matching methods to perform the operating, transform it into structured data. Experiments show that this method can achieve higher accuracy.

Key words:

作者簡介:

收稿日期: 引言

隨著當前中國經濟水平的發展和民眾對保險產業認知的加深,使得保險產業在互聯網效應的驅動下有了更進一步的發展。目前各大應用平臺紛紛上線財產保險、人身保險等相關保險產品,從保險購買者的角度出發,對于健康醫療保險,投保人如何根據保險人的實際身體健康狀況和所需相關保障進行投保更大程度上取決于投保人對健康醫療保險條款的理解和判斷[1]。但對于普通保險購買人來說,保險行業信息仍然存在著極大的不透明性,保險合同格式條款是由保險公司單方面商定、購買人并不參與定制的文本文件,且保險合同格式條款[2-3]大多為長文本數據類型,文本內容多采用專業性語言和超長詞匯進行描述。

因此,如何從保險格式條款中獲取有效信息并且根據投保人意愿提供相關合理化意見和建議已經成為保險經營活動的新趨勢。 目前在文本數據結構化[4]處理方面,國內外均有許多相關的研究工作,但由于中文語言、語義、文法等存在著特殊性,借鑒國外的技術受到很多制約。首先,處理中文格式化健康保險文檔需要對長文本進行分詞,但目前現有的中文分詞工具,如中科院的NLPIR[5]、復旦的FNLP[6]、斯坦福的NLTK[7]等在處理具有很強專業性的中文保險合同格式條款中并不能取得很好的分詞結果;其次,與英文不同,中文不存在類似于英文的詞根/前綴,不能直接通過詞語本身對詞語進行分類,需要借助語境、語義做相應的判別分析。

針對上述問題,本文結合中文健康保險合同格式條款的具體特點,提出了一種簡單有效的中文健康保險合同格式條款文本結構化處理方法。該方法首先對獲取到的保險條款格式進行格式轉換、編碼轉換、事項分類、長句切分等預處理操作。然后利用外部詞庫和文本分詞計算詞語共現度和計算詞語權重的方法構建包含專業術語和具有重要意義的長復合詞組庫。構建RDF提取模板;首先對事項內容進行聚類,根據聚類結果進行關鍵名詞組提取,然后利用余弦相似度計算方法去除同義屬性,接著根據提取結果進行總結和含義轉換,最后回溯屬性提取過程,建立RDF提取模板。之后根據構建的RDF提取模板建立通用的正則算法對文本數據進行描述抽取。

1問題闡述

保險合同格式條款是根據保險法及保險險種、范圍所定義的內容。條款內容中包含大量的專業術語和規范性語言表述,其中還有大量“本合同”、“本合同條款”等無關鍵意義的詞語。保險合同格式條款文本數據樣例如圖1所示。

在文本結構上,保險合同格式條款以總分結構定義,每篇條款由多條事項構成;在語義上,保險合同格式條款是對其規定相關內容的描述,每項條款由若干關聯長短句組成。

定義1條款名稱指所屬的保險合同的條款名稱名詞。例:新華i健康定期重大疾病保險利益條款。

定義2事項名稱指保險合同格式條款中包含的規定事項。例:保險期間。

定義3屬性名指某一事項下包含的主體、原因、期間、賠付、結果等信息名詞。

定義4描述值指與指標名一一對應的描述性信息。

以圖1中的數據為例,該條款中的事項名稱為 “保險期間”、“保險責任”,在保險責任部分,按語義內容可提取指標和對應指標值“主體 :被保險人”,“原因:疾病”,“給付:重大疾病保險金”。

2保險格式條款機構化處理方法

本文提出的基于中文健康醫療保險合同格式條款的結構化信息抽取方法主要涉及到自然語言處理[9]的分詞、文本聚類、文本相似度計算、正則表達式匹配等技術,整個處理過程主要包括5部分,分別是:合同條款數據的預處理、模板提取、領域詞庫構建、信息抽取和糾錯校驗,其具體流程如圖2所示。

2.1文本預處理

由于保險格式條款的獲取渠道和文本形式不盡相同,所以在保存數據前需要對收集到的大量不符合結構化要求的數據進行前期處理,將表格形式、網頁格式的文檔轉換為純文本文件,且為了能在抽取過程中進行字符串匹配對獲取的文本數據按需要進行編碼轉換。保險合同格式條款單個數據量比較復雜,依據事項關鍵字匹配對其進行分類。由于保險條款存在一定的法律意義,所以數據相對正確性較高,無需進行清洗工作,只需根據斷點進行長短句切分。

2.2領域詞庫構建

在保險合同格式條款中,對很多保險事項內容的描述都采用了醫療保險領域內的專業術語或固有詞組進行表達,如“投保”、“保險期間”。并且其中包含很多在語義上不可分割的較長的字符串詞組,如“重大疾病保險金”。

本文首先采用結巴分詞工具對文本數據進行分詞,首先去除停用詞,然后利用TF-IDF統計算法篩選出文本數據集中比較重要的詞語,應用N-Gram模型套用貝葉斯公司計算詞語的共現度,從而得出數據集中復雜的復合詞語,然后經初步人工篩選建立醫療保險領域詞組庫。

2.3RDF提取模板建立

建立RDF資源描述框架形式的提取模板有助于對保險合同格式化條款進行高效的抽取和分類。提取模板的建立過程主要包含以下步驟:首先對事項中的內容利用Single-Pass算法進行聚類處理,然后利用IDF和IC-value計算關鍵名詞組提取,之后利用余弦相似度比較對提取的復雜詞組進行去重,經含義轉換操作對屬性值和描述值進行重新定義和轉換,最后根據抽取內容和內在聯系建立RDF 抽取模板。

2.3.1文本聚類

由于事項內容文本量較小,但待聚類數據量大,無法確定簇的個數,為便于后續根據數據情況增加新的類別,所以本文采用single-pass算法[13]對事項數據文本內容進行聚類。Single-pass算法流程如圖3所示。

文本進行聚類的目的是為了將每個事項內容中的長短句進行類別劃分。在本文中,對子句進行相似度對比是應用杰卡德相似系數(Jaccard Similarity)計算子句之間字符串的重合度實現的。 杰卡德相似系數計算公式如下:J(A,B)=|A∩B||A∪B|(1)

2.3.2關鍵名詞組抽取

對文本進行關鍵名詞組抽取主要應用基于統計參數的方法實現。在模板提取中重點需要用到兩個重要的統計參數分別為IDF值和IC-value值。IDF值為信息檢索中最常用到的“逆文本頻率指數”,IC-value是一種通過從逆文檔頻率、破碎子串和術語長度3個方面改進C-value而得到的一種計算候選術語度的方法。同時,屬性值的統計范圍是該類別的長子句的集合,而不是整個文本數據集。

計算屬性名w的IDF值的公式[10]如下:IDFw=logDDw(2)其中,D為子類中全部長句數,Dw為子類中W出現的長句數。

計算屬性名w的IC-value值的公式如下:

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 91午夜福利在线观看精品| 国产成人超碰无码| 真实国产乱子伦高清| 日韩高清一区 | 日韩精品一区二区三区免费在线观看| 三上悠亚精品二区在线观看| 噜噜噜综合亚洲| 亚洲经典在线中文字幕 | 亚洲乱码视频| 91 九色视频丝袜| 免费A级毛片无码免费视频| 第九色区aⅴ天堂久久香| 欧美三级视频在线播放| 国产精品99在线观看| 精品国产Av电影无码久久久| 成人毛片免费在线观看| 亚洲a级在线观看| 午夜啪啪福利| 国产69精品久久久久孕妇大杂乱| 99免费视频观看| 日韩毛片在线播放| 在线观看精品自拍视频| 中国一级特黄大片在线观看| 国产aⅴ无码专区亚洲av综合网| 国产无人区一区二区三区| 性欧美久久| 毛片免费高清免费| 伊人久久福利中文字幕| 91国内在线视频| 亚洲日本一本dvd高清| 在线观看无码av五月花| 国产第四页| 人妻少妇久久久久久97人妻| 国产区免费| 国产精品密蕾丝视频| 久久黄色小视频| 久久99热这里只有精品免费看| 国产91小视频| 天天综合亚洲| 97在线视频免费观看| 秋霞国产在线| 欧美一级高清片欧美国产欧美| 欧美一区中文字幕| 毛片免费试看| 国产精品9| 91原创视频在线| 欧洲av毛片| 国产欧美日韩va另类在线播放| 无码'专区第一页| 国内精品久久九九国产精品 | 久久国产成人精品国产成人亚洲| 无码人中文字幕| 欧美日韩在线第一页| 香蕉在线视频网站| 精品亚洲麻豆1区2区3区 | 福利在线不卡一区| 亚洲中文字幕97久久精品少妇| 亚洲无码熟妇人妻AV在线| 国产精品短篇二区| 国产日韩av在线播放| 国产精品白浆无码流出在线看| 91无码视频在线观看| 国产中文在线亚洲精品官网| 国产精品所毛片视频| 亚洲日本www| 成年人福利视频| 香蕉伊思人视频| 亚洲 欧美 日韩综合一区| 亚洲熟女偷拍| 色国产视频| 在线观看免费黄色网址| 国产拍揄自揄精品视频网站| 亚洲人妖在线| 亚洲色图综合在线| 亚洲成人77777| 欧美一区国产| 亚洲欧洲综合| 国产福利免费在线观看| 国产精品无码翘臀在线看纯欲| 久久成人国产精品免费软件| 久草视频中文| 在线另类稀缺国产呦|