999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練模型的非結構化文檔智能化處理

2025-05-26 00:00:00師謙
互聯網周刊 2025年8期
關鍵詞:文本信息模型

引言

在企業日常運營產生的數據中,非結構化數據占企業數據總量的 80% 1。員工日常工作中面臨繁重的非結構化文檔處理任務,由于文檔格式復雜、行文標準不統一,處理過程既困難又耗時,產生了高昂的人力成本和時間成本。

盡管機器人流程自動化(roboticprocessautomation,RPA)、大模型在文本切片處理方面表現出色,但對于非結構化文檔的數據抽取效果卻不盡如人意。例如,文檔中表格出現單元格合并、無邊框、標題行列與內容行列不對應等情況時,識別可能為空或錯誤數據。

筆者團隊以職業年金信息披露這一典型應用場景為例,詳細闡述了對復雜非結構化文檔的自動化和智能化處理的探索研究。

1.職業年金信息披露應用場景介紹

職業年金是為完善機關事業單位多層次養老保險體系而建立的補充養老保險制度2。隨著年金市場化投資運營穩步推進,年金基金投資規模不斷增長。為加強基金監管,保障基金安全,要求各基金管理機構加強基金信息報告和信息披露行為[3-4]。

(以下簡稱“泰康養老”)作為受托人,須收集來自投資管理人和托管人等管理機構的信息披露報告,進行數據比對后形成受托人信息披露報告報送。各機構信息披露報告通常以多種非結構化文檔形式傳遞,在行業內沿用多年并得到普遍認可。泰康養老雖曾多次嘗試通過數字化轉型推動信息數字化報送,但由于行業慣例根深蒂固,基于非結構化文檔信息交換的方式在短期內難以被完全取代。

面對日益增長的年金運營規模,人工信息披露比對暴露出效率低下、易出錯且難以應對復雜多樣數據情況等問題。因此,如何在現有情況下,實現對非結構化文檔數據的精準抽取與比對,成為提升年金運營效率、保障信息披露質量的關鍵挑戰。

2.非結構化文檔處理解決方案探索

基于以上問題,筆者團隊進行了非結構化文檔智能處理的探索。

2.1RPA+DeepSeek

自動化探索初期,筆者團隊采用“RPA[5+DeepSeek[]”方式嘗試解決數據抽取和比對問題。包括以下三個步驟:

(1)表格數據抽取。將每個省份的信息披露報告的所有表格標題分別存儲到對應省份列表中,通過PDFplumber.getTable方法找到對應標題下的表格,最后將表格抽取到Excel中,形成各省份的特征表格。

(2)DeepSeek模型學習。將特征表格中抽取的行列標題存儲到對應省份字典中,再將字典結構輸入DeepSeek模型,通過數據結構訓練,構建出包含各省份特征的模型庫。

(3)特征表格數據抽取和比對。將源文件傳送給特征模型庫進行數據抽取,通過Python編程實現最終的數據比對和校驗。

但此方案仍有以下三個方面的不足:

(1)表格抽取偏移量計算不準確。因無法保證表格最后的單元格為標準格式,如存在合并單元格、插入公式等情況,導致RPA無法準確計算偏移量值,使數據抽取丟失。

(2)須手動配置字典庫。如某個省份表格字段發生變化,須手動更新對應省份字典庫。

(3)模型訓練效果不理想。因DeepSeek對表格復雜格式學習效果欠佳,無法較好理解表格字段邏輯,所以成功率僅 35% 。

2.2預訓練模型

預訓練模型是指在大規模數據集上預先訓練的神經網絡模型,在自然語言處理(NLP)、圖像識別等領域應用廣泛,常見模型包括循環神經網絡(RNN)、基于Transformer的雙向編碼器表征(bidirectionalencoderrepresentationsfromtransformers,BERT)模型、詞向量(Word2Vec)模型等。在大規模數據集上,通過某些特定任務進行模型預先訓練。通過預訓練,讓模型學習到數據內在結構和規律,以及語言通用表示。經筆者團隊反復實驗及論證,最終采用預訓練模型技術方案進行智能化處理,具體方案及技術見后文。

3.非結構化文檔智能處理方案設計

參照人工信息披露處理流程,基于預訓練模型設計了非結構化文檔智能處理方案,具體設計如下文所述。

3.1數據輸入與預處理

(1)支持用戶上傳多種格式的年金信息披露報告文檔。

(2)自動進行文本清洗和格式標準化。

3.2信息抽取

通過預訓練模型強大的學習能力,自動識別文本中的表格和關鍵信息。系統能處理多樣化及復雜化的表格結構,確保準確抽取所需字段信息。

3.3上下文理解與分析

通過預訓練階段學習到的上下文語義關系,對抽取到的信息進行深人學習與分析,掌握語義之間的邏輯關系。

3.4比對結果報告生成與輸出

將處理后的數據比對結果生成結構化報告,支持導出PDF或Excel格式,便于進一步分析。

4.預訓練模型關鍵技術分析

本方案技術難點在于預訓練模型訓練和訓練階段數據處理。通過對信息披露報告中表格樣本進行特征抽取和訓練,建立非結構化文檔智能模型,實現對各種復雜、動態表格數據的精準抽取,完成數據比對(如圖1所示),具體分為三個步驟。

(1)表格切片。以表格為中心進行切割,將表格拆分為“表格標題”“列標題”“行標題”和“數據區域”。

(2)模型訓練。根據拆分后的表格切片確定字段和數據抽取的模型和算法,通過TensorFlow進行模型訓練,生成對應表格模型。

圖1預訓練模型方案流程圖

(3)數據提取。將不同表格樣本數據輸入對應表格訓練模型,抽取所有字段數據。

下面分別闡述各環節中涉及的相關技術。

4.1表格切片

切片時文本中存在各種特殊情況,會產生大量噪聲干擾,對數據準確抽取與比對有很大影響。實踐中筆者團隊遇到的情況包括表格標題位置差異、表格格式復雜多樣、相似度文本識別等。

(1)表格標題位置差異。源文件標題位置和標準文件中位置不一致,無法通過默認標題位置找到對應數據。

(2)表格格式復雜多樣。第一,表格標題、行列分布等特征結構繁多,如表格標題在表格內層、表格外層等。第二,同一實體在不同報告中存在差異,包括標題、表格字段、基金名稱等。第三,部分省份接收到的報告規范化較差,存在連體表格、隱藏目錄等情況。

(3)相似度文本識別。實際樣本數據中存在大量相似度文本,如“受托戶凈資產變動表、受托財產資產變動表”“占凈資產比例 (% )、占組合凈資產比例(% )”等,極易被解析為同義詞。

為減少文本數據干擾,確保表格切片準確度,筆者團隊進行了文本降噪和相似度處理的研究和解決。筆者團隊采用自然語言處理(NLP)工具SpaCy和NLTK雙模型降噪方法,對兩種模型降噪結果進行比對,取交集,提高可信度,減少因降噪帶來的誤差。

4.1.1 SpaCy模型

第一,分詞階段。使用分界符(表格中特定的標點符號)初始化分詞器,切分原始文本,獲得單獨token。例如,將“定期存款/協議存款”進行分詞,剔除分隔符,轉換成“定期存款”“協議存款”。

第二,模式匹配階段。將上一步得到的分詞,建立parten(要進行匹配的短語模式列表)在文中查找符合各自模式的短語。

第三,將短語中的分詞進行詞性標注,構建具有年金信息披露特征的語料庫,用于模型訓練。

第四,將訓練好的模型應用于全部樣本,最終查找出符合匹配規則的對象。

4.1.2NLTK模型

第一,分詞。使用NLTK模型中的函數work_tokenize將樣本切割成單詞。

第二,降噪。采用停用詞庫篩選掉分詞后的無意義詞語。

第三,標注詞性。為分詞的每個單詞標注詞性,建立單詞、單詞屬性映射表。

第四,使用正則表達式定義簡單的語法規則來表示名詞短語,NP表示名詞短語,NN表示名詞。

第五,使用解析器對標注后的文本進行解析,并抽取出符合語法規則的短語。

NLTK模型是SpaCy模型的有效補充,能有效提高文本分詞精準度。通過使用兩種降噪方法,模型能更準確地理解和處理信息,實現了 100% 精確匹配。

另外,筆者團隊采用基于NLP文本相似度處理技術,解決相似度文本問題。例如,對于“受托戶凈資產變動表、受托財產資產變動表”,通常模型處理時會產生幻覺問題,容易把這類相似度文本理解為同義詞,造成數據抽取混亂。

為解決這個問題,筆者團隊采用詞嵌入方法,通過預訓練詞向量(Word2Vec)模型加載詞向量,構建高維空間,并將每個短語映射到高維空間中,通過余弦相似度方法計算出兩個文本的相似度。以“資產”“受托戶”“凈資產”“受托資產”“受托組合”為例,在分詞設計中,每個分詞按照7D維度張量解釋,最后通過余弦相似度找到分詞間的差異。如圖2所示,可以看出分詞向量點之間的距離差異,從而實現分詞之間相似度匹配。

圖2余弦相似度分析結果

4.2模型訓練及數據提取

筆者團隊在TensorFlow中使用卷積神經網絡[1]實現表格特征信息抽取,為本方案核心技術。具體包括以下步驟。

4.2.1特征表格分析

通過對各省份樣本數據分析,歸結出不同類型的表格情況,抽取表格特征包括:表格標題位置;行、列標題位置;列標題位置;數據起始、終止位置。

4.2.2設計卷積神經網絡結構

設計卷積神經網絡結構用于提取上述表格特征。本模型由兩個卷積層、兩個池化層以及兩個全連接層組成,激活函數使用常見的ReLU函數。

(1)模型輸入是一個 32×32×64 張量,分別為行列標題、數據區域。

(2)卷積層。第一層應用32個過濾器用于提取表格基本特征。隨著網絡加深,特征圖空間維度逐漸減少,特征數量逐漸增加;第二層卷積采用64個過濾器。

(3)根據輸入數據特征,兩個池化層均采用最大池化層,可更好地保留顯著特征。

圖3卷神經網絡模型圖
Total params:315,722 (1.20 MB) Trainable params:315,722(1.20 MB) Non-trainable params:o (0.00 B)
表1預訓練模型與“RPA DeepSeek”效果對比
說明:以上數據樣本來自33個省份的256張特征數據表。

(4)在神經網絡最后放置兩個全連接層配合ReLU函數對結果進行分類并輸出。

4.2.3模型實現

用Sequential0函數類定義表格特征模型,并用add(函數將每層神經網絡添加到模型中,最后通過summary(函數得到整體模型架構,如圖3所示。模型中包含每一層類型、特征形態、訓練參數總數的全部信息。

最終經過各省份樣本數據的模型訓練,通過show_curve輔助函數繪制模型訓練后的數據準確度、精準度(如圖4所示)。當模型訓練樣本數據不足5個時,訓練準確度和精度已達到68% 。隨著樣本數據增加到 80% ,模型準確率接近 95% ,從而驗證了預訓練模型的有效性。

圖4模型訓練準確度圖

4.2.4數據提取

模型訓練確定后,對所有樣本數據進行切片,逐一輸入模型,根據模型特征找到對應的解析算法,完成數據提取。

最后,筆者團隊將預訓練模型的識別準確度與“RPA + DeepSeek”進行了效果對比,如表1所示,預訓練模型對表格特殊類型的識別成功率均明顯高于\"RPA+DeepSeek”。

5.進化方向

由于當前案例場景獲取的樣本數據有限,模型訓練還有較多需完善和優化的空間。筆者團隊下階段主要聚焦預訓練模型降噪能力的提升和改進。

5.1增強模型降噪能力

當前各省文檔存在較多噪聲干擾,部分嚴重噪點須通過手工預處理才可提交模型解析。

5.2建立定制化預訓練模型

增加更多維度文檔特征,如隱藏數據、表格錯位、連體表格等特征,按省份建立定制化預訓練模型,進一步減少手工干預,提升智能化和效率。

最終,通過持續科學嚴謹的模型優化,實現對非結構化文檔數據提取和比對的端到端全流程智能化操作。

結語

本文選擇采用年金信息披露數據比對這一典型復雜場景,來進行技術方案的實驗和研究,結果表明能大幅提高數據提取準確度。除此之外,該技術在政府機構、企事業單位、金融機構等擁有大量非結構化文檔數據的組織中也有廣泛應用場景,并可與其他技術結合,拓展應用場景。例如,結合圖形圖像處理技術、模型訓練和自然語言處理工具,可應用于智能問答語料的切片處理、標書編寫、機構年報編寫等場景,顯著提高作業效率、降低人工成本、提升數據處理準確性,也可應用于非結構化文檔的數據治理,賦能數據價值的挖掘和實現。

參考文獻:

[1]中國新聞網.電子標準院-鴻翼非結構化數據管理解決方案聯合實驗室成立[EB/OL].(2020-09-24)[2025-03-20].https://www.chinanews.com.cn/business/2020/09-24/9298887.shtml.

[2]國務院辦公廳.國務院辦公廳關 于印發機關事業單位職業年金辦法的 通知(國辦發[2015]18號)[EB/OL]. (2015-04-06)[2025-03-20].https://www. gov.cn/zhengce/content/2015-04/06/ content_9581.htm.

[3]人社部財政部印發職業年金基金管理暫行辦法(人社部發[2016]92號)[EB/OL].(2016-09-28)[2024-12-5].https://www.gov.cn/xinwen/2016-10/12/content_5117950.htm.

[4]工商銀行.《職業年金基金信息報告和信息披露暫行辦法》(人社廳發[2019]120號)[EB/OL].https://icbc.com.cn/page/721852693214953512.html.

[5]廖萬里.金融行業企業級RPA案例分析[].金融科技時代,2021,29(7):32-34.

[6]BiX,Chen DL,Chen GT,et al.DeepSeek LLM:Scaling Open-Source Language Models with Longtermism[EB/ OL].(2024-01-05)[2025-03-20].https:// arxiv.org/abs/2401.02954.

[7]Devlin J,Chang M W,Lee K,et al.BERT: Pre-training ofDeep Bidirectional Transformers for Language Understanding. [EB/OL].(2018-10-11)[2025-03-20]. https://arxiv.org/abs/1810.04805.

[8]Mikolov T,Chen K,Corrado G,etal.EfficientEstimationofWord Representations in Vector Space[EB/OL]. (2013-01-16)[2025-03-20].https://arxiv. org/abs/1301.3781.

[9]AbadiM,AgarwalA,BarhamP,et al.TensorFlow:Large-ScaleMachine Learning on Heterogeneous Distributed Systems[EB/OL].(2016-03-14[2025-03- 20].https://arxiv.org/abs/1603.04467.

[10]Fukushima,K.Neocognitron: Aself-organizing neural network model for a mechanism of pattern recognition unaffectedbyshiftinposition[J].Biological Cybernetics,1980,36:193-202.

作者簡介:師謙,碩士研究生,277525428@qq.com,研究方向:智能化處理技術。

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲日韩Av中文字幕无码| 欧美国产日韩在线| 国产精品白浆无码流出在线看| 91福利一区二区三区| 十八禁美女裸体网站| 欧美精品不卡| 国内精品久久久久久久久久影视| 精品国产美女福到在线直播| 美女视频黄频a免费高清不卡| 欧美成人亚洲综合精品欧美激情| 欧美日韩第二页| 国产婬乱a一级毛片多女| 国产手机在线ΑⅤ片无码观看| 67194亚洲无码| 亚洲国产系列| 自拍偷拍欧美日韩| 无码中文字幕乱码免费2| 日韩免费无码人妻系列| 久一在线视频| 日韩在线成年视频人网站观看| 在线视频精品一区| 亚洲伊人久久精品影院| 久久五月天综合| 亚洲女人在线| 中文字幕调教一区二区视频| 五月婷婷中文字幕| 极品尤物av美乳在线观看| 亚洲高清中文字幕| 无码高潮喷水专区久久| 久久网综合| 美女扒开下面流白浆在线试听| 一级福利视频| 欧美不卡在线视频| 亚洲无码视频图片| 亚洲欧美激情小说另类| 亚洲成肉网| 人妻中文久热无码丝袜| 婷婷开心中文字幕| 国产亚洲精| 香蕉综合在线视频91| 永久在线精品免费视频观看| 日韩毛片免费| 有专无码视频| 又猛又黄又爽无遮挡的视频网站| 18禁影院亚洲专区| 1769国产精品免费视频| 日本精品视频| 亚洲精品无码抽插日韩| 国产精品人人做人人爽人人添| 国产理论精品| av性天堂网| 伊人国产无码高清视频| 亚洲综合精品香蕉久久网| 高清国产va日韩亚洲免费午夜电影| 久久a级片| 手机永久AV在线播放| 久久精品一卡日本电影| 亚洲精品日产AⅤ| 久久中文字幕2021精品| 欧美日韩国产成人高清视频| 免费aa毛片| 精品国产欧美精品v| 亚洲一级无毛片无码在线免费视频| 亚洲av无码人妻| 一级福利视频| 亚洲首页在线观看| 日韩黄色大片免费看| 色妞永久免费视频| 在线欧美a| 狠狠色综合久久狠狠色综合| 国产成a人片在线播放| 国产拍揄自揄精品视频网站| 国产精品99在线观看| 国产美女91呻吟求| 国产精品亚洲一区二区三区在线观看| 丁香婷婷激情网| 国产综合另类小说色区色噜噜| 欧美综合激情| 一本综合久久| 天天做天天爱夜夜爽毛片毛片| 毛片久久网站小视频| 国产精品网拍在线|