引言
在企業日常運營產生的數據中,非結構化數據占企業數據總量的 80% 1。員工日常工作中面臨繁重的非結構化文檔處理任務,由于文檔格式復雜、行文標準不統一,處理過程既困難又耗時,產生了高昂的人力成本和時間成本。
盡管機器人流程自動化(roboticprocessautomation,RPA)、大模型在文本切片處理方面表現出色,但對于非結構化文檔的數據抽取效果卻不盡如人意。例如,文檔中表格出現單元格合并、無邊框、標題行列與內容行列不對應等情況時,識別可能為空或錯誤數據。
筆者團隊以職業年金信息披露這一典型應用場景為例,詳細闡述了對復雜非結構化文檔的自動化和智能化處理的探索研究。
1.職業年金信息披露應用場景介紹
職業年金是為完善機關事業單位多層次養老保險體系而建立的補充養老保險制度2。隨著年金市場化投資運營穩步推進,年金基金投資規模不斷增長。為加強基金監管,保障基金安全,要求各基金管理機構加強基金信息報告和信息披露行為[3-4]。
(以下簡稱“泰康養老”)作為受托人,須收集來自投資管理人和托管人等管理機構的信息披露報告,進行數據比對后形成受托人信息披露報告報送。各機構信息披露報告通常以多種非結構化文檔形式傳遞,在行業內沿用多年并得到普遍認可。泰康養老雖曾多次嘗試通過數字化轉型推動信息數字化報送,但由于行業慣例根深蒂固,基于非結構化文檔信息交換的方式在短期內難以被完全取代。
面對日益增長的年金運營規模,人工信息披露比對暴露出效率低下、易出錯且難以應對復雜多樣數據情況等問題。因此,如何在現有情況下,實現對非結構化文檔數據的精準抽取與比對,成為提升年金運營效率、保障信息披露質量的關鍵挑戰。
2.非結構化文檔處理解決方案探索
基于以上問題,筆者團隊進行了非結構化文檔智能處理的探索。
2.1RPA+DeepSeek
自動化探索初期,筆者團隊采用“RPA[5+DeepSeek[]”方式嘗試解決數據抽取和比對問題。包括以下三個步驟:
(1)表格數據抽取。將每個省份的信息披露報告的所有表格標題分別存儲到對應省份列表中,通過PDFplumber.getTable方法找到對應標題下的表格,最后將表格抽取到Excel中,形成各省份的特征表格。
(2)DeepSeek模型學習。將特征表格中抽取的行列標題存儲到對應省份字典中,再將字典結構輸入DeepSeek模型,通過數據結構訓練,構建出包含各省份特征的模型庫。
(3)特征表格數據抽取和比對。將源文件傳送給特征模型庫進行數據抽取,通過Python編程實現最終的數據比對和校驗。
但此方案仍有以下三個方面的不足:
(1)表格抽取偏移量計算不準確。因無法保證表格最后的單元格為標準格式,如存在合并單元格、插入公式等情況,導致RPA無法準確計算偏移量值,使數據抽取丟失。
(2)須手動配置字典庫。如某個省份表格字段發生變化,須手動更新對應省份字典庫。
(3)模型訓練效果不理想。因DeepSeek對表格復雜格式學習效果欠佳,無法較好理解表格字段邏輯,所以成功率僅 35% 。
2.2預訓練模型
預訓練模型是指在大規模數據集上預先訓練的神經網絡模型,在自然語言處理(NLP)、圖像識別等領域應用廣泛,常見模型包括循環神經網絡(RNN)、基于Transformer的雙向編碼器表征(bidirectionalencoderrepresentationsfromtransformers,BERT)模型、詞向量(Word2Vec)模型等。在大規模數據集上,通過某些特定任務進行模型預先訓練。通過預訓練,讓模型學習到數據內在結構和規律,以及語言通用表示。經筆者團隊反復實驗及論證,最終采用預訓練模型技術方案進行智能化處理,具體方案及技術見后文。
3.非結構化文檔智能處理方案設計
參照人工信息披露處理流程,基于預訓練模型設計了非結構化文檔智能處理方案,具體設計如下文所述。
3.1數據輸入與預處理
(1)支持用戶上傳多種格式的年金信息披露報告文檔。
(2)自動進行文本清洗和格式標準化。
3.2信息抽取
通過預訓練模型強大的學習能力,自動識別文本中的表格和關鍵信息。系統能處理多樣化及復雜化的表格結構,確保準確抽取所需字段信息。
3.3上下文理解與分析
通過預訓練階段學習到的上下文語義關系,對抽取到的信息進行深人學習與分析,掌握語義之間的邏輯關系。
3.4比對結果報告生成與輸出
將處理后的數據比對結果生成結構化報告,支持導出PDF或Excel格式,便于進一步分析。
4.預訓練模型關鍵技術分析
本方案技術難點在于預訓練模型訓練和訓練階段數據處理。通過對信息披露報告中表格樣本進行特征抽取和訓練,建立非結構化文檔智能模型,實現對各種復雜、動態表格數據的精準抽取,完成數據比對(如圖1所示),具體分為三個步驟。
(1)表格切片。以表格為中心進行切割,將表格拆分為“表格標題”“列標題”“行標題”和“數據區域”。
(2)模型訓練。根據拆分后的表格切片確定字段和數據抽取的模型和算法,通過TensorFlow進行模型訓練,生成對應表格模型。

(3)數據提取。將不同表格樣本數據輸入對應表格訓練模型,抽取所有字段數據。
下面分別闡述各環節中涉及的相關技術。
4.1表格切片
切片時文本中存在各種特殊情況,會產生大量噪聲干擾,對數據準確抽取與比對有很大影響。實踐中筆者團隊遇到的情況包括表格標題位置差異、表格格式復雜多樣、相似度文本識別等。
(1)表格標題位置差異。源文件標題位置和標準文件中位置不一致,無法通過默認標題位置找到對應數據。
(2)表格格式復雜多樣。第一,表格標題、行列分布等特征結構繁多,如表格標題在表格內層、表格外層等。第二,同一實體在不同報告中存在差異,包括標題、表格字段、基金名稱等。第三,部分省份接收到的報告規范化較差,存在連體表格、隱藏目錄等情況。
(3)相似度文本識別。實際樣本數據中存在大量相似度文本,如“受托戶凈資產變動表、受托財產資產變動表”“占凈資產比例 (% )、占組合凈資產比例(% )”等,極易被解析為同義詞。
為減少文本數據干擾,確保表格切片準確度,筆者團隊進行了文本降噪和相似度處理的研究和解決。筆者團隊采用自然語言處理(NLP)工具SpaCy和NLTK雙模型降噪方法,對兩種模型降噪結果進行比對,取交集,提高可信度,減少因降噪帶來的誤差。
4.1.1 SpaCy模型
第一,分詞階段。使用分界符(表格中特定的標點符號)初始化分詞器,切分原始文本,獲得單獨token。例如,將“定期存款/協議存款”進行分詞,剔除分隔符,轉換成“定期存款”“協議存款”。
第二,模式匹配階段。將上一步得到的分詞,建立parten(要進行匹配的短語模式列表)在文中查找符合各自模式的短語。
第三,將短語中的分詞進行詞性標注,構建具有年金信息披露特征的語料庫,用于模型訓練。
第四,將訓練好的模型應用于全部樣本,最終查找出符合匹配規則的對象。
4.1.2NLTK模型
第一,分詞。使用NLTK模型中的函數work_tokenize將樣本切割成單詞。
第二,降噪。采用停用詞庫篩選掉分詞后的無意義詞語。
第三,標注詞性。為分詞的每個單詞標注詞性,建立單詞、單詞屬性映射表。
第四,使用正則表達式定義簡單的語法規則來表示名詞短語,NP表示名詞短語,NN表示名詞。
第五,使用解析器對標注后的文本進行解析,并抽取出符合語法規則的短語。
NLTK模型是SpaCy模型的有效補充,能有效提高文本分詞精準度。通過使用兩種降噪方法,模型能更準確地理解和處理信息,實現了 100% 精確匹配。
另外,筆者團隊采用基于NLP文本相似度處理技術,解決相似度文本問題。例如,對于“受托戶凈資產變動表、受托財產資產變動表”,通常模型處理時會產生幻覺問題,容易把這類相似度文本理解為同義詞,造成數據抽取混亂。
為解決這個問題,筆者團隊采用詞嵌入方法,通過預訓練詞向量(Word2Vec)模型加載詞向量,構建高維空間,并將每個短語映射到高維空間中,通過余弦相似度方法計算出兩個文本的相似度。以“資產”“受托戶”“凈資產”“受托資產”“受托組合”為例,在分詞設計中,每個分詞按照7D維度張量解釋,最后通過余弦相似度找到分詞間的差異。如圖2所示,可以看出分詞向量點之間的距離差異,從而實現分詞之間相似度匹配。

4.2模型訓練及數據提取
筆者團隊在TensorFlow中使用卷積神經網絡[1]實現表格特征信息抽取,為本方案核心技術。具體包括以下步驟。
4.2.1特征表格分析
通過對各省份樣本數據分析,歸結出不同類型的表格情況,抽取表格特征包括:表格標題位置;行、列標題位置;列標題位置;數據起始、終止位置。
4.2.2設計卷積神經網絡結構
設計卷積神經網絡結構用于提取上述表格特征。本模型由兩個卷積層、兩個池化層以及兩個全連接層組成,激活函數使用常見的ReLU函數。
(1)模型輸入是一個 32×32×64 張量,分別為行列標題、數據區域。
(2)卷積層。第一層應用32個過濾器用于提取表格基本特征。隨著網絡加深,特征圖空間維度逐漸減少,特征數量逐漸增加;第二層卷積采用64個過濾器。
(3)根據輸入數據特征,兩個池化層均采用最大池化層,可更好地保留顯著特征。



(4)在神經網絡最后放置兩個全連接層配合ReLU函數對結果進行分類并輸出。
4.2.3模型實現
用Sequential0函數類定義表格特征模型,并用add(函數將每層神經網絡添加到模型中,最后通過summary(函數得到整體模型架構,如圖3所示。模型中包含每一層類型、特征形態、訓練參數總數的全部信息。
最終經過各省份樣本數據的模型訓練,通過show_curve輔助函數繪制模型訓練后的數據準確度、精準度(如圖4所示)。當模型訓練樣本數據不足5個時,訓練準確度和精度已達到68% 。隨著樣本數據增加到 80% ,模型準確率接近 95% ,從而驗證了預訓練模型的有效性。

4.2.4數據提取
模型訓練確定后,對所有樣本數據進行切片,逐一輸入模型,根據模型特征找到對應的解析算法,完成數據提取。
最后,筆者團隊將預訓練模型的識別準確度與“RPA + DeepSeek”進行了效果對比,如表1所示,預訓練模型對表格特殊類型的識別成功率均明顯高于\"RPA+DeepSeek”。
5.進化方向
由于當前案例場景獲取的樣本數據有限,模型訓練還有較多需完善和優化的空間。筆者團隊下階段主要聚焦預訓練模型降噪能力的提升和改進。
5.1增強模型降噪能力
當前各省文檔存在較多噪聲干擾,部分嚴重噪點須通過手工預處理才可提交模型解析。
5.2建立定制化預訓練模型
增加更多維度文檔特征,如隱藏數據、表格錯位、連體表格等特征,按省份建立定制化預訓練模型,進一步減少手工干預,提升智能化和效率。
最終,通過持續科學嚴謹的模型優化,實現對非結構化文檔數據提取和比對的端到端全流程智能化操作。
結語
本文選擇采用年金信息披露數據比對這一典型復雜場景,來進行技術方案的實驗和研究,結果表明能大幅提高數據提取準確度。除此之外,該技術在政府機構、企事業單位、金融機構等擁有大量非結構化文檔數據的組織中也有廣泛應用場景,并可與其他技術結合,拓展應用場景。例如,結合圖形圖像處理技術、模型訓練和自然語言處理工具,可應用于智能問答語料的切片處理、標書編寫、機構年報編寫等場景,顯著提高作業效率、降低人工成本、提升數據處理準確性,也可應用于非結構化文檔的數據治理,賦能數據價值的挖掘和實現。
參考文獻:
[1]中國新聞網.電子標準院-鴻翼非結構化數據管理解決方案聯合實驗室成立[EB/OL].(2020-09-24)[2025-03-20].https://www.chinanews.com.cn/business/2020/09-24/9298887.shtml.
[2]國務院辦公廳.國務院辦公廳關 于印發機關事業單位職業年金辦法的 通知(國辦發[2015]18號)[EB/OL]. (2015-04-06)[2025-03-20].https://www. gov.cn/zhengce/content/2015-04/06/ content_9581.htm.
[3]人社部財政部印發職業年金基金管理暫行辦法(人社部發[2016]92號)[EB/OL].(2016-09-28)[2024-12-5].https://www.gov.cn/xinwen/2016-10/12/content_5117950.htm.
[4]工商銀行.《職業年金基金信息報告和信息披露暫行辦法》(人社廳發[2019]120號)[EB/OL].https://icbc.com.cn/page/721852693214953512.html.
[5]廖萬里.金融行業企業級RPA案例分析[].金融科技時代,2021,29(7):32-34.
[6]BiX,Chen DL,Chen GT,et al.DeepSeek LLM:Scaling Open-Source Language Models with Longtermism[EB/ OL].(2024-01-05)[2025-03-20].https:// arxiv.org/abs/2401.02954.
[7]Devlin J,Chang M W,Lee K,et al.BERT: Pre-training ofDeep Bidirectional Transformers for Language Understanding. [EB/OL].(2018-10-11)[2025-03-20]. https://arxiv.org/abs/1810.04805.
[8]Mikolov T,Chen K,Corrado G,etal.EfficientEstimationofWord Representations in Vector Space[EB/OL]. (2013-01-16)[2025-03-20].https://arxiv. org/abs/1301.3781.
[9]AbadiM,AgarwalA,BarhamP,et al.TensorFlow:Large-ScaleMachine Learning on Heterogeneous Distributed Systems[EB/OL].(2016-03-14[2025-03- 20].https://arxiv.org/abs/1603.04467.
[10]Fukushima,K.Neocognitron: Aself-organizing neural network model for a mechanism of pattern recognition unaffectedbyshiftinposition[J].Biological Cybernetics,1980,36:193-202.
作者簡介:師謙,碩士研究生,277525428@qq.com,研究方向:智能化處理技術。