



摘要:當前,數據不僅是一種資源,更是企業決策、市場預測乃至社會經濟運行的核心驅動力。傳統的財務數據分析方法往往依賴于人工處理和分析,愈發暴露出分析效率低下、主觀干擾較多、異構支撐不足、實時交互較差等問題。大模型技術憑借其強大的特征提取和模式識別能力,可高效處理海量數據,發掘深層信息和規律,為財務數據分析領域帶來新機遇。文章提出一種基于大模型的財務數據分析框架,將其細化為5個層次:數據匯聚層、模型應用層、決策支持層、可視化服務層、運維監控層,以滿足醫院財務數據分析的現實需求,并指出其在提高數據分析效率、優化決策質量和降低財務風險等方面的重要作用。
關鍵詞:財務數據分析;大模型;醫院財務
中圖分類號:G642
文獻標識碼:A
文章編號:1009-3044(2025)15-0055-05
0引言
黨的十九屆四中全會[1]中首次明確數據作為生產要素參與社會分配。黨的二十大報告進一步指出,要加快發展數字經濟,促進數字經濟和實體經濟深度融合,打造具有國際競爭力的數字產業集群。在信息化飛速發展的時代,數據已經成為企業決策、市場預測乃至整個社會經濟運行的核心驅動力。隨著大數據技術的進步,財務數據的挖掘需求也日益增高,傳統的財務報表與簡單統計分析已無法滿足現代應用的需求。
近年來,生成式大語言模型(以下簡稱大模型)開始在多個領域嶄露頭角。通過擴大預訓練語言模型的規模和訓練數據的范圍,依靠設計好的算法架構,大模型能夠學習到更加復雜和精細的語言表示,在深度理解、邏輯推理、遵循指令、代碼生成等多個領域展現出強大的泛化能力,極大地推動了機器翻譯、文本摘要、情感分析、語義理解等領域快速發展[2]。然而,傳統大模型集中在通用任務研究領域,對于財務數據分析、報表生成、合規性監管等方面還涉獵不夠、智能化和精準化方面亟待提升[3]。
2023年7月,國家衛生健康委員會同九部門發布《關于開展全國醫藥領域腐敗問題集中整治工作的指導意見》,啟動“為期一年的全國醫藥領域腐敗問題集中整治”[4]。2024年1月8日舉行的二十屆中央紀委三次全會指出,深化整治醫藥等權力集中、資金密集、資源富集領域的腐敗,清理風險隱患,醫藥衛生行業將迎來大規模的、持續的“穿透式”監管。財務作為醫院風險和合規性控制重要防線,應持續聚焦備戰打仗急需,發揮財會監督在服務醫療改革發展、建立醫院經濟治理體系、提高資源配置效益和使用效率等重要職能,探索運用人工智能、大數據、大模型等前沿技術,加強風險管理和預測、欺詐檢測和合規性監控,為科學合理地組織財會監督,推動醫院治理體系和治理能力現代化發展。
當前,業務與財務的邊界正在逐漸消失,財務數據泛在化、業財數據一體化正在成為共識[5],然而,當前醫院還存在著醫療業務與會計核算分離、醫療救治流程與行政審批流程分離等現實情況,部分數據仍有私有化部署需求,需要在確保數據隱私的情況下開展融合分析的現實需求,迫切需要借助信息化智能化方法,提高醫院財務數據匯聚、整編、管理、分析、治理等全方位的能力。針對上述問題,本文提出一種基于大模型的醫院財務數據分析框架,聚集私有化部署、財務數據貫通等現實需求,按照數據匯聚層、模型應用層、決策支持層、可視化服務層、運維監控層等進行一體化設計,分別支撐完成數據治理、模型訓練、分析預測、交互展現、運維支撐等核心功能,確保醫院業財數據高效融合、核心數據隱私域內受控,對于提高醫療服務質量和效率,增加醫院戰斗力和應急響應能力有著重要參考價值。
1相關工作
本節分為兩部分,第一部分介紹財務數據分析領域已有的工作和進展,第二部分介紹大模型領域的研究進展,尤其是財務大模型的研究現狀。
1.1財務數據分析
財務分析是以財務報表及其他相關資料為依據,通過特定的分析技術和方法綜合評價企業的財務狀況和未來發展趨勢,歷經了財務報表分析、資本市場財務分析、業財綜合分析、大數據財務分析等階段[6]。傳統的財務分析模型[7]包括Dupont分析模型、AltmanZ-Score模型、CAPM模型等,為管理者理解財務狀況提供支持,然而大數據時代,財務作為企業運營的核心環節,對于數據處理、分析、預測等方面的需求尤為迫切,對自動化、可視化、智能化等方面都有較高期待。近年來,利用人工智能技術開展財務數據分析已經成為研究熱點,如:利用深度神經網絡模型對公司的財務指標進行預測,如凈利潤、營業收入等,通過對比不同網絡結構和參數設置,優化了模型的預測性能[8-9]。同時,利用自然語言處理技術對公司年報、新聞報道等文本數據進行挖掘和分析,提取出文本中的關鍵信息和情感傾向,為投資者提供決策支持[10]。運用強化學習算法對投資組合進行優化,以實現收益最大化和風險最小化。通過模擬交易環境和歷史數據回測,驗證了算法的有效性和穩定性[11-12]。
1.2大模型研究
智能財務研究院發布的《2024人工智能大模型技術財務應用藍皮書》[3]指出,全球主流大模型按技術開放度可分為閉源和開源兩類,分別由GPT系列與LLaMa系列模型代表。隨著模型參數和訓練數據的擴大,涌現能力得到提升,推理能力顯著增強。大模型在財務領域的應用需求日漸迫切,包括數據處理、智能分析、自然語言交互及合規風險控制等方面。科技企業紛紛布局財務大模型市場,提供精細、實時、數據洞察能力,以滿足行業需求。
通用大模型的研究進展加速飛躍,財務領域對大模型的需求也愈發迫切,集中在數據處理、智能分析與預測、自然語言交互和合規風險控制等多個方面。目前,眾多科技企業紛紛布局財務領域的大模型市場,圍繞深度賦能財務領域相關智能業務,提供的精細、實時、多維的數據洞察能力等現實需求,國內財務服務領域的科技企業也相繼發布了企業服務大模型。金蝶于2023年推出了中國首個財務大模型蒼穹GPT助手[13],旨在通過AI技術來優化財務管理流程,實現財務數據自動錄入、分類、報告生成等環節,用于減少人力成本,提高數據處理的速度和質量,以提高財務管理的效率和準確性。華為的金融大模型解決方案[14],則力圖通過場景層、模型層、底座層的三層方案幫助客戶打造創新生產力、躍升智力、澎湃算力。
2模型框架
面對信息化與智能化的大趨勢,醫院財經活動的網絡化與數字化運行要求財務數據分析跟上時代步伐。這需要加強以數據建設為核心的研究,構建科學規范的數據分析理論體系,支撐財務信息化的高效發展。本文提出一種基于大模型的醫院財務數據分析框架,聚集私有化部署、財務貫通等現實需求,按照數據匯聚層、模型應用層、決策支持層、可視化服務層、運維監控層等5個層次進行一體化設計。
數據治理層:基于核算體系的一致性、信息系統的類似性、業務財務的對應性、數據屬性的具象性,圍繞財經活動業務流程,通過數據治理,“建立數據標準、加強數據融合、開展分布式處理”,解決多樣化數據采集、海量數據清洗、海量數據分析建模、海量數據快速計算、海量數據挖掘等問題,全面提升醫院財經管理工作質效。
模型應用層:圍繞提高分析效率、優化決策質量、降低財務風險等任務目標,由數據治理層輸入標準化序列數據,在應用層中分為預訓練、微調、推理等三個主要階段,分別就參數配置、任務適配和應用場景預測等進行優化,不斷提升模型預測的精準度。
決策支持層:通過匯聚ERP、CRM等醫院業務系統數據,建立分析模型對潛在風險進行預警,針對收入預測、成本預測、現金流預測等醫院管理重點關注的分析場景,全方位支撐趨勢研判、決策評估、風險處置等業務需求,不斷提升決策分析能力。
可視化服務層:通過提供一系列工具和智能服務插件,使終端用戶能夠以圖形化方式直觀地展示和分析數據,支撐用戶對數據可視化、交互式分析、一體化感知等使用需求,幫助用戶更好地理解和利用數據,實現數據價值最大化。
運維監控層:通過對基礎算力、算法、數據等進行全面監控管理,如資源管理、安全防護、服務優化、日志記錄等,確保整個體系穩定運行,提高資源利用率,加強服務質量和安全防護,輔助用戶了解服務的運行情況、找出優化的目標策略、提升服務質量和滿意度。模型的整體框架如圖1所示。
3組成要素
數據的采集、匯聚、治理、融合、應用等貫穿模型的全生命周期,覆蓋管理、質量、安全等不同方面,明確不同層次之間的關聯和交互,是優化模型設計的重要依據。
3.1數據匯聚層
醫院的財務信息系統和業務系統復雜,存在字段名設置差異、數據格式不一致等問題,給財務數據的分析帶來挑戰。通過制定醫院財務數據治理融合體系,使醫院業財數據統一標準、統一結構,為數據分析模型共享奠定基礎。
3.1.1整合多源數據,構建醫院業財數據共享體系
通過建立醫院數據融合平臺,提供多數據源管理,實現海量數據的有效整合與清洗,確保數據高效導入與實時告警。醫院的數據不僅包括標準配發系統的數據,還涵蓋各類定制開發的管理系統及醫療器械數據,涉及結構化與非結構化數據。通過建立集中管理平臺,將不同格式與標準的數據統一管理,確保數據真實、完整和可靠。
①源數據整合:醫院數據除了標準配發系統數據以外,還包括各類型定制開發的輔助管理系統以及大型醫療器械固有系統所產生的數據,數據類型不僅僅涉及常見的Oracle、MySQL、SQLServer等結構化數據,還包括文本、圖像等非結構化數據。通過建立實例、設置主題等方法將不同格式、不同標準的數據統一到一個平臺上實施集中管理。
②數據抽取、預先定義數據結構:針對數據分析目標、預置數據范圍以及預開,通過預設財務發的ETL抽取算子,實現從海量的分布式數據中獲取可直接應用于分析的基礎數據。為確保數據抽取真實、完整、可靠,還通過定制的預警插件對數據抽取過程進行全程監控,實現了數據可回溯、可驗證。
③海量加載處理:,為解決醫院各類數量不斷增造成在線應用卡頓、效率低等問題,應用了分布式數據查詢技術、優化數據加載算子,實現了PB級數據并行加載,線性彈性擴容,做到了在線應用不中斷、各系統實例平滑切換。
3.1.2建立數據標準體系,完善數據質量稽核功能
數據標準的制定保證數據的真實原始,同時滿足核查的需求,統一數據標準,在數據分析處理的各個環節落地。通過數據標準可對醫院各類系統的數據結構進行落地標準化。
元數據管理是整個數據治理的基礎,不但為數據標準的梳理提供信息,也要承擔醫院數據資產管理任務,同時為數據分析結果的追溯提供檢核對象。數據質量稽核滲透在每個邏輯模塊中,包括醫院數據導入導出質量、數據轉換落地質量、數據規范等,建立有效的數據質量監控及檢核機制,有助于提升分析的準確性和一致性。數據質量清洗是數據融合治理的最后環節,也是保證數據治理是否能閉環的重要環節,將數據質量稽核中有問題的數據進行清洗后供上層數據分析調用。
醫院財務大數據分析平臺通過封裝數據抽取算子、數據轉換算子、數據清洗算子、數據導入算子、數據質量稽核算子,實現醫院數據的跨單位融合聚集供應。數據轉換融合包括單源數據多插件鏈式清洗轉換和多源數據復雜邏輯清洗轉換,支持靈活可定制的插件式和復雜邏輯式數據清洗轉換融合。
3.1.3構建分布式內存計算服務,提升數據處理效率
通過構建數據分析引擎,提供分布式內存計算服務,實現無需關注數據差異性即可對海量數據進行快速查詢,可高效實現海量異構數據的快速查詢、全文搜索、聚合分析,支持結構化、非結構化、半結構化數據,包括文件存儲、關系型數據庫、大數據全文檢索等;使用數據分析引擎的查詢、檢索和分析能力提供豐富的融合數據查詢分析能力,可實現跨應用系統統一數據融合共享,各系統之間的數據聯合查詢、快速跨系統、跨應用、跨數據源數據的統一搜索,快速發現疑點。數據分析引擎,基于分布式內存計算技術,由SQL解析組件、語義優化組件、元數據管理、執行計劃優化、分布式計算引擎、數據源適配器組成,如圖2所示。
3.2模型應用層
3.2.1預訓練(Pre-Training)
預訓練之前要確定模型的架構(包括模型基本單元Transformer的類型,模型的結構配置如正則化、位置編碼、激活函數、注意力和偏置等,模型的規模配置如層數和各層單元數等)、預訓練的具體任務(如語言建模、去噪自編碼或者混合專家等)、訓練過程中的優化參數配置(如優化器選擇、批量數(Batch)、學習率、訓練精度等)、并行訓練(如數據并行、流水線并行、張量并行)與加速、穩定性控制等(如定期檢查點)。預訓練過程可以分成多個階段,每個階段在已有檢查點的基礎上,調整優化參數的配置、預訓練語料的構成,以及預訓練任務之后是否進行繼續進行等。
3.2.2微調(Fine-Tuning)
微調將預訓練后的大模型(基礎模型,具備通用的語言能力)適配到目標任務上,這通常需要在有標注的語料集上進行訓練。微調包括指令微調和對齊,前者使用針對目標任務所構建的指令格式語料集(典型的如:問答語料)來繼續訓練基礎模型,旨在增強基礎模型在目標任務上的能力,如監督微調(SupervisedFine-Tuning)、多任務微調等;后者旨在使用經過人類反饋校準的語料將模型的行為與人的價值觀、偏好對齊,如基于人類反饋強化學習(ReinforcementLearningfromHumanFeedback,RLHF)和DPO(直接偏序優化,DirectPreferenceOptimization)等。此外,在具體應用場景下還可以針對特定目標進行高效微調,如適配器微調(AdapterTuning)、前綴微調(PrefixTuning)、提示微調(PromptTuning)和低秩適配等,這些策略都可以在不改動原有參數的基礎上,通過在大模型中新增一些額外參數進行訓練的方式來將其適配到特定目標場景上,進而更快地得到滿意的結果。
3.2.3推理(Inference)
大模型的推理過程(主要是解碼過程,即逐字生成出最終的文本輸出的過程)同樣是成本較高的。不同任務中為了平衡準確性、多樣性和生成速度,在解碼策略上也有多種考慮,如貪心搜索(GreedySearch,速度較快但可能損失連貫性)、束搜索(BeamSearch,連貫性好但速度慢)以及Top-kSampling(引入隨機采樣,多樣性更好但犧牲精確性)等,需要根據不同應用場景中的對創造性和精確性的要求而定。
3.3決策支持層
3.3.1財務預測與趨勢分析
基于歷史數據和大模型的能力對醫院各領域財務收支進行估計,在此基礎上通過研究歷史數據的變化模式來識別長期的發展方向,輔助決策層進行戰略規劃和投資決策,具體的預測點和趨勢分析能力如圖3所示。
3.3.2財務風險評估與預警
通過構建一體化的評估與預警模型,識別并評估潛在的財務風險因素,并運用模型評估風險的后果和可能性,在達到指定閾值時發出警告并自動化地采取措施。具體可細化為風險識別、風險評估、風險預警和風險防范四個步驟,具體如圖所示。通過引入大模型技術,可以提高風險識別的準確性和預警的及時性,同時借助大模型的增量學習和優化機制,實現更加智能的風險監測和預警。
此外,財務是一個對精確性、可解釋性要求極高的領域,而算法模型則是以統計為基礎的預測(本質上無法做到精準),且由網絡參數和連接獲得的“智能”大模型可解釋性較差。為保證智能財務的落地可用,必須構建財務領域知識圖譜,形成顯性的、明確的、可解釋的知識體系,在此基礎上與大模型算法進行融合應用。因此針對不同財務應用領域構建財務領域知識圖譜是智能財務極為重要的基礎工作。
3.4可視化服務層
主要完成結果可視化和報告生成功能,其中:盤等形式呈現
①結果可視化,使管理層能夠直觀地了解財務狀況和,是將分析結果以圖表、曲線、儀表服務情況,具體可包括數據資源準備、服務組件集成等內容。在此基礎上,也可以通過數據過濾、數據鉆取、數據聯動等方式建立交互式大屏、疑點監控態勢,為決策層提供動態的、可交互的用戶體驗,具體如圖4。
②報告生成與分享,是通過大模型技術,將可視化分析結果與數據分析圖表等內容進行融合,在標準化模板的驅動下,定期自動生成詳細的財務數據分析報告,經過人工審核后可直接發送管理決策部門,形成支撐能力。
3.5運維監控層
整個系統安全穩定運行需要對算法、算力和數據進行全方位的監控記錄,本層注重從性能、功能、服務優化等方面進行全面記錄并提供數據支撐。
3.5.1模型性能監控
大模型需要進行長期的、動態的數據更新,對于數據資源的質量、標準、大小等都有著明確的要求,此外隨著并發請求的增多,模型在計算性能、準確度、召回率等方面也會有所波動。因此,需要建立一套模型運行監控體系,定期評估模型的性能,監控數據質量,及時處理異常數據和錯誤,確保模型始終處于最佳狀態。
3.5.2模型更新與優化
隨著財務分析系統投入運營,后續引入的新的系統和數據資源,以及源源不斷的業務需求,都對模型的更新和優化提出更高要求,需要從、數據、報告模板、數據標準、預警閾值等多個方面對模型進行迭代更新,確保其始終符合業務場景需求。
3.5.3安全與合規性管理
①法規制度方面。確保財務數據分析過程符合相關法律法規和行業標準,保護醫院敏感數據的隱私和安全。建立健全技術措施保障、規章制度執行、人員安全教育相結合的綜合安全防護體系,嚴格按照保密部門對信息系統的分級保護建設要求,認真做好涉密信息系統的分級保護定級、備案和測評工作;嚴格落實網絡安全工作責任制,細化措施,責任到人;
②技術防護方面。強化網絡技術和信息系統的安全防護,加大關鍵信息基礎設施安全保護力度和網絡安全檢測力度,提升網絡數據安全應急處置能力。安裝部署數據防泄漏系統,控制數據傳遞邊界,數據超出邊界自動加密,離開平臺落地加密,跨邊界傳遞數據需經審批解密,同時數據訪問全程留痕可追溯可審計。
4典型應用場景
搭建企業級智能助手,通過無代碼的配置持續擴展其能力,包括知識問答、數據問答等功能,方便醫院人員查詢財務政策、報銷流程等信息,也便于專業用戶開展自然語言場景下的數據分析。
查詢需求:給定一張銀行對賬單,查詢“2月份交易次數最多的對手單位”。
解決流程:運用大模型自然語言轉換能力,實現NLP到SQL語言的轉換工程,并針對摘要、備注等內容進行合理篩選,找出匹配的目標集合。具體從5個層級上來看,主要包括:
①數據匯聚層:匯聚醫院各賬戶的交易明細,根據數據標準,保留關鍵字段(如交易時間、對手方賬號、對手方姓名、備注等)形成待銀行賬戶交易明細清單。
②模型應用層:開展進行NLP到SQL的轉換工作,得到具體的查詢語句,并開始運行相關語句進行查詢。
③決策支持層:調用銀行賬戶相關模型,對該交易對手的信用情況,歷史交易情況等進行匯聚,有違規失信等行為時反饋結果的同時進行預警提醒。
④可視化服務層:根據要求調用柱狀圖或餅狀圖,形成交易次數、金額等匯聚信息,同步展現排名前5的交易情況等,預測下一步交互方向,展現多維度查詢結果。
⑤運維監控層:完成數據查詢權限評估(如查詢內容是否有敏感字段,查詢人是否有權限讀取敏感信息)、模型運行時間記錄、查詢日志保存等工作。
5結論
針對醫院財務數據監管與分析需求,本文提出了一種基于大模型的財務數據分析框架,細化為數據匯聚層、模型應用層、決策支持層、可視化服務層和運維監控層,以更好地適應醫院財務分析的實際需求,為大模型技術在醫院財務分析領域的應用進行了初步探索。隨著技術的不斷進步和應用場景的不斷拓展,大模型技術將在醫院財務管理中發揮更加重要的作用,為增強醫院戰斗力和應急響應能力、優化醫療資源配置、建立科學合理的經濟秩序等方面提供重要支撐。隨著技術的進步與應用場景的拓展,未來的研究將聚焦多模態融合、實時動態分析及跨領域集成應用。
參考文獻:
[1]中共中央關于堅持和完善中國特色社會主義制度推進國家治理體系和治理能力現代化若干重大問題的決定[J].新湘評論,2019(22):8-19.
[2]張熙,楊小汕,徐常勝.ChatGPT及生成式人工智能現狀及未來發展方向[J].中國科學基金,2023,37(5):743-750.
[3]智能財務研究院《.人工智能大模型技術財務應用藍皮書》重磅發布[EB].2024.
[4]中華人民共和國國家衛生健康委員會等,關于開展全國醫藥領域腐敗問題集中整治工作的指導意見[EB].北京:中華人民共和國國家衛生健康委員會,2023.
[5]田高良,高軍武,高曄喬.大數據背景下業財融合的內在機理探討[J].會計之友,2021(13):16-21.
[6]金源,莊璐怡,魏振等.基于ChatGPT的財務分析:框架、應用與效果評估[J].財會月刊,2023,44(19):24-30.
[7]孫樹壘,王亞東,張正勇.企業財務風險評價新方法探析[J].中國注冊會計師,2021(12):105-108.
[8]宋美琦.基于深度學習的企業財務困境預測方法研究[D].北京:北京郵電大學,2023.
[9]安世俊.基于深度學習的化工企業財務數據信息異常分析方法[J].中國新技術新產品,2023(8):34-36.
[10]路司丞.基于自然語言處理的年報情感分析研究[D].成都:西南財經大學,2022.
[11]李彬,潘喬,閻希平.基于深度強化學習的投資組合構建方法[J].智能計算機與應用,2024,14(8):85-90.
[12]王康,白迪.基于深度強化學習的投資組合管理研究[J].現代計算機,2021,27(1):3-11.
[13]周雨萌.金蝶:發布中國首個財務大模型,從深圳走向世界一流[N].深圳特區報,2023-12-18.
[14]華為技術有限公司.華為發布金融大模型解決方案,加速金融行業智能化[EB/OL].https://e.huawei.com/cn/news/2023/industries/finance/accelerate-the-financial-industry,2023.
【通聯編輯:王力】