【摘 要】 生成式人工智能(AIGC)的快速崛起,掀起“人工智能+”賦能各行各業(yè)的浪潮,對會計領域的研究提供了新思路。由于財會行業(yè)要求高精確性與可解釋性,而大語言模型存在著模型幻覺與決策黑箱,使得大模型應用于財會領域仍存在較大阻礙,構(gòu)建財會知識圖譜成為彌補大語言模型不足的有力工具。基于此,文章調(diào)用GPT-4o mini API,利用提示詞工程(Prompt)與智能體(Agent)思路方法進行自動化知識抽取,構(gòu)建中國會計準則知識圖譜,從模式層提取財會實體與實體間復雜的勾稽關系,為大模型優(yōu)化微調(diào)提供數(shù)據(jù)層支持。圖譜構(gòu)建結(jié)果表明,GPT-4o mini能夠成功從大量財務數(shù)據(jù)中提取豐富的知識五元組,并基于此構(gòu)建財會知識圖譜。最終,通過Neo4j技術實現(xiàn)知識圖譜的可視化和查詢功能。本研究證明大語言模型構(gòu)建財會知識圖譜具備可行性,能夠顯著提高知識圖譜構(gòu)建效率,為知識圖譜的優(yōu)化構(gòu)建提供新思路,也為未來知識圖譜融入大模型、優(yōu)化模型性能提供基底數(shù)據(jù)支撐。
【關鍵詞】 大語言模型; 知識圖譜; 智能化構(gòu)建; 財會知識
【中圖分類號】 F230" 【文獻標識碼】 A" 【文章編號】 1004-5937(2025)05-0152-10
一、引言
隨著多任務處理的通用人工智能(Artificial Intelligence,AI)時代的到來,人工智能技術已經(jīng)成為新一輪科技革命和產(chǎn)業(yè)變革的重要推動力量。人工智能作為一項前沿技術,正在不斷實現(xiàn)顛覆性突破,是新質(zhì)生產(chǎn)力生成的重要內(nèi)在動力,是我國實現(xiàn)高質(zhì)量發(fā)展必要的重要驅(qū)動力之一。2024年3月,國務院《政府工作報告》指出,要深入推進數(shù)字經(jīng)濟創(chuàng)新發(fā)展,提出將“人工智能+”作為重要工作內(nèi)容,推動構(gòu)建數(shù)字產(chǎn)業(yè)集群,以深刻的數(shù)字變革賦能經(jīng)濟高質(zhì)量發(fā)展。2024年6月,工業(yè)和信息化部等四部門聯(lián)合印發(fā)《國家人工智能產(chǎn)業(yè)綜合標準化體系建設指南》(工信部聯(lián)科〔2024〕113號)(簡稱《指南》),指出要抓住人工智能產(chǎn)業(yè)發(fā)展先機,加快賦能新型工業(yè)化,為推動人工智能產(chǎn)業(yè)發(fā)展提供堅實的技術支撐。《指南》還提出人工智能標準體系結(jié)構(gòu),特別強調(diào)人工智能發(fā)展框架下的關鍵技術與行業(yè)應用,將自然語言處理、大模型和知識圖譜作為關鍵技術重點發(fā)展,同時實現(xiàn)科學智算、智慧金融及其他行業(yè)應用,加快人工智能產(chǎn)業(yè)標準體系形成。黨的二十大報告也強調(diào)要把握信息科技、人工智能等新的經(jīng)濟增長引擎,以數(shù)字中國的建設助力中國式現(xiàn)代化。黨中央及各級政府高度重視“人工智能+”的發(fā)展給社會各方面帶來的影響,人工智能也正在改變著社會生產(chǎn)生活方式、思維模式和研究范式。如何將“人工智能+”更好地賦能到各行各業(yè)是一個重要且亟待解決的問題。
隨著全社會人工智能產(chǎn)業(yè)化體系建設的全面開啟,會計面臨全新的經(jīng)濟環(huán)境,對會計內(nèi)容、從業(yè)人員、工作流程和職能等都提出新要求[1]。2021年,《會計信息化發(fā)展規(guī)劃(2021—2025)》,強調(diào)在“十四五”時期會計要緊跟時代發(fā)展步伐,運用人工智能等推動會計工作創(chuàng)新發(fā)展。2024年7月,財政部修訂印發(fā)《會計信息化工作規(guī)范》,鼓勵具備條件的單位探索大數(shù)據(jù)、人工智能等在會計領域的應用,注重會計數(shù)據(jù)的生成、獲取、儲存及安全,從技術應用層面推動會計工作的集約化、自動化與智能化。可見,人工智能的發(fā)展勢必會掀起會計領域改革的浪潮,“人工智能+會計”是行業(yè)發(fā)展的必經(jīng)之路。多任務處理的通用大語言模型,無論是開源模型還是閉源模型,在縱深的會計專業(yè)領域尚未發(fā)揮出應有的作用,未能達到應用要求。原因有:(1)會計領域?qū)I(yè)性強。它具有獨特的專業(yè)術語、會計準則和會計規(guī)范,基于廣泛語料的通用語言模型無法很好地理解及處理會計專業(yè)知識與規(guī)則。(2)勾稽關系復雜。會計科目數(shù)量多、關聯(lián)性強,要求大語言模型具備強推理能力,而通用大模型在精細與復雜推理中表現(xiàn)不佳。(3)解釋性要求高。會計涉及敏感精細的財務信息,精確性要求高,需要根據(jù)具體業(yè)務背景與財務信息進行推理與決策,而通用大模型的弱解釋性,難以提供符合財務人員要求的解釋或決策支持。
因而,眾多學者將目光轉(zhuǎn)向提升模型能力的研究。知識圖譜成為輔助提升模型能力的重要方式之一,成為彌補大語言模型缺陷的有力工具。大語言模型通常在通用知識、語言處理以及概括性方面表現(xiàn)良好[2-3],而其存在的模型幻覺、決策黑箱與特定領域能力缺失等問題[4-6],限制其垂直化的發(fā)展。相反,知識圖譜的優(yōu)勢彌補大語言模型上述劣勢,圖譜能夠以結(jié)構(gòu)化的數(shù)據(jù)構(gòu)建特定行業(yè)領域知識[7],準確性高,具備可解釋性與決策性[8],與大語言模型能夠?qū)崿F(xiàn)良好互補,幫助拓展垂直領域能力。目前會計領域內(nèi)還沒有完整、準確的適用于大語言模型的知識圖譜,那么垂直領域知識圖譜的構(gòu)建就成為首要任務。由于傳統(tǒng)知識圖譜構(gòu)建方式效率較低、成本較高等問題,而大模型優(yōu)秀的語義理解能力和自動提取功能可以極大優(yōu)化人力成本,提高效率,幫助構(gòu)建高質(zhì)量知識圖譜。知識圖譜與大模型相結(jié)合,能夠?qū)崿F(xiàn)資源互補,既能夠幫助進一步優(yōu)化構(gòu)建的知識圖譜,又能使得構(gòu)建出的知識圖譜融入大語言模型,豐富模型的專業(yè)知識,提高推理能力與準確率,增加模型可解釋性。鑒于此,本研究將重點放在大模型輔助知識圖譜構(gòu)建上,利用大模型這一新興工具提高知識圖譜構(gòu)建效率,為后續(xù)會計垂域模型的建立提供可解釋、準確、專業(yè)的圖譜數(shù)據(jù),從數(shù)據(jù)層優(yōu)化模型決策。
本文旨在探索大語言模型在會計領域知識圖譜構(gòu)建的應用。通過融合大語言模型的優(yōu)勢,設計優(yōu)化的自動化構(gòu)建流程,以會計準則這一模式層為例,梳理會計準則中的知識關系,為后續(xù)數(shù)據(jù)層的建立奠定基礎,為會計垂域模型的建立提供數(shù)據(jù)支撐。主要貢獻為,提出了以大語言模型為基礎的知識圖譜構(gòu)建方法與框架,結(jié)合大模型的自然語言處理技術進行知識抽取與關系建模,構(gòu)建出會計領域完整、準確的知識圖譜;自動化構(gòu)建財會領域知識圖譜,為會計垂域模型的建立提供數(shù)據(jù)基礎,為數(shù)據(jù)層面的微調(diào)優(yōu)化提供實驗基準;在模式層與數(shù)據(jù)層為財會知識的深度挖掘與高效利用提供一條創(chuàng)新技術路徑,為企業(yè)潛在風險檢測、創(chuàng)新決策提供了新助力。
二、文獻綜述
(一)知識圖譜及會計領域應用
知識圖譜(Knowledge Graphs,KGs)是一種用于表示實體及其關系的網(wǎng)絡結(jié)構(gòu),旨在通過語義化的方式將信息進行組織與連接,促進數(shù)據(jù)的整合與挖掘。谷歌于2012年提出“知識圖譜”概念,通過對實體、概念及其之間的復雜關系進行建模,解決數(shù)據(jù)孤島問題,能夠?qū)⒎稚⒌摹悩?gòu)的數(shù)據(jù)整合為結(jié)構(gòu)化知識,提升搜索引擎的理解能力和信息檢索精度[9]。在知識圖譜的最初發(fā)展階段,主要提升信息檢索和搜索引擎的智能化水平,隨著社會各行業(yè)逐步進入信息化階段,知識圖譜的應用逐漸拓展至醫(yī)學、金融、法律等多個領域[10-12],成為人工智能與大數(shù)據(jù)時代不可或缺的基礎技術之一。
知識圖譜的發(fā)展經(jīng)歷從靜態(tài)到動態(tài)的演化歷程,大致分為靜態(tài)、動態(tài)和多模態(tài)三個階段。早期的知識圖譜主要以靜態(tài)的實體和關系為主,實體和關系主要基于已知的結(jié)構(gòu)化數(shù)據(jù)集進行構(gòu)建,例如詞典、數(shù)據(jù)庫等,但靜態(tài)知識圖譜在規(guī)模和時效性上存在限制,更新和維護成本較大[13]。隨著大數(shù)據(jù)時代的到來,人們對信息實時性要求提升,原有的靜態(tài)圖譜不能滿足社會發(fā)展的需要,這些固有局限性促使研究者轉(zhuǎn)向開發(fā)動態(tài)知識圖譜(Dynamic Knowledge Graphs,DKGs)。相較于前者,DKGs不僅能夠在結(jié)構(gòu)化數(shù)據(jù)集上構(gòu)建實體和關系,還能通過自動化方式從多源異構(gòu)數(shù)據(jù)中實時更新知識,彌補靜態(tài)知識圖譜在時效性上的不足,在交通流量預測、動作識別、社交媒體分析、金融市場投資趨勢、氣候預測等快速變化的應用場景中表現(xiàn)優(yōu)異[14-18]。同時,隨著深度學習和自然語言處理(NLP)技術深入發(fā)展,為知識圖譜的構(gòu)建提供了強大的技術支持,DKGs不僅能夠捕捉靜態(tài)的實體和關系,還能夠通過時序數(shù)據(jù)跟蹤實體及其關系的變化,時序知識圖譜包含時間數(shù)據(jù)信息,為知識圖譜的知識推理能力提升奠定基礎[19]。常見的時序知識圖譜如YAGO、Wikidata et al.[20-21],在整合結(jié)構(gòu)化信息的同時,融入時間維度的信息,在社交網(wǎng)絡建模、推薦算法、問答系統(tǒng)等領域具有廣泛應用[22-24]。近年來,多模態(tài)知識圖譜成為知識圖譜發(fā)展的新階段。多模態(tài)知識圖譜不僅依賴于文本數(shù)據(jù),還能夠?qū)D片、視頻、語音等多種數(shù)據(jù)類型整合進知識圖譜中,豐富知識的表達形式[25]。這種多模態(tài)的能力使得知識圖譜在醫(yī)療、安防、自動駕駛等領域展現(xiàn)出巨大的應用潛力,隨著多模態(tài)學習技術的發(fā)展,知識圖譜有望在更多領域?qū)崿F(xiàn)深度應用,推動跨模態(tài)數(shù)據(jù)的融合與分析。通過靜態(tài)到動態(tài),再到多模態(tài)的演化,知識圖譜已經(jīng)從最初的搜索引擎技術逐步發(fā)展為廣泛應用于各個領域的核心知識管理工具,大模型與算法技術的進一步發(fā)展,為知識圖譜在復雜場景應用提供新的思路,為知識圖譜創(chuàng)新奠定堅實基礎。知識圖譜在財務會計領域應用情況尚未普及,尚未完善會計知識圖譜,如何將知識圖譜技術真正輔助會計決策,預測財務風險并實現(xiàn)多模態(tài)應用,仍存在較大距離。
知識圖譜在會計領域的應用大多集中在文獻圖譜分析、企業(yè)風險識別和市場風險預測,較少提到會計知識體系圖譜的智能化構(gòu)建。已有研究大多都將知識圖譜用于文獻可視化分析,將CNKI數(shù)據(jù)庫及WOS數(shù)據(jù)庫中的論文作為樣本,利用CiteSpace軟件構(gòu)建論文可視化圖譜,最終得出會計某個領域的研究現(xiàn)狀、熱點與趨勢[26-28],這也是知識圖譜最常用于會計領域的路徑。同時,知識圖譜也常應用于風險預測之中,根據(jù)社會網(wǎng)絡理論可知,企業(yè)間存在諸如股權、債權、供應鏈、子母公司等類型復雜的關聯(lián)關系,知識圖譜能夠準確地構(gòu)建企業(yè)網(wǎng)絡關系,有效挖掘隱藏的企業(yè)信息,是企業(yè)風險檢測、識別、預警的重要手段。實務界中,國際“四大”之一德勤會計師事務所將知識圖譜列為智慧審計七種武器之一,廣泛應用于反欺詐、關聯(lián)擔保識別和資金監(jiān)管;理論研究領域,眾多學者基于知識圖譜在企業(yè)關聯(lián)關系挖掘、會計欺詐風險識別、信用風險傳染、財務風險預警、產(chǎn)業(yè)鏈風險檢測等方面進行了探索[29-32],建立知識圖譜的同時也證明知識圖譜在風險監(jiān)測中的有效性,為風險預警提供新的思路與方法。
盡管諸多學者在知識圖譜致力于會計工作中開展了豐富的探索,但大多數(shù)集中于文獻層面分析,利用知識圖譜進行期刊及作者的共現(xiàn),分析研究熱點和未來趨勢,并沒有上升到如何利用知識圖譜提升公司治理水平。致力于知識圖譜挖掘企業(yè)財務信息的學者關注到圖譜儲存信息、關聯(lián)網(wǎng)絡、挖掘隱藏信息及輔助決策的優(yōu)勢,但圖譜構(gòu)建覆蓋面較窄,僅分析單個公司中多種關系或多家公司某幾種關系引發(fā)的風險,或僅停留在理論層面,并未構(gòu)建出一個完整的知識圖譜,抑或僅通過結(jié)構(gòu)化數(shù)據(jù)進行構(gòu)建,未考慮非結(jié)構(gòu)化數(shù)據(jù)。原因在于:一是會計研究或從業(yè)人員對知識圖譜技術較為陌生,不了解如何發(fā)揮知識圖譜的作用;二是傳統(tǒng)方法構(gòu)建知識圖譜難度大、成本高、效率低,人工標注工作量大且準確率有限;三是財務會計領域構(gòu)建圖譜涉及面廣、關聯(lián)方多、會計科目勾稽關系復雜,形成完整的大圖譜難度較大。這都是會計領域建立完整知識體系的關鍵問題,自然語言處理技術與大語言模型可以顯著提高知識圖譜生成能力及效率問題,拓展非結(jié)構(gòu)化數(shù)據(jù)來源,這為建立覆蓋面更廣、關聯(lián)關系信息挖掘更為深入、數(shù)據(jù)精度更高的知識圖譜成為可能。
(二)大語言模型驅(qū)動下智能化知識圖譜構(gòu)建
隨著自然語言處理(NPL)技術的發(fā)展,大語言模型(Large Language Models,LLMs)在文本理解、生成和推理等任務中展現(xiàn)出強大的能力,推動知識圖譜構(gòu)建的智能化進程。具體而言,大語言模型的出現(xiàn)為知識圖譜的構(gòu)建提供了新手段,使得從非結(jié)構(gòu)性文本中自動抽取實體、關系和屬性更加準確高效。應用提示詞工程和智能體(Agent)方法之后,LLMs能夠更好地理解復雜語義結(jié)構(gòu),實現(xiàn)非結(jié)構(gòu)化知識向結(jié)構(gòu)化知識的轉(zhuǎn)化,極大地提高知識圖譜構(gòu)建的自動化水平,降低人工參與的成本和復雜度。
大語言模型在知識抽取、推理能力和自動化補全等關鍵方面推動知識圖譜的構(gòu)建,為知識圖譜精確化、完整化提供新技術支撐。大模型在知識圖譜構(gòu)建中的最關鍵應用就是知識抽取,傳統(tǒng)的知識抽取方法依賴于規(guī)則或特定的領域知識,無法應對大規(guī)模、非結(jié)構(gòu)化及復雜多樣的文本數(shù)據(jù)。然而,基于Transformer架構(gòu)的模型,如BERT和GPT可以在大規(guī)模語料庫上進行預訓練,并通過微調(diào)適應特定任務,這使得大模型具備準確識別文本中實體及其關系屬性的能力,提升從非結(jié)構(gòu)化文本中提取有用信息的能力[33]。同時,得益于大模型對上下文語義的理解,使得其處理復雜語境與多義詞時表現(xiàn)出色,提高實體識別與關系抽取的準確性[34];大模型增強知識圖譜推理能力對于圖譜的發(fā)展也至關重要,KGs不僅需要存儲實體和關系,還需要具備推理能力以支持復雜的問答和決策任務。通過LLMs與KGs結(jié)合,能夠?qū)崿F(xiàn)基于語義的推理,例如T5(Text-To-Text Transfer Transformer)模型能夠?qū)⒉煌耐评砣蝿辙D(zhuǎn)化為生成問題,在推理的過程中更有效地結(jié)合上下文信息,增強知識圖譜的推理能力,這是知識圖譜構(gòu)建后應用的重要一環(huán),為基于圖譜的智能問答、信息檢索和推薦信息的應用提供強有力的支持。
除上述兩方面之外,LLMs在知識圖譜補全(KGC)中也發(fā)揮重要作用。傳統(tǒng)的知識圖譜中,數(shù)據(jù)的缺失與不完全性是一個常見的問題,尤其是面對不斷增長的動態(tài)數(shù)據(jù)時。大模型強大的語言理解和生成能力,使其預測和補全缺失的或潛在的實體和關系,使知識圖譜更加動態(tài)和完備。已有學者在大模型的知識圖譜補全方面做了大量研究。例如,生成式Transformer模型如T5和KGT5,通過直接預測缺失的節(jié)點和關系,提高補全效率,尤其適用于動態(tài)和復雜場景[35]。同時,KEPLER和CoLAKE模型增強了語言模型在補全任務中的表現(xiàn),通過知識嵌入與上下文生成結(jié)合,實現(xiàn)對復雜動態(tài)知識圖譜的自動化補全[36-37]。COMET模型則通過大語言模型生成常識性知識,使知識圖譜在常識推理和復雜問答任務中更加智能和全面[38]。這些研究成果展現(xiàn)大語言模型在知識圖譜補全領域的巨大潛力,推動從靜態(tài)到動態(tài),從結(jié)構(gòu)化到非結(jié)構(gòu)化的知識圖譜智能化發(fā)展。
(三)文獻述評
盡管知識圖譜在會計領域的應用已有一定研究,但在智能化構(gòu)建和動態(tài)更新方面存在不足。研究多集中于文獻可視化和風險識別,缺乏非結(jié)構(gòu)化語料和潛在關系識別,限制知識圖譜在企業(yè)治理和財務決策中的潛力。此外,傳統(tǒng)知識圖譜構(gòu)建方法面臨高成本和效率低、構(gòu)建困難等,大模型技術的發(fā)展或許能突破這一瓶頸。本研究旨在利用大語言模型的自然語言處理、理解和生成能力,自動化構(gòu)建財會知識圖譜,提升信息抽取和補全的效率,整合非結(jié)構(gòu)化數(shù)據(jù)。這不僅擴展了知識圖譜的覆蓋范圍,還將為財務決策和風險評估提供更智能化的支持,推動財會領域知識管理的創(chuàng)新與發(fā)展。
三、實驗設計
對財會知識圖譜進行系統(tǒng)化構(gòu)建,關鍵在于從非結(jié)構(gòu)化數(shù)據(jù)中提取實體和關系。大語言模型對非結(jié)構(gòu)化數(shù)據(jù)處理優(yōu)勢明顯。本文利用Open AI的GPT-4o mini進行非結(jié)構(gòu)化的信息提取。數(shù)據(jù)準備階段進行個案分析,選取中國企業(yè)會計準則文本數(shù)據(jù)作為輸入數(shù)據(jù)集,手工設置實體和關系數(shù)據(jù)集作為限定大語言模型輸出數(shù)據(jù)集,在設置模型參數(shù)后,實現(xiàn)大語言模型的自動抽取,大模型輔助知識圖譜構(gòu)建框架及未來圖譜應用如圖1所示。
(一)樣本來源及數(shù)據(jù)預處理
在財政部網(wǎng)站上獲取中國會計準則共42號,并運用正則表達式按照條目進行分割提取,共提取到1 257條會計準則,在去除無信息提取的條目后,剩下1 215條數(shù)據(jù)。這種分塊策略按照條目進行分割,確保大語言模型提取實體和關系時全面覆蓋,同時保持跨段邊界的上下文。由于會計準則中涉及大量會計科目與財務名詞,所以在提取的過程中僅將頭尾實體中任一為會計科目或財務名詞的進行提取。同時,將準則數(shù)據(jù)中有關“日期”“部門”“條目”“章節(jié)”等摘除,只將準則內(nèi)容作為待處理項,讓GPT-4o mini進行提取并生成五元組。文本內(nèi)容與提取樣如圖2。
(二)知識圖譜構(gòu)建
構(gòu)建知識圖譜通常有四個步驟,即模式層與數(shù)據(jù)層構(gòu)建、知識提取、知識優(yōu)化與知識自適應。本文知識圖譜構(gòu)建過程中,將知識圖譜視作靜態(tài)圖譜,因此不考慮知識自適應。
1.模式層與數(shù)據(jù)層構(gòu)建
知識圖譜的構(gòu)建方式大致分為自上而下和自下而上兩種[39],基于實際圖譜構(gòu)建目的進行選擇。由于會計準則置信度較高、專業(yè)性較強,因此可以自上而下進行設計,從頂層設計出會計知識圖譜框架。
模式層是指知識圖譜本體在概念上的表示,通常是規(guī)定知識圖譜實體類型、關系類型以及屬性的規(guī)范框架,是整個圖譜的骨架。為更清晰地描述財會知識圖譜中模式層的設計,通過圖論來對模式層的實體和關系類型進行定義,將知識圖譜表示為有向圖G=(V,R),其中V表示節(jié)點集合,即實體集合,每個實體vi∈V表示會計準則、會計科目或會計主體;R可表示為邊集合,即實體關系集合,每條邊ri∈R表示為三元組ri=(rj,rk),其中rj是頭尾實體關系,rk為關系類型。具體而言,構(gòu)建的模式層的五元組形式為S={(Vi,type(Vi),Rj,Vk,type(Vk))},其中Vi是頭實體,Rj是實體關系,Vk是尾實體,Type表示實體類型或?qū)傩浴?/p>
數(shù)據(jù)層是模式層基礎上進行的具體實例化。通過真實的財務數(shù)據(jù)實現(xiàn)知識表達,在數(shù)據(jù)層面,五元組的具體表達形式為D={(vi,type(vi),rj,vk,type(vk))},這種結(jié)構(gòu)可以捕捉會計科目之間的具體關聯(lián)及其屬性,捕捉其復雜關系,也為后續(xù)知識圖譜的檢索和分類提供基準。例如,提取到的五元組為{“h”:“非正常損耗的直接材料”;“h_type”:“成本類科目”;“r”:“確認”;“o”:“當期損益”;“o_type”:“損益類科目”}。
本文的數(shù)據(jù)層并沒有企業(yè)的具體數(shù)據(jù),數(shù)據(jù)是抽象化財會知識,可將本文模式層與數(shù)據(jù)層合并成為模式層,將企業(yè)基本信息作為數(shù)據(jù)層加入知識圖譜。
2.知識提取(Knowledge Acquisition)
該步驟旨在將非結(jié)構(gòu)化或半結(jié)構(gòu)化的會計準則轉(zhuǎn)化為結(jié)構(gòu)化信息(以元組形式儲存)。主要任務是進行實體識別、關系識別及屬性識別,并將提取到的實體和關系分類到不同的實體類型(Entity Type)和關系類型(Relation Type)中。實體類型和關系類型按照財會知識進行抽象設定,并通過提示詞工程(Prompt Engineering)進行提取,以便在后續(xù)過程實現(xiàn)自動化分類。
(1)實體類型與關系類型設置
本文擬調(diào)用OpenAI的GPT-4o mini作為基礎模型進行知識抽取,為對信息進行多維表示,增強語義解釋性與對上下文的理解,促進下游任務順利進行,本文將抽取的信息轉(zhuǎn)化為五元組。五元組的形式為[h,type,r,o,type],其中,h和o表示頭實體和尾實體,r表示關系,type表示實體類型。實體類型在財會準則中相對固定,主要是會計科目及其相關概念,實體類型設置如表1所示。
實體類型確定之后,進行實體間關系類型的確定。參考Mikolov[40]及Kodinariya et al.[41]的做法,對于關系類型的篩選,通過詞頻統(tǒng)計檢索會計準則中所有的關系表述詞,利用word2vec模型與K-Means算法進行歸類和整合。由于財會文本中包含眾多的關系,結(jié)合處理結(jié)果,選取其中18種關系進行抽取,使得大語言模型抽取出來的實體之間的關系限定為此18種,關系詞在提示詞工程(圖3)中可見。
(2)提示詞工程設置
提示詞工程(Prompt Engineering)是指通過設計和優(yōu)化自然語言提示詞,引導大語言模型(LLMs)生成特定的內(nèi)容或執(zhí)行特定的任務,提示詞工程的優(yōu)化與設計,能夠使得LLMs更有效地適應不同應用領域,直接影響模型的理解效果與輸出質(zhì)量。因此,提示詞工程的設計已經(jīng)成為LLMs垂直領域應用中增強模型性能的關鍵技術之一,其核心是將任務需求以自然語言的形式傳遞給模型,使得模型能夠準確理解問題并根據(jù)設計意圖生成符合預期的結(jié)果。
在本實驗中,由于財會信息通常具有很強的專業(yè)性和行業(yè)特點,模型需要通過精細的結(jié)構(gòu)化的提示詞設計,識別和提取財會特有的概念及其關系。為確保更高質(zhì)量的輸出,prompt的設計需要有清晰的邏輯與組織架構(gòu),并且需要明確財會行業(yè)特點。因此,本實驗擬采用如下范式進行提示詞工程設計:
①角色概述。提示詞中為模型設定為財會領域?qū)<液椭R圖譜專家角色,通過角色賦予,使得模型更傾向于理解和提取有關財會信息的三元組,確保輸出結(jié)果符合財會知識圖譜需求。
②過程控制。過程控制通過提示詞的精細設計,將模型的輸出過程分步引導,告知模型運行順序,以便逐層分步處理抽取到的數(shù)據(jù)。
③依賴限定。提示詞設計中對模型的輸出進行依賴限定,明確限定財會領域的專有實體類型和關系詞。模型被要求在輸出時僅使用特定的實體類型(如CAS、AA、LA等),并且在關系詞選擇上也僅限于“包括”“確認”“計量”等。這種限定確保模型在輸出時不受外部非財會信息的干擾,生成結(jié)果嚴格符合財會行業(yè)標準,增強輸出數(shù)據(jù)的專業(yè)性。
④示例驅(qū)動。通過Few-shot示例使模型更清晰地理解輸出結(jié)構(gòu),對于Few-shot示例,則可以提供多個五元組示例,涵蓋不同的財會概念和關系,使模型對財會特有的術語和關系有更深入的理解。示例模板如圖4所示。
⑤格式限定。格式限定要求模型輸出以JSON格式組織的結(jié)構(gòu)化五元組信息。例如,提示詞明確指示每個五元組按照[h,h_type,r,o,o_type]的結(jié)構(gòu)生成,并在JSON中體現(xiàn)。
通過提示詞工程的引導,模型能夠?qū)⒇敃谋巨D(zhuǎn)化為知識圖譜結(jié)構(gòu),幫助財會信息的自動化提取與關聯(lián)構(gòu)建。
(3)過濾函數(shù)與檢查函數(shù)設置
在經(jīng)提示詞工程生成文本后,設置過濾函數(shù)與檢查函數(shù)對文本輸出內(nèi)容進行篩選和檢測,提升模型生成內(nèi)容的準確性和一致性。過濾函數(shù)主要作用在于初步篩選模型生成的五元組數(shù)據(jù),將那些不符合預設實體類型或關系詞的結(jié)果剔除。過濾函數(shù)檢查五元組中頭實體和尾實體類型和關系詞是否符合提示詞中設定的類型(如CAS、EA、AA等),過濾掉不符合預設類型的輸出。例如,過濾函數(shù)會自動排除掉非“CAS”“EA”等實體類型或不符合“包括”“符合”等指定關系詞的內(nèi)容,從而保證輸出的專業(yè)性和一致性。
此后,檢查函數(shù)對篩選后的內(nèi)容進行邏輯性和合規(guī)性校驗。它確保五元組的結(jié)構(gòu)和關系符合合理的財會邏輯,如驗證“EA”類型實體是否可以合理地“包括”另一個“AA”類型實體。此外,檢查函數(shù)還會對輸出進行格式校驗,確保其符合JSON結(jié)構(gòu)和五元組完整性的要求。若涉及具體的財會標準(例如中國會計準則),檢查函數(shù)會比對生成內(nèi)容與準則的實際編號和名稱,確保引用的內(nèi)容符合財會規(guī)范。這種基于Agent的過濾和檢查機制有效補充了提示詞工程,使模型生成的內(nèi)容更具可靠性和實用性。
3.知識優(yōu)化(Knowledge Improvement)
本文重點介紹圖譜構(gòu)建部分。對于知識圖譜的進一步優(yōu)化,需要在知識圖譜融入大模型后的實際效果的基礎上進行驗證,驗證后根據(jù)實驗結(jié)果進行針對性優(yōu)化,知識優(yōu)化階段初步思路如下:
首先,通過去重與精簡步驟,系統(tǒng)地清除重復或多余信息,從而確保知識庫中的條目唯一且條理分明。其次,進行關系和實體的合并優(yōu)化,形成更為簡潔的結(jié)構(gòu)。例如,將同義或相似的關系合并,并根據(jù)財會領域的需求進行細化,以提高知識的可用性。此外,對提取過程中可能產(chǎn)生的噪聲和誤提內(nèi)容進行有效的識別和清理,確保知識的準確性。為提升語義完整性,通過上下文補全手段豐富節(jié)點的內(nèi)容,使其在應用時具備更強的語義表現(xiàn)力。最后,借助模型驅(qū)動的增強方法對知識庫的結(jié)構(gòu)和內(nèi)容進行自動優(yōu)化,結(jié)合微調(diào)后的模型更新知識表述,使得優(yōu)化后的知識庫不僅在結(jié)構(gòu)上更為簡潔明了,而且在實際應用中更具適應性。
四、知識圖譜構(gòu)建結(jié)果
(一)五元組文本數(shù)據(jù)集
在構(gòu)建圖譜的過程中,本文將非結(jié)構(gòu)化文本轉(zhuǎn)化為五元組結(jié)構(gòu)性數(shù)據(jù)進行存儲,形成結(jié)構(gòu)化數(shù)據(jù)庫,為知識圖譜的查詢和可視化奠定基礎。五元組的格式為[h,h_type,r,o,o_type],這些五元組以JSON格式存儲,具有良好的可讀性和可擴展性,使得數(shù)據(jù)在存取時更加高效,五元組數(shù)據(jù)集如圖5所示。
(二)知識圖譜可視化及查詢
在構(gòu)造五元組數(shù)據(jù)集后,使用Neo4j數(shù)據(jù)庫的內(nèi)置可視化工具,將數(shù)據(jù)庫直接連接,以實現(xiàn)動態(tài)數(shù)據(jù)展示。在Neo4j中,通過執(zhí)行Cypher查詢,可以快速獲取特定實體及其相關的所有關系。通過Neo4j,可以實現(xiàn)節(jié)點關系查詢。以“無形資產(chǎn)”實體為例,通過Cypher “MATCH(n {name:'無形資產(chǎn)'})-[r]-gt;(m) RETURN n,r,m”語句查詢,結(jié)果如圖6所示,可知實體與實體之間的多重關系,這樣的可視化展示,使得復雜的關系網(wǎng)絡變得一目了然,幫助快速識別出會計重要實體之間的勾稽關系和潛在聯(lián)系。
五、結(jié)論
本文基于大語言模型構(gòu)建會計準則知識圖譜,實現(xiàn)大模型在財會領域自動化構(gòu)建的嘗試,為財會垂域模型的優(yōu)化提供數(shù)據(jù)基礎,也為知識圖譜領域的高效構(gòu)建挖掘一條新的路徑。
知識圖譜的構(gòu)建,為后續(xù)在自然語言處理增強、推薦系統(tǒng)以及數(shù)據(jù)層面的模型微調(diào)等方面的實驗提供數(shù)據(jù)基礎,還帶來提升財會決策支持的可能。在自然語言處理中,知識圖譜增強模型對財務術語、合規(guī)政策和行業(yè)知識的理解,能夠更準確地支持信息提取、文檔審核和風險識別等任務,實現(xiàn)更加精確的檢索功能。現(xiàn)有研究表明,大語言模型在會計垂直領域存在欠缺,特別是推理能力存在較大不足[42],知識圖譜可以彌補大模型推理能力的缺陷,為財會垂域模型的建立提供基礎;在推薦系統(tǒng)中,它有助于為用戶提供個性化的財務管理和合規(guī)建議,提升企業(yè)內(nèi)部審計和風控的自動化水平;在模型微調(diào)中,結(jié)構(gòu)化數(shù)據(jù)作為優(yōu)質(zhì)語料,使大語言模型能夠更好地完成財會領域特定任務的訓練,提高模型的專業(yè)性和實用性。此外,知識圖譜還為多層次數(shù)據(jù)分析、智能問答和預測分析提供支持,進一步拓展財務領域智能化的應用場景。這些應用前景使得知識圖譜有望成為財會領域智能決策和管理優(yōu)化的重要工具。
本研究不足之處在于,知識圖譜的構(gòu)建依賴于初始數(shù)據(jù)的質(zhì)量和全面性,若數(shù)據(jù)存在偏差或不足,可能影響知識圖譜的準確性和可靠性;盡管大語言模型在提取信息時表現(xiàn)出良好的效果,但在面對特定的行業(yè)術語和復雜的財務關系時,可能無法完全捕捉其內(nèi)在含義。此外,知識圖譜的動態(tài)更新與維護也是一項挑戰(zhàn),需不斷完善數(shù)據(jù)源和更新機制,以保持圖譜的時效性。●
【參考文獻】
[1] 楊寅.人工智能對審計工作的影響:演進邏輯與分析框架[J].財會月刊,2024,45(18):52-57.
[2] ZHAO W X,ZHOU K,LI J,et al.A survey of large language models[J].arXiv preprint arXiv:2303.18223,2023.
[3] QIU X,SUN T,XU Y,et al.Pre-trained models for natural language processing:a survey[J].Science China Technological Sciences,2020,63(10):1872-1897.
[4] JI Z,LEE N,F(xiàn)RIESKE R,et al.Survey of hallucination in natural language generation[J].ACM Computing Surveys,2023,55(12):1-38.
[5] DANILEVSKY M,QIAN K,AHARONOV R,et al.A survey of the state of explainable AI for natural language processing[J].arXiv preprint arXiv:2010.00711,
2020.
[6] WANG J,HU X,HOU W,et al.On the robustness of chatgpt:an adversarial and out-of-distribution perspective[J].arXiv preprint arXiv:2302.12095,2023.
[7] JI S,PAN S,CAMBRIA E,et al.A survey on knowledge graphs:representation,acquisition,and applications[J].IEEE Transactions on Neural networks and Learning Systems,2021,33(2):494-514.
[8] ZHANG J,CHEN B,ZHANG L,et al.Neural,symbolic and neural-symbolic reasoning on knowledge graphs[J].AI Open,2021,2:14-35.
[9] SINGHAL A.Introducing the knowledge graph:things,not strings[J].Official Google Blog,2012,5(16):3.
[10] XIANG X,WANG Z,JIA Y,et al.Knowledge graph-
based clinical decision support system reasoning:a survey[C]//2019 IEEE Fourth International Conference on Data Science in Cyberspace (DSC).IEEE,2019:373-380.
[11] WANG W,XU Y,DU C,et al.Data set and evaluation of automated construction of financial knowledge graph[J].Data Intelligence,2021,3(3):418-443.
[12] YU H,LI H.A knowledge graph construction approach for legal domain[J].Technical Gazette,2021,28(2):357-362.
[13] HOGAN A,BLOMQVIST E,COCHEZ M,et al.Knowledge graphs[J].ACM Computing Surveys (C-
sur),2021,54(4):1-37.
[14] LI Y,YU R,SHAHABI C,et al.Diffusion convolutional recurrent neural network:data-driven traffic forecasting[J].arXiv preprint arXiv:1707.01926,2017.
[15] DENG S,RANGWALA H,NING Y.Dynamic knowledge graph based multi-event forecasting[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining,2020:1585-1595.
[16] LI X,PASSINO F,F(xiàn)inDKG:Dynamic knowledge graphs with large language models for detecting global trends in financial markets[J].arXiv preprint arXiv:2407.10909,2024.
[17] FANG Y,WANG H,ZHAO L,et al.Dynamic knowledge graph based fake-review detection[J].Applied Intelligence,2020,50:4281-4295.
[18] HOFMEISTER M,BROWNBRIDGE G.,HILLMAN M,et al.Cross-domain flood risk assessment for smart cities using dynamic knowledge graphs[J].Sustainable Cities and Society,2024,101.
[19] LEBLAY J,CHEKOL M.Deriving validity time in knowledge graph[C]//Companion proceedings of the the web conference 2018,2018:1771-1776.
[20]"PELLISSIER"T,WEIKUM"G,SUCHANEK"F.Yago"4:A"reason-able"knowledge"base[C]//The"Semantic"Web:17th"International"Conference,ESWC"2020,Heraklion,Crete,Greece,May"31"June"4,2020,Proceedings"17.Springer"International"Publishing,2020:
583-596.
[21]"WAAGMEESTER"A,STUPP"G,BURGSTALLER-
MUEHLBACHER"S,et"al.Wikidata"as"a"knowledge"graph"for"the"life"sciences[J].Elife,2020,9.
[22]"QIU"Z,WU"J,HU"W,et"al.Temporal"link"prediction"with"motifs"for"social"networks[J].IEEE"Transactions"on"Knowledge"and"Data"Engineering,2021,35(3):3145-3158.
[23]"XIA"L,HUANG"C,XU"Y,et"al.Multi-behavior"sequential"recommendation"with"temporal"graph"transformer[J].IEEE"Transactions"on"Knowledge"and"Data"Engineering,2022,35(6):6099-6112.
[24]"ZHU"R,LIU"B,ZHANG"R,et"al.OEQA:knowledge-and"intention-driven"intelligent"ocean"engineering"question-answering"framework[J].Applied"Sciences,2023,13(23).
[25]"LIANG"W,MEO"P,TANG"Y,et"al.A"survey"of"multi-modal"knowledge"graphs:technologies"and"trends[J].ACM"Computing"Surveys,2024,56(11):1-41.
[26]"周德良,李慧芝.國內(nèi)外碳會計研究熱點與趨勢——基于CiteSpace知識圖譜的分析[J].中國注冊會計師,2024(3):56-65.
[27]"李麗.我國司法會計鑒定演進與前沿趨勢研究——基于知識圖譜的可視化分析[J].中國注冊會計師,2022(12):33-38.
[28]"華秋紅.“雙碳”背景下我國環(huán)境會計信息披露研究現(xiàn)狀與發(fā)展趨勢——基于CiteSpace的可視化分析[J].中國注冊會計師,2022(4):47-53.
[29]"侯黨,傅湘玲,高嵩峰,等.基于企業(yè)知識圖譜的企業(yè)關聯(lián)關系挖掘[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022,6(Z1):212-221.
[30]"陳強,代仕婭.基于金融知識圖譜的會計欺詐風險識別方法[J].大數(shù)據(jù),2021,7(3):116-129.
[31]"彭堯,張玲玲,鄧智斌,等.基于企業(yè)股權關系知識圖譜的制造業(yè)信用風險傳染分析[J].管理評論,2023,35(10):251-267.
[32]"汪新宇,白咸芳.基于知識圖譜的企業(yè)財務風險預警模型構(gòu)建[J].河北科技大學學報(社會科學版),2023,23(2):29-36.
[33]"TRAJANOSKA"M.,STOJANOV"R,TRAJANOV"D.Enhancing"knowledge"graph"construction"using"large"language"models[J].arXiv"preprint"arXiv:2305.
04676,2023.
[34]"DEVLIN"J.Bert:Pre-training"of"deep"bidirectional"transformers"for"language"understanding[J].arXiv"preprint"arXiv:1810.04805,2018.
[35]"CHEPUROVA"A,BULATOV"A,KURATOV"Y,et"al.Better"together:enhancing"generative"knowledge"graph"completion"with"language"models"and"neighborhood"information[J].arXiv"preprint"arXiv:2311.01326,2023.
[36]"SUN"T,SHAO"Y,QIU"X,et"al.Colake:contextualized"language"and"knowledge"embedding[J].arXiv"preprint"arXiv:2010.00309,2020.
[37]"WANG"X,GAO"T,ZHU"Z.,et"al.KEPLER:a"unified"model"for"knowledge"embedding"and"pre-trained"language"representation[J].Transactions"of"the"Association"for"Computational"Linguistics,2021,9:176-194.
[38]"BOSSELUT"A,RASHKIN"H,SAP"M,et"al.COMET:commonsense"transformers"for"automatic"knowledge"graph"construction[J].arXiv"preprint"arXiv:1906.05317,
2019.
[39]"徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述[J].電子科技大學學報,2016,45(4):589-606.
[40]"MIKOLOV"T.Efficient"estimation"of"word"representations"in"vector"space[J].arXiv"preprint"arXiv:1301.3781,2013.
[41]"KODINARIYA"T"M,MAKWANA"P"R.Review"on"determining"number"of"cluster"in"k-means"clustering[J].International"Journal,2013,1(6):90-95.
[42]"鐘慧,陳宋生,王明.大語言模型的會計垂域推理能力探究[J].財會月刊,2024,45(11):17-25.