

【摘要】審計報告是審計工作的最終成果, 傳統(tǒng)的審計報告主要依賴審計人員手動整理和編寫, 報告可靠性和準確性受到一定制約。利用生成式人工智能技術(shù), 審計系統(tǒng)可以自動從審計文件中提取關(guān)鍵信息并生成審計報告, 進而提高審計報告的生成效率與質(zhì)量。本文系統(tǒng)探究了生成式人工智能在審計報告自動生成中的實現(xiàn)機理, 構(gòu)建了基于生成式人工智能的審計報告自動生成模型, 從數(shù)據(jù)準備、 模型設(shè)計、 模型訓(xùn)練和模型部署等環(huán)節(jié)探討了該模型的實現(xiàn)過程。進一步地, 從數(shù)據(jù)安全、 文本偏差、 語義識別以及技術(shù)限制等方面探討了生成式人工智能技術(shù)應(yīng)用于審計報告自動生成可能面臨的風險, 并提出了相應(yīng)的解決思路。本文為推動生成式人工智能技術(shù)廣泛應(yīng)用于審計領(lǐng)域提供了一定的理論和實踐參考。
【關(guān)鍵詞】生成式人工智能;GPT模型;審計報告;自動生成
【中圖分類號】F275" " " 【文獻標識碼】A" " " 【文章編號】1004-0994(2024)24-0016-6
一、 引言
隨著新一代信息技術(shù)的迅猛發(fā)展, 人工智能(AI)作為一種強大的技術(shù)手段, 已經(jīng)在各個領(lǐng)域展現(xiàn)出驚人的應(yīng)用潛力。審計作為一個信息密集型行業(yè)且涉及財務(wù)、 法律和風險管理等多個領(lǐng)域, 對人工智能技術(shù)的需求也在急速增長。2021年, 中央審計委員會辦公室、 審計署發(fā)布《“十四五”國家審計工作發(fā)展規(guī)劃》, 強調(diào)要加強審計信息化建設(shè)和審計技術(shù)方法創(chuàng)新, 增強大數(shù)據(jù)審計能力, 充分運用現(xiàn)代信息技術(shù)開展審計, 提高審計質(zhì)量和效率。審計報告作為審計人員根據(jù)審計結(jié)論發(fā)表明確意見的書面文件, 不僅承載著審計人員對審計項目進行分析、 評價和形成結(jié)論的最終成果, 也是向外部投資者、 監(jiān)管機構(gòu)等利益相關(guān)者傳遞信息的主要途徑。然而, 傳統(tǒng)的審計報告撰寫過程中存在著諸多挑戰(zhàn), 包括龐大的數(shù)據(jù)量、 復(fù)雜的業(yè)務(wù)流程以及繁多的法規(guī)要求等。審計人員在面對這些挑戰(zhàn)時, 往往需要耗費大量的時間和精力來收集、 整理與分析信息, 且極易受到主觀意識和個人經(jīng)驗的影響, 導(dǎo)致審計報告的可靠性和準確性受到制約。隨著傳統(tǒng)審計工作的智能化轉(zhuǎn)型, 將以人工智能為代表的新一代信息技術(shù)引入審計工作中勢在必行(易冰心等,2023)。生成式人工智能(Artificial Intelligence Generated Content,AIGC)是一項利用算法、 模型和規(guī)則, 從大規(guī)模數(shù)據(jù)集中學(xué)習, 以創(chuàng)造新的原創(chuàng)內(nèi)容的人工智能技術(shù), 具備在復(fù)雜環(huán)境中自動處理信息的卓越能力(鄭世林等,2023)。其中, GPT(Generative Pre-trained Transformer)模型就是一種基于Transformer架構(gòu)的生成式人工智能模型, 它的關(guān)鍵技術(shù)是在大量非標記的文本數(shù)據(jù)上進行預(yù)訓(xùn)練, 使模型能夠理解語言的語法、 語義和上下文, 并生成具有一定邏輯、 連貫性的文本(郁建興等,2023;王俊秀,2023)?;诖?, 借助生成式人工智能技術(shù), 通過訓(xùn)練模型學(xué)習審計報告的語言模式, 實現(xiàn)自動生成審計報告的目標具有重要的現(xiàn)實意義和應(yīng)用價值。
在當前研究中, 一些學(xué)者已經(jīng)開始探討人工智能技術(shù)在審計領(lǐng)域的潛在應(yīng)用。畢秀玲和陳帥(2019)指出, 科技新時代下的“審計智能+”可以實現(xiàn)數(shù)據(jù)采集、 分析到報告生成全過程自動化, 進而推動智能審計的全面升級。陳偉(2020)深入探討了基于RPA技術(shù)的審計機器人面臨的機遇與挑戰(zhàn), 并提出了基于RPA技術(shù)的審計機器人實現(xiàn)方法。鄭石橋(2021)認為, 人工智能對審計取證具有重大影響, 積極應(yīng)對這一影響有助于提高審計工作的效率和效果。程平和毛俊力(2021)、 程平和聶琦(2021)以及郭紅建和吳素萱(2023)等系統(tǒng)研究了RPA技術(shù)在審計抽樣、 實質(zhì)性程序和內(nèi)部審計中的具體應(yīng)用。隨著研究的深入, 以ChatGPT為代表的生成式人工智能技術(shù)在審計領(lǐng)域的應(yīng)用開始引起關(guān)注。吳花平和湯麒胭(2023)解構(gòu)了ChatGPT應(yīng)用于智慧審計的技術(shù)邏輯, 并提出了基于ChatGPT的智慧審計系統(tǒng)構(gòu)建思路。程平等(2023)構(gòu)建了基于ChatGPT的內(nèi)部審計框架模型, 探討了生成式人工智能技術(shù)在企業(yè)內(nèi)部審計領(lǐng)域的智能化應(yīng)用。上述研究為人工智能技術(shù)在審計領(lǐng)域的應(yīng)用打下了深厚的基礎(chǔ), 但生成式人工智能在審計領(lǐng)域應(yīng)用的相關(guān)研究尚不充分, 僅集中在內(nèi)部審計、 注冊會計師審計等方面, 探討生成式人工智能應(yīng)用于審計報告的實踐研究尚未展開。基于此, 本文將生成式人工智能技術(shù)引入審計領(lǐng)域, 旨在探究如何充分利用生成式人工智能技術(shù)改進審計報告的生成過程, 以解決在傳統(tǒng)審計報告編寫過程中存在的效率和質(zhì)量等方面的問題。
二、 生成式人工智能應(yīng)用于審計報告自動生成的機理分析
生成式人工智能的引入為審計報告的自動生成注入了全新的可能性, 其獨特的語言生成和數(shù)據(jù)處理能力為審計流程賦予了智能化元素。本部分將分析生成式人工智能在審計報告自動生成中的關(guān)鍵機理(見圖1), 以更全面、 深刻地理解生成式人工智能在提升審計報告生成效率和質(zhì)量方面所發(fā)揮的實質(zhì)性作用。
1. 利用大數(shù)據(jù)處理和模式識別提供數(shù)據(jù)支持。大數(shù)據(jù)處理是對大規(guī)模、 復(fù)雜和多樣化的數(shù)據(jù)進行采集、 存儲、 處理、 分析和應(yīng)用的過程, 旨在從海量數(shù)據(jù)中提取有價值的信息。利用大數(shù)據(jù)處理技術(shù), 生成式人工智能能夠以高度并行的方式同時且高效地處理審計證據(jù)中財務(wù)報表、 交易記錄等大規(guī)模多個數(shù)據(jù)源, 從中挖掘出潛在的異常、 模式和趨勢, 發(fā)現(xiàn)隱藏在數(shù)據(jù)中的關(guān)鍵信息, 為審計報告提供更為全面和準確的數(shù)據(jù)依據(jù)。例如, 利用ETL(Extract,Transform,Load)工具可以從多個數(shù)據(jù)源中對審計證據(jù)進行數(shù)據(jù)提取、 清洗和轉(zhuǎn)換, 并加載到數(shù)據(jù)倉庫中; 通過Hadoop和Spark等大數(shù)據(jù)平臺對數(shù)據(jù)進行分布式處理, 快速提取關(guān)鍵信息, 提高數(shù)據(jù)處理效率。
模式識別是一種通過自動或半自動的方式從數(shù)據(jù)中尋找、 識別和描述規(guī)律、 趨勢或特定結(jié)構(gòu)的方法。利用模式識別技術(shù), 生成式人工智能能夠?qū)W習和理解審計數(shù)據(jù)中的模式和趨勢, 從而自動發(fā)現(xiàn)財務(wù)報表中規(guī)律性、 重復(fù)性的模式, 以及潛在的異常情況(陳銳和江奕輝,2024)。模式識別技術(shù)讓生成式人工智能不僅能夠被動地對數(shù)據(jù)進行處理, 更能夠識別出不同數(shù)據(jù)要素之間的相互影響, 發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的潛在關(guān)聯(lián), 從而主動抽象出有價值的信息, 為后續(xù)的審計報告生成提供有力的支持。例如, 時間序列分析可以用于識別財務(wù)數(shù)據(jù)中的趨勢和周期性變化, 異常檢測算法可以發(fā)現(xiàn)財務(wù)報表中的異常模式。此外, 可以利用生成式人工智能自動生成數(shù)據(jù)預(yù)處理、 模型訓(xùn)練和模型評估等代碼, 并使用自動化超參數(shù)優(yōu)化技術(shù)找到最佳模型參數(shù)組合, 提高審計報告生成的準確性和可靠性。綜合來看, 大數(shù)據(jù)處理和模式識別使得生成式人工智能在審計報告生成過程中能夠?qū)嫶蟮臄?shù)據(jù)進行全面深入的分析與挖掘, 對提高審計報告的全面性和準確性起到至關(guān)重要的作用, 為自動生成符合專業(yè)標準的審計報告奠定了良好基礎(chǔ)。
2. 利用NLP和知識圖譜技術(shù)理解信息并生成文本。自然語言處理(Natural Language Processing,NLP)由自然語言理解和自然語言生成兩個部分組成。其中, 自然語言理解可以使計算機在大規(guī)模文本數(shù)據(jù)上進行預(yù)訓(xùn)練并捕捉豐富的語言結(jié)構(gòu)、 語法規(guī)則以及理解審計領(lǐng)域的專業(yè)術(shù)語和相關(guān)法律規(guī)范要求(馬曉華,2021)。例如, Transformer就是一種用于執(zhí)行自然語言理解任務(wù)的主流模型架構(gòu), 它通過自注意力(Self-Attention)機制, 使得模型在處理序列中的每個元素時都能參考整個序列的上下文信息, 而不僅僅是當前元素的局部信息, 使模型更好地捕捉詞語之間的依賴關(guān)系和長距離依賴。通過自然語言理解, 可以抽取審計任務(wù)中涉及的文本數(shù)據(jù), 通過構(gòu)建語法樹或依存樹對其進行語義解析, 并進一步轉(zhuǎn)化為結(jié)構(gòu)化信息, 為自動生成審計報告提供信息基礎(chǔ)。自然語言生成能夠生成清晰而流暢的語言文本, 使計算機能夠基于已有的審計數(shù)據(jù)和模板以及審計任務(wù)要求自動生成符合邏輯和規(guī)范的審計報告內(nèi)容。自然語言生成使用較為一致的語言模型, 無論在何時何地所生成的審計報告都具有一致的語言風格和表達方式, 有助于消除人為因素對審計報告一致性的影響, 提高報告信息的可靠性。
知識圖譜是一種用于表示和管理知識的技術(shù), 通常以圖形結(jié)構(gòu)的形式展示實體及其相互關(guān)系, 其核心目標是以一種結(jié)構(gòu)化和語義化的方式組織信息, 使得計算機能夠理解和推理復(fù)雜的信息。審計報告涉及眾多知識領(lǐng)域并具有復(fù)雜的信息網(wǎng)絡(luò), 利用知識圖譜技術(shù), 可以對審計標準、 法規(guī)、 業(yè)務(wù)流程和財務(wù)數(shù)據(jù)等多領(lǐng)域的復(fù)雜信息進行結(jié)構(gòu)化表示, 并融合到一個統(tǒng)一的知識庫中。這一知識庫能夠?qū)ξ谋局械膶嶓w和關(guān)系進行圖形化映射, 為自然語言處理(NLP)系統(tǒng)提供更豐富的語義信息, 從而推斷實體之間的關(guān)系并解決歧義性問題。由于知識圖譜通常以RDF或XML文件格式表示, 而當前執(zhí)行NLP任務(wù)的主流模型LLM(Large Language Model)無法直接讀取以上類型文件, 這就需要進行一定的預(yù)處理和轉(zhuǎn)換來完成數(shù)據(jù)銜接。比如, 可以通過Python工具的rdflib庫、 xml.etree.ElementTree庫讀取RDF或XML格式數(shù)據(jù), 然后將讀取到的數(shù)據(jù)轉(zhuǎn)換為LLM可以讀取的結(jié)構(gòu)化文本或JSON格式文本。綜合來看, 生成式人工智能通過NLP和知識圖譜技術(shù)的有效結(jié)合, 可以更好地理解審計領(lǐng)域的專業(yè)術(shù)語、 邏輯關(guān)系和業(yè)務(wù)規(guī)則, 從而生成更準確、 更符合要求的審計報告內(nèi)容。
3. 利用遷移學(xué)習和領(lǐng)域自適應(yīng)實現(xiàn)語境匹配。遷移學(xué)習(Transfer Learning)和領(lǐng)域自適應(yīng)(Domain Adaptation)主要解決在一個任務(wù)或領(lǐng)域中訓(xùn)練的模型在另一個相關(guān)任務(wù)或領(lǐng)域中的應(yīng)用問題。遷移學(xué)習的目標是將一個源領(lǐng)域或任務(wù)的知識遷移到另一個目標領(lǐng)域或任務(wù)中, 以改善另一個領(lǐng)域或任務(wù)的學(xué)習效果。通常情況下, 源領(lǐng)域(Source Domain)和目標領(lǐng)域(Target Domain)的數(shù)據(jù)分布是不同的, 這就需要在遷移學(xué)習中解決領(lǐng)域之間的差異問題。領(lǐng)域自適應(yīng)則是遷移學(xué)習的一種特定形式, 它關(guān)注的是在源領(lǐng)域中學(xué)到的知識如何應(yīng)用到目標領(lǐng)域中, 幫助系統(tǒng)在面對新的環(huán)境、 情境或變化時, 能夠調(diào)整自身行為、 策略和結(jié)構(gòu), 以適應(yīng)新的要求或挑戰(zhàn)。
在審計工作實踐中, 審計報告的生成通常需要大量高質(zhì)量的數(shù)據(jù)來訓(xùn)練生成模型, 但實際上審計數(shù)據(jù)可能是稀缺的, 且質(zhì)量不一。通過遷移學(xué)習, 可以利用其他領(lǐng)域或任務(wù)中的大型數(shù)據(jù)集, 在這些數(shù)據(jù)集上預(yù)訓(xùn)練模型, 然后將模型遷移到審計領(lǐng)域進行微調(diào), 以提高模型在審計數(shù)據(jù)上的性能。與此同時, 審計領(lǐng)域有其特定的術(shù)語、 準則和規(guī)范, 與其他領(lǐng)域可能存在較大差異。通過領(lǐng)域自適應(yīng), 可以借助對抗性訓(xùn)練對齊源領(lǐng)域和目標領(lǐng)域的特征分布, 進而幫助生成模型更好地理解審計領(lǐng)域的背景知識、 行業(yè)標準和特定術(shù)語。這意味著生成式人工智能可以根據(jù)具體的審計需求, 調(diào)整其模型參數(shù), 以更專業(yè)地適應(yīng)不同企業(yè)、 行業(yè)和審計標準的特定審計場景。綜合來看, 這種適應(yīng)性機制提高了模型生成審計報告的靈活性和貼近實際需求的能力, 使其成為可持續(xù)發(fā)展的智能工具。
三、 基于生成式人工智能的審計報告自動生成模型設(shè)計與應(yīng)用
1. 基于生成式人工智能的審計報告自動生成模型設(shè)計。將生成式人工智能應(yīng)用于審計報告自動生成的關(guān)鍵在于綜合運用自然語言處理、 大數(shù)據(jù)處理、 模式識別、 遷移學(xué)習和領(lǐng)域自適應(yīng)等智能化技術(shù), 使得生成式人工智能自動、 智能地處理審計信息, 并將其轉(zhuǎn)化為符合專業(yè)標準和規(guī)范的審計報告?;谝陨纤悸罚?本文分階段設(shè)計了基于生成式人工智能的審計報告自動生成模型, 如圖2所示。
首先是準備階段, 這一階段主要是針對審計報告的源數(shù)據(jù)進行獲取和處理。審計報告的源數(shù)據(jù)通常由多種途徑獲得, 如內(nèi)部審計部門、 會計師事務(wù)所、 公開披露的審計報告以及專業(yè)數(shù)據(jù)庫等, 涵蓋了各種類型和行業(yè)的審計報告源數(shù)據(jù)。不同來源的審計報告源數(shù)據(jù)可能存在著格式、 結(jié)構(gòu)和質(zhì)量上的差異, 因此需要針對這些數(shù)據(jù)進行清洗、 標記以及相關(guān)的預(yù)處理。
其次是起始階段, 這一階段主要是選擇恰當?shù)纳墒饺斯ぶ悄苣P图軜?gòu), 并對其進行參數(shù)設(shè)定。例如, 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短期記憶網(wǎng)絡(luò)(LSTM)是一類經(jīng)典的序列模型, 它們在處理文本生成任務(wù)時獲得了良好的效果。但這些傳統(tǒng)的序列模型存在著梯度消失和梯度爆炸等問題, 導(dǎo)致在處理較長文本時性能下降。為了解決這些問題, Transformer模型完全摒棄了傳統(tǒng)的RNN結(jié)構(gòu), 引入了自注意力機制, 能夠在不依賴序列順序的情況下對序列進行建模, 在處理長文本任務(wù)時表現(xiàn)尤為出色, 更加適合完成審計報告自動生成任務(wù)。
再次是進階階段, 這一階段主要是對生成式人工智能模型進行訓(xùn)練與調(diào)優(yōu)。在損失函數(shù)方面, 通常采用的損失函數(shù)是交叉熵損失函數(shù), 因為它能夠衡量模型生成結(jié)果與真實標簽之間的差異, 并指導(dǎo)模型不斷優(yōu)化; 在優(yōu)化算法方面, 需要考慮不同算法在模型訓(xùn)練中的收斂速度和穩(wěn)定性。這里通常會選擇更加高效和穩(wěn)定的優(yōu)化算法, 如Adam優(yōu)化器, 因為它結(jié)合了動量法和自適應(yīng)學(xué)習率的特性, 能夠更快地收斂并避免陷入局部最優(yōu)解。同時, 在模型訓(xùn)練過程中, 還需要進行超參數(shù)的選擇和調(diào)優(yōu), 包括學(xué)習率(Learning Rate)、 批次大?。˙atch Size)、 隱藏層大?。℉idden Size)等, 它們對模型的性能和泛化能力有著重要影響。
最后是應(yīng)用階段, 這一階段主要是將模型部署與應(yīng)用至實際場景。第一, 選擇適宜的部署環(huán)境。云計算平臺可根據(jù)需求動態(tài)調(diào)整資源規(guī)模, 具有靈活的計算資源和服務(wù), 成為人工智能應(yīng)用領(lǐng)域的主流選擇。第二, 對模型進行優(yōu)化和封裝。這里包括模型參數(shù)的壓縮、 量化和模型文件的格式轉(zhuǎn)換, 以確保模型在部署環(huán)境中高效運行。第三, 設(shè)計和開發(fā)良好的接口。應(yīng)用程序之間需要無縫對接的接口, 通過編寫相應(yīng)的代碼來實現(xiàn)數(shù)據(jù)的輸入和輸出, 并充分考慮與其他系統(tǒng)組件的協(xié)同工作。第四, 性能測試和負載測試。通過模擬真實場景和不同負載條件, 評估系統(tǒng)在各種壓力下的穩(wěn)定性和性能表現(xiàn), 及時發(fā)現(xiàn)并解決潛在的性能問題, 以確保系統(tǒng)的穩(wěn)定運行。第五, 持續(xù)地監(jiān)控和維護。通過監(jiān)控系統(tǒng)運行狀態(tài)和性能指標, 及時發(fā)現(xiàn)和解決可能出現(xiàn)的問題, 確保系統(tǒng)的穩(wěn)定性和可靠性。第六, 定期對模型進行更新和優(yōu)化。適應(yīng)業(yè)務(wù)需求和環(huán)境變化, 提高系統(tǒng)的適應(yīng)性和效率。第七, 用戶培訓(xùn)與支持。為用戶提供詳盡的文檔和培訓(xùn)資料, 并提供及時的技術(shù)支持和問題解決服務(wù)。
2. 基于生成式人工智能的審計報告自動生成案例應(yīng)用。根據(jù)以上的模型設(shè)計, 某大型會計師事務(wù)所(簡稱“事務(wù)所”)決定采用生成式人工智能技術(shù), 實現(xiàn)審計報告的自動生成, 以提升審計工作的效率。本文將詳細介紹該事務(wù)所基于生成式人工智能的審計報告自動生成項目的具體實施步驟。
(1) 審計報告源數(shù)據(jù)處理與準備(準備階段)。事務(wù)所收集并整理了大量審計報告源數(shù)據(jù), 數(shù)據(jù)來源包括內(nèi)部審計部門的歷史審計報告、 各類審計工作底稿、 其他事務(wù)所的審計報告以及專業(yè)數(shù)據(jù)庫中的財務(wù)數(shù)據(jù)等。由于這些數(shù)據(jù)格式和結(jié)構(gòu)各異, 事務(wù)所采用了一系列數(shù)據(jù)預(yù)處理技術(shù), 具體包括: 首先, 數(shù)據(jù)清洗。通過哈希算法、 主鍵檢查、 規(guī)則校驗和K近鄰法等多種數(shù)據(jù)處理技術(shù)對重復(fù)數(shù)據(jù)、 錯誤數(shù)據(jù)和缺失數(shù)據(jù)等進行清洗和消除。其次, 數(shù)據(jù)標注。為數(shù)據(jù)集中的每個樣本添加標簽或注釋, 如財務(wù)數(shù)據(jù)、 合規(guī)性審計信息、 建議措施、 審核結(jié)果等標注, 確保每個數(shù)據(jù)條目都有明確的標簽, 以便模型更好地理解和學(xué)習審計報告的結(jié)構(gòu)和內(nèi)容, 提高模型的生成質(zhì)量和準確性。再次, 數(shù)據(jù)的預(yù)處理。預(yù)處理內(nèi)容包括文本分詞、 去除停用詞、 詞干化或詞形還原等, 從而有助于模型更好地理解語言的結(jié)構(gòu)和語義。最后, 將數(shù)據(jù)轉(zhuǎn)換成模型可以處理的文件格式, 以備后續(xù)模型訓(xùn)練和應(yīng)用之需。
(2) 審計報告自動生成模型選擇與設(shè)定(起始階段)。首先, 選擇模型類型。事務(wù)所對比了幾種常見的生成式人工智能模型, 包括RNN、 LSTM和Transformer模型。經(jīng)過詳細的分析, 最終選擇了Transformer模型。主要基于兩點考慮: 一是Transformer模型引入了自注意力機制, 能夠在不依賴序列順序的情況下對序列進行建模, 特別適合處理長文本任務(wù), 能夠更好地生成高質(zhì)量的審計報告; 二是Transformer模型可以利用并行計算加速訓(xùn)練過程, 適合大規(guī)模數(shù)據(jù)集。其次, 選擇模型架構(gòu)。事務(wù)所選擇了BERT(Bidirectional Encoder Representations from Transformers)作為基礎(chǔ)模型用于理解和生成文本, 并進一步結(jié)合GPT技術(shù)以增強文本生成能力。再次, 設(shè)定模型參數(shù)。模型層數(shù)(Layers)設(shè)定為12層, 保證模型具有足夠的深度來學(xué)習復(fù)雜的文本模式; 隱藏層大小設(shè)定為768, 以平衡模型的表達能力和計算復(fù)雜度; 注意力頭數(shù)(Attention Heads)設(shè)定為12個, 以捕捉不同的語義信息; 學(xué)習率初始設(shè)定為1e-4, 并通過學(xué)習率調(diào)度器(Learning Rate Scheduler)在訓(xùn)練過程中逐步降低, 以平衡模型收斂速度和穩(wěn)定性; 將批次大小設(shè)定為32, 以確保每個訓(xùn)練步驟都有足夠的數(shù)據(jù)進行梯度更新, 同時避免內(nèi)存溢出。最后, 選擇Adam優(yōu)化器, 使其自適應(yīng)學(xué)習率和動量特性能夠加速模型收斂, 避免陷入局部最優(yōu)解。
(3) 審計報告自動生成模型訓(xùn)練與調(diào)優(yōu)(進階階段)。首先, 將預(yù)處理后的審計報告數(shù)據(jù)集分割為訓(xùn)練集、 驗證集和測試集。通常采用80%的數(shù)據(jù)作為訓(xùn)練集, 10%的數(shù)據(jù)作為驗證集, 10%的數(shù)據(jù)作為測試集, 以確保數(shù)據(jù)分布的均勻性。其次, 利用預(yù)先設(shè)定的參數(shù), 初始化Transformer模型, 并加載預(yù)訓(xùn)練的詞嵌入(如GloVe、Word2Vec)。再次, 輸入審計報告相關(guān)數(shù)據(jù), 計算預(yù)測結(jié)果和損失值, 根據(jù)損失值計算梯度并更新模型參數(shù)。在每輪訓(xùn)練結(jié)束后, 使用驗證集評估模型性能, 記錄損失值和評估指標(如BLEU分數(shù)、ROUGE分數(shù))。最后, 模型調(diào)優(yōu)。利用網(wǎng)格搜索(Grid Search)法在預(yù)設(shè)范圍內(nèi)對學(xué)習率、 批次大小、 隱藏層大小等超參數(shù)進行組合實驗, 尋找最優(yōu)參數(shù)組合; 或是訓(xùn)練多個不同的模型, 并對其預(yù)測結(jié)果進行加權(quán)平均或投票, 以提升模型的穩(wěn)定性和性能; 還可以使用交叉驗證方法, 將訓(xùn)練集分為多個子集, 進行多次訓(xùn)練和驗證, 并根據(jù)驗證結(jié)果不斷調(diào)整模型參數(shù)和訓(xùn)練配置, 優(yōu)化模型性能。
(4) 審計報告自動生成模型部署與應(yīng)用(應(yīng)用階段)。首先, 選擇部署環(huán)境。事務(wù)所選擇了AWS云平臺進行模型部署, 利用其提供的高性能計算實例, 確保模型的高效運行。其次, 接口開發(fā)??梢赃x擇基于RESTful API的接口, 支持批量數(shù)據(jù)輸入和生成結(jié)果的輸出, 并在接口中集成JWT(JSON Web Token)認證機制, 確保數(shù)據(jù)傳輸?shù)陌踩院陀脩羯矸莸尿炞C。再次, 部署與測試。使用Docker將模型打包成容器, 通過Kubernetes進行管理和部署, 并進行功能測試和負載測試, 確保系統(tǒng)在高并發(fā)條件下穩(wěn)定運行, 響應(yīng)時間控制在200ms以內(nèi)。此外, 可以通過部署Prometheus和Grafana, 對系統(tǒng)運行狀態(tài)和性能指標進行實時監(jiān)控, 確保系統(tǒng)的穩(wěn)定性, 并定期更新審計報告數(shù)據(jù)集, 通過CI/CD管道自動化模型的更新和部署, 保持模型的最佳性能。最后, 編寫詳細的使用文檔和培訓(xùn)手冊, 組織定期的用戶培訓(xùn)會議, 幫助用戶快速上手系統(tǒng)。
四、 生成式人工智能應(yīng)用于審計報告自動生成的風險
1. 數(shù)據(jù)隱私和安全風險。在構(gòu)建基于生成式人工智能的審計報告自動生成模型時, 數(shù)據(jù)隱私和安全風險是至關(guān)重要的考慮因素。這些風險涉及審計報告所使用的敏感數(shù)據(jù)的安全性和機密性, 以及在處理和傳輸過程中可能遭受到的各種威脅。數(shù)據(jù)隱私風險包括數(shù)據(jù)的非授權(quán)訪問和泄露。審計報告所涉及的數(shù)據(jù)通常包含企業(yè)的財務(wù)信息、 客戶資料以及其他敏感數(shù)據(jù)。如果這些數(shù)據(jù)在處理過程中被未經(jīng)授權(quán)的人員訪問, 就可能引發(fā)嚴重的隱私泄露問題。例如, 未經(jīng)授權(quán)的訪問者可能會獲取敏感數(shù)據(jù), 導(dǎo)致客戶信任受損, 甚至引發(fā)法律訴訟。數(shù)據(jù)安全風險涉及各種網(wǎng)絡(luò)威脅和惡意行為。網(wǎng)絡(luò)攻擊者可能會利用漏洞入侵系統(tǒng), 以獲取敏感數(shù)據(jù)或篡改審計報告。惡意軟件也是一項嚴重的威脅, 它可能通過惡意代碼感染系統(tǒng), 導(dǎo)致數(shù)據(jù)被竊取、 破壞或勒索。此外, 內(nèi)部威脅也不能忽視, 模型使用者可能會濫用權(quán)限, 有意或無意地泄露敏感信息, 導(dǎo)致數(shù)據(jù)泄露。
2. 文本偏差和失真風險?;谏墒饺斯ぶ悄芗夹g(shù)的審計報告自動生成模型可能會受到審計報告數(shù)據(jù)中的“噪聲”、 錯誤和不一致性的影響, 導(dǎo)致模型生成文本產(chǎn)生偏差和失真。第一, 審計報告數(shù)據(jù)本身可能受到多種“噪聲”的影響。這些“噪聲”可能源自數(shù)據(jù)采集過程中的錯誤、 系統(tǒng)性偏差以及主觀判斷的差異等多個方面。這些包含“噪聲”的數(shù)據(jù)可能會對生成式人工智能模型的學(xué)習產(chǎn)生不利影響, 進而影響報告生成的準確性和可信度。第二, 模型所使用的審計報告訓(xùn)練數(shù)據(jù)集存在選擇偏差, 如僅包含特定類型或行業(yè)的審計數(shù)據(jù), 生成的報告可能對于不同類型企業(yè)的適應(yīng)性和準確性偏低。第三, 審計報告數(shù)據(jù)中可能存在不一致性問題, 即存在相互矛盾的信息或數(shù)據(jù)。這可能是不同數(shù)據(jù)來源之間的差異、 業(yè)務(wù)操作的復(fù)雜性不同以及不同審計期間的變化等原因造成的, 這種不一致性可能會導(dǎo)致模型在學(xué)習和生成文本時產(chǎn)生混淆或錯誤。第四, 模型對新興領(lǐng)域或涉及最新發(fā)展的審計任務(wù)未能有效識別和應(yīng)對。審計領(lǐng)域的不斷演變和創(chuàng)新可能使得模型無法及時捕捉到最新的業(yè)務(wù)趨勢和法規(guī)變化, 導(dǎo)致模型在面對非常規(guī)的審計任務(wù)時可能未能全面掌握有效的處理方式, 導(dǎo)致生成報告文本存在偏差與不足。
3. 語義識別與理解不足風險。由于生成式人工智能模型可能無法完全理解文本的語義和上下文, 生成的審計報告可能存在邏輯不清晰、 信息不連貫的問題。這主要是根源于自然語言的復(fù)雜性和生成式人工智能模型的局限性。自然語言中存在著詞語的多義性和歧義性, 句子結(jié)構(gòu)和邏輯關(guān)系紛繁復(fù)雜, 而生成式人工智能模型往往缺乏足夠的實際經(jīng)驗和背景知識來準確理解特定領(lǐng)域或行業(yè)的術(shù)語和慣用語, 以及可能無法理解復(fù)雜的句子結(jié)構(gòu)或上下文信息, 從而產(chǎn)生不恰當或混淆的內(nèi)容。例如, 當審計報告涉及復(fù)雜的財務(wù)交易或法律條款時, 生成式人工智能模型可能會因為對專業(yè)術(shù)語的理解不準確而生成錯誤的解釋。此外, 生成式人工智能模型可能無法理解文檔中的隱含信息或非字面意義, 導(dǎo)致生成的報告與實際情況不符。
4. 技術(shù)限制和不確定性風險?;谏墒饺斯ぶ悄艿膶徲媹蟾孀詣由赡P驮谒惴ā?數(shù)據(jù)和技術(shù)等方面仍然存在限制和不確定性。在算法設(shè)計方面, 盡管模型所采用的Transformer等算法在自然語言處理領(lǐng)域取得了巨大成功, 但其在審計報告自動生成任務(wù)上的適用性和性能仍存在不確定性, 可能受到生成過程中的梯度消失或梯度爆炸等問題的影響, 導(dǎo)致生成的報告質(zhì)量不穩(wěn)定或偏離預(yù)期。在數(shù)據(jù)質(zhì)量方面, 審計報告的生成需要大量的數(shù)據(jù)輸入, 這些數(shù)據(jù)應(yīng)當具有代表性、 準確性和多樣性。然而, 在實際應(yīng)用中, 獲取高質(zhì)量的審計數(shù)據(jù)可能會面臨挑戰(zhàn)。數(shù)據(jù)可能存在缺失、 錯誤或不一致性, 這些問題都可能對模型的訓(xùn)練和生成結(jié)果產(chǎn)生負面影響。在技術(shù)應(yīng)用方面, 盡管生成式人工智能技術(shù)已經(jīng)取得了顯著進展, 但這些技術(shù)仍然存在局限性和待解決的問題。例如, 模型可能無法很好地處理復(fù)雜的語義理解和邏輯推理, 導(dǎo)致生成的審計報告缺乏連貫性或邏輯性。此外, 新興的技術(shù)和方法可能還未經(jīng)過充分驗證和實踐, 存在一定的風險和不確定性。
五、 生成式人工智能應(yīng)用于審計報告自動生成的風險應(yīng)對
1. 建立數(shù)據(jù)安全和監(jiān)督機制。首先, 數(shù)據(jù)加密是確保數(shù)據(jù)安全的基礎(chǔ), 可以采用先進的加密算法對敏感數(shù)據(jù)進行加密, 以確保即使數(shù)據(jù)被未經(jīng)授權(quán)的人獲取, 也無法解密和讀取其內(nèi)容。針對敏感數(shù)據(jù)的傳輸可以采用SSL/TLS等安全傳輸協(xié)議, 以防止數(shù)據(jù)在傳輸過程中被竊取或篡改。其次, 采用數(shù)據(jù)脫敏和數(shù)據(jù)泛化等方法, 對身份信息和其他敏感信息進行匿名化處理, 以降低數(shù)據(jù)關(guān)聯(lián)性和識別風險。再次, 建立嚴格的訪問控制和權(quán)限管理機制也是確保數(shù)據(jù)安全的重要舉措。通過身份驗證、 訪問授權(quán)和審計跟蹤等技術(shù)手段, 限制對數(shù)據(jù)的訪問和使用, 只有經(jīng)過授權(quán)的人員才能獲取和操作相關(guān)數(shù)據(jù)。對不同級別的用戶設(shè)置不同的權(quán)限, 確保其僅能夠訪問其工作職責所需的數(shù)據(jù), 以最大限度地降低數(shù)據(jù)泄露的風險。最后, 建立健全的監(jiān)督和審核機制也是數(shù)據(jù)安全的重要保障。定期對系統(tǒng)進行安全審計和漏洞掃描, 發(fā)現(xiàn)潛在的安全問題并及時解決。
2. 建立數(shù)據(jù)質(zhì)量控制體系。在審計報告自動生成過程中, 文本偏差和失真風險是不可忽視的挑戰(zhàn), 但可以通過一系列專業(yè)且技術(shù)化的數(shù)據(jù)質(zhì)量控制體系有效應(yīng)對。首先, 建立完善的數(shù)據(jù)預(yù)處理流程, 包括數(shù)據(jù)清洗、 標準化和規(guī)范化, 以消除潛在的數(shù)據(jù)偏差。其次, 采用先進的自然語言處理技術(shù), 如詞向量模型、 語義分析和實體識別, 對文本進行深度理解和分析, 以減少文本理解上的偏差。同時, 引入多模型融合和集成學(xué)習技術(shù), 結(jié)合不同模型的優(yōu)勢, 提高生成報告的準確性和穩(wěn)健性。此外, 建立專家評審團隊, 利用專業(yè)知識和經(jīng)驗對生成的報告進行審核和修正, 確保其符合審計準則和行業(yè)規(guī)范。最后, 持續(xù)監(jiān)測和評估系統(tǒng)性能, 定期更新模型和算法, 以適應(yīng)不斷變化的審計需求和文本特征, 進一步降低文本偏差和失真風險。通過數(shù)據(jù)質(zhì)量控制體系, 可以有效提升生成式人工智能技術(shù)在審計報告自動生成領(lǐng)域的應(yīng)用效果, 確保生成報告的客觀性、 準確性和可信度。
3. 持續(xù)調(diào)整算法與系統(tǒng)優(yōu)化。針對語義識別與理解不足以及技術(shù)限制和不確定性等其他風險, 可以采取一系列綜合性的整體措施進行應(yīng)對。首先, 通過最新的深度學(xué)習和自然語言處理技術(shù)不斷優(yōu)化系統(tǒng), 提高其對語義的識別與理解能力, 包括語境分析、 關(guān)系抽取和概念建模等方面的技術(shù)應(yīng)用, 以確保生成報告的準確性和完整性。其次, 建立靈活、 可擴展的技術(shù)架構(gòu), 包括模型融合、 多模態(tài)數(shù)據(jù)處理和自適應(yīng)學(xué)習算法等, 以應(yīng)對技術(shù)限制和數(shù)據(jù)不確定性帶來的挑戰(zhàn), 提高系統(tǒng)的穩(wěn)健性和適應(yīng)性。加強與審計專業(yè)人員的合作與交流, 充分利用其專業(yè)知識和經(jīng)驗, 提供數(shù)據(jù)標注和領(lǐng)域知識補充, 以補充技術(shù)無法覆蓋的領(lǐng)域知識和細節(jié), 從而降低不確定性風險。最后, 持續(xù)監(jiān)測和評估系統(tǒng)性能, 及時調(diào)整和優(yōu)化算法模型, 以適應(yīng)不斷變化的審計需求和數(shù)據(jù)特征, 從而進一步提高生成報告的質(zhì)量和可信度。通過這些綜合性的整體應(yīng)對措施, 提高系統(tǒng)的穩(wěn)定性和可靠性, 為審計工作提供更有效的支持和保障。
六、 結(jié)語
本文通過相關(guān)文獻綜述和技術(shù)機制分析, 發(fā)現(xiàn)生成式人工智能技術(shù)在審計報告自動生成方面具有巨大潛力?;诖?, 構(gòu)建了基于生成式人工智能的審計報告自動生成模型, 并對數(shù)據(jù)準備、 模型設(shè)計、 模型訓(xùn)練與模型部署等環(huán)節(jié)進行了深入探討。然而, 該模型在實際應(yīng)用中仍然面臨一些挑戰(zhàn), 包括數(shù)據(jù)隱私與安全、 文本偏差與失真、 語義識別與理解不足及技術(shù)限制與不確定性等。為了應(yīng)對這些挑戰(zhàn), 本文提出了一系列針對性的措施, 包括建立數(shù)據(jù)安全與監(jiān)督機制、 建立數(shù)據(jù)質(zhì)量控制體系及持續(xù)調(diào)整算法與系統(tǒng)優(yōu)化等。隨著數(shù)字技術(shù)的不斷發(fā)展, 可以預(yù)見生成式人工智能技術(shù)在提高審計報告自動生成效率、 準確性和靈活性等方面將發(fā)揮愈發(fā)重要的作用。未來研究可以進一步探索該技術(shù)在不同審計領(lǐng)域的適用性, 以及與其他前沿技術(shù)的巧妙結(jié)合, 進而推動審計領(lǐng)域的數(shù)字化轉(zhuǎn)型。
【 主 要 參 考 文 獻 】
畢秀玲,陳帥.科技新時代下的“審計智能+”建設(shè)[ J].審計研究,2019(6):13 ~ 21.
陳銳,江奕輝.生成式AI的治理研究:以ChatGPT為例[ J].科學(xué)學(xué)研究,2024(1):21 ~ 30.
陳偉.基于RPA的審計機器人:機遇、挑戰(zhàn)與方法[ J].中國注冊會計師,2020(10):112 ~ 115.
程平,毛俊力.基于RPA的審計抽樣軟件機器人研究[ J].財會月刊,2021(21):100 ~ 106.
程平,聶琦.基于RPA技術(shù)的主營業(yè)務(wù)收入實質(zhì)性程序?qū)徲嫏C器人的設(shè)計與應(yīng)用[ J].財務(wù)與會計,2021(5):61 ~ 64.
程平,喻暢,龔悅.基于ChatGPT的智能內(nèi)部審計研究[ J].會計之友,2023(20):7 ~ 12.
郭紅建,吳素萱.基于RPA技術(shù)的企業(yè)內(nèi)部審計數(shù)字化轉(zhuǎn)型研究[ J].會計之友,2023(20):13 ~ 19.
馬曉華.基于自然語言處理技術(shù)的IT治理審計方法研究[ J].財會通訊,2021(1):144 ~ 148.
王俊秀.ChatGPT與人工智能時代:突破、風險與治理[ J].東北師大學(xué)報(哲學(xué)社會科學(xué)版),2023(4):19 ~ 28.
吳花平,湯麒胭.ChatGPT對智慧審計的機遇與挑戰(zhàn)[ J].中國注冊會計師,2023(7):67 ~ 72+3.
易冰心,劉思琦,王志勇.AIGC在審計領(lǐng)域的運用[ J].中國注冊會計師,2023(11):69 ~ 73.
郁建興,劉宇軒,吳超.人工智能大模型的變革與治理[ J].中國行政管理,2023(4):6 ~ 13.
鄭石橋.人工智能對審計取證的影響:一個理論框架[ J].財會通訊,2021(7):17 ~ 20+110.
鄭世林,姚守宇,王春峰.ChatGPT新一代人工智能技術(shù)發(fā)展的經(jīng)濟和社會影響[ J].產(chǎn)業(yè)經(jīng)濟評論,2023(3):5 ~ 21.
DOI:10.19641/j.cnki.42-1290/f.2024.24.003
【基金項目】國家社會科學(xué)基金一般項目“數(shù)字賦能平臺供應(yīng)鏈實現(xiàn)價值共創(chuàng)的機制與路徑研究”(項目編號:23BGL042);江蘇高校優(yōu)勢學(xué)科
建設(shè)工程資助項目(PAPD)
【作者單位】南京審計大學(xué)會計學(xué)院, 南京 211815。 王永青為通訊作者