謝軍 胡發剛
摘要:這篇文章探討電子發票信息形式的轉換在RPA前期的作用,闡述發票中非結構化數據轉化為結構化數據的必要性,針對電子發票PDF形式提出具體的形式轉換的處理方法,為加速會計核算人工智能化進程提供參考。
關鍵詞:電子發票;機器人流程自動化;鍵值對
近期,備受關注的《電子商務法》經十三屆全國人大常委會第五次會議表決通過,并于2019年1月1日起施行。《電子商務法》第十四條明確,“電子商務經營者銷售商品或者提供服務應當依法出具紙質發票或者電子發票等購貨憑證或者服務單據。電子發票與紙質發票具有同等法律效力。”可以說,《電子商務法》的推出,將會推動電子發票在國內企業中的廣泛運用。
一、RPA的前期流程
財務領域的機器人流程自動化(RPA),是當前比較流行的財務數字化應用技術,把財務相關的數據輸入—處理—決策—輸出的流程進行分析、拆解,再用機器人軟件模擬人的操作,把原本需要很多人力在會計軟件、ERP軟件、報表軟件,甚至CRM軟件和稅務軟件等各種軟件平臺上完成的填寫、菜單點擊、執行命令、輸出報表、報送等動作,交由機器人來完成,并且每個動作都可以追溯[1]。
RPA這些優勢為企業中提供了提升財務核算效率的手段,直觀地管理核算過程,但是一方面機器人完全按照既定規則完成動作,堅定不移地遵守;另一方面RPA需要以電子表格、網絡表單或數據庫的形式提供結構化數據,以便機器人完美地工作。認知智能結合機器學習在RPA中提供了這種功能,可以處理非結構化或半結構化數據,并將其轉化為結構化形式,然后由機器人處理。例如,結合光學字符識別技術(OCR)、語音識別等認知技術,從輸入端將發票信息轉化為計算機可以處理的信息再交由機器人進行后續處理流程。比如,光學字符識別技術可以把紙質的憑證發票、賬冊、合同的信息掃描到計算機里,并識別為電子邏輯信息,然后交給機器人去做記賬、報表處理[2];而語音識別技術可以幫助機器人識別、接收人的語音指令,甚至從人的語音當中識別出數字信息并且進行處理。
二、電子發票信息形式轉換的作用
電子發票是現代信息社會的產物,是在購銷商品、提供服務或者接受服務以及從事其他經營活動中,開具、收取的數據電文形式的收付款憑證。電子發票與傳統發票的區別主要有兩點:一是從傳統的物理介質發展為數據電文形式,二是打破了紙質發票作為會計記賬憑證的傳統,具備會計檔案電子記賬的條件。國家稅務總局公告2015年第84號《關于推行通過增值稅電子發票系統開具的增值稅電子普通發票有關問題的公告》正式規定打印版式電子發票的法律效力、基本用途和基本使用規定等與稅務機關監制的增值稅普通發票相同。
在傳統的方式中,財務會計人員接觸最多的是結構化的數據,如三十年前開始采用的會計電算化中使用簡單的關系型數據庫作為財務信息的存儲、查詢和報送工具,財務領域最核心的三張表——資產負債表、利潤表和現金流量表以及賬冊,也是結構化數據。隨著財務管理越來越向前端延伸去支撐業務,財務工作面對的不僅僅是結構化的財務數據,而可能會面臨很多業務數據,比如客戶信息、公司產業信息等,在這些大量的業務數據中,相當多的數據可能是非結構化的數據,有些信息甚至可以從社交媒體當中產生,這些信息反映了用戶群的偏好和聚焦程度,并可作為投資估值和市場決策依據,在資本市場上也為投資機構和監管部門所關注。對企業來說,財務工作所需的信息不是任憑幾張表格就可以囊括的。
對發票來說,數據是相同的,但由于格式可能會有所不同、形式不同,發票中存儲的信息成為非結構化數據。如果機器人獲得了這種非結構化數據,它可能會突然停止運行。這時通過機器學習,從發票表格中提取元數據并將其輸入到記錄系統中,一旦輸入,機器人就可以使用這些數據進行后續處理。利用搜索功能提取發票中記錄的開票日期、金額、貨物或應稅勞務、服務名稱等元數據信息,將加強企業管理整個財務風險組合,加速會計核算人工智能化進程。
三、電子發票信息的識別
目前PDF形式在移動終端、電腦上易于閱讀、不易編輯,電子發票較多采用這種形式。雖然可以通過采集電子發票元數據的途徑,來獲取電子發票中包含的信息[3,4],但由于采集元數據的工具尚不完備,本文介紹一種通過定制模板獲取電子發票信息的方法。
在Python語言中,PDFMiner是一個
可以從PDF文檔中提取信息的工具,與其他PDF相關的工具不同,它注重獲取和分析文本數據。PDFMiner允許獲取PDF某一頁中文本的準確位置和一些諸如字體、行數的文本信息。它包括一個PDF轉換器,可以把PDF文件轉換成HTML等格式;還包括一個擴展的PDF解析器,可以用于除文本分析以外的其它用途。PDFMiner的內置工具pdf2txt.py可以從PDF文件中提取所有文本內容。
PDFMiner官方網頁(https://euske.github.io/pdfminer/)列舉出其特點包括:
1.完全使用python編寫。
2.解析,分析,并轉換成PDF文檔。
3.支持PDF-1.7規范。
4.支持中日韓語言和垂直書寫。
5.支持各種字體類型(Type1、 TrueType、Type3和CID)。
6.支持基本加密(RC4)。
7. PDF與HTML轉換。
8.支持提取綱要(TOC)。
9.支持提取標簽內容。
10.通過分組文本塊重建原始的布局(Layout)。
Layout布局分析返回的PDF文檔中的每個頁面LTPage對象,這個對象和頁內包含的子對象,形成一個樹結構,LTPage:表示整個頁,可能會含有LTTextBox,LTFigure,LTImage,LTRect,LTCurve和LTLine子對象。LTTextBox即文字所在的矩形區域。
轉換處理的步驟:
(1)利用以上PDFMiner的特點,首先獲取電子發票中的“開票日期”、“納稅人識別號”、“貨物或應稅勞務、服務名稱”、“數量”、“單價”、“價稅合計”等文字的坐標位置,即所在矩形區域的坐標,形成一個發票信息的認知模板。例如,“開票日期”的坐標位置是(580,46,610,52)。使用pdf2txt.py提取所在矩形區域的文本內容并輸出。
(2)然后在各個信息區域右側或者下方的矩形區域提取文本內容并輸出。
四、發票信息的整理與輸出
鍵值對的鍵(Key)是數據的標識信息,值(Value)是數據本身。將以上提取的發票信息認知模板作為鍵,其附近區域的內容作為對應鍵的值,形成互聯網常用的json數據形式輸出。在RPA中json形式的數據既可以單獨使用,也可以與既存的結構化數據庫字段進行匹配,保存在結構化數據庫中,作進一步處理和分析。如果需要,這種鍵值對也很容易轉換成為XML數據形式。PDFMiner的內置工具dumppdf.py把PDF文件內容轉變成pseudo-XML格式,但是轉換的結果中多數鍵值不能有效對應。
當發票的“貨物或應稅勞務、服務名稱”中出現“(詳見銷貨清單)”時,需要進一步按上文轉換處理的步驟提取PDF的下一頁發票信息,包括“貨物(勞務)名稱”、“規格型號”等。
五、結論與展望
電子發票將對財務工作產生深遠影響[5],財務是一個強規則領域,電子化批量處理發票數據將財務領域內可重復、有規律可循的事務流程和報告流程交給機器人處理。在以上提出的處理方法的基礎上,電子發票包含的有效信息將轉換成會計記賬信息,這有助于加速提高財務決策效率。
參考文獻:
[1]程平,王文怡.基于RPA的財務共享服務中心費用報銷優化研究[J].會計之友,2018 (13): 146-151.
[2]彭晶.智能識別技術在企業信息化系統中的應用探討[J].信息與電腦(理論版),2018 (14): 118-120+125.
[3]馬仲凱.電子發票元數據集探析[J].管理工程師,2018,23 (04): 42-49.
[4]張雅君,李澤鋒.電子發票核心元數據構成與捕獲研究[J].北京檔案,2018 (08): 30-32.
[5]陳立,劉纖云.“互聯網+”環境下電子發票對企業財務工作的影響[J].會計之友,2016 (13): 92-93.