陳虎 劉雅瓊




【摘要】DT時(shí)代下, 數(shù)據(jù)成為企業(yè)實(shí)施高效與精準(zhǔn)管理的有力證據(jù)與依據(jù), 而科學(xué)全面地采集數(shù)據(jù)是驅(qū)動(dòng)數(shù)據(jù)發(fā)揮作用的前提。 財(cái)務(wù)部門(mén)作為企業(yè)的數(shù)據(jù)管理中心, 財(cái)務(wù)采集數(shù)據(jù)的范圍在DT時(shí)代進(jìn)一步擴(kuò)展, 包含結(jié)果、交易、過(guò)程、行為、環(huán)境五部分?jǐn)?shù)據(jù), 對(duì)應(yīng)的財(cái)務(wù)數(shù)據(jù)源也發(fā)生了變化。 本文聚焦于DT時(shí)代下財(cái)務(wù)領(lǐng)域的數(shù)據(jù)采集, 研究財(cái)務(wù)采集數(shù)據(jù)以及財(cái)務(wù)數(shù)據(jù)源的范圍, 并有針對(duì)性地分析不同情境下的數(shù)據(jù)采集方法與手段, 助力高效發(fā)揮數(shù)據(jù)價(jià)值, 推動(dòng)財(cái)務(wù)向管理職能轉(zhuǎn)變。
【關(guān)鍵詞】數(shù)據(jù)源;財(cái)務(wù)數(shù)據(jù)源;數(shù)據(jù)采集;數(shù)據(jù)技術(shù)
【中圖分類(lèi)號(hào)】F275? ? ? 【文獻(xiàn)標(biāo)識(shí)碼】A? ? ? 【文章編號(hào)】1004-0994(2022)12-0050-5
DT(Data Technology, 數(shù)據(jù)技術(shù))時(shí)代下, 一方面, 由于面對(duì)海量、復(fù)雜的數(shù)據(jù), 企業(yè)為了更長(zhǎng)遠(yuǎn)的發(fā)展需要精進(jìn)管理, 對(duì)財(cái)務(wù)部門(mén)提出了更高的發(fā)展要求, 財(cái)務(wù)部門(mén)的職能發(fā)生著變化, 已經(jīng)由被動(dòng)的事后核算型逐漸向主動(dòng)的事前預(yù)測(cè)型與事中管理型轉(zhuǎn)變; 另一方面, 隨著“大智移云物區(qū)”新興技術(shù)的蓬勃發(fā)展, 及時(shí)、廣泛地采集數(shù)據(jù)已經(jīng)得以實(shí)現(xiàn)。 財(cái)務(wù)部門(mén)需要重視數(shù)據(jù)采集, 準(zhǔn)確、高效地采集內(nèi)外部、多樣化、多層次的數(shù)據(jù), 把控?cái)?shù)據(jù)質(zhì)量, 發(fā)揮數(shù)據(jù)價(jià)值。
本文關(guān)注DT時(shí)代下財(cái)務(wù)對(duì)數(shù)據(jù)的采集范圍及采集能力, 研究適宜的采集工具與技術(shù), 推動(dòng)財(cái)務(wù)應(yīng)用數(shù)據(jù)發(fā)揮更大的價(jià)值, 為企業(yè)經(jīng)營(yíng)與戰(zhàn)略決策提供支持, 助力企業(yè)財(cái)務(wù)轉(zhuǎn)型。
一、數(shù)據(jù)源的分類(lèi)
科學(xué)全面的數(shù)據(jù)采集工作能夠驅(qū)動(dòng)數(shù)據(jù)高效發(fā)揮價(jià)值, 為此, 數(shù)據(jù)源成為數(shù)據(jù)采集關(guān)注的核心。 數(shù)據(jù)源即數(shù)據(jù)的來(lái)源, 是指提供數(shù)據(jù)的原始器件或媒介。 梳理數(shù)據(jù)源是做好數(shù)據(jù)采集工作的前提。 對(duì)企業(yè)而言, 數(shù)據(jù)源可以按照分布的范圍分類(lèi), 也可以按照數(shù)據(jù)的采集路徑分類(lèi)。
(一)以分布范圍分類(lèi)的數(shù)據(jù)源
數(shù)據(jù)源的分布范圍按照企業(yè)信息體系的邊界分為企業(yè)內(nèi)部數(shù)據(jù)源和企業(yè)外部數(shù)據(jù)源。 對(duì)不同分布范圍的數(shù)據(jù)源進(jìn)行數(shù)據(jù)采集, 需要調(diào)用的資源是不一樣的。
企業(yè)內(nèi)部數(shù)據(jù)源主要包括企業(yè)的業(yè)務(wù)系統(tǒng)、財(cái)務(wù)管理系統(tǒng)、人力資源管理系統(tǒng)、日志采集系統(tǒng)、線(xiàn)下保存數(shù)據(jù)的辦公軟件以及企業(yè)生產(chǎn)環(huán)節(jié)的溫度傳感器等。 企業(yè)內(nèi)部數(shù)據(jù)源承載并提供了絕大部分企業(yè)營(yíng)運(yùn)管理所需的數(shù)據(jù)。 通常, 這部分?jǐn)?shù)據(jù)可通過(guò)數(shù)據(jù)庫(kù)和系統(tǒng)日志等工具進(jìn)行調(diào)取、采集, 或運(yùn)用API(Application Program Interface, 應(yīng)用程序接口)實(shí)現(xiàn)開(kāi)放系統(tǒng)間集成及數(shù)據(jù)傳輸。 但由于大部分企業(yè)內(nèi)部存在信息孤島, 在面對(duì)更廣泛的數(shù)據(jù)采集需求時(shí), 建立數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)中臺(tái)則更能發(fā)揮優(yōu)勢(shì)。
企業(yè)外部數(shù)據(jù)源包括政府、高校、機(jī)構(gòu)、行業(yè)協(xié)會(huì)的開(kāi)放型數(shù)據(jù)庫(kù)以及網(wǎng)頁(yè)與應(yīng)用程序等。 企業(yè)通過(guò)采集外部數(shù)據(jù)打通與客戶(hù)、供應(yīng)商、競(jìng)爭(zhēng)對(duì)手、政府、相關(guān)機(jī)構(gòu)等外部因素的聯(lián)系, 增強(qiáng)了敏覺(jué)性。 相對(duì)于企業(yè)內(nèi)部數(shù)據(jù)源, 外部數(shù)據(jù)源大多分布廣泛且分散, 企業(yè)通常根據(jù)適配性對(duì)數(shù)據(jù)進(jìn)行篩選, 并采用網(wǎng)絡(luò)爬蟲(chóng)和API的方式采集, 從而提高采集的效率和質(zhì)量。
(二)以采集路徑分類(lèi)的數(shù)據(jù)源
數(shù)據(jù)的采集路徑可分為兩類(lèi): 一類(lèi)是將存在于物理世界的數(shù)據(jù)復(fù)刻至數(shù)字世界中; 另一類(lèi)是將本身存在于數(shù)字世界的數(shù)據(jù)搬運(yùn)至企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)平臺(tái)或者數(shù)據(jù)中臺(tái)。 據(jù)此, 可將數(shù)據(jù)源分為物理世界中的數(shù)據(jù)源和數(shù)字世界中的數(shù)據(jù)源。
物理世界中的數(shù)據(jù)源是以物理實(shí)體為載體, 借助物理設(shè)備進(jìn)行數(shù)據(jù)采集, 實(shí)現(xiàn)從物理世界向數(shù)字世界的轉(zhuǎn)化。 企業(yè)的經(jīng)營(yíng)環(huán)境中存在著大量物理世界中的數(shù)據(jù)源, 包括條形碼、二維碼、傳感器、工控設(shè)備等。 針對(duì)物理世界中數(shù)據(jù)的不同形態(tài), 有對(duì)應(yīng)的采集方式及技術(shù)。 典型的采集技術(shù)包括OCR(Optical Character Recognition, 光學(xué)字符識(shí)別)以及ICR(Intelligent Character Recognition, 智能字符識(shí)別)技術(shù)、ASR(Automatic Speech Recognition, 自動(dòng)語(yǔ)音識(shí)別)技術(shù)、RFID(Radio Frequency Identification, 無(wú)線(xiàn)射頻識(shí)別)技術(shù)等。 這些技術(shù)可以幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換, 打造企業(yè)級(jí)的數(shù)字世界。
數(shù)字世界是通過(guò)對(duì)物理世界的感知, 借助數(shù)字技術(shù)、互聯(lián)網(wǎng)、云技術(shù)等科技力量逐步構(gòu)建起的對(duì)物理世界的映射[1] 。 數(shù)字世界中的數(shù)據(jù)源存在于各種軟件、系統(tǒng)或程序中。 這些數(shù)據(jù)雖存在于數(shù)字世界, 但也并非是自然相通的, 需要借用技術(shù)與工具將數(shù)據(jù)采集、匯聚至企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)中, 為下一步數(shù)據(jù)的抽取、清洗、裝載做好準(zhǔn)備。 常見(jiàn)的數(shù)據(jù)采集工具包括系統(tǒng)日志、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)爬蟲(chóng)、API等。
二、財(cái)務(wù)采集數(shù)據(jù)的范圍及數(shù)據(jù)源的擴(kuò)展
聚焦財(cái)務(wù)領(lǐng)域, 財(cái)務(wù)數(shù)據(jù)源也需要隨著財(cái)務(wù)職能的轉(zhuǎn)變進(jìn)一步擴(kuò)展。 傳統(tǒng)財(cái)務(wù)部門(mén)圍繞著九大業(yè)務(wù)流程(費(fèi)用報(bào)銷(xiāo)、采購(gòu)付款、訂單收款、存貨成本、固定資產(chǎn)、總賬報(bào)表、會(huì)計(jì)檔案、資金管理、稅務(wù)管理), 此時(shí), “票賬表錢(qián)稅”背后的數(shù)據(jù)是財(cái)務(wù)人員關(guān)注的重點(diǎn), 其實(shí)質(zhì)可歸類(lèi)為結(jié)果數(shù)據(jù)。 結(jié)果數(shù)據(jù)是企業(yè)經(jīng)營(yíng)過(guò)程中, 處理交易時(shí)所產(chǎn)生、接收的憑證上承載的數(shù)據(jù), 以及在會(huì)計(jì)科目體系下對(duì)這些數(shù)據(jù)進(jìn)行的提煉, 包括發(fā)票金額、差旅行程、付款明細(xì)等數(shù)據(jù)。 與之相對(duì)應(yīng), 承載這些數(shù)據(jù)的發(fā)票、行程單、火車(chē)票、銀行回執(zhí)單、合同等都是傳統(tǒng)財(cái)務(wù)數(shù)據(jù)源。
(一)財(cái)務(wù)采集數(shù)據(jù)范圍的擴(kuò)展
隨著企業(yè)的轉(zhuǎn)型發(fā)展和數(shù)字技術(shù)的賦能, 財(cái)務(wù)職能正向著支持企業(yè)經(jīng)營(yíng)管理轉(zhuǎn)型變革, 財(cái)務(wù)所關(guān)注的數(shù)據(jù)不再僅局限于前文提到的結(jié)果數(shù)據(jù), 財(cái)務(wù)數(shù)據(jù)源也因此得到擴(kuò)展。 除了需要采集結(jié)果數(shù)據(jù), 財(cái)務(wù)還需要采集交易數(shù)據(jù)、過(guò)程數(shù)據(jù)、行為數(shù)據(jù)、環(huán)境數(shù)據(jù)(見(jiàn)圖1), 實(shí)現(xiàn)對(duì)這些數(shù)據(jù)全方位的采集匯聚, 支持和驅(qū)動(dòng)財(cái)務(wù)發(fā)揮經(jīng)營(yíng)管理、價(jià)值創(chuàng)造的職能。
交易數(shù)據(jù)是在企業(yè)與外部利益相關(guān)者進(jìn)行交易時(shí)產(chǎn)生的數(shù)據(jù), 包括交付產(chǎn)品參數(shù)、客戶(hù)評(píng)價(jià)、交易頻率等數(shù)據(jù), 其中交易對(duì)象、交易金額等這一類(lèi)數(shù)據(jù)在交易完成后將轉(zhuǎn)化為結(jié)果數(shù)據(jù); 過(guò)程數(shù)據(jù)是企業(yè)與外部利益相關(guān)者在交互過(guò)程中產(chǎn)生或獲取到的除交易數(shù)據(jù)外的其他數(shù)據(jù), 包括項(xiàng)目進(jìn)度、供應(yīng)商工商信息等數(shù)據(jù); 行為數(shù)據(jù)是企業(yè)經(jīng)營(yíng)過(guò)程中可通過(guò)觀測(cè)工具獲取到的觀測(cè)對(duì)象行為的記錄數(shù)據(jù), 包括用戶(hù)行為日志、物流追蹤等數(shù)據(jù); 環(huán)境數(shù)據(jù)是企業(yè)所處行業(yè)市場(chǎng)情況、國(guó)家宏觀經(jīng)濟(jì)形勢(shì)及全球經(jīng)濟(jì)變化等外部數(shù)據(jù), 包括市場(chǎng)份額、價(jià)格指數(shù)、經(jīng)濟(jì)運(yùn)行指標(biāo)等數(shù)據(jù)。
在此基礎(chǔ)上, 財(cái)務(wù)數(shù)據(jù)源得到了重新定義與擴(kuò)展, 除了傳統(tǒng)的賬表、憑證, 企業(yè)內(nèi)部各類(lèi)業(yè)務(wù)系統(tǒng)、財(cái)務(wù)管理系統(tǒng), 以及外部的網(wǎng)頁(yè)、應(yīng)用程序、開(kāi)放型數(shù)據(jù)庫(kù)、外部開(kāi)放型平臺(tái)等, 都成為全新的財(cái)務(wù)數(shù)據(jù)源。
(二)財(cái)務(wù)數(shù)據(jù)源的擴(kuò)展
擴(kuò)展后的財(cái)務(wù)數(shù)據(jù)源為財(cái)務(wù)更好地向管理職能轉(zhuǎn)變奠定了更加全面的數(shù)據(jù)基礎(chǔ), 可以劃分為三個(gè)層次(見(jiàn)圖2)。 財(cái)務(wù)依此開(kāi)展相應(yīng)的數(shù)據(jù)采集工作, 從而進(jìn)行核算、控制、預(yù)測(cè)、管理、決策等活動(dòng), 實(shí)現(xiàn)財(cái)務(wù)職能的轉(zhuǎn)型變革。
1. 第一層: 財(cái)務(wù)數(shù)據(jù)載體及其結(jié)構(gòu)化。 財(cái)務(wù)數(shù)據(jù)載體是承載業(yè)務(wù)處理過(guò)程中所形成的各結(jié)果數(shù)據(jù)的單據(jù)或票證等。 財(cái)務(wù)數(shù)據(jù)載體作為交易發(fā)生的“證據(jù)”, 是財(cái)務(wù)部門(mén)開(kāi)展財(cái)務(wù)核算工作的重要依據(jù), 按照來(lái)源可以劃分為兩類(lèi)。 一是外部載體, 包括發(fā)票、行程單、火車(chē)票、汽車(chē)票、銀行結(jié)算憑證、完稅憑證等由外部開(kāi)具的材料, 可直接作為賬務(wù)處理的憑證; 二是內(nèi)部載體, 包括業(yè)務(wù)、財(cái)務(wù)處理以及財(cái)務(wù)管理過(guò)程中生成的內(nèi)部材料, 例如記賬憑證、報(bào)賬單、采購(gòu)申請(qǐng)單、驗(yàn)收單、入庫(kù)單、成本控制單等。
另外, 財(cái)務(wù)數(shù)據(jù)載體按照數(shù)據(jù)類(lèi)型還可以劃分為原始憑證、單據(jù)、憑證、賬表四類(lèi)載體(見(jiàn)表1)。
2. 第二層: 對(duì)內(nèi)部信息系統(tǒng)的全面采集。 在第一層的基礎(chǔ)上, 財(cái)務(wù)部門(mén)若想支持企業(yè)控制、預(yù)測(cè)、管理活動(dòng)的開(kāi)展, 需要對(duì)研發(fā)、采購(gòu)、生產(chǎn)、銷(xiāo)售等業(yè)務(wù)環(huán)節(jié)進(jìn)行全景測(cè)繪, 不斷擴(kuò)展數(shù)據(jù)的采集觸點(diǎn)。 為此, 企業(yè)需要實(shí)現(xiàn)銷(xiāo)售、采購(gòu)、人力資源等各類(lèi)信息系統(tǒng)的廣泛連通, 在線(xiàn)采集全系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù), 集成企業(yè)內(nèi)部的數(shù)據(jù)資源, 在高效推進(jìn)業(yè)務(wù)處理與財(cái)務(wù)管理的同時(shí), 為企業(yè)沉淀數(shù)據(jù)基礎(chǔ)。
3. 第三層: 對(duì)其他外部數(shù)據(jù)源的全面采集。 企業(yè)要想從數(shù)據(jù)中獲得洞見(jiàn)支持決策, 就需要建立更為廣泛的數(shù)據(jù)連接, 因此企業(yè)還需要面向外部數(shù)據(jù)源, 比如網(wǎng)頁(yè)、應(yīng)用程序、開(kāi)放型數(shù)據(jù)庫(kù)等, 采集企業(yè)信息體系范圍外的其他數(shù)據(jù), 包括客情、競(jìng)情、行情、國(guó)情等, 比如潛在客戶(hù)與商機(jī)轉(zhuǎn)化數(shù)據(jù)、客戶(hù)畫(huà)像數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手最新產(chǎn)品數(shù)據(jù)、國(guó)家相關(guān)政策數(shù)據(jù)、國(guó)家GDP數(shù)據(jù)等。 內(nèi)外部數(shù)據(jù)網(wǎng)絡(luò)的建立可以置企業(yè)于實(shí)際的市場(chǎng)、行業(yè)、國(guó)情之中, 從微觀視角看經(jīng)營(yíng)狀況, 從宏觀視角把握發(fā)展動(dòng)向。
財(cái)務(wù)數(shù)據(jù)源及數(shù)據(jù)采集的“三大層次”逐步推動(dòng)財(cái)務(wù)部門(mén)從小數(shù)據(jù)集向大數(shù)據(jù)轉(zhuǎn)變, 最終發(fā)展成為覆蓋企業(yè)內(nèi)外部全數(shù)據(jù)采集情境下的數(shù)字神經(jīng)網(wǎng)絡(luò), 包括物理世界及數(shù)字世界的數(shù)據(jù)采集、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)采集、內(nèi)部與外部數(shù)據(jù)采集等多種不同情境。
三、財(cái)務(wù)采集數(shù)據(jù)的方法與工具
財(cái)務(wù)數(shù)據(jù)源分為三大層次, 各層次數(shù)據(jù)采集有針對(duì)性的采集工具與方法。 當(dāng)財(cái)務(wù)部門(mén)面對(duì)不同數(shù)據(jù)的采集情境時(shí), 數(shù)據(jù)源與數(shù)據(jù)采集要求都各不相同(見(jiàn)表2)。 根據(jù)不同情境選擇適配度最高的采集工具和方法是提升數(shù)據(jù)采集效率和質(zhì)量, 保障數(shù)據(jù)安全、有序的關(guān)鍵。
(一)情境一: 感知設(shè)備數(shù)據(jù)采集
描述客觀事物的數(shù)據(jù)可使用感知工具與技術(shù)進(jìn)行采集, 并且這種感知技術(shù)被廣泛應(yīng)用。 常見(jiàn)的感知工具與技術(shù)包括OCR技術(shù)、信息傳感器、射頻識(shí)別技術(shù)、全球定位系統(tǒng)、紅外感應(yīng)器、激光掃描器等。
在典型的財(cái)務(wù)工作中, 存在大量文本格式標(biāo)準(zhǔn)化程度高的財(cái)務(wù)數(shù)據(jù)載體, 包括銀行結(jié)算單、行程單、發(fā)票、火車(chē)票等, 可借助于高效穩(wěn)健的OCR技術(shù), 運(yùn)用光學(xué)設(shè)備(掃描儀、數(shù)碼相機(jī)等)將紙質(zhì)文檔上的文字轉(zhuǎn)化為圖像, 再利用算法把圖像信息翻譯成可編輯的計(jì)算機(jī)文字。 其本質(zhì)是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字, 將人眼的能力延伸到機(jī)器上。
在智能采集方面, 基于切分分類(lèi)引擎的OCR智能識(shí)別技術(shù)可以實(shí)現(xiàn)各類(lèi)發(fā)票及通用票據(jù)的精準(zhǔn)切分分類(lèi)以及快速識(shí)別輸出。 員工可以混拍多張紙質(zhì)發(fā)票上傳影像; 系統(tǒng)基于圖像預(yù)處理技術(shù)與切分分類(lèi)引擎進(jìn)行校正去噪、智能切割, 按照發(fā)票類(lèi)型提取字符圖像的特征并進(jìn)行智能分類(lèi), 支持電票、專(zhuān)票、普票、出租車(chē)票、定額發(fā)票等種類(lèi)多樣、版式不一的票據(jù)[2] ; 分類(lèi)后, OCR技術(shù)根據(jù)發(fā)票類(lèi)型識(shí)別并獲取每張票據(jù)的結(jié)構(gòu)化信息。 感知技術(shù)的應(yīng)用極大限度地實(shí)現(xiàn)了從數(shù)據(jù)載體中采集結(jié)構(gòu)化數(shù)據(jù)。
(二)情境二: 系統(tǒng)中結(jié)構(gòu)化數(shù)據(jù)采集
以數(shù)據(jù)庫(kù)形式存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)幾乎是所有企業(yè)都具備的數(shù)據(jù)資源, 這些數(shù)據(jù)往往涵蓋了企業(yè)生產(chǎn)和經(jīng)營(yíng)各個(gè)環(huán)節(jié)的核心數(shù)據(jù), 因?yàn)樗鼈兊臄?shù)據(jù)源是承載企業(yè)業(yè)務(wù)處理、財(cái)務(wù)管理、人力管理等的各大信息系統(tǒng), 且高度結(jié)構(gòu)化, 可進(jìn)行批量采集。
通過(guò)信息系統(tǒng)采集數(shù)據(jù)是常見(jiàn)的數(shù)據(jù)采集方式, 比如通過(guò)票聯(lián)系統(tǒng)能夠獲取各類(lèi)票據(jù)信息; 通過(guò)供應(yīng)商智能結(jié)算系統(tǒng)能夠智能連接所有供應(yīng)商, 獲取開(kāi)票數(shù)據(jù)、發(fā)票查驗(yàn)、三單匹配、智能審核、采購(gòu)結(jié)算、認(rèn)證抵扣等數(shù)據(jù); 通過(guò)營(yíng)收稽核系統(tǒng)能夠獲取并匹配應(yīng)收與實(shí)收數(shù)據(jù), 實(shí)時(shí)顯示自動(dòng)稽核結(jié)果等。 這些信息系統(tǒng)可智能化采集前端業(yè)務(wù)信息并將其存儲(chǔ)為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù), 打通業(yè)財(cái)數(shù)據(jù)線(xiàn)上通道。
事實(shí)上, 上述系統(tǒng)后臺(tái)配置了數(shù)據(jù)庫(kù), 因此能夠在系統(tǒng)中存儲(chǔ)、搜索以及調(diào)用運(yùn)行過(guò)程中產(chǎn)生、傳輸、交換的數(shù)據(jù), 并實(shí)現(xiàn)對(duì)系統(tǒng)數(shù)據(jù)的采集。 如果需要采集、整合跨系統(tǒng)數(shù)據(jù)以實(shí)現(xiàn)多視角分析, 采用數(shù)據(jù)倉(cāng)庫(kù)是比較好的方法。 數(shù)據(jù)倉(cāng)庫(kù)能夠?qū)⒏黝?lèi)結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成中間狀態(tài), 實(shí)現(xiàn)數(shù)據(jù)格式的統(tǒng)一, 并將數(shù)據(jù)在各類(lèi)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)之間進(jìn)行批量同步[3] 。
(三)情境三: 日志文件數(shù)據(jù)采集
部分?jǐn)?shù)據(jù)需要從系統(tǒng)日志、服務(wù)器日志中進(jìn)行采集, 這部分?jǐn)?shù)據(jù)主要用于監(jiān)控系統(tǒng)運(yùn)行情況和記錄用戶(hù)操作行為, 以滿(mǎn)足系統(tǒng)運(yùn)維或運(yùn)營(yíng)管理過(guò)程中數(shù)據(jù)需要實(shí)時(shí)關(guān)注的需求。 每個(gè)系統(tǒng)、服務(wù)器后臺(tái)都有日志, 日志數(shù)據(jù)捕捉了大量用戶(hù)行為, 蘊(yùn)藏著巨大的開(kāi)發(fā)價(jià)值。
用戶(hù)行為分析幫助企業(yè)理解并分析用戶(hù)行為, 是采集后臺(tái)日志數(shù)據(jù)的典型應(yīng)用。 埋點(diǎn)是目前較為常見(jiàn)和成熟的捕捉和記錄用戶(hù)行為的方式。 用戶(hù)一旦發(fā)生特定行為就會(huì)觸發(fā)被提前“埋下”的“數(shù)據(jù)記錄器”, 將其行為過(guò)程進(jìn)行記錄并保存, 以采集日志數(shù)據(jù)。 在財(cái)務(wù)領(lǐng)域, 日志數(shù)據(jù)采集被廣泛應(yīng)用于財(cái)務(wù)作業(yè)平臺(tái)、共享服務(wù)中心的運(yùn)營(yíng)管理中。 例如, 通過(guò)觀測(cè)財(cái)務(wù)人員的單位審單時(shí)間、相同時(shí)間段審核單據(jù)數(shù)量以分析其審單效率, 定位各環(huán)節(jié)質(zhì)量缺陷的主要表現(xiàn)以及質(zhì)量差錯(cuò)的相關(guān)人員, 從而加強(qiáng)管理等。
(四)情境四: 非結(jié)構(gòu)化數(shù)據(jù)采集
目前, 財(cái)務(wù)采集數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)仍然占較大比例, 非結(jié)構(gòu)化數(shù)據(jù)能夠提供多樣化的信息, 幫助人們更全面地理解事物深層內(nèi)涵。 非結(jié)構(gòu)化數(shù)據(jù)包括非結(jié)構(gòu)化文檔、圖像、音頻以及視頻等數(shù)據(jù)。 采集非結(jié)構(gòu)化數(shù)據(jù)需要針對(duì)性的技術(shù)以及系統(tǒng)工具。
NLP(Natural Language Processing, 自然語(yǔ)言處理)技術(shù)是一種可以應(yīng)用在非結(jié)構(gòu)化文本數(shù)據(jù)采集領(lǐng)域的人工智能技術(shù), 旨在利用計(jì)算機(jī)分析自然語(yǔ)言語(yǔ)句和文本, 抽取重要信息, 進(jìn)行檢索、問(wèn)答、自動(dòng)翻譯和文本生成, 能夠從非結(jié)構(gòu)化數(shù)據(jù)中抽取有價(jià)值的數(shù)據(jù)。 在財(cái)務(wù)領(lǐng)域, 合同、內(nèi)部公文制度等復(fù)雜的非結(jié)構(gòu)化文檔海量存在, NLP技術(shù)不僅實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)采集, 更實(shí)現(xiàn)了語(yǔ)義的自動(dòng)理解。 在合同智能審核情境中, 應(yīng)用NLP技術(shù)可自動(dòng)識(shí)別合同文本, 標(biāo)注并抽取其中的關(guān)鍵信息如合同主體、專(zhuān)業(yè)術(shù)語(yǔ)、合同金額等, 形成結(jié)構(gòu)化數(shù)據(jù), 借助語(yǔ)言模型算法對(duì)獲取的結(jié)構(gòu)化信息進(jìn)行模型判斷, 對(duì)合同文本形式、合同主體合格性、合同實(shí)質(zhì)等進(jìn)行初步核查, 輔助人工進(jìn)一步審核[4] 。
(五)情境五: 其他外部數(shù)據(jù)采集
財(cái)務(wù)采集數(shù)據(jù)還存在其他外部數(shù)據(jù)源, 而外部數(shù)據(jù)大多散落在互聯(lián)網(wǎng)網(wǎng)頁(yè)、各大機(jī)構(gòu)的開(kāi)放型數(shù)據(jù)庫(kù)以及外部開(kāi)放型平臺(tái)中。 數(shù)據(jù)類(lèi)型多樣, 內(nèi)容龐雜, 且其蘊(yùn)含的價(jià)值不可小覷。 針對(duì)不同的外部數(shù)據(jù)源需要采取對(duì)應(yīng)的高效智能的數(shù)據(jù)采集技術(shù)。 財(cái)務(wù)部門(mén)通過(guò)采集其他外部數(shù)據(jù), 包括客商、政府、競(jìng)爭(zhēng)對(duì)手等數(shù)據(jù), 完善企業(yè)經(jīng)營(yíng)管理, 了解行業(yè)最新動(dòng)向。
1. 互聯(lián)網(wǎng)網(wǎng)頁(yè)信息采集。 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)廣泛應(yīng)用于互聯(lián)網(wǎng)數(shù)據(jù)的采集。 一般而言實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)的途徑包含兩種: 編寫(xiě)代碼腳本和使用爬蟲(chóng)軟件。 相較于爬蟲(chóng)軟件, 通過(guò)編寫(xiě)代碼腳本可以開(kāi)展個(gè)性化需求非常高的數(shù)據(jù)搜索及采集工作, 其實(shí)現(xiàn)流程主要是獲取網(wǎng)頁(yè)、解析關(guān)鍵數(shù)據(jù)以及存儲(chǔ)數(shù)據(jù)[5] 。 Python(一種計(jì)算機(jī)編程語(yǔ)言)是目前較為常用的爬取網(wǎng)絡(luò)數(shù)據(jù)的計(jì)算機(jī)語(yǔ)言。 網(wǎng)頁(yè)數(shù)據(jù)爬取與人們的工作生活息息相關(guān), 包括谷歌、百度、搜狗等常用的搜索引擎通過(guò)編寫(xiě)自動(dòng)爬蟲(chóng)程序, 爬取、收錄、整合以及利用互聯(lián)網(wǎng)中的優(yōu)質(zhì)信息。 財(cái)務(wù)部門(mén)可以通過(guò)Python爬取競(jìng)爭(zhēng)對(duì)手、行業(yè)標(biāo)桿、客戶(hù)、供應(yīng)商等的經(jīng)營(yíng)數(shù)據(jù), 為企業(yè)戰(zhàn)略規(guī)劃、經(jīng)營(yíng)計(jì)劃的制定以及業(yè)務(wù)發(fā)展提供參考。
2. 各大機(jī)構(gòu)開(kāi)放型數(shù)據(jù)庫(kù)數(shù)據(jù)采集。 在金融經(jīng)濟(jì)、生產(chǎn)制造等諸多領(lǐng)域都有政府部門(mén)或權(quán)威機(jī)構(gòu)專(zhuān)門(mén)開(kāi)放給公眾使用的數(shù)據(jù)庫(kù)。 例如, 國(guó)家數(shù)據(jù)(國(guó)家統(tǒng)計(jì)局開(kāi)放的數(shù)據(jù)庫(kù))、中國(guó)統(tǒng)計(jì)信息網(wǎng)(國(guó)家統(tǒng)計(jì)局的官方網(wǎng)站)、CEIC數(shù)據(jù)庫(kù)(China Entrepreneur Investment Club, 中國(guó)企業(yè)家投融資俱樂(lè)部, 香港環(huán)亞經(jīng)濟(jì)數(shù)據(jù)有限公司開(kāi)放的數(shù)據(jù)庫(kù))等。 開(kāi)放型數(shù)據(jù)庫(kù)數(shù)據(jù)信息專(zhuān)業(yè)、權(quán)威, 可直接進(jìn)行查閱下載或通過(guò)API批量獲取。 財(cái)務(wù)部門(mén)通過(guò)采集機(jī)構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)獲取官方權(quán)威指標(biāo)數(shù)據(jù), 了解企業(yè)經(jīng)營(yíng)的社會(huì)環(huán)境。
3. 外部開(kāi)放型平臺(tái)數(shù)據(jù)采集。 隨著互聯(lián)網(wǎng)應(yīng)用的不斷普及, 越來(lái)越多的網(wǎng)絡(luò)站點(diǎn)推出基于開(kāi)放API標(biāo)準(zhǔn)的產(chǎn)品和服務(wù), 將自身的資源開(kāi)放給開(kāi)發(fā)者來(lái)調(diào)用。 一個(gè)站點(diǎn)(Site)可以理解為一個(gè)存儲(chǔ)區(qū), 存儲(chǔ)了一個(gè)網(wǎng)站包含的所有文件。 對(duì)外開(kāi)放資源的站點(diǎn)提供開(kāi)放統(tǒng)一的API接口環(huán)境幫助使用者訪(fǎng)問(wèn)、獲取站點(diǎn)的功能和資源。 財(cái)務(wù)部門(mén)通過(guò)采集外部開(kāi)放性平臺(tái)數(shù)據(jù), 了解行業(yè)最新動(dòng)態(tài)數(shù)據(jù), 掌握行業(yè)發(fā)展前沿, 助力企業(yè)長(zhǎng)遠(yuǎn)發(fā)展。
四、財(cái)務(wù)采集數(shù)據(jù)的未來(lái)趨勢(shì)
DT時(shí)代下, 數(shù)據(jù)隨需獲取, 越來(lái)越多的企業(yè)正在通過(guò)不斷思考與創(chuàng)新突破傳統(tǒng)財(cái)務(wù)采集數(shù)據(jù)的界限, 追求通過(guò)更高效、更低耗的方式實(shí)現(xiàn)更有效、全面、及時(shí)的數(shù)據(jù)采集, 由此財(cái)務(wù)采集數(shù)據(jù)將逐步實(shí)現(xiàn)無(wú)感觸發(fā)、全量感知、實(shí)時(shí)匯聚。
(一)無(wú)感觸發(fā)
DT時(shí)代下企業(yè)通過(guò)統(tǒng)籌利用軟硬件資源, 發(fā)揮高可靠性、高通用性、高可擴(kuò)展性的數(shù)據(jù)能力, 支持業(yè)務(wù)活動(dòng)產(chǎn)生的數(shù)據(jù)“發(fā)生即采集”。 不同類(lèi)型企業(yè)實(shí)現(xiàn)無(wú)感采集的難度與進(jìn)度存在差異。 數(shù)字原生企業(yè)(互聯(lián)網(wǎng)企業(yè))能夠?qū)崿F(xiàn)業(yè)務(wù)全流程數(shù)據(jù)的自動(dòng)留痕, 助力實(shí)現(xiàn)財(cái)務(wù)數(shù)據(jù)的無(wú)感采集。 而非數(shù)字原生企業(yè)的數(shù)據(jù)無(wú)感采集還只是“點(diǎn)狀”的, 需要全面整合企業(yè)數(shù)據(jù), 逐步實(shí)現(xiàn)企業(yè)全量級(jí)業(yè)財(cái)數(shù)據(jù)的無(wú)感采集。
(二)全量感知
“數(shù)據(jù)感知”是指敏銳覺(jué)察特定數(shù)據(jù), 并在數(shù)字世界中真實(shí)、準(zhǔn)確、及時(shí)地對(duì)其進(jìn)行反映。 全量感知是數(shù)據(jù)深度認(rèn)知的基礎(chǔ), DT時(shí)代下的“全量”并非特指企業(yè)從人、物到業(yè)務(wù)、作業(yè)等復(fù)雜環(huán)境的全覆蓋、全感知, 而更強(qiáng)調(diào)有針對(duì)性地圍繞數(shù)據(jù)深入分析目標(biāo), 將更具“智慧”。 財(cái)務(wù)部門(mén)要能夠?qū)哂袧撛趦r(jià)值的數(shù)據(jù)做出快速反應(yīng), 合理配置資源, 提高資源利用率。
(三)實(shí)時(shí)匯聚
云計(jì)算、物聯(lián)網(wǎng)、5G、邊緣計(jì)算等技術(shù)的成熟應(yīng)用推動(dòng)了數(shù)據(jù)的高頻傳輸、信息的高速互聯(lián), 全面加速著各大企業(yè)、產(chǎn)業(yè)以及全社會(huì)的發(fā)展。 全面加速意味著數(shù)據(jù)采集也應(yīng)保持高級(jí)別的響應(yīng)速度。 云計(jì)算、物聯(lián)網(wǎng)、5G等各項(xiàng)新興技術(shù)的不斷突破及融合應(yīng)用都在助力企業(yè)打造業(yè)財(cái)數(shù)據(jù)采集的實(shí)時(shí)匯聚能力。
DT時(shí)代下財(cái)務(wù)采集數(shù)據(jù)范圍和特點(diǎn)的變化提升了基礎(chǔ)財(cái)務(wù)工作效率和財(cái)務(wù)工作能力, 促進(jìn)財(cái)務(wù)更多地投入到高價(jià)值工作中, 減少了與業(yè)務(wù)部門(mén)的低效溝通, 加速業(yè)財(cái)深度融合, 推動(dòng)財(cái)務(wù)深入業(yè)務(wù)價(jià)值鏈, 并為管理層提供深度經(jīng)營(yíng)分析, 支撐企業(yè)管理決策, 進(jìn)而拓展財(cái)務(wù)的職能邊界, 促進(jìn)財(cái)務(wù)創(chuàng)新與變革。
【 主 要 參 考 文 獻(xiàn) 】
[1] 華為公司數(shù)據(jù)管理部.華為數(shù)據(jù)之道[M].北京:機(jī)械工業(yè)出版社,2020.
[2] 梁偉,郭奕.智慧費(fèi)用報(bào)銷(xiāo)的探索與實(shí)踐——以高新技術(shù)企業(yè)Z公司為例[ J].財(cái)務(wù)與會(huì)計(jì),2021(19):15 ~ 18.
[3] 阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部.大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐[M].北京:電子工業(yè)出版社,2017.
[4] 蔣堅(jiān)強(qiáng),郭奕,黃仁芬.人工智能助力財(cái)務(wù)智能審核——以某通信運(yùn)營(yíng)公司A為例[ J].財(cái)務(wù)與會(huì)計(jì),2021(19):19 ~ 22.
[5] 唐松.Python網(wǎng)絡(luò)爬蟲(chóng)從入門(mén)到實(shí)踐(第2版)[M].北京:機(jī)械工業(yè)出版社,2019.
(責(zé)任編輯·校對(duì): 黃艷晶? 許春玲)