李艷霞
檔案信息化已經成為檔案信息服務社會的最佳技術手段和實現途徑。如何高效地利用爆炸性增長的數字化資源,從錯綜復雜的海量信息中提取出有價值的信息,已成為檔案工作者的重要任務,數據挖掘正是解決這一問題的有力工具。各級財政和統計部門多年來積累了大量的財經類檔案數據,對其進行數據采集和預處理是進一步數據挖掘和利用的基礎。由于財經類數據不同于一般檔案數據,因此,在數據采集、預處理工作中必須充分注意其特性,采用相關技術才能形成高質量的數據,使數據的利用(統計、數學建模、數據挖掘)等更加有效。
1??財經類檔案數據的特點
1.1??數據表現形式單一。財經類檔案數據主要由指標體系和對應的數字構成,主要以表格的形式表現,也有一些數據出現在各類報告中。早期的財經類檔案數據主要是紙質、人工填寫的各類報表。隨著計算機技術的發展和計算機的廣泛應用,財經類檔案數據經歷了一個從簡單的電子表格到數據庫應用發展過程。
1.2??數據來源繁雜。財經類檔案數據的來源主要是各級政府部門的統計、財政決算、預算數據。由于各個主管部門都有其自己的數據來源,加上指標體系、部門劃分等因素隨著社會經濟發展不斷調整,往往造成同一指標對應的數據不一致,或無法進行形成一個對應的、穩定的時間序列數據,從而使得數據的再利用、再加工(如統計、趨勢分析)等工作有較大困難。
1.3??電子數據種類繁多。財經類數據在從紙質到電子化的過程中,幾乎使用了所有的電子表格和數據庫軟件,這些軟件的文件格式、數據結構互不相同,數據源彼此獨立且相互封閉,多數無法兼容。有些軟件由于早已退出市場,甚至無法找到能夠使用的版本。這給數據采集,特別是歷史數據的采集帶來了相當大的困難。
1.4??數據之間有嚴格的平衡關系和邏輯關系。財經類數據之間一般情況下都有嚴格的平衡關系,一套報表往往要求表內數據通過單表內平衡審核、邏輯審核以及表間平衡和邏輯關系審核。這使得財經類數據的整理、校驗有一個嚴格的要求,數據必須通過所有的平衡、邏輯關系審核。對于缺失數據,往往也不能通過插值等統計方法補充。
2??數據采集
數據源的質量是數據挖掘質量的最重要因素之一。在原始數據的獲取過程中,如何針對財經類數據的特點,從源頭盡量減少錯誤和誤差,尤為重要。在財經類數據采集過程中,必須注意以下幾個方面。
2.1??了解原始數據屬性及對應的指標的確切含義。這是采集原始數據的基礎。一些數據指標經歷了不斷調整的過程,因此,必須首先了解原始數據的屬性、結構、準確含義、包含的范圍以及前后時間階段的調整關系,確定所需要的數據項和數據提取原則。
2.2??原始數據獲取。財經類數據的獲取必須按照嚴格的操作規范、使用恰當的技術手段來完成。對于紙質報表類的數據,可采用電子掃描、OCR識別的方法獲取原始數據。對于電子類多源異質異構數據的獲取,還要考慮數據源的連接和數據格式的轉換問題,必要時還需要安裝相應的軟硬件平臺。對于已退出市場、兼容性差且沒有運行平臺的電子表格或數據庫類軟件,則需要編寫相應的轉換工具從原始數據文件中讀出數據。
3??數據整理
數據整理是數據預處理過程中最花費時間,但也是最為關鍵的步驟。一般情況下,獲取的原始數據都會有各類問題或缺陷,在下一步處理之前必須進行整理。
3.1??財經類數據的問題類型。對于財經類數據來說,原始數據一般有以下幾種情況需要進行整理。
數據平衡關系錯誤:主要表現是一套報表或一個時間段內的數據并無缺失遺漏,但數據間的各類平衡關系、邏輯關系不滿足。
數據缺失:表現為采集的原始數據中出現缺失遺漏,有孤立數據缺失和系列數據缺失兩種情況。
數據冗余:表現為在一個時間段或一個數據序列內,出現指標含義相同、數據相同的數據項,或是指標名稱不同但含義相同、數據相同的數據項。
數據不一致:表現為一個數據序列中出現指標名稱相同,數據不同或是在一個時間段內由于數據統計范圍調整、指標含義變化引起的數據不一致情況出現。
3.2??數據整理:財經類數據的整理按存儲媒介不同(紙質和電子)有不同的處理方法。現存的財經類紙質報表數據有人工填寫和計算機打印兩種形式。手工填寫的報表是在印刷好的報表中手工填寫數據,由人工審核平衡關系,往往錯誤較多。計算機打印紙質報表一般是采用電子表格軟件或數據庫類軟件填寫數據,通過數據平衡審核后打印出報表。對于早期的數據庫應用,由于原有軟件早已不再使用、數據組織結構不清楚,無法重現軟硬件環境,只能通過原打印的報表獲取數據。
初始獲得的數據根據實際情況可采用以下的技術手段進行整理。
(1)數據平衡關系錯誤。對于此類錯誤,關鍵是要找出平衡關系中錯誤的數據項加以修改。一般情況下,以一套報表中的其他報表或同時期的其他數據作參考,首先確定正確的數據項和錯誤數據項的位置,例如確定是合計數據錯誤還是分項數據錯誤。然后,通過倒推的方法,確定數據平衡關系中錯誤數據應有的值加以改正。實際操作中,這種做法要慎之又慎,每一步都要留有記錄供隨時回到上一步狀態,以免引起更大錯誤出現。
(2)數據缺失錯誤。數據缺失錯誤主要原因是由于時間因素引起的報表數據項丟失,有紙質報表數據缺失和電子報表數據缺失兩種情況。紙質報表數據缺失一般由于保管不善引起報表缺頁或表內數據不清,無法識別;電子類數據缺失一般是由于電子文件讀取錯誤引起。紙質報表數據缺失如果出現整套報表中某表缺失,補充數據相當困難,一般采用以下步驟進行:首先需要根據整套報表中各表間的對應關系確定和其他表有關聯的數據項,第二步參考數據平衡關系錯誤整理的方法對表內缺失數據進行填補;表內數據不清,無法識別的錯誤根據數據平衡關系一般可以確定。電子類數據缺失主要由于原保存在存儲介質(如軟盤、備份用硬盤、數據光盤等)上的備份數據文件無法讀出引起,此時切記不能在存儲介質進行文件拷貝、創建新文件等寫操作,首先要用數據恢復工具將存儲介質的數據文件進行恢復,盡可能減少缺失部分。對無法恢復的數據造成的數據缺失,再參照紙質報表數據缺失處理方法進行處理。
⑶數據冗余。財經類檔案數據的數據冗余一般是指同一指標的數據出現多次。由于報表側重不同,一套報表中各表頁之間多有重復數據出現。對于此類問題,在數據整理中需要將冗余數據標定,以便在下一步構建數據庫時進行篩選。但是要特別注意的是,表中可能含有數據項指標類似但含義不同的數據,在標定冗余數據時,一般需要在一套報表或原始數據庫中確定,哪些數據是基礎數據,哪些是摘抄來的數據,對于后者可標定為冗余數據。
⑷數據不一致錯誤。此類錯誤是財經類檔案數據中最難解決的錯誤,由于指標體系中歷史數據無法對應,從而造成數據分析、趨勢預測等工作無法進行。引起這類錯誤主要有兩個原因。一是因為隨著經濟的發展,原有指標體系調整,一些指標取消或合并,一些新的指標出現;二是行政區劃、部門歸屬改變造成某部門、某地區包含范圍改變引起數據不能對應。這類問題的解決方法是將數據分解,將所有數據分解到底層統計單元(指標或單位)后,按照現行指標體系、管理范圍或行政區劃重新組合。對于無法分解的數據,可采取統計方法進行估算,如采取歷史數據中所占比例或插值算法進行計算,將數據進行分解。但此類估算數據必須嚴格控制,關鍵數據還應結合其他歷史同期資料加以佐證。
⑸在數據整理過程中,有四點需要特別注意。一是在數據整理過程中注意和財經方面的專家進行有效合作。二是一般情況下,報表系統軟件環境中會包含有大量的邏輯審核公式,如原有的軟件環境仍可重建,電子類數據缺失補充或錯誤改正應在原系統中進行,這樣可以有效地減少工作量并提高數據準確性。對于紙質類數據,也可借助計算機電子表格類軟件,在其中建立對應邏輯審核關系,將紙質數據輸入到計算機中進行審核、修改,這樣可大大提高效率。三是財經類數據的整理是一個十分繁瑣的工作,必須有極大的耐心確保數據準確,如果數據有誤,整理出來的檔案數據便失去了使用價值或引起負面作用。四是對刪除、修改、估算的數據必須作備注說明,建立數據修改檔案以備查用。
4??結語
在數據采集整理的實際過程中,上述步驟并不是截然分開。很多情況下需要四個步驟反復進行,或多種方法同時應用以獲得準確數據,處理過程中應該針對具體問題詳細分析后選擇合適的技術和方法,同時要注意和同期的其他檔案資料,如文字性資料、各類報告等中的數據進行核對,如各類來源的數據差別較大,則有必要考慮對數據進行二次整理。
數據整理完成后,需將多個數據源中的數據(數據庫、數據立方體或一般文件)結合起來存放到一個一致的數據存儲中,進行數據集成和融合工作。由于篇幅有限,將另有專文探討。
*本文為河南省軟科學研究項目“非結構化數據在電子檔案中的應用研究”(142400411042)基金項目。
(作者單位:中原工學院??來稿日期:2015-04-16)