文/周艷會 張磊 尹黨輝
普查是為特定目的而專門組織的全面調查,是系統、全面、準確掌握某特定領域情況的有效手段。但普查內容的設定、普查信息的收集方式、普查數據的有效性校驗和匯總,以及對普查結果的統計分析,則是得到有用普查結果的關鍵。下面以某行業體系內信息系統普查為例,介紹一種有效實用的普查方式及普查信息匯總統計的軟件設計方法,在實踐中,本普查方法和據此設計研制出的普查數據處理系統,為該專項信息普查作出了重要貢獻。
普查具有時效性,應事先規定所查信息是哪個時間點之前的數據,且應規定普查數據多長時間內收集完成,否則普查數據可能會不準確;普查范圍包括被普查的單位范圍和信息填報原則,確定普查范圍和信息填報原則很重要,能從源頭上避免更多的重復信息收集,同時減少工作量。例如,只要求各級綜合部門填報數據,每級單位只填寫本級產生的數據,不可填寫下級上報和上級下發的內容。
普查內容和主要普查指標,決定了整個普查的方向和方法。本示例中,普查內容是本行業體系內,在用在研的信息系統的基本情況和數據項,包括:
(1)信息系統部署應用情況,主要包括系統名稱、主要功能、開發單位、部署應用范圍、使用部門和崗位。
(2)信息系統功能模塊組成情況,主要包括系統功能層次、功能模塊名稱、功能說明、輸入輸出數據表。
(3)信息系統基本數據項情況,主要包括系統基本數據表(不包括生成的統計表和過程表)所含全部數據項的名稱、含義、數據類型、取值范圍、數據流向。
(4)系統技術文檔電子版(需求分析報告、概要設計文檔、詳細設計文檔、數據庫設計文檔、用戶手冊)、系統安裝盤留存情況。
本次普查的重要指標是本行業信息系統的數量和分布情況,各類數據項的內容和數量等。本示例在研究信息系統數量和數據時,采用業務主題的方式分類,主要分為人員類、物資類、經費類、設施類等,所以,在研究信息系統和數據項時,可根據單位和業務主題進行分析;數據庫類型根據實際常用的數據庫來設,包 括Access、Sql Server、mysql、Οracle等;使用范圍列出從大到小的規范用詞,可復選。
因為被普查單位遍布全國各地,內部網絡聯通性不一定很理想,需要填寫的普查信息也不適合在公共網絡上傳輸,所以制定Excel格式模板,便于靈活填寫和匯集。制定模板的原則,一是簡潔易填,二是要反映核心問題。普查模板的主要設計要求是:
(1)明確區分數據來源。以每一單位的名稱(代碼)、位置(代碼)作為本單位上報普查信息的首頁。每一信息系統設定必填的關鍵項,并把必填項規范為數據字典,信息系統類別便是必填項之一。
(2)充分使用Excel的數據有效性校驗和提示功能,將普查模板所有需填寫的信息進行規范,便于匯總和統計。例如:將可能的、規范的或輸入復雜的填寫內容,利用數據有效性的序列功能,作為預置選項;遇到填寫一定類型或范圍內的數值時,如整數范圍、小數范圍、文本長度等,利用數據有效性校驗,在對應單元格加入對數據類型和長度的規定,并設置信息提示;實在無法內置選項但又容易填錯的,應在模板中設定數據類型,并提示填寫格式,如日期、時間的填寫內容。
數據結構應與普查模板相對應,比如要設計單位表、信息系統基本情況表,數據項基本情況表等相關聯的表結構。
本普查系統是個小的獨立系統,可網上部署,異地多用戶使用。根據需求,數據結構設計如圖1所示。
(1)系統數據。用來進行系統運行維護和管理的數據。包括系統用戶、用戶權限、日志等。

圖1:數據結構設計圖

圖2:普查過程、系統功能及使用流程圖
(2)基準數據。是本系統的基礎標準數據,主要包括單位基礎信息、信息系統分類、操作系統類型、數據庫類型等基礎標準和字典信息。
(3)普查數據。普查結果數據,主要包括通過普查模板填寫的信息系統基本情況數據,數據項信息等。
(4)統計數據。主要存儲用來進行統計分析的數據模型和統計分析計算的結果數據。
本示例的普查過程、系統功能及使用流程如圖2。
即對普查收集上來的數據進行合格性檢查和初步規范。通過網絡、郵件或光盤等渠道報來的電子版原始數據,按單位順序備份到專用文件夾中,然后進行數據檢查和初步規范。
首先要讀取數據,從第一行數據的第一列開始,逐項數據讀取,檢查收集到的普查數據,并判斷是否符合填寫要求,符合要求,則移到下一列,一行檢查完后,移到下一行繼續檢查,直至文件尾,如果不符合要求,則提示出錯的當前行、列及錯誤信息內容。必要時需要打開原文件,進行修改。
最常見的問題包括:數據項的數據類型、長度不符合要求、日期時間和數值的填寫錯誤導致無法轉換成相應格式等。一般進行系統功能檢查前,先進行人工檢視,人工檢視是根據普查模板和普查要求,通篇瀏覽全部數據,若有較明確的數據問題,則立即修正。
通過數據檢查的普查數據,經過數據格式轉換、內容轉換等操作,將Excel格式的非結構化數據存入Οracle格式的結構化數據表中,在此過程中若有問題導致讀入導常,應編制詳細的提示信息,將錯誤所在位置和問題顯示出來,便于修改。
規范數據主要有兩項任務:一是去重,一般普查數據重復率較高,信息系統應通過關鍵項判別去重,例如可用報送單位名稱+信息系統類別+研制單位+研制時間等,判別并刪除重復信息;數據項去重的工作量較大,可以用模糊查詢列出全部相關或類似的數據項,然后人工辨別,刪除重復項或照著類似項。二是規范代碼,因部分收集來的信息會有誤,可以按照一定的規則,進行統一修改,規范存入數據庫的數據。
根據統計方式,本示例的統計方法分為模型統計與條件統計。
(1)模型統計。模型統計要求先設定統計模型,然后根據預設的模型進行一次統計、多次展現。這類統計一般較復雜,統計模式相對固定。常用在一些統計數據較多的復雜統計綜合表中,每一表格與不同的統計模型、統計結果數據對應,每次重新統計,對應更新統計結果數據。
(2)條件統計。條件統計一般與查詢相結合,設置單項或組合條件后,可以查詢得出條件范圍內的結果數據列表,也可以在此基礎上進行統計,得出統計數據。
Excel的接口,主要用于普查數據表輸入、數據字典表導入。
查詢結果輸出、統計分析結果輸出等。查詢結果一般以列表形式輸出,統計分析結果包括統計圖形和統計表。統計圖輸出可以是柱形圖、折線圖、餅圖、雷達圖、圓環圖等,統計表應根據需求,輸出對應統計結果表,如按單位統計的信息系統分布表、按業務主題統計的數據項表等。
系統部署可采用網上集中部署,分散授權使用的方式,簡化工作流程,便于信息收集和處理。