付宏燕
(國家信息中心公共技術服務部,北京 100045)
公共資源交易,包括公共部門對公共資源的購買,如政府采購、政府投資或國有資金投資的建設工程招投標等;也包括公共部門對公共資源的出售行為,如國有土地的招拍掛、礦業權和礦產品出讓、國有林權和林產品的出售、 國有文化企業(股權、實物、無形資產)權益出售等交易,以及其他涉及公眾利益、公共安全領域的公共資源的銷售行為。公共資源交易是我國政府創新配置資源方式的重要體現,是現代市場經濟體系的重要組成部分,屬于政務公開的范疇,也是衡量我國營商環境的晴雨表。
根據《國務院辦公廳關于印發整合建立統一的公共資源交易平臺工作方案的通知》(國辦發〔2015〕63號文件)要求,全國公共資源交易平臺進行了深化整合,各地公共資源交易系統產生的交易數據也初步完成了從地市上行到省、國家公共資源交易服務平臺的匯集。但是目前所匯集數據的準確性、全面性等數據質量,以及數據的應用等方面仍不盡如人意,例如因權威數據共享不足,各省、地市評標環節核驗投標主體的資質、業績信息時,仍以投標主體提交的紙介質材料為主,判定材料的真實性無法判定,對于省外投標企業的真實信息更是難以獲取;數據分析等應用未達到國家級、省級從宏觀層面對于交易領域整體視角的市場化、產業化分析支撐,未真正發揮在公共資源交易監管中的作用。如何從國家層面將匯集到的海量公共資源交易數據提升質量,從業務、技術和使用角度合理整合重組,為最大限度地發揮大數據的作用夯實基礎,是迫切需要解決的難題。
公共資源交易數據以項目進場、招標、投標、評標、中標、合同的業務環節,形成項目的鏈條式結構化數據,涉及到的市場主體包括招標人/采購人/出讓人、投標人/供應商/意向受讓方/競買人、中標人/成交人/中標供應商/受讓人、代理機構。每個交易領域都有相應的業務流程。公共資源交易數據倉庫需要關注不同領域市場主體構成與交易、資源配置的分析,無須具體到每個項目細節。因此,業務主線按工程建設招投標、政府采購、土地使用權出讓、礦業權出讓、國有產權交易五個交易領域劃分,每個業務主線對應分析的業務主題,如圖1。

圖1 公共資源交易的業務主線圖
數據倉庫的數據模型設計應支持公共資源交易業務范圍的擴展,分離出底層技術的實現和上層業務的展現。當上層業務變化時,底層技術實現可輕松完成業務的變動。
圖1顯示,市場主體是公共資源交易招投標的主力軍,相關市場主體數據和交易數據共同組成公共資源配置分析的關鍵。將五個業務主線的核心部分抽象處理,用交易事實表存放大量的交易業務度量值,作為歷史交易數據的存檔,通過獲取描述業務過程的度量來表達業務過程;用維度列表給出事實表的粒度定義,并確定出度量值的取值范圍。圍繞交易事實組合不同粒度的多個維度,形成公共資源交易數據倉庫雪花模式的概念模型,如圖2所示。交易事實表的統一交易標識碼,對應每筆交易活動,可提高對交易事實的過濾查詢效率,作為退化維提高事實表的易用性和性能。

圖2 公共資源交易數據倉庫的概念模型
概念模型中主體基礎信息、主體資質信息、交易領域、時間、地域和交易事實組成了主體在不同時間、不同地域、不同交易領域、不同交易類別的招標/采購和成交的系列分析主題,如政府采購領域,某年度在某采購類別的總采購規模、總成交額和總合同額,可支持分析政府在某國民經濟行業分類的投資與執行情況;同時與交易角色的關聯,又組成了交易角色在交易領域、時間、地域維度的系列交易分析主題,如某年京津冀區域異地中標主體占比,可分析京津冀交易市場融合發展等主題。
地方的市場主體數據來源于全國619個交易系統,依托國家電子政務外網級聯式匯集,由地市級交易平臺報送至省級,31個省級交易服務平臺將地市級、省級數據,共同報送到國家公共資源交易服務平臺。國家公共資源交易服務平臺匯集了近三年的工程建設招投標、政府采購、土地使用權和礦業權出讓、國有產權交易等交易領域的市場主體信息,以及主體參與的招投標項目信息、中標(成交)信息等,映射到具體數據表為法人信息表、招標(采購)項目表、中標(成交)結果表。交易主體日增3000家,成交項目日增6000個。
來源于有關部門的法人信息主要包括國家市場監管總局的企業基本信息、商務部的外商投資企業信息、住建部的建筑類企業資質信息以及國家法人庫信息,作為對全國公共資源交易主體信息的校核與補充,涵蓋了企業、事業、機關、社會組織、外資企業等性質。其中,企業基本信息超過7000 萬條,工商續存信息超4300 萬條,事業單位信息125 萬條,機關信息31 萬條,社會組織信息99 萬條,建筑工程類企業資質信息45 萬條。此類數據采集方式為接口實時調用,通過穩定的輪詢機制修正更新,均為主管部門發布的權威信息。
交易概念為最小粒度的雙方成交行為,如標段或子包成交。在全國公共資源交易數據的級聯匯集過程中,用標段編號串聯交易的前后行為,但標段編號全國范圍內并不唯一,故采用統一交易標識碼對應每一筆交易。
招投標全流程電子化是我國公共資源交易發展的主要趨勢。目前全國只有少數交易系統實現了全流程自動產生交易數據,大多數仍由市場主體(含代理機構)在交易系統中錄入,存在較高的誤填率或缺失率,如某地所有主體統一社會信用代碼均填同一個、中標金額填成手機號等。由系統自動產生的數據質量相對較好,但依然存在金額和單位不一等問題。錯誤的數據必然導致錯誤的數據分析結果,有必要對級聯式匯集到的數據進行整合治理,提升正確率和全面率,達到數據分析服務的要求。
不同來源的數據整合治理架構圖如3 所示,針對主體數據、交易數據的特點不同分別做處理。

圖3 數據整合治理架構
多來源的主體數據整合重組邏輯如圖4 所示。數據源需要經過先后三次對主體名稱的匹配驗證、補全信息的操作,以及一系列的去重、打標簽等處理,形成主題層完整、干凈、具有一致性的主體基礎信息表、主體資質信息表。

圖4 多來源主體數據整合重組邏輯
從公共資源交易的招標(采購)項目表、中標結果表中提取主體名稱和交易領域標識;匹配法人基本信息表中的法人名稱,對統一社會信用代碼、法人類別、法人角色、法人機構類別、行政區域代碼等信息進行初次整合重組;重組后的主體名稱去除非法字符、統一括號為全角等規范化處理,形成主體臨時表1。
浮標站位于城區東南方富春江江面上,119°55′~120°02′E,30°01′~30°03′N,海拔5.0 m。北面為城區國家氣象站,東南面分別為新沙島站以及江南站。
利用國家法人庫信息鏡像表對不同性質的主體信息進行第一次驗證和補全。將主體臨時表1的公共資源主體數據,通過主體名稱與法人信息鏡像表中的信息對比匹配,修正錯誤屬性,補全機關、事業單位、社會組織等不同性質的主體屬性,如業務范圍、注冊資本、登記狀態等,形成主體臨時表2。
利用有關部門接口數據對企業信息進行第二、三次驗證和補全。將主體臨時表2中未匹配上法人信息庫的企業名稱,調用市場監管總局的企業基本信息接口,補全企業信息,形成主體臨時表3;將主體臨時表3 的非內資注冊類型的企業名稱,調用商務部外商投資企業信息接口,補全非內資企業的投資國別、投資總額、投資機構信息,形成主體基礎信息表。
住建部接口的建筑類企業資質,與公共資源交易領域交叉在工程建設。將公共資源交易工程建設招投標領域的招投標人、中標人統一社會信用代碼,通過住建部的企業資質接口獲取相應匹配的建筑類主體資質數據寫入主體資質信息表中,為對應的主體添加資質名稱和證書號信息,形成主體資質表。
交易額是資源配置分析的重要數據,也是需要重點糾錯的部分。對照每交易領域成交公示文本,統一成交金額單位;參考上一年單筆成交金額設置上限值,匯集的成交金額數據超出上限時,標識待定異常值;然后啟用文本分析,與項目成交公示中金額進行核驗,如不一致,則取出文本型成交公示的金額替換結構化的成交金額數值。
交易數據帶有成交時間、所屬行政區劃標識,以表明交易環節的歷史時期信息和地域信息,方便對交易規模、交易趨勢、資源配置做出分析和預測。交易數據的核驗與糾正操作在臨時存儲層完成。
由于數據的多來源和級聯式匯集的不可控性,有必要在整合重組過程中進行主體信息的單來源去重、合并去重。對于單張表去重,按照主體名稱對重復數據選擇時間戳最新的一條保留;對于單個接口數據去重,按照調用接口的時間取同一主體的最新數據。合并去重的重要操作是統一字段名稱,如將主體名稱字段統一為furname,將主體統一社會信用代碼統一為uniscid等。
標簽主要作用在于為后續統計和分析提供標識。主體機構性質是統計分析重點,對應字段機構性質名稱jgxz、機構性質代碼jgxz_code打標簽處理。如企業的jgxz 字段代碼設置為“00”,“機關”設置為“01”。從數據的追蹤和應用考慮,關鍵字段數值的來源、主體參與交易時的角色等也均需標簽處理。
對于接口來源數據,通過主動定期全量與不定期增量輪詢機制保證主體信息與來源部門的一致性,全部交易主體信息每周到部門接口輪詢一遍,新增交易主體馬上到接口調用結果并做標識保存。在質量檢查和對賬管理機制上,每天自動生成新增、更新主體數和總數,資質新增、更新以及總數等,以周為單位呈現出周期性變化的更新數據可反映出是否異常。
按粒度層次匯總數據,可支撐鉆取、切片、切塊等多維分析操作和多維報表的展現。取公共資源交易數據中的招標、代理、中標主體,計算出年、季、月不同時間粒度的招標次數、招標金額、交易額、交易量、代理次數等統計指標值,形成主體交易統計表。
按招標人、中標人、代理機構不同交易角色,計算出不同交易領域年、季、月不同時間粒度,以及國家、省、市、重點區域不同地域粒度的主體數量、招標/采購/出讓次數、招標/采購/出讓金額、交易額、交易量、代理次數等統計指標值,形成角色交易統計表。
在大數據的組織和應用過程中,存儲空間和運行時間是一對矛盾,考慮到存儲的相對易得和用戶的使用體驗,可以適當犧牲空間換取時間。主體交易是統計和分析頻率非常高的數據集,為了提高多維查詢性能和便捷操作,將主體交易分析主題相關的指標、維度、屬性關聯形成一張特殊的寬表,按主體名稱對主體基礎信息表與主體交易統計表進行關聯,按統一社會信用代碼對主體基礎信息表與主體資質信息表關聯,三表相互補全62個字段組成主題層的主體交易綜合寬表。
主體交易綜合寬表具備主體性質、主體屬性、資質屬性、時間屬性、地域屬性、參與領域、交易成交等不同層次的主題分析特征,是根據主題分析建立的一個邏輯數據體系,極大地方便了多維度多層次數據使用。由于結構簡單,避免了跨表關聯操作,海量數據的情況下極大地提升了運行效率。綜合寬表的應用可大大提高數據挖掘模型迭代訓練的效率。
數據倉庫分為主題層和臨時存儲層。主題層為參與數據統計、數據分析、數據挖掘、數據共享的表,包括主體綜合寬表、主體交易統計表、角色交易統計表、主體基礎信息表、主體資質信息表、交易事實表、地域表等;臨時存儲層為中間處理過程表,數據倉庫表構成如圖5所示。

圖5 數據倉庫表構成
數據倉庫的建模方法有多種,如何高效地將大數據按需處理、有序組織和存儲,在性能、成本、效率和質量之間取得最佳平衡,進而支撐公共資源交易大數據的分析與挖掘應用,深入的業務理解和建模技術缺一不可。目前,國家公共資源交易數據倉庫已重組了407萬市場主體的交易信息,其中僅2019年和2020年就有161萬參與了公共資源交易活動,平均每月8萬多主體活躍在交易市場,呈持續上升趨勢。在實際應用中,基于數據倉庫開展了新能源、公共衛生等行業資源分配和京津冀區域經濟關聯的分析研究,主體交易綜合寬表正在支撐著全國公共資源交易業績查詢系統的日常運行和統計分析,其中權威的企業基本信息、資質信息和交易成交信息已通過接口方式向地方交易平臺開放,逐步服務于全國各地的全流程電子化交易。
“數據”和“創新”已成為公共資源交易領域促進業務創新增值、提升交易平臺核心價值的重要驅動力。“大數據+公共資源交易”必將進一步改善政務辦公水平,提高公共服務質量,推動有效構建中國營商新環境,為全球營商環境優化提供良好借鑒。