王 騰 宋知達 姜冬睿 崔博庶 茅明睿 WANG Teng,SONG Zhida,JIANG Dongrui,CUI Boshu,MAO Mingrui
2017年2月,習近平總書記視察北京市城市規劃建設工作時,提出建立“城市體檢”評估機制,自此,城市體檢得到中央部委和地方的高度重視。住房和城鄉建設部(以下簡稱“住建部”)從城市人居視角出發,不斷擴大城市體檢試點;自然資源部(以下簡稱“自資部”)則主推國土空間規劃城市體檢評估,并發布了《國土空間規劃城市體檢評估規程》;各地方也涌現了具有地方特色的城市體檢或體檢類工作,如北京市于2017年發布的《北京城市總體規劃(2016年—2035年)》提出“一年一體檢,五年一評估”,并較早開展了地方性體檢評估工作。這些城市體檢實踐都有助于及時發現“城市病”,為城市治理提供依據,并積累了較多的研究成果[1-3]。但是,不同部門主導的不同類型城市體檢在數據、指標和算法上存在重合或相似之處,導致地方城市在開展多類型體檢工作中重復投入人力與物力,工作人員容易對不同體系的相似內容產生認知困惑,對社會公示的體檢結果也難以保證口徑一致。目前,國內尚無多類型城市體檢問題的討論和回應。在此背景下,本文試圖在厘清現有主流城市體檢體系的基礎上,探索利用知識圖譜技術實現多類型城市體檢體系的協同。知識圖譜技術作為一種揭示實體之間關系的語義網絡,為表達、組織、管理與利用海量的信息和數據提供了一種有效的方式,近年來得到各專業領域的關注,有學者利用知識圖譜開展城市研究的指標識別與設計工作[4-5]。
現有的主流城市體檢主要有住建部、自資部和地方3套體系。其中住建部城市體檢體系是住建部為實現城市人居環境常態化監測,及時發現、解決城市問題而制定的工作制度和技術方法,至2021年已在58個城市試點。自資部城市體檢是自資部為“健全國土空間規劃實時監測、定期評估、動態維護制度”[6]而開展的城市體檢評估。由于自資部是國土空間規劃的主管部門,城市體檢評估作為國土空間規劃的下游政策工具,其針對性十分明確。地方體檢方面,北京市是最早開始城市體檢探索的城市之一。由于首都的特殊性,以及北京市規劃和自然資源委員會權責的獨特性及探索先行性,其體檢體系與住建部和自資部差異較大,充分體現首都特色,城市體檢成果主要用于評估總體規劃實施效果,同時支持年度建設計劃的制定[7]。總體上看,各類型的城市體檢評估都作為城市問題診斷的參考依據,且都從不同角度挖掘城市發展中需改善的問題,形成一套完善、自洽的城市治理方案,助力城市健康發展,在組織流程、原則導向、內容成果、指標體系、數據獲取等方面存在許多共同點。
由于不同類型城市體檢體系的指標存在重疊和相似之處,不同的城市體檢體系在解決各自關注問題的同時,也引發了重復性工作和權威性受質疑等問題。首先,城市體檢內容覆蓋城市的方方面面,各城市體檢數據獲取過程中需要多部門的廣泛參與和支持。但不同體檢在工作內容構成、組織動員流程、指標與數據體系等方面存在相同或相似之處,勢必增加重復工作。尤其是對于來自各政府部門的社會統計數據、部門專業數據,不同的體檢團隊需各自獲取,既浪費工作團隊的精力,也會給政府部門增加工作量。此外,由于數據出口、版本和算法的差異,可能導致相同或類似的體檢指標產生不同的結果,影響城市體檢工作的權威性。從技術角度看,重復性和權威性問題產生的主要原因源于3方面。
第一,指標不打通。不同體檢指標體系在制定和運行時缺乏溝通協調,既存在完全相同的指標,如住建部、自資部和北京市體檢指標中均包括“全社會R&D支出占GDP比重”和“人均避難場所面積”等指標,也包括名稱不同內涵相似的指標、在數據源和算法存在聯系的指標。如果能建立所有指標間的相互關系,那么在某一類型的城市體檢先行開展后,其他類型的城市體檢可直接或間接使用已有成果,甚至不同類型的城市體檢可以統籌安排。
第二,數據難共享。數據是體檢工作的基礎,住建部和自資部的城市體檢數據源都包括經濟社會發展統計數據和社會大數據,其中涵蓋了大量相同的底層數據。由于體檢工作的組織方式原因,其開展團隊、收集過程、數據提供方填報過程一般都是獨立的,所以可能存在重復收集、重復調研、重復填報等問題,而通過數據共享可以避免很大部分的重復勞動。
第三,算法不統一。不同指標體系制定了各指標的算法,名稱或關注問題相似的指標算法存在差異。如住建部的“公園綠地服務半徑覆蓋率”和自資部的“公園綠地、廣場步行5分鐘覆蓋率”都關注公園綠地的服務覆蓋情況,但算法完全不同。雖然不同指標關注點存在區別,算法和最終結果可以不同,但為避免混淆導致的錯誤和質疑,一方面體檢團隊需要深刻理解不同指標體系中相似指標的差異,另一方面也要在對外收集數據和成果發布時做好說明。
為解決以上問題,需統籌指標、數據和計算各環節,探索能否將不同城市體檢體系整合,以提升城市體檢效率,節約社會資源。
基于多類型城市體檢存在的問題,本文借鑒規劃領域針對多類型規劃不協調而提出的“多規協同”[8-10],提出“多檢協同”概念,即將不同城市體檢體系納入統一框架,通過技術和機制的統籌,實現不同類型體檢的協調開展。“多檢協同”不是將所有體檢整合為一個體檢體系,而是通過不同城市體檢體系之間的協作與合作,實現資源高效利用。協同的內容包括城市體檢的不同環節,可分為機制管理協同和技術協同兩大部分,本文僅涉及后者,包括指標、數據和算法上的協同。
多類型城市體檢體系問題的解決具有現實緊迫性。多檢協同既是協調技術沖突和冗余的有效手段,也是形成政策合力、解決政出多門,從而更好地開展城市治理的時代響應。通過協同,可以有效解決當下多類型城市體檢評估體系并行導致的問題,減少資源重復投入,推動更高效的城市治理。
多檢協同也具有現實可行性。由于各類型的城市體檢根本目的一致,工作原則、組織方式、指標體系、數據源等具有共同點,本文引入知識圖譜技術,以解決多檢協同中的知識和語義關系問題。
知識圖譜是一種基于圖模型的方式來描述知識,并通過關系來構建知識之間聯系的大規模語義網絡,包括知識構建、知識存儲、知識融合、知識表達、知識挖掘等具體技術[11]。相較于傳統的大數據結構,知識圖譜在基于規則化知識的基礎上能夠覆蓋更加復雜的知識結構,在存儲知識的同時存儲知識之間的各種關系,使得計算機能夠更進一步理解和解釋具有復雜關系的知識體系。
如前文所述,在多檢協同的工作中最重要的是建立不同城市體檢體系之間的聯系,將不同城市體檢指標、數據和計算置于同一框架中。而知識圖譜技術的核心優勢在于對復雜關系網絡的理解能力和對知識關系更強的構建能力,能夠完美對應協同的要求。知識圖譜技術在多城市體檢協同工作中具體包括4個方面的應用價值:一是通過知識表達關系網梳理并全面理解數據和指標,發現不同類型體檢指標的聯系與共性,打通不同指標體系之間的壁壘;二是通過使用知識圖譜的圖數據庫存儲,可以建立完整的全數據—指標庫,實現數據和指標的全面共享和調用;三是在構建好知識庫后,通過知識融合技術,可以在知識更新過程中避免知識冗余和關系沖突,保證知識的準確性和一致性;四是通過圖譜知識問答技術,可以實現城市體檢領域的相關規則、知識、標準的快速查詢,大大減少工作人員對經驗的依賴性。
綜上所述,基于知識圖譜技術打通數據、指標和算法的聯系,能夠實現更有效的體檢知識關系表達和更科學的分析反饋,可以減少資源的重復投入,高效地實現體檢工作的各項要求。因此,在多檢協同中引入知識圖譜技術是可行的。
基于知識圖譜技術特性和多檢協同需解決的問題,本文嘗試從知識圖譜實現多檢協同的數據工作流程角度展開論述。知識圖譜位于整個多檢協同流程的上層,是加工后城市體檢內容的管理工具和多維度信息聚集的輔助決策中心。多檢協同方法又按照數據協同、指標協同和算法協同3大類進行流程設計,形成了縱向和橫向的多維關系網絡(見圖1)。

圖1 知識圖譜驅動的多檢協同方法流程圖Fig.1 Flow chart of multi-type city examination synergy method driven by knowledge graph
數據是體檢計算的原料,因而多檢協同的第一步是實現數據協同。數據協同是指把不同領域(自然空間、城市空間、社會、經濟、政治、文化等)、不同來源(政府部門、互聯網平臺、實地調研、物聯網感知)、通過不同途徑(人工填報錄入、大數據批量獲取、部門協調)獲取的多元異構數據(結構化、半結構化、非結構化),經過清洗和整理,以統一標準化的格式錄入數據庫中。基于圖關系技術,將需要實現協同的體檢指標體系中涉及的各類型數據進行梳理,將其加入城市體檢知識庫,從而實現基于知識圖譜的多源體檢數據的有機統一管理。
在城市體檢實際工作中,一個指標可能有一個數據來源,也存在一個指標需要多個數據來源,通過復雜算法或相互參考校核得出指標結果的情況。為了在滿足體檢合規要求的同時豐富體檢內容,需要從數據源入手,了解數據的可行性,發現備選和替代方案,進行指標所用數據的統籌設計。使用傳統的數據庫管理,由于數據在時間、空間等各個層級上的可實現性不同,數據協同、打通下沉并統一管理的難度很高。而知識圖譜管理的優勢就在于能夠打破傳統數據表之間的隔閡,以基本的數據類型為抓手,更容易按照需求對體檢可用的數據進行統一查看和管理。在知識圖譜中,三元組是建立知識之間聯系的基本單位,其基本形式為“實體—關系—實體”或“實體—屬性—屬性值”,如“空氣質量數據—對應關系—空氣優良天數比率指標”就建立起了數據源和指標的對應關系,同理還可以建立特征標簽、時空范圍等指標屬性與指標的對應關系,便于工作人員從數據源頭著手,進行指標的統籌。
3.2.1 底層指標抽取
前文多類型城市體檢體系問題的分析中,提及不同體檢指標體系之間名稱、內涵、算法和數據源上的各種聯系。因此,筆者通過提取出“底層指標”,作為搭建指標體系最基礎的單元和連接節點,來實現整個指標體系的整合和重建。這里的“底層指標”指的是將各指標體系中最下面一級的指標做進一步抽取,得到不需經過二次計算的原始數值。例如,住建部體檢指標體系最下級指標“城市新增商品住宅與新增人口住房需求比”,實際上是由“城市新增商品住宅量”與“新增人口住房需求量”兩個“底層指標”相除計算得出的。
具體操作中,筆者嘗試在知識圖譜中運用自然語言處理技術,結合指標名稱特征、算法描述、數據源,抽取出“底層指標”實體,將加入多檢協同的所有指標體系都打散,構建涵蓋全面的綜合指標表,并在數據庫中進行統一存儲。
3.2.2 指標屬性管理
傳統的大數據方法基于結構化的數據,通過讀取表格、字段的方式滿足城市體檢的指標計算和管理需求。但如果面臨多指標體系、復雜數據來源,單一的結構化數據無法關聯不同來源數據,很難發現層級豐富、表達方式多樣的指標間存在的聯系。知識圖譜中的數據和指標作為主體都有各自相應屬性,以屬性為索引,可以更加深入地了解指標的內涵,發現數據和指標、指標和指標的聯系,可為城市體檢工作人員理解體檢指標體系、根據實際需求設計指標體系提供關鍵依據。
指標屬性通常包括其數據來源、歸屬體系、空間顆粒度(市、區縣、街鄉鎮等)、時間顆粒度(年度、半年度、季度;連續累計、瞬時截面等)、特征標簽(如“環境”類指標、“公共服務”類指標等)。以“城市道路網密度”為例,數據來源為互聯網地圖,其指標空間顆粒度為街鄉鎮,時間顆粒度為年度,特征標簽為交通設施類。
3.2.3 指標關系管理
在實際應用中,對指標關系(包括層級、類型、數據源和內涵等方面)的全面和深入了解,是體檢參與人員理解和設計體檢指標體系的另一個關鍵。傳統的數據可視化表達往往采用樹狀圖的模式對結構化數據進行展示,包含多層級和跨層級的復雜結構,無法對關系型概念形成良好支撐。而知識圖譜基于三元組的知識構建,具有極強的關系表達能力,擅長處理多層級的復雜系統,可以通過可視化表達展示多層級的復雜關系。通過城市體檢指標網狀關系圖,既能實現同一指標體系內的上下級關系打通,也能按照指標內涵、指標特征建立跨指標體系的相互關系。例如,在“公共服務”領域下,通過知識圖譜可以管理多指標體系下此領域包含的所有指標,其中包括自資部的“社區小學步行10分鐘覆蓋率”“社區文化活動設施步行15分鐘覆蓋率”和住建部的“公園綠地服務半徑覆蓋率”。
3.3.1 算法一致性設計
由于專項體檢和不同城市的差異性,實際的城市體檢工作中往往會有深入且具差異性的專項業務需求,但算法設計的一致性是計算協同的前提。結合問題分析中發現的算法關聯和計算結果的判讀需要,本文梳理了指標計算類型、參考值/閾值、算法公式、去量綱/歸一化、權重等5類算法設計標準和知識,并形成完整的城市體檢算法關系網絡,可以充分支持不同體檢體系之間計算結果的互相利用和新增專項分析算法的實現。
(1)計算類型
以計算方法分類,指標可分為達標型、引導型和評價型。達標型指標結果只有達標與不達標兩種二元變量,然后直接給予評價或賦予標準指標值。例如“空氣質量優良天數”指標,按照國務院要求,參與評估的城市空氣優良天數不低于292天的,直接給予“達標”的評價,低于292天的則給予“不達標”的評價。引導型指標是指在值域內的幾個關鍵特征節點設立閾值,通過不同閾值的設定,為達到或優于關鍵閾值的結果賦對應的得分。例如“萬人城市文化面積(m2/萬人)”指標,≥2 500為優秀得分即100分,2 000—2 500之間為達標得分即60—100分,<2 000得分則為0—60分。評價型指標是指在指標結果值域中不特意設置節點,通過數值高低得出指標得分、評價好壞。例如,“實施專業化物業管理的住宅小區占比”,對于0%—100%的指標值域,可以直接給予0—100分的評價。
(2)參考值/閾值
達標型、引導型指標的節點可以被稱為參考值或閾值。評價型指標則需要考慮使指標結果有意義的最大值和最小值,它們也可以被稱為參考值。例如,北京市的體檢指標體系想要設定“空氣質量優良天數”指標,參考值和閾值包括3類:規定值,如國務院《“十三五”生態環境保護規劃》和《打贏藍天保衛戰三年行動計劃》規定,2020年地級及以上城市空氣質量優良天數比率達到80%;對標值,2020年36個樣本城市的結果,最低是58%,最高是98%;歷史值,如北京過去10年空氣質量優良的天數比例、以往體檢指標體系計算的該指標結果。很多時候,在難以找到合適的規定值和對標值的時候,歷史值的作用就特別顯著。

圖2 跨指標體系的知識圖譜管理——以“公共服務”為例Fig.2 Sketch map of multi-index management in knowledge graph focusing on "public service"
(3)算法公式
即指標結果實現的數學方法,除了各類具體算法,還有通用性算法,如采用人均統計或地均統計,計算平均值或中值等。
(4)去量綱/歸一化
體檢指標體系屬于多層級指標體系,往往需要下級指標的數值結果向上級聚合,得出上級指標的得分數值。這就首先需要去量綱/歸一化。去量綱指的是去除數據單位之間的不統一,將數據統一變換為無單位(統一單位)的數據集。數據歸一化指的是將數據按比例縮放,使之落入一個特定的區間,便于不同單位或量級的指標能夠進行比較和加權。去量綱/歸一化有多種數學方法,如線性函數歸一化、零均值標準化等。在實際體檢應用中,還要考慮空間、時間、指標特征等因素,就更需要有多方面的知識參照來輔助算法的設計。
(5)權重
不同的下級指標在一個上級指標的框架內重要性不同,用來量化這個重要性的數值即為權重。權重設定是下級指標向上級聚合的第二步。常用的權重設計方法包括主觀的經驗打分和專家打分法,以及客觀的從指標的數值統計特征進行權重設定的方法,如利用數據的信息濃縮原理、通過方差解釋率進行權重設定的因子分析和主成分法,利用數字的相對大小信息進行權重設定的AHP層次法和優序圖法,利用數據熵值信息即信息量大小進行權重設定的熵權法等。不管是主觀的打分法還是客觀的數值特征設定方法,都需要盡量多的知識/信息/數據,而知識圖譜可以極大地擴充它們的來源,從而提升其科學性和全面性。
3.3.2 指標自動/關聯計算
體檢相關的知識、指標內容和算法保存在知識圖譜系統中,數據和指標計算結果可以保存在與知識圖譜連接的數據庫中。因而可以通過基于知識圖譜開發的指標配置工具,實現指標的自動/關聯計算,配置城市體檢的指標內容、算法及完成計算,提高計算效率和成果復用性。指標配置工具以知識圖譜為基礎,核心目的是實現具體業務指標配置和知識圖譜底層知識邏輯之間的解耦。通過指標配置工具,可以實現各體檢項目中所有配置的統一管理,把來自知識圖譜的指標內容、算法、權重、數據源等原料,通過與實際項目背景的結合,調整配置,然后調用數據庫的數據源,進行自動計算。
通過這樣的方式,一方面,已有的指標體系可以作為默認模板,計算時可以直接套用模板進行計算,提升效率。另一方面,由于在實際的城市體檢過程中,設計良好并在實際應用中受到認可的指標體系往往會被長期重復使用,可以用配置工具便捷地調用歷史計算配置,在進行簡單的數據源重新配置之后可實現快速的再次計算。當新一次的體檢結果生成后,通過參考對比知識圖譜中存儲的歷史版本參考值、臨界值等,指標內容和算法可以被調試、優化和迭代。除此之外,基于對指標間關系的梳理,利用多檢協同知識圖譜可以實現不同體檢體系的、但有相同數據源指標的關聯計算,即一次計算實現了所有相關指標的更新,進而解決重復工作的問題。
基于前文提出的方法和技術,以住建部、自資部和北京市城市體檢為協同對象,研究構建了城市體檢知識圖譜并形成相應的可視化應用系統。在指標層面效果最為直接,知識圖譜驅動的多檢協同工作中打通了住建部、自資部和北京市3大體檢指標體系(見圖3)。最終構建的多檢協同知識圖譜包含3大體檢指標體系300余個不同類型的知識和438種知識之間的關系。在知識圖譜系統中,能夠查看任何一個城市體檢指標體系下的各級指標,也能夠直觀地看到不同指標體系之間是否存在關系和存在何種關系,同時支持對指標的檢索查看(見圖4-圖5)。

圖3 城市體檢指標體系綜合及局部放大Fig.3 Panorama and partial enlarged drawing of city examination indexes in knowledge graph

圖4 檢索“綠色”相關指標圖譜結果Fig.4 Indicators' result of the retrieval of "green"

圖5 自資部、住建部城市體檢一級指標聯系圖Fig.5 Linkage diagram of level 1 indicators of Ministry of Natural Resources and Ministry of Housing and Urban-Rural Development
如表1顯示,根據圖譜指標、數據和算法關系,可以將所有指標歸納為7種類型。據此,可以直接合并超過20項完全相同或內容相同的指標,并實現其余超過20項指標的關聯計算,一定程度上解決了重復投入的問題。

表1 住建部、自資部和北京市城市體檢指標體系異同梳理結果①如果指標相同或相似被記為多次,如果有兩個指標體系中存在關系即被考慮和統計。Tab.1 Similarities and differences of MNR,MOHURD and Beijing city examination indicator systems
在數據層面,由于構建了所有指標的指標與數據關系,確定了指標及其對應的數據類型、來源、空間尺度、更新頻率、標準值和計算方法等一系列關系,圖譜網絡代替了原來城市體檢中的指標表、數據源表、算法表等多個表(雖然這些表同時也存在)。通過體檢圖譜系統,可以查看任一數據所關聯的指標和數據獲取方式(見圖6)。

圖6 手機信令數據相關數據來源和底層指標Fig.6 Data source and underlying indicators of mobile phone signaling data
在計算層面,得益于指標關系和指標與數據關系網絡的構建,通過體檢知識圖譜可以將數據源、計算得到的指標結果自動聯系,在一定條件下數據源更新后指標可實現自動計算更新,而算法更新后體檢指標也可實現半自動計算,以及通過關聯計算避免重復收集數據和計算的情況。
最后,城市體檢圖譜的建設實際上形成了知識庫,即知識共享平臺。平臺支持對城市體檢指標、數據和算法等所有相關問題的查詢檢索,平臺利用問題聚類、語義匹配等算法模型,快速定位到問題的答案,并給出問題建議。通過知識圖譜建設,可以實現相關人員城市體檢知識的高效檢索學習、業務工作效率的輔助提升、領域規律的發掘認知和問題解決,讓城市體檢工作不再僅依賴于個體經驗,從而進一步提升知識遷移速度(見圖7)。

圖7 多檢協同知識圖譜系統智能問答界面Fig.7 Intelligent question &answer interface of multi-type city examination synergy system
針對多類型城市體檢并行開展中可能出現的問題,本文創新性地提出多檢協同的理念。為實現該理念,引入知識圖譜技術,設計了知識圖譜驅動的多檢協同的方法流程和技術框架,并以住建部、自資部和北京市的城市體檢指標體系為案例和素材,搭建了多檢協同知識圖譜系統。該知識圖譜系統可以形象揭示各體檢體系之間的聯系和差異,實現多種城市體檢體系之間的協同數據管理、協同指標管理、協同計算和自動更新,有效避免數據重復收集和重復計算的問題。綜上,本文在理念、方法和技術層面均有一定創新,具有較大的研究和應用價值。
本文也存在一些不足。一是人工梳理指標關系工作中,由于對不同類型體檢的知識儲備和親身實踐有限,在關系構建中可能存在偏差。二是僅解決了數據、指標和計算的協同,不能保證后續城市病診斷和城市治理的協同。在今后的研究過程中將繼續深入相關工作。
當前,城市體檢研究和實踐仍在不斷進行,多類型城市體檢并存現象將長期存在。本文提出的多檢協同不是城市體檢的權宜之計,亦非終極形態,而是針對現實問題提出的方法性對策。本文的多檢協同理念給予各體檢體系同樣的尊重,充分挖掘各體系指標的內在聯系和深層次含義,在技術實現的同時為從業者提供了一種審視和理解各體系的方法,為目前各城市普遍面臨的多套體檢體系的協同開展提供了技術參考,也有助于各體檢體系自身的優化和完善。
特別強調的是,本文主要從技術層面探討多檢協同,其真正實現需要強有力的機制保障。如果部門間采取關門工作、各成一派的工作模式,各體檢體系就無法從根源實現協同。希望將來的城市體檢工作無論在技術上還是機制上都能有所協同,甚至如同城市規劃從“多規協同”發展為“多規合一”,城市體檢能由“多檢協同”演化為“多檢合一”,使協同成為體檢工作的內在基因。