劉辰昀,儲昭武,夏 娟
(1.上海市大數據中心,上海 200072;2.上海計算機軟件技術開發中心,上海 201114)
隨著現代社會的不斷發展,城鎮化進程的加速推進,人口流動日趨頻繁和隨機,以家庭為中心的親屬關系呈現出難以全面掌握、管理及使用的現象。①傳統以血緣為紐帶的區域親屬關系逐漸向以地域為紐帶的跨域親屬關系轉變,親屬關系較難在同一地域管理單元內全面反映。②市場經濟體制的促進作用,具有近親屬關系的自然人分布在多個戶籍或多個地域中,從戶籍關系較難反映家庭成員的親屬關系。③由于行政職能部門的業務協同和數據共享難等問題,法律認定的部分親屬關系數據分散在多個職能部門中,尚未形成有效匯聚和融合處理,無法從數據層面直觀反映動態變化的親屬關系。鑒于此,本文將聚焦“一網通辦”政務服務的智能和高效,梳理涉及親屬關系業務事項辦理的痛點、堵點,以及親屬關系證明的使用場景,整理分析高頻親屬關系類型和數據構成,提出一種親屬關系知識圖譜的構建方法和路徑,為支撐政務服務水平和效能的提升,提供具有可復制性、可行性的解決路徑。
隨著政務服務的改革深化,各行政職能部門圍繞政府職能轉變、政務服務體系變革和服務能力提升,從業務流程優化、業務協同能力提升、數據共享共建等方面持續建設,但由于人口流動大、戶籍關系跨域性等因素影響,證明“我媽是我媽”“我爸只有我一個兒子”等親屬關系證明情況仍屢見不鮮。經統計,在超過一百余項政務服務事項需要提供親屬關系證明材料,且無法通過簡單的跨部門、跨層級、跨地域的數據共享實現,在自然人辦理政務事項時造成了不同程度的困擾。為了有效減少辦事材料及證明、簡化辦事流程、增加辦事效率,切實落實“讓數據多跑路,群眾少跑腿”“進一網、進一門,能通辦”的發展愿,親屬關系證明減免的工作是提高政務服務效能的突破點之一。
自然人的數據來源繁雜、管理主體多元,在面向自然人以及家庭的社會管理和服務過程中,真實可信的親屬關系數據是社會治理精準、高效實施的重要支撐。如在疫情防控工作中,以家庭為基本管理單元的活動中,自然人的家庭成員情況、親屬情況等信息,能夠幫助疫情工作人員及時、高效的定位防控對象,達到事半功倍的效果;在困難家庭幫扶、貧困家庭認定等民政相關的精準幫扶管理中,真實、有效的親屬關系能夠幫助管理者前瞻性、主動式的發現對象,提升群眾的幸福感和獲得感,增強政府的公信力;在防范管理特殊群體過程中,通過親屬關系的發掘,針對性地進行指導和親屬關系介入影響,能夠更有效的實現社會安定。因此,親屬關系數據是社會治理的重要支撐,親屬關系的構建是賦能社區治理更加智能、更加精準、更加高效的有效路徑之一。
由于政府部門行政職能的分工和職權的區隔,自然人的各類數據孤立、分散、無序的存儲現狀仍然顯著,基于自然人的數據共享廣度、深度和效度都還相對有限,難以形成較為全局視角的自然人數據地圖和精準的自然人數據資產,隨著社會多樣化、多變性、時效性的需求不斷產生,迫切需要充分提升數據的應用深度和應用效度,增強數據共享的力度,加速釋放數據價值。利用知識圖譜技術,構建親屬關系圖譜,能高效融合分散、無序的自然人數據,促進政務數據的高效共享和創新應用,是形成全面、統一、權威、真實、可靠的自然人數據資產的可行路徑之一。
知識圖譜是一種大規模的語義網絡,通過描述物理世界的實體及實體間的關系形成結構化的語義知識庫。從原始的數據到構建形成知識圖譜,主要歷經知識建模、知識抽取、知識融合、知識加工和質量評估等步驟。通過數據的融合實現信息的表達,并積累、擴展實現知識的轉化,用于高效搜索、精準表達物理世界實體之間的關系以及實體的基本屬性。
親屬關系圖譜遵循知識圖譜的構建方法,采用語言學的語義場分析手段,從大量自然人數據中提取實體、屬性和關系信息,聚合親屬關系信息,并結合相關法律法規文件,補充關系類型,從而實現親屬關系知識的快速響應和推理。由于自然人數據主要來源于政府各行政職能部門采集的數據,具有單類數據結構良好、來源權威、質量可控但數據關聯度低、業務語義不規范等特點,因此,親屬關系知識圖譜的構建工作重點將圍繞自然人數據向親屬關系信息的提取和向親屬關系知識庫的轉化兩個維度展開,以自然人這一實體對象為核心,加強關系抽取、關系推理等任務,將多來源、多語義的實體屬性和關系數據有效融合加工,形成能準確、全面、清晰表達的親屬關系圖譜,構建框架包括數據準備、圖譜構建和譜圖服務(如圖1所示)。

圖1 親屬關系圖譜構建框架
知識圖譜的邏輯架構,通常劃分為數據層和模式層兩個層次。模式層是知識圖譜的核心,主要通過本體庫來存放實體、關系和屬性等信息,數據層是相對應的真實數據存儲層。在構建親屬關系圖譜之前,首先借助物理世界的法律法規明確各類親屬關系,以指導親屬關系圖譜的本體模型的構建,再結合本體模型,梳理各實體所需的數據資源,夯實知識圖譜所需的各類圖譜要素基礎。
通過《民法典》可知,核心的親屬關系有:①血緣關系,此類親屬關系的主要特征具有強可推理性,例如父親的父親可推理為爺爺。②法律認定的婚姻關系,此類關系具有條件依賴性,隨著婚姻關系的狀態變化而變化。③由血緣關系和婚姻關系衍生的其他親屬關系,此類親屬關系兼具推理性和條件依賴性。④法律認定的監護關系、收養關系等,此類法律認定關系具有期限性、可變性等特點。通過對這四類的親屬關系的梳理組成親屬關系核心語義場,將分析其他各類關系的語義場所包含的親屬關系,最后合并成親屬關系總語義場(表1),以指導本體模型的構建。

表1 親屬關系總語義場
基于政府行政部門的業務范圍和職權分工,構建親屬關系知識圖譜所需的數據資源主要存儲于公安、衛健委、民政、法院、教育等業務部門,由于各部門的信息化建設能力和數據治理能力的差異,數據業務含義、數據的質量狀況、數據的共享情況都有較大差異。結合公共數據治理和應用的實踐,梳理涉及親屬關系的數據主要有以下幾類:
3.2.1 自然人基礎數據
自然人的基礎數據主要來源于公安部門的實有人口數據,此類數據具有全面、權威、更新及時等特性,是本體模型中各類實體的數據底數。
3.2.2 血緣關系數據
目前權威的血緣數據來源主要有兩類。第一類是衛健委的出生醫學證明數據,用于確定父母子女關系,由于社會發展的階段不同,此類數據存在的主要問題是不能覆蓋中老齡人口的出生和生育信息,需其它數據進行補充。第二類是公安部門的戶籍數據,用于確定以房屋為單元的親屬關系,由于公安部門的權威性和安全性,此類數據通常質量較好,但隨著城鎮化發展的演進以及商品化住房的涌現,會存在父母、子女分戶的情況以及非直系親屬關系的情況,親屬關系較為分散和復雜。通過以上兩類數據交互補充及驗證,能建立起基礎父母子女關系和親屬關系,結合社會常識進行推理,可形成相對完整的以血緣為紐帶的親屬關系。
3.2.3 婚姻關系數據
婚姻關系數據來源主要有兩類。第一類是民政部門的結婚登記、離婚登記和死亡證明數據等,第二類是由法院執行的婚姻判決數據。通過以上兩類數據交互補充及驗證,能建立起由婚姻為紐帶形成的親屬關系。
3.2.4 法律認定的其它關系數據
法律認定的其它關系數據主要是指民政部門的收養類數據、法院的撫養判決和監護判決以及親屬關系公證等數據,能建立起由法律規定為依據的親屬關系。
除上所述來源數據外,還會采用教育部門、公共服務部門等在履行職責過程中沉淀的數據,進行親屬關系的交互驗證和補充。
親屬關系圖譜構建在技術和工具選擇以適用為原則,技術架構分為知識存儲層、知識加工層兩層(如圖2所示)。

圖2 技術架構
知識存儲層分為輸入區、管理區、圖譜區三個存儲區。輸入區主要存儲各行政職能部分提供的涉及自然人信息的源數據資源;管理區主要存儲問題數據、模型數據、規則數據等知識圖譜構建過程中的管理數據;圖譜區存儲以圖數據庫存儲經過融合、加工的自然人實體、關系和屬性等圖譜結果數據,用于對外提供智能搜索、關系分析等服務。
知識加工層分為本體模型管理、實體抽取、關系抽取和關系推理四個功能模塊。實體抽取模塊包括映射管理、屬性抽取等;關系抽取模塊包括抽取規則、關系抽取、關系融合等;關系推理包括推理規則、推理引擎、推理任務等。
親屬關系圖譜中模型層的實體對象只有自然人一類,自然人實體對象的屬性主要包括姓名、身份證號、性別、民族、出生日期等關鍵信息項,自然人實體關系包含上文所列各類親屬關系。遵循RDF 標準,構建自然人本體模型如圖3所示。

圖3 自然人本體模型
親屬關系圖譜的知識加工任務主要基于自然人本體模型的實體基礎數據,結合親屬關系語義場,通過實體抽取、關系抽取、關系推理加工融合,形成“實體—關系—實體”三元組以及實體與其屬性、關系的網狀知識結構,加工過程如圖4所示。

圖4 知識加工過程
實體抽取是指從輸入區的源數據集中通過映射方式進行實體數據識別,并通過映射規則或邏輯計算的方式獲取實體屬性等結構化數據,得到一系列離散的自然人實體、屬性、性值,形成本體庫實體對象及其屬性知識圖譜元素。
關系抽取指根據核心親屬關系規則,通過映射規則獲取自然人實體之間的核心親屬關系數據,并采取必要的人工校驗或邏輯計算的方式進行知識融合、合并和補充,形成本體庫實體對象核心親屬關系知識圖譜元素。
關系推理指基于社會常識構建的特定親屬關系推理規則,在核心親屬關系知識基礎上,通過知識推理規則,補充和校驗自然人實體之間的其他親屬關系數據,并進行知識融合、合并和補充,形成本體庫實體對象其他親屬關系圖譜元素。
4.3.1 實體抽取
實體抽取分為實體識別、屬性抽取兩個步驟。采用自然人身份證號作為實體指稱項,通過映射方式對自然人基礎數據集進行實體識別,并將每個身份證號映射為一個實體,再從各自然人基礎數據集通過屬性映射規則或邏輯計算等方式抽取出各個實體屬性值,自然人基礎數據集的關鍵屬性為{姓名、身份證號、性別、民族、出生日期}。實體抽取的結果按照自然人本體模型規范,以RDF 三元組方式表示為{實體,屬性,性值},實體為自然人實體指稱,屬性為實體數據的屬性名,性值為對應的屬性值,形成自然人基礎知識本體庫,示例如表2所示。

表2 實體抽取結果示例
4.3.2 關系抽取
關系抽取采用給定的核心親屬關系規則映射或邏輯計算的方式,以信息不丟失、不失真為原則,對多個含有親屬關系的數據集抽取自然人實體之間的親屬關系實例,關系抽取步驟如圖5所示。

圖5 關系抽取模式
根據3.1 節親屬關系分析的核心親屬關系,結合3.2 節的親屬關系探查結果,歸納整理可抽取的核心親屬關系及其對應數據集、抽取技術如表3所示。

表3 核心親屬關系及其對應數據集
對于抽取到的關系實例,主要采取以下幾種方式進行關系實例選擇,確定最終保留的關系實例結果。一是對抽取的關系實例數據通過人工校驗的方式進行融合和合并,獲取最終的可靠、可信的核心親屬關系知識。二是基于職能部門的業務實際,按照時序、可信度及其它業務邏輯規則等計算規則,對抽取的關系實例數據進行知識融合和合并,獲取最終的權威、最新狀態的核心親屬關系知識。三是對少量不完整的核心親屬關系實例,綜合參考教育、公共服務、社會事務等其他來源數據集,綜合權重計算進行核心親屬關系知識補充。
關系抽取的結果最終按照自然人本體模型規范,以RDF三元組方式表示為{實體1,關系,實體2},主語為自然人實體指稱(身份證號),謂詞為關系名稱,賓語為對應關系自然人實體指稱,形成自然人核心親屬關系知識本體庫,示例如表4所示。

表4 核心親屬關系RDF三元組
4.3.3 關系推理
關系推理主要基于抽取任務建立的核心親屬關系RDF 三元組,結合社會常識構建特定關系推理規則,進行知識推理補全其它親屬關系,以保障親屬關系圖譜在場景應用過程中的支撐效度和響應速度。其中可通過知識推理補全的其他親屬關系主要包括隔代的關系,以及由婚姻關系產生的繼父母子女關系等。考慮到數據存儲量及不同關系使用的概率,本文的其他親屬關系補全只考慮使用概率較高的三代親屬關系補全規則(如表5),其它關系推理規則可參考重新定義,并根據需要添加及動態計算。

表5 三代親屬關系推理規則
基于本文所描述的親屬關系圖譜構建方法和構建路徑,結合公共數據治理和應用的實踐,最終形成了三項實踐成果,為政務服務體系變革和政務服務能力提升提供了全新路徑,為公共數據價值的加速釋放提供了可行路徑。
基于RDF 標準構建的自然人本體模型,具備了良好的擴展性,為后續持續構建以自然人為實體的相關業務知識圖譜打下了實體圖譜元素基礎,同時,標準化的本體模型結構,能滿足和其它知識圖譜的本體層進行知識融合的需要。
經過實踐檢驗的譜圖構建方法及系統架構,為基于公共數據的政務服務和城市治理能力提升及創新應用,提供了可復用的相關領域知識圖譜構建方法和構建路徑,如企業圖譜、房屋圖譜、城市部件圖譜等,為公共數據的由數據向信息的表達和向知識的轉化提供理論參考和實踐支撐,極大提升政府職能部門的數據整合力度和知識轉化效能。
構建完成了區域內基于核心親屬關系的三代親屬關系知識圖譜,該圖譜具備動態更新、增量補充的構建能力,能滿足公安、民政、法院等多個職能部門,涉及檔案、醫療、救助、教育等多項業務場景的親屬關系檢索查詢及定位判別需求,能滿足材料免交的政務服務發展要求,極大提升了區域內的政務服務的效能,極大增強了群眾的獲得感和滿意度。圖6為親屬關系知識圖譜實踐成果示例展示。

圖6 親屬關系圖譜示例
自然人作為政府最重要的服務和管理對象,圍繞其屬性、特征、關系等各類數據資源的管理和應用具有非常重要的現實價值及實踐意義。親屬關系知識圖譜作為承載自然人之間相互聯系的重要信息載體,高效、高速、高質地實現公共數據的價值化能,是公共數據價值釋放的創新應用路徑,但伴隨相關法律法規的變更以及自然人成長狀態的變化,未來親屬關系圖譜還應從以下幾個方面持續建設和升級發展。
各職能部門可根據自身的業務發展需求,構建以自然人為實體對象的領域性知識圖譜。例如公安以調查為目的建立的自然人社會關系類、民政以救助為目的建立的自然人近親屬關系類、法院以財產分割為目的建立的自然人受益人關系類等,通過各領域親屬關系的融合、合并、補充和校正,構建體系化、完善化、全局化的區域親屬關系知識圖譜。
由于城鎮化發展的必然趨勢和人口加速流動的社會現實,在確保數據安全可靠的前提下,親屬關系知識圖譜也需從構建機制、管理體制上創新和變革,通過跨地域的親屬關系圖譜共建共享,提升政務服務跨省通辦的能力和效能,構建全面化、完備化、共享化的跨區域親屬關系知識圖譜。
政府數字化轉型的發展初期,涉及治理、生活、經濟三個方面的轉型都離不開圍繞自然人、法人的高質量、高效能的數據積累及知識應用。積極探索基于親屬關系圖譜的應用場景,加速釋放數據向知識轉化的價值,能夠為社會治理、群眾生活和經濟發展提供更加豐富的數字化轉型場景,全面支撐城市高質量的轉型發展。