楊金慶,葉光輝
用戶移動軌跡數據是移動用戶行為研究最基本的數據支撐,有助于深入分析用戶行為規律,構建更加精細的用戶畫像,挖掘用戶行為偏好。用戶移動軌跡數據不僅是具象的地理坐標數據集合,還蘊含著用戶行為的抽象內涵。社會角色不同的用戶具有不同的活動軌跡,其行為模式也存在差異,解讀地理坐標數據下的語義內涵能夠識別用戶的社會角色和行為模式。從認知科學角度來講,人類行為的核心方面依賴于主體的知識以及從中所作出的推斷并將其轉化為行為意向[1]24-78。地理坐標數據語義轉化符合用戶認知,是數據向信息轉化的必然過程。地理坐標數據是極為準確的地理位置信息數值化表達,以此表達用戶行為軌跡缺乏語義內涵,則難以理解用戶行為意圖。例如,“某人在經緯度為(A,B)的地理位置停留一小時”的表達,就較難以理解用戶偏好和行為意圖,而“某人在C 圖書館停留1 小時”的語義化則較為容易理解用戶的行為意圖。
本文地理坐標數據分析所采用的方法主要借鑒關聯數據理論及技術。關聯數據技術可將文本潛在的語義關系進行顯式揭示和表達,構建起層級清晰、語義關系明確的網絡。大量精確的地理坐標數據蘊含著地理語義信息,但需要經過解析才能得到相應的地名實體信息。地名實體的空間語義特征不僅包含實體所賦予的功能角色、人文歷史等,還包括實體間聯系的空間關系。空間相鄰、功能相似的不同語義的地名實體,從用戶行為數字軌跡上存在鄰近相似,在用戶行為語義內涵上具有相似的行為習慣。在語義轉化過程中,地理坐標數據語義轉化面臨著隱含的關聯信息難以有效表達、地理坐標數據空間層面的語義關聯關系難以構建等問題。地理實體不僅具有社會功能屬性甚至還具有豐富的人文背景信息,數據關聯能為地理實體名稱提供大量的實體內涵描述,為用戶行為意圖分析提供充分的語料。用戶行為軌跡的社會功能及人文背景分析、轉化后的抽象描述有利于把握用戶的行為偏好以及生活習慣。鑒于傳統的信息組織方法無法識別數據間的潛在空間關系,本文采用關聯數據技術進行地理語義信息組織,同時利用空間本體表征地理坐標數據的空間語義關聯關系構建地理坐標數據語義轉化模型。
本文相關研究主要從關聯數據和地理坐標數據語義化兩個維度展開。關聯數據通過RDF數據模型和本體可以將原本隱含在數據背后的語義關系進行明確關聯和表達,其存在一整套相對成熟和完善的理論、方法、模型,而且也還處于不斷完善的階段,對相關研究充分調研有助于更好地利用關聯數據來實現地理坐標數據的語義化;地理坐標語義轉化目前涉及到方法不一而足,相關研究主要聚焦用戶地理行為數據聚類和地理語義表達兩個維度,這些已經開展的研究為本文模型設計提供有力支撐。
關聯數據技術作為一種新型的信息組織方式,一經提出,政府、企業、圖書館等行業及各類科研機構就展開了大量研究與實踐。牟冬梅等[2]為解決數據異構問題,利用關聯數據技術將資源顆粒化,結合本體技術細粒度組織聚合不同結構、類型、來源和關聯強度的數字資源。沈志宏等[3]設計及歸納了關聯數據的發布流程,包括數據建模、實體命名、實體RDF化、實體關聯化、實體發布和開放查詢6個步驟。在數據關聯分析過程中,不同資源對象在各個層面的語義互操作問題是實現關聯的關鍵環節,針對該問題,賈君枝等[4]從資源對象、謂詞、屬性值層面提出資源間不同關系(如等同關系、等級關系、相關關系)的語義互操作方法。張艷俠等[5]分析了關聯數據和本體在VIVO系統中語義互聯的作用,探討關聯數據協同本體實現資源語義互聯的機理,構建資源間語義關系,實現語義層面的資源互聯。除語義互操作問題,資源間語義關系的揭示也是關聯數據分析過程中需要重視的環節,據此相關研究者也開展了研究。崔家旺等[6]構建基于關聯數據的類簇語義關系,為共詞聚類結果的理解和分析提供了新方式。成全等[7]通過對比、剖析關聯數據在語義發現和關聯構建領域的研究,總結出關聯數據語義發現與關聯構建過程遵循的數據處理流程。董坤[8]提出一種基于關聯數據的高校知識資源語義化組織框架,實現對高校知識資源及其關聯關系的語義化描述。王萍等[9]以國內文化遺產領域數字化資源為研究對象,圍繞資源內容描述規則、語義知識本體模型設計、元數據語義化操作和關聯數據發布等方面開展了數字資源語義融合方法研究。綜上所述,關聯數據技術在語義揭示、語義關聯和語義網絡構建等領域具有重要的應用場景,但圍繞地理數據所作的關聯研究還相對較少。
目前該主題相關研究主要聚焦兩方面:(1)從數據聚類角度,采用聚類方法抽取關鍵地理實體,表達一定范圍地理坐標數據的語義信息。Daniel Ashbrook等[10]采用K-means聚類方式將地理坐標數據以15米為范圍半徑進行地名實體語義信息表達。Jong Hee Kang等[11]提出一種融合時間和距離的聚類方法,抽取用戶行為軌跡中的重要地名實體,以重要地名實體名稱描述相應范圍內的地理坐標數據的語義信息;聚類發掘地理語義信息有助于增強重要地名實體地標效應,易于發現用戶日常行為軌跡,但空間粒度難以控制;地理空間語義關聯能夠充分表達地名實體間的空間、層級關系,對空間粒度大小具有操控能力。相關研究仍存在空間語義信息描述不充分、語義人文、功能信息缺乏等問題。(2)從數據關聯角度,利用關聯數據技術,構建地理坐標數據在空間層面的語義關聯。李國忠等[12]通過對地理數據進行語義關系分析,構建地理本體數據庫以檢查地理數據的語義一致性,實現地理信息服務智能化。王坤等[13]從地理信息語義關系角度,以國家基礎地理要素分類體系為概念域,從行政、隸屬、空間形態等方面對地理概念的語義關系進行篩選和顯式定義,重構地理要素間多元語義關系。劉鳳臣等[14]利用關聯數據技術組織和描述地理數據,發掘地理數據間隱含的語義關系,實現地理數據在空間層面的語義關聯。地理數據本質上反映了關聯主體(多為用戶)的行為規律,對此相關研究者提出通過用戶日程建模和提取法,借助用戶訪問地理位置數據中發掘用戶行為模式,獲取用戶日程行為語義[15]85-96。重要地名實體聚類和用戶行為模式發掘都是從用戶行為軌跡整體角度出發,以重要地名實體表達用戶行為地理語義。這種方式對于連續性地理坐標數據的語義挖掘較為實用,但該方法僅是從用戶整體軌跡語義描述的角度出發,缺乏對單一地名實體語義信息的充分描述。每一個地理坐標數據都蘊含著地理語義信息,在不同的空間粒度下,相同的地理坐標數據可解析出不同層級的地理語義信息;此外,不同層級的地理語義信息蘊含著不同深度的地理人文信息。因此,目前地理坐標數據語義轉化分析還存在較大的拓展空間。
融合本文1.1節研究,可以發現聚類抽取地名實體的方式是實現地理坐標數據語義轉化的重要方法,可有效表達用戶行為偏好,但難以表達地名實體間的空間關系,不利于精細化構建用戶畫像。關聯數據是一種擅于構建語義關系(包括空間關系)的信息組織形式,能夠將地理實體的層級和空間關系映射到不同層級的地理語義信息,為本文的地理坐標數據語義轉化模型提供了有力的理論支撐。
地理語義信息網作為新型地理信息組織方式將助力于智慧中國、智慧城市的構建以滿足地理信息服務智能化需求。地理坐標數據蘊含地理語義信息,需借助語義關聯技術揭示語義關系,深入解讀相應地點語義信息。目前,地理坐標數據主要來源于GPS和移動設備信號塔所確定的經緯度數據。地理坐標數據的語義轉化主要包括地理坐標數據預處理、關聯數據構建以及語義轉化等三個重要部分組成。地理坐標數據預處理是指利用反地理編碼技術進行地理實體抽取,并針對相應的語義地理實體進行地理信息描述。關聯數據構建包括地理本體構建和本體語義推理兩個部分,利用空間本體構建地理坐標數據的空間語義關聯關系,推理地理數據間隱含的語義關系,實現地理數據在空間層面的語義關聯。語義轉化過程需考慮用戶行為的區域性,以及行為目的指向性特點。語義化地理區域識別使得語義轉化過程不僅描述單一地理位置的語義信息,而且表達地理坐標數據的空間關系。地理坐標數據語義轉化模型構建流程如圖1所示。

圖1 地理坐標數據語義轉化模型
移動智能環境下,地理空間行為數據主要以地理坐標數據的形式存在,移動智能設備能夠感知來自GPS定位系統和通訊信號塔的地理坐標數據(經緯度記錄)。為了有效發掘地理實體潛在語義關系,本研究首先利用反地理編碼技術對地理坐標數據進行初始語義轉化,然后采用自然語言處理中的命名實體認知方法(NER)抽取相應地理語義實體,最后結合黃頁網站信息以及現存的關聯數據(如DBpedia)對地理語義實體進行信息描述。本文對地理坐標數據進行數據清洗并完成反地理編碼、地點實體識別抽取。地理坐標數據預處理算法如表1所示。
關聯數據構建過程由RDF數據模型和地理空間本體構建組成,RDF數據模型將確定地理實體術語并構建地理實體關系圖譜;地理空間本體能夠對地理數據涉及到的空間特征進行語義關系的明確表達。RDF數據模型是關聯數據的基礎,該模型中各數據元素存在關聯,提供合并各種來源數據所需的通用框架。本文采用URI命名實體、謂詞和某些客體(三元組)的形式實現地理實體相互連接以形成圖譜。針對地理實體關聯數據所用術語,本文參照Geonames(全球地理數據庫)構建具有區域性、功能性以及富含人文信息的地理實體RDF數據模型。
任何一個理論的傳播都離不開大眾媒介,“人類有了某種媒介才有可能從事與之相適應的傳播和其他社會活動。”麥克盧漢說:“正是傳播媒介在形式上的特性——它在多種多樣的物質條件下一再重現——而不是特定的訊息內容,構成了傳播媒介的歷史行為功效。”[1]148“媒介是理論傳播的助推器和重要載體。傳播媒介大致有兩種含義:第一,它指信息傳遞的載體、渠道、中介物、工具或技術手段;第二,它指從事信息的采集、加工制作或傳播的社會組織?!保?]147

表1 地理坐標數據預處理算法
地理本體是哲學本體和信息本體技術的發展,地理本體具有信息本體屬性特征的同時,還具有地理信息所特有的空間特征。本體語言對地理本體形式化的描述有利于機器的理解和地理本體模型的邏輯推理。本文按照語義元數據格式對地理實體進行本體構建,并以RDF三元組形式實現機器理解地理坐標數據在空間層面上的語義關聯。由于地理本體需要描述地理信息的空間特征,因此地理本體不僅包含屬性關系還包含空間關系。本文構建本體時主要考慮三種空間關系:(1)行政等級。是指地理位置在行政區域方面的空間等級關系;(2)拓撲關系。是指地理信息所具有的相鄰、連接、相離、相交等空間關系;(3)位置關系。是指相對位置關系,包括方位等。在地理實體RDF數據模型的基礎上,結合地理空間特征構建語義本體模型,如圖2所示。
地理坐標語義本體是地理本體的一種特殊形式,由概念或類、地理關系、函數、公理和實例構成,本文稱之為地理空間本體。本模型是將地理坐標數據反地理編碼后的初始語義地理信息以及識別的地理實體進行本體元素抽取、提煉、構建關聯關系,其中相關元素的含義如表2所示。

圖2 地理坐標數據語義本體模型
本研究旨在探索地理坐標數據語義轉化過程中地理信息語義的充分表達,以發現用戶行為意圖和偏好。實驗數據是通過開源情境數據采集軟件AWARE,采集某高校20位志愿者于2016年10月15-30日的行為記錄。將20位用戶移動智能手機中locations.db數據庫導出,初步數據整理,共抽取13 余萬條連續的地理坐標數據。Location數據庫樹形結構如圖3所示。其中包括android_metadata、locations、sqlite_sequence數據庫表,locations表中記錄了時間戳(timestamp)、用戶 ID(device_id)、經度(double_latitude)、緯度(double_longitude)以及地理坐標數據來源方式(network/gps)。具體數據格式如表3所示。

表2 地理坐標數據語義本體模型元素含義

圖3 locations.db數據庫樹形結構
地理坐標數據預處理是地理空間本體構建的前奏,即將地理坐標數據進行反地理編碼獲取初始的地理語義信息,然后識別抽取地名實體名稱。依據本文2.1節中的數據預處理程序,對20位用戶的地理坐標行為數據進行預處理,獲取包含用戶編碼(user_id)、經度(double_latitude)、緯 度 (double_longitude)、 語義 地址 (address)、地理實體名稱(geo-entity)的地理坐標數據-實體名稱映射表,如表4 所示(以359**998 用戶為例)。

表3 locations地理坐標數據表

表4 地理坐標數據——實體名稱映射表
本文從空間信息和文本信息兩個角度構建地理坐標數據語義化本體。地理本體是本體的特定應用領域,借鑒斯坦福大學醫學院“七步法”本體構建思路,自動和半自動地構建地理空間本體,結合數據源特征以空間區域中的高校場所子本體為例,建模步驟如下:
(1)確定地理本體的行政區域層級和范疇。地理本體層級主要來源于國家行政區劃代碼,以及機構層級設置等。
(2)獲取地理領域知識賦予地理實體人文環境及功能屬性。地理實體處于人文社會環境之中,不僅具有社會功能屬性,還具有歷史文化背景,為理解用戶行為意圖提供語義參考。
(3)從領域知識中提取類和類的層級關系。高校子本體主要借鑒行政區劃代碼和機構層級設置兩種層次分類方法,對某高校地理實體進行層級劃分和精確描述,如表5所示。

表5 高校子本體中部分類及層級關系

表6 高校場所類的屬性及其取值

表7 高校子本體的屬性列表
(5)依據屬性定義和約束類。本文采用Protégé 文本編輯器自動和半自動方法構建地理空間本體,可依據定義好的屬性對高校子本體加以定義,高校子本體的部分類定義如表8。

表8 高校場所類的定義
(6)創建地理本體實例。地理空間本體構建主要依賴于數據預處理階段的地理實體識別抽取,以及本文3.2節中地理坐標數據語義本體模型所描述的地理屬性關系、地理實體自身所具有的空間關系。本文采用Protégé 文本編輯器,依據識別的地理實體以及地理空間關系,并參照地理坐標數據語義本體模型,對特定區域用戶行為坐標數據進行語義化本體構建,如圖4所示。

圖4 地理空間本體實例
目前對地理本體空間關系的表達主要方法還是利用OWL建模語言,其中is_close_to表達位置關系中的鄰近;拓展關系中的is_isolated_with表示相離;has_been_thrtough 表示橫穿;is_part_of表示行政等級關系。本文根據RDF數據模型,通過地理空間本體構建,明確表達某高校地理對象間的語義關系,并以OWL建模語言形式存儲,如圖5所示。

圖5 OWL文件片段
地理坐標語義轉化是利用地理語義關系將用戶行為地理坐標數據進行地理空間關系構建以及用戶行為意圖理解。地理坐標數據語義轉化過程中需考慮用戶行為區域性問題,用戶行為的區域性特點影響用戶行為規律分析。本文實驗對象為高校學生,結合本文3.2節空間本體的構建過程,對高校子本體進行可視化,如圖6所示。

圖6 高校子本體的簡單示例
以編號為359**998用戶行為坐標數據,借助地理關聯數據庫,對用戶行為進行語義描述。該用戶行為具有明顯的區域性,通過對地理行政關系樹遍歷得出用戶活動區域主要分為“武漢洪山”和“湖南衡陽”。對用戶“武漢洪山”坐標行為數據的語義轉化能抽象描述如圖7所示。

圖7 用戶行為地理坐標數據語義轉化抽象描述
針對高校學生行為軌跡的關聯分析,融合空間關系和地理實體社會功能的地理坐標語義轉化模型將為用戶行為相似度計算、用戶行為偏好挖掘、用戶行為意圖理解等提供技術支持,同時拓寬用戶行為研究的維度,提升地理空間信息在用戶行為研究領域的效應。
(1)改進用戶行為相似度計算。以往針對地理空間數據的相似度計算,多以地理實體名稱匹配相似,此種方式忽略了地理空間數據內含的空間關系。正如圖7所示,不同語義的地理實體名稱在空間上可能相鄰,功能上可能相似,從用戶行為軌跡上存在鄰近相似性,在用戶行為偏好上具有相似的行為習慣。
(2)提升用戶行為意圖理解。地理實體不僅具有社會功能屬性甚至還具有豐富的人文背景信息,數據關聯能為地理實體名稱提供大量的實體內涵描述,為用戶行為意圖分析提供充分的語料。正如圖7所示,用戶的行為具有目的性,通過對行為軌跡的社會功能及人文背景的分析,轉化之后的抽象描述有助于把握用戶的行為偏好以及生活習慣。
本文采用關聯數據技術進行地理語義信息組織,同時利用空間本體構建地理坐標數據的空間語義關聯關系。首先,利用反地理編碼技術對地理坐標數據進行前期語義轉化;其次,采用自然語言處理中的命名實體認知方法(NER)抽取相應地理語義實體;然后,依賴數據預處理階段識別抽取的地理實體構建地理空間本體,并以OWL
建模語義存儲;最后,根據存儲的關聯數據庫,對用戶行為坐標數據進行語義轉化。本研究將用戶行為數據語義化的過程中,不僅轉化了地理坐標數據所內含的用戶行為習慣,同時保留了地理信息所獨有的空間關系,使得用戶在認知范圍內更好地理解坐標數據所隱含的語義內容。可是,由于地理數據空間關系較為復雜,本文只考慮位置關系、行政等級關系以及拓撲關系,對于特定研究可能存在語義轉化不充分的弊端。后續研究將針對地理坐標語義轉化可以融入時間維度,形成用戶行為片段,以深入挖掘用戶行為規律。