KADEN Kenzhekhan,GULIA Altynbek
(新疆大學(xué),烏魯木齊830046)
隨著建設(shè)“新絲綢之路經(jīng)濟(jì)帶”和“21世紀(jì)海上絲綢之路”兩大戰(zhàn)略構(gòu)想的不斷深入,中國(guó)與哈薩克斯坦大力發(fā)展了與兩國(guó)之間旅游領(lǐng)域的合作伙伴關(guān)系。由于旅游業(yè)的蓬勃發(fā)展,信息化技術(shù)在區(qū)域旅游規(guī)劃、旅游信息管理等領(lǐng)域中具有前所未有的潛能。
國(guó)外比較早實(shí)施旅游信息化的國(guó)家包括荷蘭(Hol?land)、丹麥(Denmark)、瑞士(Switzerland)等國(guó)家。國(guó)外比較早的系統(tǒng)包括奧地利(Austria)的羅爾旅游信息系統(tǒng)、瑞士的阿彭策爾(Appenzell)旅游信息[1]。這一時(shí)期的旅游信息管理系統(tǒng)共同的特征是:系統(tǒng)是由旅游設(shè)施、資源、地理環(huán)境等信息庫(kù)組成。各個(gè)系統(tǒng)在其數(shù)據(jù)組織結(jié)構(gòu)、內(nèi)容、編碼格式、實(shí)現(xiàn)技術(shù)以及來(lái)源等方面都采用了不同的方法。
國(guó)內(nèi)的許碧霞[2]提出了基于GIS的旅游信息管理系統(tǒng)設(shè)計(jì)方法,并以北京為對(duì)研究對(duì)象介紹了與旅游信息相關(guān)的空間數(shù)據(jù)庫(kù)的設(shè)計(jì)方法。永壹等人[3]提出了基于Web的B/S結(jié)構(gòu)的旅游信息管理系統(tǒng),楊程介、杜軍平[4]基于JDBC數(shù)據(jù)庫(kù)技術(shù)建立了旅游目的地營(yíng)銷系統(tǒng)(DMS)。陳菁[5]、劉暢、鐘耳順[6]、劉帥[7]、趙躍、張丈君等人基于GIS分別實(shí)現(xiàn)了福建、北京、廣西、峨眉山等地點(diǎn)的旅游信息管理系統(tǒng)。
然而目前哈薩克斯坦旅游行業(yè)尚未實(shí)現(xiàn)為游客提供旅游信息的智能化服務(wù)。與哈薩克斯坦旅游景區(qū)相關(guān)信息分散在各大百科以及政府網(wǎng)站中,對(duì)游客帶來(lái)極大的不便,絕大部分旅游信息管理系統(tǒng)雖然實(shí)現(xiàn)基于互聯(lián)網(wǎng)的知識(shí)表征的手段然而無(wú)法進(jìn)行信息共享、信息交換,數(shù)據(jù)的利用率極低。
維基百科(www.wikipedia.org)是一個(gè)網(wǎng)絡(luò)百科全書項(xiàng)目,提供了海量與旅游地名相關(guān)的數(shù)據(jù)。維基百科通過(guò)行政區(qū)域劃分的方式收集了哈薩克斯坦的地名信息,包括州名、人口、面積以及編碼等。在維基百科依據(jù)哈薩克斯坦行政區(qū)劃分的數(shù)據(jù),如表1所示。
從表1提供的數(shù)據(jù)可知,哈薩克斯坦劃分為14個(gè)州和3個(gè)直轄市。例如阿克莫拉州的首府為科克雪套,其面積為 146,219km2、人口為 737,495,編碼為 KZ-AKM。
本文通過(guò)Crawler+MySQL+d3知識(shí)圖譜框架實(shí)現(xiàn)了面向哈薩克斯坦旅游領(lǐng)域的知識(shí)圖譜。知識(shí)圖譜構(gòu)建流程如圖1所示。

表1 維基百科哈薩克斯坦行政區(qū)劃分?jǐn)?shù)據(jù)

圖1 知識(shí)圖譜構(gòu)建流程
(1)數(shù)據(jù)的采集。本文采用Scrapy-Redis框架實(shí)現(xiàn)了互聯(lián)網(wǎng)數(shù)據(jù)的分布式爬取以及存儲(chǔ)。通過(guò)Scrapy工具實(shí)現(xiàn)了數(shù)據(jù)的爬取并將所得數(shù)據(jù)存入到了Redis數(shù)據(jù)庫(kù)中。
(2)結(jié)構(gòu)化數(shù)據(jù)的構(gòu)建。通過(guò)自動(dòng)化清洗腳本的方法將Redis中的數(shù)據(jù)進(jìn)一步進(jìn)行清洗后保存到文本件中,再把該文本數(shù)據(jù)導(dǎo)入到Neo4j[8]和MySQL數(shù)據(jù)庫(kù)中。
(3)可視化系統(tǒng)的構(gòu)建。本文通過(guò)Python 3.7實(shí)現(xiàn)了現(xiàn)爬蟲、數(shù)據(jù)清理以及可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。
本文通過(guò)MySQL關(guān)系型數(shù)據(jù)庫(kù)實(shí)現(xiàn)了數(shù)據(jù)的存儲(chǔ)及其管理。數(shù)據(jù)庫(kù)包括四張表,其中State表和Dis?tricts兩張實(shí)體表分別存儲(chǔ)了哈薩克斯坦的州和區(qū)(縣)的信息。State_Districts關(guān)系表存州和區(qū)(縣)的對(duì)應(yīng)關(guān)系,SPO表存儲(chǔ)了知識(shí)圖譜中的三元組。數(shù)據(jù)庫(kù)中Districts表和State表是多對(duì)多的關(guān)系,通過(guò)State_Dis?tricts表實(shí)現(xiàn)了將上述多對(duì)多轉(zhuǎn)化為兩個(gè)一對(duì)多的關(guān)系,(stat_id,district_id)就表示了這種映射。

圖2 數(shù)據(jù)庫(kù)結(jié)構(gòu)
詳細(xì)地說(shuō),在數(shù)據(jù)庫(kù)中State_Districts和SPO表都表示了映射關(guān)系。State_Districts保存了原始的關(guān)系,而 SPO把關(guān)系映射成“直轄市”或“區(qū)(縣)”,即State_Districts可能需要通過(guò)映射才能得到SPO表。知識(shí)庫(kù)里的關(guān)系其實(shí)有兩種:一種是屬性(property),一種是關(guān)系(relation)。SPO只存實(shí)體間的關(guān)系,屬性由實(shí)體表檢索得到,在SPO表中多加一列type(類型),來(lái)區(qū)分這關(guān)系是實(shí)體間關(guān)系還是實(shí)體與屬性的關(guān)系,便于之后的可視化。
本文以Flask Server作為服務(wù)器,通過(guò)d3實(shí)現(xiàn)了知識(shí)圖譜的可視化實(shí)現(xiàn)。該平臺(tái)可以檢索州/區(qū)(縣)獲取相應(yīng)的圖譜,并會(huì)更新有向圖版本。本文選取了哈薩克斯坦阿拉木圖17個(gè)州中的5行政區(qū)和阿拉木圖市的旅游景點(diǎn)基本情況演示了系統(tǒng)的結(jié)果如圖3所示。其中藍(lán)色的代表知識(shí)圖譜中的實(shí)體,紅色代表屬性,綠色的是實(shí)體和屬性之間的關(guān)系。此外,在此基礎(chǔ)上通過(guò)人口、面積、建立日、郵政編碼搜索方式查閱相關(guān)旅游景點(diǎn)的信息。

圖3 旅游景點(diǎn)基本情況圖譜結(jié)果
本文通過(guò)屬性值融合的方法研究并實(shí)現(xiàn)了異構(gòu)多數(shù)據(jù)源哈薩克斯坦旅游景點(diǎn)信息的知識(shí)圖譜;此外,本文以Flask Server作為服務(wù)器,通過(guò)d3為技術(shù)設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)基于中文的哈薩克斯坦旅游景點(diǎn)可視化系統(tǒng);該平臺(tái)可以檢索州/區(qū)(縣)獲取相應(yīng)的圖譜,并會(huì)更新有向圖版本。哈薩克斯坦阿拉木圖州有17行政區(qū)(縣),本文選取了哈薩克斯坦阿拉木圖17個(gè)州中的5行政區(qū)和阿拉木圖市的旅游景點(diǎn)基本情況演示了系統(tǒng)功能。結(jié)果可說(shuō)明本文所構(gòu)建的面向哈薩克斯坦旅游領(lǐng)域的知識(shí)圖譜及其可視化系統(tǒng)在實(shí)現(xiàn)旅游信息的智能化管理與服務(wù)方面具有潛在的價(jià)值。
未來(lái)可以進(jìn)行的工作主要包括知識(shí)圖譜屬性以及數(shù)據(jù)量的擴(kuò)充,實(shí)現(xiàn)可視化系統(tǒng)的推理功能等方面。