汪淑嫻
(華中師范大學,湖北 武漢 430070)
國內關聯數據領域研究熱點分析
汪淑嫻
(華中師范大學,湖北 武漢 430070)
文章以中國知網為數據來源,利用關鍵詞共詞分析法,將BICOMB2.0與SPSS20.0相結合得出相關的圖表。通過研究發現關聯數據領域主要圍繞7大主題,這有利于關聯數據領域研究熱點的明確。圖書情報領域研究人員可以通過關注和把握關聯數據領域研究熱點,推進圖書館信息服務的發展。
關聯數據;信息資源;模型架構;語義關聯
2006年,萬維網的創始人Tim burners-Lee第一次提出了“Linked Data”的概念,他認為“Linked Data”就是將所有的數據鏈接起來,并將其構建成計算機能夠理解、高度結構化和富含語義關系的數據網絡。2007年,Bizer發布了“How to publish Linked Data on theWeb”一文,又將關聯數據進行了新的定義:關聯數據就是一種在萬維網上發布和鏈接結構化數據的方式,即關聯數據是利用萬維網來創建不同數據源之間的語義鏈接。同時,我可以通過維基百科搜索到其定義:關聯數據是一種推薦的最佳實踐,即在語義網中使用了URI和RDF發布、分享、連接各類數據、信息和知識。

圖1 關聯數據集云圖
關聯數據是網絡發展的一種趨勢,它伴隨著科學技術和信息技術的發展產生。隨著人類社會進入數字時代,特別是21世紀以來,科學研究的方式方法發生巨大的變革,在信息化基礎設施支持下的科研活動得到迅速發展,數據密集型科研方式興起。但是由于認知的限制,國內的關聯數據的發展方向還在不斷的探討的過程中。網絡上以W3C推薦的關聯數據標準發布的關聯數據集已經達到了數百多個,并且數據集的數量和數據集之間的關聯都在快速增加著。如圖1所示是截止到2014關聯數據集發展的情況。
通過文獻調研可以發現,自2006年以來,關聯數據相關主題研究逐漸增多,大體分成兩大類:一是科學界從各自具體的學科角度出發,研究相關領域關聯數據的發布與實現的問題;二是圖書情報學界將關聯數據中的數據作為信息資源管理對象,開展關聯數據與知識融合的研究。國外現在有很多將關聯技術作為網站構建的比較完善的平臺比如有紐約時報、英國BBC、維基百科等。雖然有些平臺逐漸的運用了此項技術,但是還不夠完善,用戶在實際的體驗中還未享受到不一樣的感受。國內對此項技術的研究發展也在初步階段,所以在研究熱點方面還有許多值得探討的地方。
大數據系統要能處理關聯數據,關鍵是要支持RDF數據的處理。這種支持,包括許多內容,對系統性能的影響也很大,如數據結構和查詢方式對查詢系統的性能影響就很大。目前,對關聯數據的處理流程還不規范,隨著IT技術的發展,這個問題將逐步解決。為了精確梳理近10年來關聯數據領域的研究成果,直觀展現它們所涉及的研究領域和主題,發現相關研究表現出的特征,特別是分析圖書情報領域相關研究的不足和未來走向,文章擬采用國際上較為常用的科學計量方法,以關鍵詞共詞法,聚類分析與多維尺度分析法為主要研究方法,來分析國內關聯數據研究的熱點問題。
年6月30日。④檢索結果:檢索獲取766篇文獻記錄,經過查重、篩選和取舍,并剔除了新聞報道、科普類短文等非研究性文獻,一共獲得277條記錄。
(2)研究工具。①書目共現分析系統Bicomb2.0;②統計產品與服務解決方案SPSS20.0。
(3)研究步驟。①文獻關鍵詞的選取、清洗和預處理;②應用Bicomb2.0建立關鍵詞共詞詞頻矩陣;③應用 SPSS20.0共詞詞頻矩陣進行分析,以樣本聚類獲得關鍵詞聚類樹圖;④過SPSS20.0進行多維尺度分析;⑤圍繞聚類樹圖進行研究熱點的分析。
(4)研究方法。文章運用關鍵詞共現網絡圖譜來分析關聯數據領域的研究熱點;運用共詞聚類分析法生成共詞聚類樹狀圖來分析關聯數據研究論文的主流研究領域的結構及其關系。
詞頻分析法是利用能夠揭示或表達文獻核心內容的關鍵詞或主題詞在某一研究領域文獻中出現的頻次高低來確定該領域研究熱點和發展動向的文獻計量方法。由于一篇文獻的關鍵詞或主題詞是文章核心內容的濃縮和提煉,因此,如果某一關鍵詞或主題詞在其所在領域的文獻中反復出現,則可反映出該關鍵詞或主題詞所表征的研究主題是該領域的研究熱點。
2.1 關鍵詞詞頻統計與分析
詞頻分析方法的詞頻統計、關鍵詞分析經常被用于描述某學科領域的研究狀況,進而揭示該領域的研究熱點和發展趨勢。文章所選文獻總關鍵詞為596次,對標準化后、詞頻大于4的32個關鍵詞按照頻次進行排列,如表1所示。

表1 關鍵詞頻次排序
表1中,32個關鍵詞為491次,占關鍵詞總頻次726次的67.63%。前10位關鍵詞出現頻次均大于9,依次是:關聯數據(228次)、語義網(37次)、圖書館(26次)、RDF(14次)、本體(14次)、數據網絡(14次)、數字圖書館(13次)、關聯數(12次)、知識組織(11次)、知識發現(9次)。這些關鍵詞分布數據可以初步說明,關聯數據領域的研究主要集中在知識發現、關聯數據的構建和發布等方面,圖書館在這些活動中扮演著重要的角色,數據發布平臺是關聯數據管理與共享的基本呈現形式。此外,要更深入揭示關鍵詞之間所形成和呈現的深層次關系,進而反映關聯數據研究領域的主題熱點,還需要圍繞關鍵詞的詞篇分布進行更多的數據分析和挖掘。
2.2 關鍵詞系數矩陣
為了進一步分析關鍵詞之間的關系,文章用BICOMB2.0共詞分析軟件對所有的關鍵詞進行了共詞分析,獲取了詞篇矩陣。“詞篇矩陣”是針對主題詞——文獻矩陣而言的一種簡便稱呼,該矩陣的第一列是主題詞,第一行則是文獻記錄的號碼,其實質是一種數據矩陣。其中間格子(“0”和“1”)分別代表該詞在對應的文章中是否出現,或者該論文是否被對應來源文獻使用。事實上從詞篇矩陣看不出具有實質性意義的研究熱點,它結合SPSS20.0的聚類分析可以進一步得到分析的結果。
由于論文文檔格式的限制,筆者只截取了其中的前10個詞篇矩陣的部分內容。從表2可以看出:各個關鍵詞之間的還是存在著一定的聯系的。這些數值表明,關聯數據常常與語義網、圖書館、RDF知識組織和知識發現等有關的關鍵詞結合,也側面說明了關聯數據在如今的研究方向。

表2 關鍵詞的詞篇矩陣(部分)
2.3 關鍵詞聚類分析
為更加直觀地展示關鍵詞之間的親疏關系,文章還應用了SPSS20.0軟件對詞篇矩陣進行了關鍵詞聚類分析,圖2位呈現的聚類數圖(部分)。從圖2可以看出關鍵詞分為了7類,具體分布如表3所示。

表3 關鍵詞聚類一覽表

圖2 關聯數據領域研究關鍵詞聚類樹狀圖
通過關鍵詞的聚類分析可知,關聯數據領域7類研究主題具體分布為:
(1)種類1主題主要為關聯數據的基本概述。該類主題主要包括:概念解析,即關聯數據概念的界定,國內外根據關聯數據的發展情況,對關聯數據的定義。關聯數據與數據網絡:關聯數據是構建數據網絡的具體實踐,構建數據網絡是關聯數據的目標。關聯數據與語義網:雖然關聯數據自身不具備語義特征,但通過關聯數據可在數據層面建立語義關聯,為最終實現語義網的遠景目標奠定堅實的基礎,以及關聯數據的類型劃分。
(2)種類2主題主要為關聯數據的支撐技術。為基于現有網絡以最小代價構建關聯數據,關聯數據繼承了互聯網的兩項支撐技術,即統一資源定位符(URI)和超文本傳輸技術(HTTP)。關聯數據還采用萬維網聯盟推薦的資源描述框架(RDF)對網絡上的任意類型資源進行組織、描述和交互。
(3)種類3主題主要為關聯數據構建的原則與流程。關聯數據設定了一套標準的構建的原則與流程。首先,建立了命名機制與調用機制,即使用URI來命名資源,使用HTTP URI來標識資源。然后,使用RDF提供與當前資源密切相關的其他有用信息。最后,主動提供相關資源的HTTP,URI語義鏈接。
(4)種類4主題主要為關聯數據的語義關聯描述模型。由于關聯數據本身不具備攜帶語義功能,因此,在構建和發布關聯數據時,只有應用被認可和廣泛使用的語義關聯描述框架才能更廣泛、深入地支持數據間的關聯和互操作。
(5)種類5主題主要為關聯數據構建工具。盡管關聯數據的優勢明顯,應用前景廣泛,然而目前絕大部分數據并不滿足關聯數據的基本原則,大量數據以RDF、Word、CSV和Excel等傳統格式存在,或者存儲在關系型數據庫中。因此,關聯數據的研究社區開發了一系列實用工具,實現不同類型數據向關聯數據的轉換,例如:D2R,Drupal等。
(6)種類6主題主要為關聯數據在實際生活中的運用。現在大部分實現的關聯數據都是以圖書館為基礎的,對圖書館資源的建設,模式的構造等方面都有很大的作用。在實現Linked Data瀏覽與檢索過程中,還有其他一些細節問題需要解決,如RDF數據的可視化、瀏覽軌跡的跟蹤、海量索引數據的存儲與快速檢索、數據訪問統計與用法評價、檢索結果的排名等。
(7)種類7主題主要是構造關聯數據所需的底層架構。關聯數據不是一個新生成的技術,而是在各種技術和方法體系上形成的,需要深厚的知識底蘊。例如,在詞表構建方面,需要熟悉不同的詞表分類;在模型建造的時候需要相關相似度算法的轉換。
(1)從文獻的時間分布來看,關聯數據領域相關文獻的發表量呈逐年上升趨勢,說明該領域逐漸獲得了學界和業界關注。隨著知識關聯和數據密集型科研的深入發展,對關聯數據領域的理論研究與實踐探索還會不斷升溫,只不過在不同的階段,研究的熱點主題與方向會有所變化。
(2)從研究熱點變化來看,關注點經歷了從關聯數據共享平臺構建轉向數據管理與服務的過程。關于對關聯數據的研究,一開始就呈現出理論領先于實踐研究的特征,文獻中占很大比例的是關于關聯數據有關知識的介紹以及相應的模型架構。在大數據層面實施關聯數據發布平臺的戰略背景下,關聯數據研究與實踐注重相關學科領域共享平臺構建和數據資源的建設是必然的選擇,經歷了平臺與資源的建設階段以后,才會逐漸地朝著數據服務的方向發展。
(3)從開展相關研究的群體來看,最初主要集中在學術界,從具體學科(農業,醫學)出發進行的實踐和理論探索,分析相關學科領域中關聯數據平臺的構建與數據的管理問題。之后,圖書館學界與業界的人員逐漸參與到關聯數據的研究與實踐中,主要將關聯數據作為一種信息資源,從信息資源的組織與管理、信息服務的角度進行研究。
(4)2011年后,高校和高校圖書館開始加強對關聯數據管理與服務的實踐探索和理論研究。但是,從近幾年來總體的文獻分析來看,圖書館關于數據服務、數據監護等方面的研究并沒有占據非常重要的地位,甚至還處于邊緣的狀態。然而,伴隨著大數據時代的到來以及科研創新的數據驅動,關聯數據管理與服務將成為圖書館信息服務的重要增長點,將是高校圖書館為適應新的科研學術生態系統而做出的延伸和拓展。因此,一方面,今后一定時期內圖書情報領域圍繞關聯數據管理與服務的文獻將大量增加,如圖書館關聯數據、面向關聯數據的語義數字圖書館的資源建設研究、基于關聯數據的圖書館信息聚合研究以及基于關聯數據的圖書館創新服務研究等;另一方面,圖書情報領域的研究人員應該關注和把握關聯數據領域研究熱點的變換,并以此推進圖書館信息服務的發展。
數據是計算機和互聯網行業最基本、最古老概念,進入大數據和關聯數據時代后,數據的概念已經產生了質的飛躍。這里數據已發展為在互聯網上給予標識、組織、傳輸和管理的基本語義單元,是一條可被計算機識別、管理的知識。互聯網使使全世界的知識連成一體而成為一個“大數據”,而關聯數據技術使人們能夠通過計算機獲取并處理知識。
關聯數據的算法研究其實也是一種很重要的方面,因為關聯數據的目的是數據具有語義,但是實際上關聯數據本身是不具有語義的。要做的就是提供一種相似度算法使計算機能夠搭建關聯數據的模型框架。在現實生活中,語義相似度計算在很多應用中起著重要作用,由于基于關鍵字檢索方式缺乏語義分析,造成查詢的結果越來越多,用戶篩選的工作量越來越大等問題,人們開始傾向于使用關聯數據(RDF數據類型)來表示信息。隨著網絡上的RDF數據的不斷增多,RDF實例的語義相似度計算方法的研究也變得越來越重要,對信息的智能化處理和語義挖掘都有著重要的意義。
[1]周志峰.中國大陸科學數據領域研究熱點分析——基于知識圖譜[J].情報雜志,2016,(1):81-86.
[2]鮮國建.農業科技多維語義關聯數據構建研究[D].北京:中國農業科學院,2013.
[3]劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011,(2):5-12.
[4]沈志宏,張曉林.關聯數據及其應用現狀綜述[J].現代圖書情報技術,2010,(11):1-9.
[5]夏翠娟,劉煒,趙亮,等.關聯數據發布技術及其實現——以Drupal為例[J].中國圖書館學報,2012,(1):49-57.
[6]林海青,樓向英,夏翠娟.圖書館關聯數據:機會與挑戰[J].中國圖書館學報,2012,(1):58-67+112.
[7]沈志宏,張曉林,黎建輝.OpenCSDB:關聯數據在科學數據庫中的應用研究[J].中國圖書館學報,2012,(5):17-26.
[8]歐石燕.面向關聯數據的語義數字圖書館資源描述與組織框架設計與實現[J].中國圖書館學報,2012,(6):58-71.
[9]沈志宏,劉筱敏,郭學兵,等.關聯數據發布流程與關鍵問題研究——以科技文獻、科學數據發布為例[J].中國圖書館學報,2013,(2):53-62.
[10]劉煒,夏翠娟,張春景.大數據與關聯數據:正在到來的數據技術革命[J].現代圖書情報技術,2013,(4):2-9.
[11]賈君枝,趙潔.DDC關聯數據實現研究[J].中國圖書館學報,2014,(4):76-82.
[12]李楠.基于關聯數據的知識發現研究[D].北京:中國農業科學院,2012.
[13]劉煒,胡小菁,錢國富,等.RDA與關聯數據[J].中國圖書館學報,2012,(1):34-42.
[14]張春景,劉煒,夏翠娟,等.關聯數據開放應用協議[J].中國圖書館學報,2012,(1):43-48.
[15]游毅,成全.試論基于關聯數據的館藏資源聚合模式[J].情報理論與實踐,2013,(1):109-114.
[16]夏翠娟,劉煒.關聯數據的消費技術及實現[J].大學圖書館學報,2013,(3):29-37.
Research on Hot Points in the Field of National Correlation Data
WANG Shu-xian
(Huazhong Normal University,Wuhan,Hubei 430070,China)
The paper takes CNKI as data source,uses keywords co-term analysis methods,and gets relevant charts by SPSS20.0 and BICOMB2.0.The study found that linked data fields aremainly around 7main themes,which is good for the clearnessofhotpoints in the field ofcorrelation data,researchersofbooks intelligence can promote the developmentof library information service by grasping and concerning thehotpointsofcorrelation data.
linked data;information resources;modelstructure;semantic association
G359
A
2095-980X(2016)11-0039-03
?來源。①數據庫選擇:中國知網的中國學術期刊
總庫、中國博士學位論文全文數據庫、中國優秀碩士學位論文全文數據庫、中國重要會議論文全文數據庫等。②檢索策略:主題詞為“關聯數據”,“語義網”。③檢索時間:2016
2016-10-16
汪淑嫻(1994-),女,湖北人,碩士研究生,主要研究方向:情報學。