【摘要】以CNKI為數據源,從發文基本狀況、作者統計、引文分析三方面對2008-2012年國內58篇關聯數據研究論文進行文獻計量分析,旨在揭示近5年國內關聯數據的研究狀況,為相關研究提供參考。
【關鍵詞】關聯數據 文獻計量分析 CNKI
引言
關聯數據是順應Web技術從文檔網絡過渡到數據網絡趨勢而產生、用來發布和聯接各類數據的規范[1-2],旨在構建計算機可理解的語義數據網絡,而非只有人才能讀懂的文檔網絡,故關聯數據可看作是語義萬維網的簡化實現[1,3],具有重要的研究意義。
本文通過對國內關聯數據研究論文進行文獻計量分析,揭示國內關聯數據研究狀況,為相關研究提供參考。具體以Excel為統計工具,同時輔以EndNote,以CNKI為數據源,以“關聯數據”為關鍵詞,在題名中進行檢索,檢索時間段為2008-2012年,截至2012年9月10日,共檢索到82篇文獻,剔除相關度不高的文獻,實際有效文獻為58篇。
發文基本狀況分析
2.1 發文地區分布分析
考察關聯數據研究的地區分布有利于了解國內研究關聯數據的活躍區,并為地域性合作研究提供依據。筆者統計了54篇文獻(其余4篇不含地區字段)第一作者所在地域(見表1)。可以看出,國內關聯數據研究的地區分布較集中,北京和上海兩地發文合計20篇,占總量的34.48%,說明兩地高度重視“關聯數據”研究并在該領域具有較強實力;北京地區以13篇發文量名列第一,究其原因,在政治、經濟和文化方面,北京的中心地位不可忽略;在學術氛圍方面,北京有一大批學術實力雄厚的高校、研究機構[4]。上海以7篇發文量位居第二,其中,以上海圖書館為代表的一批研究機構和以劉煒為代表的一批科研人員起著極其重要的作用。此外,沿海等經濟發達地區對關聯數據的研究相較于中西部地區顯得更加活躍,印證了經濟在科研方面的現實影響力。
2.2 發文機構分布分析
機構分布可大致描繪國內關聯數據的研究力量分布,為相關研究機構合作、交流提供依據。筆者通過分析54篇文獻(其余4篇無作者)的第一作者的第一單位,發現有39家研究機構發表了關聯數據相關論文,發文量在2篇及以上的機構有6家,占總量的15.38%,詳見表2。其中,中國科學院國家科學圖書館發文量為7篇,中國科學技術信息研究所發文量為4篇,可見,關聯數據研究已引起國內一些科研機構的重視。各類機構發文量統計結果見表3,發文百分比分布見圖1。可見,以中國科學院國家科學圖書館為代表的圖書館及高校科研機構在關聯數據研究方面實力較雄厚,成為推動該領域發展的主導力量和主要研究機構,并為該領域研究奠定了堅實基礎。
2.3 發文基金論文比分析
由于重大基金項目的負責人通常具有較高學術造詣,項目團隊成員具有較強科研能力,且項目本身有較強團隊性,研究時間和經費相對有保證,因此,基金論文比可反映國內關聯數據研究的學術水平、受資助與受關注情況[4-5],具體見表4。由表4可看出,受國家基金資助的有15篇,受其他基金資助的有12篇,國家基金論文所占百分比為25.86%,基金論文所占百分比為46.55%。可見,2008-2012年,國家基金論文數所占比例均較高,說明國家高度重視關聯數據研究。
2.4 發文年度分布分析
發文年度分布可在一定程度上反映具體研究領域的研究狀況、研究水平、發展速度及發展階段。2008-2012年,國內關聯數據相關文獻共58篇,年均發文量為11.6篇,發文年度分布趨勢見圖2,年度分布見表5。Gompertz生長曲線模型將文獻增長分為萌芽(文獻增長較慢)、發展(文獻急劇增長)、成熟(文獻增長速度趨緩)、飽和(文獻增長速度為 0)4個階段[6]。根據此模型,結合表5和圖2,筆者將國內關聯數據至今的發展歷程分為兩個階段:2008-2009年為萌芽階段,發文數量占論文總量的6.9%;2010-2012年為發展階段,發文數量占論文總量的93.1%,論文增長速度較快,研究者從不同角度展開研究,應用領域不斷擴展,學科交叉性增強。
2.5 發文期刊分布分析
發文期刊分布分析旨在了解期刊特點,確定研究領域的核心期刊,為引導讀者閱讀、搜集及管理文獻提供依據[7]。根據統計,54篇期刊論文(除4篇學位論文)共刊載在22種刊物上(見表6),其中載文量最多的是《現代圖書情報技術》(11篇,占總期刊論文的20.37%)。載文量排名前8的期刊合計載文量占期刊論文總量的74.07%;發文期刊集中在圖書情報領域;《農業網絡信息》等農業科學類期刊也開始涉及關聯數據研究,說明關聯數據研究領域正在擴展。
布拉德福定律將刊載某研究領域論文的期刊分為核心區、相關區、離散區,當各區論文數大致相等時,核心區、相關區、離散區期刊數近似成1:n:n2關系[8-9]。筆者根據表6將期刊按載文量分成核心區(載文量為7篇以上)、相關區(載文量在3-6篇之間)、離散區(載文量為2篇及以下)3個區域(見表7)。3個區域期刊數之比為2:4:16,約簡為1:2:8,可近似為1:3:9,即布拉福德離散系數為3。3個區的平均載文密度分別為9.0、4.5、1.1,故該領域期刊核心效應非常明顯。
2.6 發文關鍵詞詞頻分析
通過關鍵詞詞頻分析可快速了解具體領域的研究熱點,筆者用EndNote統計共得124個關鍵詞(關鍵詞總頻次為216),出現頻次在兩次及以上的關鍵詞見表8,其中,“關聯數據”、“語義網”、“圖書館”、“RDF”、“數據網絡”、“D2R”、“元數據”出現頻次較高,占總量的41.67%,可見,這些關鍵詞是國內關聯數據領域的研究熱點。
作者統計
3.1 高產作者分析
作者發文量可揭示作者對具體領域研究的持續性、深度及貢獻大小[10],通過統計(僅針對第一作者),筆者發現54篇文獻(其余4篇無作者)共涉及90位作者,高產作者見表9。核心作者是活躍在具體研究領域的專業人員,其憑借獨到視角及新穎觀點而極具代表性。根據普賴斯定律,核心作者群的發文量應占文獻總量的50%,核心作者最低發文量m≌0.749* ( 是發文最多作者的發文量)[10]。根據表9,可得核心作者的發文量應為2篇及以上(具體涉及7位作者),核心作者累計發文18篇,占論文總量的33.33%,與普賴斯提出的50%相差較遠,說明國內關聯數據研究領域“作者較多,核心作者少,發文量低”,尚未形成穩定的核心作者群。
3.2 合著統計分析
高質量學術論文的高標準要求決定了當今作者的合作之路[4]。2008-2012年國內關聯數據研究論文合著狀況見表10,國內關聯數據研究基本保持穩定的高度合作,合著率在50%以上,平均合著率為53.45%,其中2人合作最普遍,占論文總量的29.63%,可見關聯數據研究具有高難度性、內外交叉滲透性、學術前沿性和廣泛應用性。
4.1 引用分析
2008-2012年國內關聯數據引文狀況見表11,篇均引用量為19.1。從中外文引用文獻比來看,近5年中文引用率較低,平均中外引用文獻比為0.45:1,表明國外關聯數據發展更快,國內科研人員利用和吸收外文文獻能力較強,2012年時該值達到0.87:1,表明近年來國內關聯數據研究發展迅速,科研隊伍不斷壯大,論文數量增長較快。但國內關聯數據研究要想在國際上占據一席之地,除研究吸收國外研究成果之外,還必須有自己的獨到之處。
4.2 被引分析
論文被引用狀況在某種程度上可衡量論文價值,國內關聯數據研究論文被引狀況見表12,共30篇論文被引用,被引次數為154次,平均被引頻次為5.1。其中被引頻次最高的是黃永文的《關聯數據在圖書館中的應用研究綜述》,共被引19次。表13列出了被引次數超過6次的論文(共10篇論文,被引頻次共106次,占被引總量的68.83%,其中4篇刊載在核心期刊上),可見,國內關聯數據文獻被引頻次較高,具有較高的學術影響力,高被引文獻較集中,存在學者公認的較權威文獻。
結束語
順應大數據和語義Web發展趨勢,國內關聯數據研究正處于快速發展階段,已引起一些研究機構及科研人員的重視,其研究區域正逐布擴大,國家支持力度越來越大,且發文質量較高。但目前國內關聯數據相關研究較少,且這些論文大多處于理論探索階段,缺乏足夠的實踐支持;雖然研究關聯數據的核心作者群已見雛形,但尚未完全形成。因此,國內關聯數據研究必須加大力度,立足實踐,不斷注入新的研究力量,形成以核心作者群為主導力量的研究團隊。
[參考文獻]
[1] 劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011(2):5-12.
[2] 朝樂門,張勇,刑曉春.DBpedia及其典型應用[J].現代圖書情報技術,2011(3):80-87.
[3] 譚潔清.關聯數據的簡介與進展[J].信息與電腦(理論版),2011(1):103-103,106.
[4] 劉玉梅,王正興.“十一五”期間《中國圖書館學報》文獻計量分析[J].情報科學,2012,30(1):81-86.
[5] 劉圣君,屈寶強.我國圖書館聯盟研究的文獻計量分析[J].情報科學,2011,29(3):396-400,468.
[6] 陸曉紅.基于 Web of Science 的知識研究文獻計量分析[J].情報科學,2009,27(12):1848-1852.
[7] 何琳,喻文.我國社區圖書館研究論文計量分析[J].圖書館學刊,2007(1):80-83.
[8] 胡承立,張韋.基于CSSCI的中國政府網站研究現狀文獻計量分析[J].現代情報,2011,31(12):159-165.
[9] 陳氫,陳梅花.信息檢索與利用[M].北京:清華大學出版社,2012.
[10] 樊長軍,李小青.近10年我國社區圖書館研究文獻計量分析[J].圖書館學刊,2011(9):130-133.