李卓 趙夢圓 柳嘉昊 周清清 章成志



摘? ?要:文章針對目前圖書影響力評價研究的不全面性,從引文內容的角度對圖書在其施引文獻中的被引用動機情況進行探究分析。首先,基于現有研究歸納出三種圖書被引動機分類標準——使用、比較和背景引用;其次,以五個學科領域中文圖書為例,獲取其在施引文獻中的引文內容信息,并標注引文的動機標簽;最后,探究圖書的被引動機分布及其與引用位置、引用長度的關系。實證分析結果顯示,圖書被引動機中"使用"占比較大。同時,引用動機與引用位置存在顯著相關性,而與引用長度無明顯相關性。此外,不同學科領域圖書在施引文獻中的引用動機存在差異。
關鍵詞:引文內容;引用動機;圖書被引行為;學科差異
中圖分類號:G250.7;G252? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2019046
Citing Motivation of Book Based on Citation Content
Abstract In view of the incompleteness of the current research on the evaluation of book influence, this paper explores and analyses the motivation of books being cited in the citation literature from the perspective of citation content. Firstly, based on the existing research, three classification criteria of citation motivation are summarized: use, comparison and background citation. Then, the citation content information of Chinese books in the citation literature of five disciplines was obtained, and the motivation label of the citation was marked. Finally, the distribution of book cited motivation and its relationship with citation location and length was analyzed. Empirical analysis shows that the proportion of "use" in book-citing motivation is relatively large. At the same time, there is a significant correlation between citation motivation and citation location, but no significant correlation with citation length. In addition, there are differences in the motives of citation of books in different disciplines.
Key words citation content; citation motivation; book citation behavior; subject difference
1? ?引言
引文內容是指文獻正文中引用參考文獻的句子,也可包括其上下文,即引文句的前后[1],依據引文內容可以獲取引文在施引文獻中被引用的頻率、位置、主題、動機等重要信息[2]。近年來,從引文內容的角度分析學術論文的影響力評價已經取得一定的成果,如趙青[3]和王嵐[4]基于引文內容從引用性質和引用深度進行引文分析,以區分每條引文的作用,從而提高目前引文數據評價的準確性;劉盛博和丁堃[1]提出了引用性質和引文質量的評價方法,進而應用于評價科研人員和期刊評價。
而同樣作為學術交流重要資源的圖書,目前仍主要以被引次數、專家評論等進行影響力評價[5],也有部分學者從引文分析的角度進行研究,如阮選敏等[6]探討了與書名、學科、出版社、作者等相關的10個對圖書被引的影響因素,采用非參數檢驗及回歸分析等方法對學術圖書進行分析,結果表明10個因素對圖書被引的擬合優度較低,說明更重要的影響因素有待于進一步發掘。
因此本文嘗試從引文內容的角度對圖書被引的影響進行更加深入的分析。White[7]指出引文內容主要有引文分類、引文內容分析和引用動機識別三個方面的應用。通常引用動機識別比較復雜,相關研究對引用動機的分類標準和實現方法各有不同。目前,被引次數、h指數等方法忽略施引作者的引用動機,由此進行影響力評價是不全面的[8]。
為此,本文以中文圖書為研究對象,基于圖書在施引文獻中的引文內容,對圖書的被引動機分布情況進行了統計,同時探究了圖書被引動機與圖書被引位置、被引長度之間的關系,并從學科領域的角度分析圖書被引動機的差異性。具體而言,從亞馬遜中文網站中選取來自5個學科領域的399本圖書作為研究對象;然后人工采集圖書在施引文獻中的引文內容及其上下文信息,構建了含有2288條引文內容的語料庫;接著通過人工標注的方法確定引用動機、引用位置、引用長度等信息;最后對圖書的被引動機進行深入地探究。本文的研究意義在于:一方面,選取中文圖書作為研究對象進行引文內容層面的分析,與現有較多以學術論文為對象的研究形成對比,可以擴展引文分析研究的全面性;另一方面,從引文內容的角度對圖書被引動機進行研究,為圖書影響力評價提供新視角。
2? ?相關研究工作概述
引用動機是指施引作者對參考文獻的引用目的或意圖[9],其蘊藏著豐富的信息,既能結合引文內容的其他特征分析引文的特性,發現學科領域之間的引用規律,還可以為學術作品評價提供參考。部分學者將作者對參考文獻的引用目的稱為引文動機、引文目的、引用功能,為了敘述的需要,本文將之統稱為引用動機。在對引用動機的相關研究中,1975年Moravcsik和Murugesan[10]對于引用動機的研究具有一定的代表性,為其后學者奠定了研究基礎。他們從四個不同維度對引用進行分類——概念性或操作性引用、陳述性或敷衍性引用、擴展的或繼承性引用、質疑的或否定性引用,并對30篇文獻的706次引用進行標注分析,發現概念性引用多于操作性引用,同時約40%的引用是敷衍性引用,不同的引用對引文評價有不同的影響。本文從引用動機的研究方法和引用動機分類兩個方面概述相關研究。
2.1? ? 引用動機研究方法研究概述
關于引用動機的研究方式主要有兩種[11]:首先是直接通過文章作者獲取真實引用動機,如訪談、調查問卷等;其次是基于引文內容來識別作者的引用動機,如人工標注、自動標注等。早期由于引文文本研究的樣本量較少以及技術的限制[9],大多數學者依靠訪談、調查問卷、人工標注的方式獲取引用動機。近年來,計算機的技術快速發展讓學者更加傾向利用計算機自動標注數據,且處理速度快,可處理樣本容量大,效率較高。本文針對目前研究人員獲取引用動機的具體研究方法,將其歸納為以下三種。
(1)訪談或調查問卷獲取引用動機。該方法可直接通過文章作者獲取其對參考文獻的引用動機,如2009年,馬鳳和武夷山[12]進行兩項問卷調查工作:第1項是調查307位中國科技期刊研究界的科研人員對已給定的17種引用動機的重要程度評定情況;第2項是調查80位文獻作者引用最新所發表論文的參考文獻的引用動機情況,最終表明,兩個結果從整體上來看較為一致,且引用是由多種因素引發的結果。2015年,邱均平等[13]也向科研人員發放調查問卷獲取作者的引用動機,共收到157份有效問卷,通過分析問卷結果來研究引用動機之間的相互影響關系。訪談或調查問卷都可以直接反映文章作者對參考文獻的引用動機,但實驗數據少,操作復雜,容易忽略其他引文內容信息,如引文在施引文獻中被引用的位置、次數、內容長度等信息。
(2)人工標注引用動機。早期的研究多是探究性的,且計算機技術以及電子數據庫不完善等因素,采用的語料規模較小,學者通過引文內容信息人工標注文章作者的引用動機。在Moravcsik和Murugesan[10]關于引用動機的研究中,通過人工標注的方式,對不同引用進行動機分類,進而分析引用動機分布情況。人工標注一般都是專業的標注人員根據預先的動機分類標準對引用進行動機標注[9],而且部分計算機標注的方法需要依靠人工標注的結果去實現大規模的數據標注任務,但人工標注主觀性太強,且需要大量的人力和時間,樣本容量也比較小。
(3)計算機標注引用動機。由于訪談或調查問卷以及人工標注的操作都比較復雜,無法大規模獲取實驗數據,目前越來越多的學者利用計算機進行引用動機的標注。2006年,Teufel等[14]驗證了計算機標注的可靠性,首先由3名標注人員利用統一標準對計算機語言學的26篇文章的548次引用進行人工標注,通過Kappa值的計算(K=0.72),測量3人標注的一致性;然后采用人工標注和機器學習的方法,分別對來自計算機語言學的116篇文章的2829次引用進行動機標注,通過計算兩種標注方式結果的Kappa值(K=0.57)和Macro-F(Macro-F=0.57)用于度量機器標注的準確性。2013年,Abu-Jbara等[15]通過引文內容識別以及引用動機和引文極性自動標注的分析,驗證計算機標注方法具有較高的準確率,并發現基于引文上下文的標注相對于只依據引文內容提高了計算機標注的準確性。2015年,Hernández-Alvarez 和Gomez[16]從ACL Anthology隨機選取85篇文章構成引文語料庫,通過對部分文章作者關于引用動機調查的結果和相應的計算機標注進行比較,說明了計算機標注結果有較高的準確性。然而目前基于數據開放程度以及引用內容自動抽取不完善等問題,還很難從大規模文獻語料中高正確率和召回率地對引用動機進行自動分類[2]。隨著自然語言處理、機器學習等技術日益成熟,今后的動機分類研究將更注重自動分類以及從大規模文本獲取更豐富的知識,以幫助引文分析研究更加細致和深入。
從現有研究可以看出,計算機標注是目前學者獲取引用動機的主要方法,相比其他方法,可以更快處理大規模數據。但是本文由于無法對引文數據進行大規模獲取,同時考慮到對圖書的被引動機作初步探究,不同學科之間的被引動機可能存在差異性,為保證數據標注結果的可靠性和準確性,本文采用人工標注的方法從引文內容獲取引用動機。
2.2? ? 引用動機分類相關研究工作概述
關于引用動機的分類目前還沒有統一的標準,不同的學者持有各自的觀點。2006年,Teufel等[14]將引用動機分為4類——明確表明缺點、與其他文章對比或比較、贊同或使用其他文章、中性的,在此基礎上細分12個標準進行動機分類研究,之后又將這12個標準歸到三大類別——負面、中性、正面;然后,由3名標注人員對計算機語言學的26篇文章的548次引用分別按照12個類別和3個類別進行動機標注,并計算兩種標注方式結果的Kappa值分別為:0.72(n=12,N=548,k=3)、0.75(n=3,N=548,k=3),相比而言,標注人員按照3分類標準的標注結果一致性較高。2013年,Abu-Jbara等[15]對自然語言處理領域30篇學術論文在施引文獻中的3500條引文內容及其上下文進行動機標注,他們將引用動機劃分為6種類型——批評、比較、實驗、證明、依據、中性。2013年,朱大明[17]基于引文原理和影響引用動機的各種因素,將參考文獻的引用動機分為學術性動機和非學術性動機,同時將學術性動機劃分成10種小類。2015年,邱均平等[13]將引用動機分為內在引用動機(包括知識主張、價值感知)和外在引用動機(包括信息源便利性、引用輸出、引用重要性),他們對收到的157份有效問卷進行引用動機間影響關系的探究。2015年,Hernández-Alvarez 和Gomez[16]將引用動機分為6種類型——依據或彌補、使用、贊同或討論、比較、不足或有待改正、模糊,從而對來自計算機語言處理領域的85篇文章的引用進行動機標注。2015,Valenzuela等[18]對自然語言處理領域學術論文的465次引用進行動機標注,他們將引用動機分為使用、擴展、相關工作、比較,并認為如果以拓展或使用為目的的引用,對于文章來說是重要的;如果是作為背景引用或以比較結果為目的,則被視為不重要的引用。2018年,尹莉等[8]從SCIE數據庫和CSCD數據庫中選出計算機語言學研究的98篇學術論文的約2540條引文記錄,并進行動機標注,他們將引用動機分為4大類和8小類,即使用(包括被依據的、供應、有用的)、比較(包括對照)、批評(包括弱點、回避)和背景(包括獲得、證實)。2018年,Jurgens等[19]選擇自然語言處理領域的52篇文章的1969次引用進行動機標注,他們將引用動機分為6種類別——背景、使用、比較或對比、動機、擴展、未來展望。
從上述的研究可以看出,不同的學者對引用動機的分類標準存在差異。一方面,這與學者的研究目的和研究方法不同存在一定的關聯;另一方面,不同的學者對引用動機概念的界定有所差別,有些學者區分引用過程中的贊成和批評意見,而有的學者則認為都是闡述前人的工作,不必加以區分[9,20]。另外綜合近幾年的研究來看,為了保證分類效率和準確性,學者對動機類別劃分的數量較少,且類別特征多數包含“使用”“比較”和“背景引用”等[8,16,18,19]。本文主要對圖書的被引動機作初探性的研究,其引用動機的定義主要反映施引作者的引用目的,強調施引作者引用圖書對文章產生的作用,且為客觀存在的動機,而不考慮情感極性等其他因素,因此本文綜合以上研究將圖書的被引動機劃分為“使用”“比較”和“背景引用”三類。
3? ?研究方法
本文通過獲取圖書在施引文獻中的引文內容,分析其被引動機的分布情況,并研究引用動機與引用位置、引用長度的相關性。本文研究框架包括數據采集、數據處理、數據分析等三個部分(見圖1)。
3.1? ? 數據采集和處理
本文研究的圖書元數據信息和圖書施引文獻的元數據信息分別來源于亞馬遜中文網站(https://www.amazon.cn/)和百度學術(http://xueshu.baidu.com/),在2016年11月完成數據采集工作。目前主流的中文全文數據庫如知網、萬方、維普等均存在部分文獻未收錄的情況,為了盡可能地找到圖書的所有施引文獻信息,本研究以百度學術作為檢索入口,以中文圖書的元數據信息作為檢索關鍵詞,獲取圖書的施引文獻信息。相比于以單一的中文全文數據庫作為檢索入口,百度學術更可能覆蓋所有施引文獻的信息。本文在選取圖書的學科領域時,首先以亞馬遜官方網站提供的中文圖書商品分類1的一級類目為基礎,同時考慮到一級類目與學科分類類目的匹配程度以及自然學科和人文社會學科的差異,我們最終以計算機、法律、文學、醫學、體育五個學科領域為例,通過學術論文全文數據庫獲取圖書引文內容數據集,通過以下兩個數據獲取的步驟,構建圖書的引文內容語料庫。
(1)根據圖書在亞馬遜中文網站上的評論數必須大于或等于1、圖書在百度學術上被引次數大于或等于1、并且圖書必須包含目錄信息的原則,得到計算機、法律、文學、醫學、體育五個學科領域的圖書6006種。
(2)為了保證引文內容的準確性,我們采用人工標注的方法獲取這些圖書被引的引文內容及其上下文(即引文內容的前兩句和后兩句)。但鑒于人工標注方法的工作量大且成本較高,因此,我們僅從6006種圖書中選擇500種作為實驗對象。由于6006種圖書的被引分布存在差異,如被引次數在[0-5]區間的較多,而被引大于15次的相對較少,為使獲得的引文內容數據更具有代表性,我們根據圖書被引分布,按比例(即6006種圖書在各被引區間的分布比例)抽取各個被引區間的圖書共計500種。
在獲取施引文獻全文信息后,主要完成引文語料庫的構建。由于引文上下文中包含施引者對該文獻的描述與評價,蘊含了施引者的引用動機[21],所以本文采集的引文內容不僅包含帶有標注序號的引文句,還有引文的前兩句和后兩句內容。采集人員在摘取引文內容的同時,根據引文內容所在章節段落的標題以及全文信息判斷引用位置,本文將引用位置劃分為引言、相關工作、方法、數據、實驗、結果、討論七個類別;引用長度即為引文句的字數,可在引文內容采集完成后進行計算[22]。
數據處理過程主要針對以下情況進行數據過濾:(1)合并處理。部分文獻作者相同,內容無異,僅標題有個別字的差異;部分文獻被翻譯成英文文獻,且被發表在不同的期刊中,對于這些情況我們僅將其當成一篇文章處理,其引用不重復累計;(2)糾錯處理。由于期刊的頁面排版等因素,部分文獻的引用出現在錯版的文章中,因此這些引用無效,需要剔除掉;(3)刪除處理。部分文獻在引用過程中沒有標注參考文獻編號;部分文獻無法在國內的主流數據庫檢索到,也無法在搜索引擎中獲得全文,因此這些文獻也無法獲取引文內容信息。經過數據清洗,我們最終得到399本圖書的引文句及其上下文(構建的圖書引文內容語料庫具體情況見表1)。
3.2? ? 數據標注
由于本研究圍繞圖書被引動機展開,與已有關于學術論文的被引動機研究存在差異,其分類標準自然也不能一概而論,本文結合已有的研究,將圖書的被引動機分為三種類別——“使用”“比較”和“背景引用”,相比而言,這三類之間的區分度也較強。為了使每種分類標準的定義區分更加明確,同時讓標注人員在標注過程中更容易判別,本文對每個類別進行了詳細的描述。朱大明[17]基于引文原理和影響引用動機的各種因素,將參考文獻的引用動機分為學術性動機和非學術性動機,同時將學術性動機劃分成10小類,其描述相比而言較為詳細和全面,鑒于本文涉及的圖書被引動機主要反映施引作者的引用目的,即科研人員學術型動機,為此本文參考了朱大明的詳細分類情況,并對其描述進行了調整和補充,在此基礎之上使其成為三種類別的具體描述,最終得到本文所采用的動機分類標準(見表2)。在實際標注過程中,該描述基本能覆蓋所有已采集的語料。
為了減少標注過程的誤差,本文標注任務由三位標注人員獨立完成。在正式標注之前,三位標注者預標注30條數據,驗證標注方法的可行性和可靠性。在標注過程中,標注者結合引文的上下文內容判斷引文的動機,并嚴格按照人工采集數據信息表的標準和描述進行歸類,為驗證人工標注結果的一致性,本文利用Kappa 系數作為一致性評價指標,對三位標注者標注結果的一致性進行評估。Kappa系數定義如下[23]:
其中P(A)表示標注結果一致性的實際觀測值,P(E)表示標注結果一致性的期望值。
本文將三位標注者的結果分別兩兩計算Kappa值,得到各個領域兩者一致性最高的結果(見表3)。根據Carletta[23]給出的一致性參考指標(K≥0.8為十分可靠,K≥0.69較為可靠),每個領域最高的一致性結果均大于0.69,說明標注結果較為可靠。在此基礎上,為了統一標注的結果,本文選取至少兩位標注者相同的標注結果作為參考,另外對于三者的標注結果均不相同的情況,則將其按照分類標準重新討論確定,最終確定一份統一的動機標注結果。
3.3? ? 數據分析
數據分析部分首先分析圖書被引動機的整體分布,考慮到動機的分類研究是基于引文內容的語義信息,而引用位置和引用長度并不依賴文本的語義信息[9],因此本文從圖書被引位置和被引長度兩個角度,對圖書被引動機的相關性進行探究。另外本文還分析了各個領域圖書被引動機的比例分布,并通過JS(Jensen-Shannon)[24]散度計算不同領域圖書在被引動機分布上的相似性。
為了探究不同領域之間圖書被引動機的相似性,本文試用JS(Jensen-Shannon)距離作為引用動機相似性的度量標準,JS距離是基于KL距離的不對稱性而進行改進的計量指標,其公式定義如下[25]:
其中,p和q為兩個學科領域圖書被引動機分布,pi和qi分別是其學科領域對應的第i種引用動機下的概率分布,引用動機的類別數為n。由于兩個學科領域的相似性具有對稱性,JS散度能很自然地衡量不同領域所構成的隨機分布之間的距離,比其他測量距離的方法更好[24]。JS 距離越小,表明概率相似度越大,其對應的領域之間圖書被引動機的相似性越大。通過對比不同領域之間的相似度,可以更好的分析基于引文內容的圖書被引動機行為,同時也可以反映不同領域在圖書引用動機上的差異性。
4? ?結果分析
本文圍繞圖書的被引動機展開了以下分析:首先基于圖書在施引文獻中的引文內容,對圖書的被引動機整體分布情況進行了統計,接著探究了圖書被引動機與圖書被引位置、被引長度之間的關系,最后從學科領域的角度分析圖書被引動機的差異性。
4.1? ? 圖書的被引動機分布
本文將已標注的引用動機進行統計得到圖書的被引動機分布圖的結果(見圖2)。從圖中的總體情況來看,“使用”動機占比較大,平均達到71.06%,說明作者在引用圖書時,更傾向于通過引用來佐證自己的觀點,使文章有理有據。“背景引用”通常用于闡明作者寫作意圖和論文的新穎性,在本研究中,該動機所占比重約為25%。相比而言,“比較”動機占比較小,低于5%。而對于以學術論文為研究對象的引用動機研究,Valenzuela等[18]對來自ACL文章中465次引用的數據集進行動機標注,結果顯示以“相關工作”和“比較”為引用動機的占比達到85.4%,而“使用”和“拓展”動機僅為14.6%;Jurgens等[19]對ACL文章中1969次引用進行動機標注,結果表明50%左右的引用為“背景引用”[19],這與圖書被引動機的分布存在著差異。筆者認為,圖書與學術論文在動機分布產生差異的原因,一方面可能是不同作者的動機分類標準不統一;另一方面可能是研究對象的不同,學術論文側重于研究成果公示,時效性強,可以在一定程度上反映出該領域的研究熱點和進展[26],因此作者引用學術論文時,“背景引用”占比較大,而圖書對知識的闡述更加系統和完整[26],因此作者更加側重引用圖書作為理論的支撐,與本研究中圖書被引動機“使用”占比較大的結果相印證。
4.2? ? 基于引用長度的動機分析
本文將引用內容的長度升序排列,發現絕大部分引用長度在220字以內,僅有2.14%的引用長度分布在220至600字之間。通過對引用長度小于220字的引用進行引用動機與長度的關聯分析,得到引用長度的動機分布圖(見圖3),其中橫坐標為引用長度區間,如10代表引用長度小于10的區間,20代表引用長度大于或等于10并小于20的區間,以此類推。從圖中可以看出,在每一段區間內“使用”占比在65%-80%之間,“背景引用”占比在15%-30%之間,與圖2中三種動機總體分布較為相符,且每段區間的比例分布起伏相對平穩,沒有出現某種動機出現在固定長度之間或者相對聚集的情況,說明學者在引用圖書時,不會因為引用動機的不同而控制引文的長度。
4.3? ? 基于引用位置的動機分析
在對引用位置進行標注過程中,我們發現文學和法律領域的文章,難以通過全文主題和其所在章節在全文中的作用來推斷引用位置,且不同作者之間的寫作架構存在差異,人工對引用位置的判斷難度較大。相比而言,體育、醫學、計算機三個領域文獻結構較為直觀,章節標題有助于標注者判斷引用位置。因此,我們僅獲得了體育、醫學、計算機領域圖書在施引文獻中的引用位置。
我們將不同引用位置的動機分布比例進行比較,得到引用位置的動機分布圖(見圖4)。由圖可見,“背景引用”在引言部分和數據部分占比較大,都超過了50%,而方法部分和實驗部分的“背景引用”占比較少,分別為13.4%和9.1%;相比而言,“比較”在引言、相關工作和討論部分占比較大,占比4.5%左右;在方法和實驗部分,“使用”的占比較大。筆者認為,該數據結果可能與文章中不同位置體現的作用存在關聯性,一般而言,引言和相關工作部分主要介紹寫作范圍和目標[18],因此作者更傾向“背景引用”;數據、方法和實驗部分描述了這項研究是如何進行的;結果部分展示研究的相關報告;討論部分解釋了結果的含義,并為未來的工作提供了指導方針[18],因此“比較”引用動機占比也較多。與Jurgens等人的研究進行對比,發現圖書與學術論文在不同位置的被引動機分布情況存在異同。Jurgens等人同樣表明在引言部分“背景引用”的占比較大,方法和結果部分的“使用”比重較大,“比較”在討論和相關工作部分占比相對較多[19]。不同的是學術論文的相關工作部分以“背景引用”動機為主,討論部分主要為“比較”動機。總的來說,對于不同位置的動機分布存在著明顯的差異,位置和動機間有著一定的關聯性。
4.4? ? 不同學科領域的圖書被引動機分布
從不同學科領域角度來看,學者在對圖書的引用過程中,動機傾向不同。體育領域的“背景引用”占比43.19%,遠遠高于其他領域;法律領域相比其他領域,“比較”占比較大,達到10.58%;計算機和文學領域的“使用”占比分別為78.87%、79.97%(見表4)。其可能原因是,不同領域的作者寫作結構方式不同,導致作者的引用動機傾向也不同。在文學領域,作者更傾向于直接引用作品文字,或者復述作品內容,作為自己闡述的論據,因此“使用”動機占比較大;在法律領域,作者在對問題或案例進行剖析時,更善于運用比較法進行論證,因此“比較”的動機占比較大;在體育領域,由于理論和實踐發展較快,現代體育科學的綜合性較強,背景引用的語句相對較多。總體而言,在對圖書的引用過程中,不同的引用動機占比不同,同時在不同領域之間存在差異。
為了進一步論證不同學科領域之間圖書被引動機的差異程度,我們對不同學科領域的圖書被引動機分布進行JS散度計算,得到不同學科領域圖書被引動機分布相似性比較結果(見表5)。比較可以發現,“計算機”與“文學”之間的JS值較小,僅為0.0001,醫學和法律之間的JS值也只有0.0058,說明這些領域的圖書被施引文獻引用時,引用動機表現較為相似,而從學科交叉的角度來看,以上學科領域分別來自于自然學科和人文社會科學,兩者之間的交叉性較小,說明施引作者的引用目的并不會因為學科交叉性的不同而存在較大差異。相比而言,體育和法律之間的JS值達0.0498,說明兩者之間的引用動機相似度較小。從縱向分布來看,體育與其他領域之間JS值均大于0.02,相似性普遍較小。
5? ?結論與研究展望
本文對引用動機的研究方法和分類標準進行梳理,歸納出三個動機分類標準:背景引用、比較、使用。考慮目前以中文為數據來源的研究較少,本文選取中文圖書的施引文獻作為研究對象,并從引文內容的角度出發,對圖書的被引動機進行研究。基于實驗數據的實證分析結果顯示,在引用動機分布中,相比而言“比較”占比較少,“使用”占比較多,不同領域的學者在對圖書的引用中,動機傾向不同,其中“計算機”與“文學”之間的JS值較小,說明動機分布較為相似。本文還基于引用位置和引用長度兩個方面,對引用動機進行相關性研究,結果表明,不同的引用長度的動機分布較為均勻,說明學者對圖書的引用動機不會受引用長度的影響,而不同的引用動機與引文位置在全文中表現的作用有較大的關聯性。
本文在對圖書的被引動機研究中,仍有許多不足之處。首先在數據的獲取上,部分的施引文獻由于未有參考文獻標號,導致無法獲取具體的引用句,因此在數據的全面性上存在缺陷。此外,在對引用動機的分析過程中,每個領域的數據量不均衡,因此在對比中,仍具有一定的片面性。
未來的研究中,可以考慮對數據進行擴充,使各領域之間的數據均衡。在標注的過程中,可以記錄判斷的線索詞以及標注的可信度,并結合線索詞,設計機器學習的分類規則,從而構建更加精準的分類體系。同時,還可以考慮從引用情感和引用功能等語義角度與引用動機對比分析,更加深入地研究圖書的被引行為,從而為不同學科領域的圖書評價和科研人員提供更有價值的參考。
參考文獻:
[1]? 劉盛博,丁堃.基于引用內容的引文評價分析[C].第九屆中國科技政策與管理學術年會論文集,2013:1-7.
[2]? 劉瀏,王東波.引用內容分析研究綜述[J].情報學報,2017,36(6):637-643.
[3]? 趙青.文學學科引用性質與引用深度調查分析[J].情報雜志, 2010,29(10):46-50.
[4]? 王嵐.中文人文社會科學引用性質與引用深度研究[D].南京:南京大學,2009.
[5]? 章成志,童甜甜,周清清.整合不同評論平臺的圖書綜合影響力評價研究[J].情報學報,2018,37(9):861-873.
[6]? 阮選敏,呂冬晴,張培,等.我國人文社會科學學術圖書被引影響因素研究[J].圖書館論壇,2019,39(5):33-45.
[7]? White H D.Citation analysis and discourse analysis revisited[J].Applied Linguistics,2004,25(1):89-116.
[8]? 尹莉,郭璐,李旭芬.基于引用功能和引用極性的一個引用分類模型研究[J].情報雜志,2018,37(7):139-145.
[9]? 王文娟,馬建霞,陳春,等.引文文本分類與實現方法研究綜述[J].圖書情報工作,2016,60(6):118-127.
[10]? Moravcsik M J,Murugesan P.Some Results on the Function and Quality of Citations[J].Social Studies of Science,1975,5(1):86-92.
[11]? 劉君玉.引文分析的評價[J].情報理論與實踐,1998,21(2):87-89.
[12]? 馬鳳,武夷山.關于論文引用動機的問卷調查研究——以中國期刊研究界和情報學界為例[J].情報雜志,2009,28(6):9-14.
[13]? 邱均平,陳曉宇,何文靜.科研人員論文引用動機及相互影響關系研究[J].圖書情報工作,2015,59(9):36-44.
[14]? Teufel S,Siddharthan A,Tidhar D.Automatic classification of citation function[C].In:Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP2006),Sydney,Australia,2006:103-110.
[15]? Abu-Jbara A,Ezra J,Radev D.Purpose and Polarity of Citation:Towards NLP-based Bibliometrics[C].In:Proceedings of Human Language Technologies:The Conference of the North American Chapter of the Association for Computational Linguistics 2013 (HLT-NAACL2013),Denver,Colorado,USA,2013:596-606.
[16]? Hernández-Alvarez M,Gomez J M.Citation Impact Categorization:for Scientific Literature[C].In:Proceedings of 2015 IEEE International Conference on Computational Science & Engineering (CSE2015),Porto,Portugal,2015:307-313.
[17]? 朱大明.參考文獻的引用動機[J].科技導報,2013,31(22):84.
[18]? Valenzuela M,Ha V,Etzioni O.Identifying meaningful citations[C].In:Proceedings of 2015 in AAAI Workshop:Scholarly Big Data,Austin,Texas,USA,2015:21-26.
[19]? Jurgens D,Kumar S,Hoover S,et al.Measuring the Evolution of a Scientific Field through Citation Frames[J].Transactions of the Association for Computational Linguistics,2018(6):391-406.
[20]? 楊思洛.引文分析存在的問題及其原因探究[J].中國圖書館學報,2011,37(3):108-117.
[21]? 徐健,李綱,毛進,等.文獻被引片段特征分析與識別研究[J].數據分析與知識發現,2017,1(11):37-45.
[22]? 章成志,李卓,趙夢圓,等.基于引文內容的圖書被引行為研究[J].中國圖書館學報,2019,45(3):96-109.
[23]? Carletta J.Assessing Agreement on Classification Tasks:The Kappa Statistic[J].Computational Linguistics,1996,22(21):249-254.
[24]? 唐曉波,祝黎,謝力.基于主題的微博二級好友推薦模型研究[J].圖書情報工作,2014,58(9):105-113.
[25]? Kullback S,Leibler R A.On information and sufficiency[J].The Annals of Mathematical Statistics,1951,22(1):79-86.
[26]? 馮晴,陳惠蘭.國內數字圖書館領域學術圖書出版研究[J].圖書館雜志,2013,32(4):53-57,81.