徐琳宏,丁 堃,孫曉玲,楊 陽
(1.大連理工大學科學學與科技管理研究所暨WISE實驗室,大連116024;2.大連外國語大學軟件學院,大連116044)
客觀公正地評價一篇論文的學術影響力是學者個人評估乃至學科發展技術演化的基礎,也是科研評估的重要目標。目前,單篇論文的學術影響力評估一般是基于被引頻次來測度的,其作為一個獲取簡單、計算方便的科技評估指標被廣泛引用。然而,單純的被引頻次存在引用的同一化問題,即不同目的和引用極性的引用被同等對待,如贊揚、批評和陳述類的引用在基于被引頻次的評估方法中效能是一樣的,都是增加一次引用。而實際上,這三類引用表達了施引作者對被引文獻工作的不同態度,應該區別對待,這就需要細化科技評估的指標,實現全面和公正地評估論文的影響力。引用極性,是指將引用按施引作者的情感和態度劃分為支持和贊揚、反對和批評,以及簡單陳述三種類型,是細化評估指標的一種方法。不同情感類型表達了對被引文獻的不同態度,也反映了被引文獻對作者的不同影響。因此,將引用按情感極性細化,可以克服被引頻次指標單一化的缺點,在多個層次和角度豐富論文評估的指標,從而更加合理和準確地評估單篇論文的影響力。
雖然眾多學者都認為被引頻次是一個有偏差的評估指標,應該對其按引用功能、引用目的和引用極性等進行細化,但不同引用極性的論文影響力是否具有差別目前還沒有定量的研究,對于如何具體量化不同情感極性的引用目前也沒有統一的結論。是否正面引用的論文比中性引用的論文影響力更大,是否應該在被引頻次測度中增加正面引用的系數?針對上述問題,本文從施引文獻的角度出發,對正面引用論文的影響力及正面引用的影響因素進行研究分析,定量分析被正面和中性引用的論文其影響力是否有差別,不同引用原因的正面引用論文影響力是否有差別,以及正面引用論文的影響因素。
當前,被引頻次已經成為評價一篇論文質量甚至學者影響力的重要指標,圍繞被引頻次的研究也有很多。自1955年Garfield[1-2]提出引文索引以來,被引頻次就成為衡量科研成果和科研人員水平的主要指標,在科學評價方面發揮著重要作用。Cronin等[3]認為,被引次數是衡量作者影響力的重要指標。但被引頻次將所有的引用同一化,忽略了引文的異質性,在一定程度上影響了其作為論文評價指標的準確性和可靠性。因此,眾多學者認為,被引頻次是有偏差的衡量指標,作者數量和論文長度等因素對其有顯著性的影響[4]。為了矯正單純被引頻次帶來的偏差,人們從不同角度提出了相應的改進方案。Pinski等[5]認為,每個引用應該具有不同的權重,施引作者不同具有不同的重要性。馬瑞敏等[6]根據施引作者的不同對被引次數指標進行加權,構建的模型能有效區分領域活躍者和領域先行者。謝娟等[7]研究被引頻次與下載頻次的相關關系,發現兩者呈正向的強相關關系,可使用下載頻次彌補被引頻次具有一定滯后性的問題。另外,一些學者對引文進行再分類,李沖等[8]將引文分為實質性引用、程序性引用和形式性引用,細化后的引文分析指標提高了個體學術評價的可靠性。Wan等[9]將引文按重要性分為5個等級,并應用于論文影響力和作者影響力的研究中。
引用過程中正面引用、中性引用和負面引用存在情感差異,使被引頻次的評價方法存在爭議[10],利用引用情感細化被引頻次是一種比較常見的改進方案。Hernández-Alvarez等[11]將引文按引用極性分為正面引用、負面引用和中性引用。Catalini等[12]發現負向引用論文的質量更高,與未被負向引用的論文相比,其被引頻次更高。劉盛博等[13]提出引文評價的三個指標,其中引文情感分為正面引用、負面引用和中立引用。Chubin等[14]認為,引文中包含肯定和否定的兩種情感,通過對多篇文獻的分析,將肯定類型細分為基礎型、輔助型、同意型和敷衍型;而否定類型詳細劃分為部分否定和全文否定。Veer Martens等[15]采用引文內容分析的方法,研究八種理論的傳播方式,將其中理論認識類型分為積極、中立和消極三類,且積極和中立情感占大部分,而消極情感較少。陸偉等[16]提出引文內容標注框架也包含引文情感,分為正面、負面和中立三類。Moravcsik[17]將引文分類體系劃分為正、負兩種,正面引用的比例達到92%。尹莉等[18-20]引入“極性”概念,將引用內容分為正、負和零三類,并分析引用發生的語境,指出引用的位置與論文的一般結構有關,提出基于引用功能和引用極性的分類模型,并細致分析了引用極性、引用位置和引用密度與自引的關系。耿樹青等[21]提出一種基于“被引頻次——引用情感”的指標來評價論文學術影響力。章成志等[22]基于引用內容研究中文圖書的被引行為,發現引用情感中超過80%表現為中性,且正面引用明顯多于負面引用。
綜上所述,引用極性的分析是對被引頻次評估指標的有益補充,在科研評價中具有重要意義。但由于數據獲取困難等因素的影響,引用極性的研究還處于起步階段,正面引用、中性引用和負面引用與被引頻次關系的定量研究較少。因此,本文嘗試分析正面引用與中性引用的論文的影響力差別關系,以及正面引用的影響因素等。
引用極性,是指在當前引用句上下文內施引文獻對被引文獻的態度,一般分為正面、中性和負面三種類型。本文主要探討正面引用和中性引用,不涉及負面引用。一方面,是因為正面和中性情感的占比較大,負面引用占的比重較小;另一方面,更重要的是負面引用的影響力是一個較為復雜的問題,不能單純地以負面引用就有負面影響來看待,可能需要更加復雜的研究方案才能完成。因此,為了聚焦研究議題,本文的研究內容只涉及正面引用和中性引用,探討其與論文影響力的關系,分析引用極性與引用原因的關系,以及正面引用的影響因素。
由于被引頻次只對引用行為的次數做簡單的計數,把所有的引用行為同等對待,存在引用的同一性問題,故被引頻次是一個有偏差的評估指標。為了解決這個問題,本文從施引文獻的角度出發,區分每一個引用行為,即從引用原因和引用極性兩個方向嘗試研究。從直觀上來說,正面引用一般代表施引作者對被引文獻的贊揚和認同,要比簡單陳述觀點類的中性引用表達的情感更強烈,該類被引文獻對作者的影響力也更大。那么在自然語言處理領域,這些被正面引用的論文的影響力是否真的比被中性引用的論文影響力更大?不同原因產生的正面引用,其論文影響力是否存在差別?為了在定量的層面回答上述問題,本文假設:
H1:被正面引用的論文與被中性引用的論文的影響力相同。
H2:被正面引用的論文在不同引用原因下其影響力沒有差別。
正面引用極性的產生有其自身的原因和特定的表達形式,找到這些影響因素,有助于更準確地鑒別正面引用和深入探討該類引用的論文影響力。本文嘗試區分在自然語言處理領域中,哪些施引特征更容易產生正面引用,從施引文獻的角度出發假設:
H3:施引位置對正面和中性的引用極性沒有影響。
H4:引用句的長度對正面和中性的引用極性沒有影響。
H5:參考文獻數對正面和中性的引用極性沒有影響。
H6:引用強度對正面和中性的引用極性沒有影響。
3.2.1 變量及測度指標
本文主要完成兩部分的工作:一是確認被正面引用的論文是否具有更高的影響力,以及不同引用原因產生的正面引用,其被引文獻的影響力是否存在差別;二是分析施引位置、引用長度、參考文獻個數以及引用強度等四個方面因素的變化規律,研究其對正面引用的產生是否有密切關系。各變量的描述如表1所示。

表1 各變量的描述
任務一是在不同引用極性中,區分被引文獻的影響力是否有顯著差別。本文使用總引用頻次和年均引用頻次兩個指標衡量論文的影響力。總被引頻次代表論文的整體影響力,但發表年份較晚的論文,其引用的窗口時間短,總引用頻次不能客觀反映這類文獻的影響力。因此,增加了年均被引頻次的指標,其代表文獻每年的平均引用頻次,該指標對發表較晚,引用較多的文獻比較友好,但對發表時間較早,已過引用半衰期的文獻有一定的偏差,這類文獻由于很快過了引用高峰期,隨著時間的推移,年均被引頻次會被逐步拉低。兩個指標各有優缺點,互為補充,因此,本文采用總被引頻次和年均被引頻次兩個指標計算被引文獻的影響力。
任務二中的施引位置是按句計算的,用當前引用句在施引文獻中的語句序號除以正文中施引文獻語句總數。引用強度是計算同一篇施引文獻中某個被引文獻的引用次數,參考文獻數量是指施引文獻中的參考文獻總數,而引用長度是計算當前引用包含的語句字數。
3.2.2 統計分析方法和工具
在正面和中性論文的影響力研究中,使用被引頻次作為因變量,但被引文獻的引用頻次不符合正態分布,一般情況下符合泊松分布[24-25]。因此,本文沒有采用單因素的方差分析方法,而選擇非參數檢驗的Mann-Whitney檢驗和Kruskal-Wallis檢驗。Mann-Whitney檢驗是檢測兩個獨立樣本是否存在顯著性差異的方法,其檢驗統計量為

Kruskal-Wallis檢驗適用于檢測多個總體是否存在顯著性差異,其檢驗統計量為

在正面引用影響因素的研究中,本文采用邏輯回歸的方法,適用于自變量是分類或數值變量,因變量為二分類變量的情況,邏輯回歸的模型為

其中,P=P(y=1|x)為正面引用發生的概率;β1,β2,…,βm為多個因素的回歸系數,使用Wald值衡量指標的重要性。當Wald值越大,P值越小時,自變量的影響就越大;反之,則說明該自變量對正面引用的產生沒有影響。本文所有的數據處理和統計分析結果均是利用Excel和SPSS軟件完成的。
本文選擇自然語言處理領域權威的中文期刊《中文信息學報》2017年全年的論文作為原始數據,分析該領域正面引用論文的影響力及影響因素。自然語言處理是人工智能領域的一個重要研究分支,論文的數量和質量近幾年來都呈明顯的上升態勢。而《中文信息學報》是中國中文信息學會會刊,是中文方面自然語言處理領域的權威期刊,從刊登的文章能及時了解最新的中文信息處理進展和學術動向。為了分析正面引用論文的影響力,本文需要分三個階段獲取數據:期刊論文全文本分析、論文中引用句的情感極性標注和被引文獻的引用頻次抓取,具體過程如圖1所示。
第一階段的任務是下載和解析論文的引用句。從CNKI上下載《中文信息學報》2017年全年的論文,共189篇,排除個別征稿通知和會議通知類的文獻,共獲取論文170篇。下載的全文包括CAJ和PDF兩種格式,將其轉化為TXT文本格式,進行數據的初步清洗,刪除解析表格和圖片時產生的非法字符。接下來,將論文分割為正文和參考文獻兩部分,正文部分按句分割編碼,并采用正則表達式的方法搜索引用標識,即以上角標形式出現的包含數字的中括號。參考文獻部分按編號分割,截取其中題目、作者、期刊等信息。在數據的預處理中,本文還考慮了全角字符和半角字符的轉化、部分參考文獻跳轉到其他頁、包含多重參考文獻標識、正文內容隔頁跳轉以及特殊字符在XML文件中的合法化等問題。最后,以XML文件的格式存儲解析后的論文:共包含語句42849個,其中可能的引用句2948個;包含參考文獻3172條,其中期刊類的參考文獻1417條。

圖1 數據獲取流程圖
第二階段的任務是標注引用句的情感極性。目前,引用句的情感極性沒有合適的公開數據集可用,需要人工參與標注。為了提高標注的質量和速度,本文在引文情感極性的標注過程中利用人機結合的標注方法,人工為主、機器為輔。第一階段預處理后的論文,檢索其中所有可能包含引用標識的語句,提取每句對應的上下文,生成標注對象。各個語句按照在論文中出現的先后順序逐一輸出給標注人員,完成引用極性和引用原因等信息的標注工作。為了提高標注質量,同一個引用句會分配給多個標注人員,根據情感標注是否有分歧來決定標注是否需要再次討論。計算機輔助方面,主要是通過構建標注平臺實現,該平臺不僅能幫助標注人員提高速度,同時,也能完成質量監控的部分工作。標注完成后,共包含引用3496個,其中正面引用1160個,中性引用1870個。第一和第二階段的任務在論文《中文文獻引文情感語料庫的構建》一文中有更為詳細的說明[26]。
第三階段的任務是獲取被引文獻的信息。從第二階段的3496個引用句中,選擇被引文獻為期刊類型,引用格式為一處一引的所有正面和中性的引用句1164個,獲取其被引文獻的被引頻次、發表年份和施引位置等信息。由于期刊類型文獻的被引頻次數據準確真實,故選擇被引文獻為期刊類型,而其他類型文獻(如圖書類)目前還沒有統一的數據來源可以獲取被引頻次。選擇一處一引的引用句主要考慮引用極性無論是正面還是中性,指向性比較明確,即針對單一的被引文獻。一處多引的引用句,同一引用位置包含兩個甚至更多的被引文獻,那么正面或者中性引用的情感極性是針對其中一篇文獻還是多篇文獻存在歧義,因此,選擇引用格式為一處一引的引用句。
被引頻次信息是從網站上通過爬蟲工具抓取的,檢索時考慮到論文的題目和作者名稱相同認定為同一篇。英文參考文獻的被引頻次從Google學術上爬取,抓取時間為2019年11月。中文參考文獻的被引頻次是從CNKI上獲取的,數據獲取時間為2019年12月。中文和英文文獻的獲取來源不同是因為CNKI上英文文獻較少,而如果所有參考文獻的被引頻次均從Google學術中抓取,那么數據獲取后會發現該網站的中文文獻的被引頻次遠低于CNKI中獲取的被引頻次,其原因可能是Google中包含的中文論文數量有限,且實時性不能得到保證導致的,故本文選擇將中文和英文的參考文獻分別從不同網站獲取被引頻次。雖然每篇被引文獻的發表年份在參考文獻中可以直接獲取,但是考慮到參考文獻中的年份是每個施引作者列出的,有可能會出現錯誤,因此,本文分別通過Google和CNKI上重新獲取了論文的發表年份,并與參考文獻中的發表年份進行校對。
本文以自然語言處理領域的重要期刊《中文信息學報》2017年全年的論文為數據,選擇其中標注為正面和中性極性的引用作為研究對象,共獲取施引文獻170篇,引用句1164個。統計每個引用句中被引文獻對應的引用頻次和年均引用頻次。被引頻次的均值、最大值和標準差分別為2140、84757、6412,年均被引頻次的均值、最大值和標準差分別為200、8190、665。由此可見,兩個指標具有一定的差異性,能從不同側面反映被引文獻的影響力。
被正面引用的論文是否比被中性引用的論文影響力更大,引用原因不同的正面引用,其被引文獻的影響力是否存在差別,從施引文獻的角度出發正面引用有哪些特殊的表現形式。下文就這些問題討論引用極性在論文影響力上的作用,以及影響正面引用的因素。
將引用句按引用極性分為正面引用和中性引用,被引文獻在兩個類別中數據的分布規律如表2所示。從數據中可以看出,正面引用的論文被引頻次和年均被引頻次的均值均大于中性引用的論文,其中年均被引頻次的均值接近中性引用的一倍。兩類論文的標準差均較大,說明被引頻次的數據離散型更大,正面引用的年均被引頻次高于中性引用,數據的離散性更明顯。

表2 不同引用極性下論文影響力的統計描述
為了量化區分正面引用和中性引用論文的影響力是否存在差別,本文利用Mann-Whitney檢驗檢測中性引用和正面引用樣本的差異性。檢驗結果如表3所示,置信水平α=0.05,根據樣本觀察值做出決策,總被引頻次和年均被引頻次的檢驗P值均遠小于0.05,拒絕H1假設,即在自然語言處理領域中,被正面引用的論文和被中性引用的論文影響力有顯著差別,且被正面引用的論文總體上影響力要強于中性引用的論文。因此,在單篇論文的評價體系和作者影響力的評估中,被正面引用的論文應該給予更高的關注度和更大的影響系數,以糾正簡單累加被引次數帶來的評估偏差。

表3 正面和中性引用論文影響力差異性檢驗
總被引頻次對發表年份較早的期刊有利,而年平均引用頻次對發表年份較晚的期刊有利,這主要是引用窗口的不同對論文被引頻次的影響,圖2分別展示了正面引用和中性引用與引用窗口的關系。橫坐標為引用窗口,即施引文獻發表年減去被引文獻發表年;縱坐標為不同引用窗口下年均的被引頻次。由圖2可以看出,中性引用的次數總體上比正面引用的次數多。在2017年《中文信息學報》的論文中,正面引用主要集中在發表后2~5年的論文,高峰正面引用在4~5年,而發表后2~7年的論文占中性引用的比例較大,高峰期在4~7年。在該數據集上,正面引用的引用窗口期比較短,在發表7年后就較少被正面引用,但在發表10年后達到一個平穩期,發表7年后的論文在中性引用的占比明顯減少,并且隨著引用窗口的增加逐步減少。發表后8~15年的論文在正面引用中占有一定比例,隨著引用窗口的增加,數量比較平穩,可能是某個研究方向中包含一些經典的和開創性工作的文獻,一直被大家認可,這類文獻很多情況下是某一學科的支撐類文獻,檢索該類文獻有助于梳理學科發展脈絡。另外,正面引用的啟動速度明顯高于中性引用,發表前2年內被正面引用的論文占總數的5%,是同年被中性引用論文占比的2倍。
正面引用是施引作者對被引文獻表達正向情感認同的引用,但每個正面引用的產生原因不同:有的是直接贊揚;有的是利用被引文獻的模型和方法;還有的是通過與其他文獻比較,委婉地表達認可的觀點。那么本節的主要任務是分析不同引用原因下的正面引用,其對應文獻的影響力是否存在差異。正面引用的原因需要通過引用句及其上下文的語義判斷,這部分的數據在第3.3節獲取部分,通過專業人員標注完成的。對自然語言處理領域的中文論文,本文借鑒劉盛博等[13]對正面引用的三分類,將引用原因細分為比較、應用、贊揚和其他。比較是指在引用句中將被引文獻與他人工作比較,明確表達被引文獻效果較好;應用類按目標對象可以分為被施引作者使用和被很多人使用;贊揚類是施引作者通過“良好”“有效”等明顯的情感詞匯表達對被引文獻工作的贊美;其他類為表達正面情感強度較弱、表達形式比較隱晦的引用句。各種引用原因下,被引頻次和年均被引頻次的統計描述如表4所示。

圖2 引用極性與引用窗口的關系

表4 正面引用中四種引用原因的統計描述
從表4可以看出,應用和贊揚兩類的被引文獻的影響力更大,而比較和其他兩類論文影響力相對較小。本文采用Kruskal-Wallis檢驗測度四種引用原因對應的被引文獻其影響力是否存在顯著差異,這里選擇Kruskal-Wallis檢驗是由于年均被引頻次不符合正態分布,且是多組數據的比較。檢驗的結果表明,年均被引頻次的分布在引用原因類別上具有顯著性差異,拒絕原假設H2。這說明論文的年均被引頻次明顯受到正面引用原因的影響,鑒別引用原因有助于更加合理地評估論文的實際影響力。本文在Kruskal-Wallis檢驗的基礎上,為引用原因的四種引用原因做了兩兩比較,以檢驗這四種類別兩兩是否都存在顯著性差異。比較的結果如表5所示。

表5 正面引用原因成對比較結果
由于是事后兩兩比較,需要調整顯著性水平,根據調整后的顯著性水平,由表5的結果可以看出,2組和4組以及3組和4組論文的影響力有顯著性差異,即應用和贊揚兩類的引用原因與其他類的論文影響力有顯著差異,這也符合本文的初始預期,這兩類的論文發揮作用,得到施引作者的強烈認同,故其影響力也會更大。但比較類型引用的文獻論文影響力較低,這不符合預期:本文預期比較表達了作者對被引文獻工作的認可,應該有更高的影響力。但研究結果表明,該類型論文的影響力相對較低,其原因可能由于比較類型一般有比較對象,表達正面的情感只限定在兩個被比較的對象范圍內,比單一對象高,不代表影響力更大。另外,比較型引用強度較弱,形式比較隱晦。
圖3 中節點的數值代表四類引用原因下正面引用文獻的年均被引頻次的秩,邊代表兩兩比較的結果,實線邊代表兩組之間沒有統計學差異,虛線邊代表兩組的差異具有統計學意義。這部分劃分的引用原因是根據自然語言處理領域引文的特點決定的,不一定適用于所有領域,其他領域的引用原因可能需要稍作調整,一般來說贊揚類的論文每個領域都存在,而比較類型的論文可能領域相關性更大。因此,這部分的結論僅在中文自然語言處理領域具有一定的可靠性。
第4.2節從引用句語義的角度,分析了正面引用產生的原因以及其對論文影響力的作用。區分正面引用和中性引用以及不同原因的正面引用,對合理地論文評價具有重要意義,但是正面引用需要人工的鑒別,會耗費大量的人力資源。因此,本節主要從施引文獻引用形式的角度,分析施引位置、引用長度、參考文獻數量和引用強度對產生正面引用的作用,這些因素的判定為正面引用的自動識別奠定基礎。同時,影響因素的分析,也有利于進一步探索正面引用的特性及作用。
本文采用邏輯回歸的方法,判斷多個因素對論文引用極性的影響。因變量為引用極性,自變量為四個因素,采用二元邏輯回歸的方法是因為它適用于因變量為二分類變量、自變量為多分類變量的情況,最終根據Wals值的大小確定顯著性。該方法一般要求樣本量不能小于200,否則回歸系數具有偏差,本文的數據量滿足要求。檢測結果模型的χ2值為14.042,自由度為4,P值為0.007,因此,邏輯回歸模型具有顯著性。各因素的回歸系數和P值如表6所示。
由表6可以看出,施引位置和引用長度對引用極性有顯著影響,兩者的Wals值分別為7.339和4.339,P值分別為0.007和0.037,均小于0.05。而引用強度和參考文獻數對引用極性沒有顯著影響,因此,拒絕假設H3和H4,接受H5和H6。其原因可能是施引文獻中同一篇文獻被引用多次,一定程度上說明該文獻對施引作者有較大的影響,但并不能確定這種影響就是正面的影響,例如,在自然語言處理領域,常常將被引文獻的結果作為比較的基線,這就是中性引用或者負面引用。此外,施引文獻中參考文獻的個數對引用極性沒有影響,說明不存在參考文獻過多,就都是簡單的中性引用的現象;反之,也不存在參考文獻很少就都是正面引用的情況。

表6 各因素的回歸分析結果
上述結果表明,施引位置和引用長度對引用極性有影響,為了進一步探索不同極性下兩個因素的具體特征,也就是說什么施引位置和長度的引用句最有可能是正面引用,兩個因素與引用極性的關系如圖4和圖5所示。

圖4 正面和中性引用施引位置占比

圖5 正面和中性引用句子長度占比
圖4 中縱坐標為施引位置,在自然語言處理領域的論文中,一般來說0.4之前多是引言和相關工作部分,0.4~0.8為研究方法和結果,0.8以后多為結論部分。無論是正面還是中性引用,大部分都在引言和相關工作部分,這與李卓等[27]研究結果類似,引言和數據部分占比較大,由于相關工作是密集介紹他人工作的部分,引用比較多,占的比重較大,這與本文的認知基本一致。在研究的方法和結果部分,正面引用的占比為32%,中性引用的占比為21%,正面明顯多于中性引用。該部分的引用多是借鑒他人的模型和方法,幫助施引作者解決問題,正是施引原因中的應用類型,因此,正面引用的占比較大。另外,引言中的正面引用比例明顯低于中性引用的比例,這部分的正面引用多是提及本領域開創性的工作,但更多是介紹領域的基本概念,所以中性引用較多。
因為引用句的長度一般在20到160之間[22],所以本文選擇引用長度為0到150之間的引用句,舍棄了過長的引用句。由圖5可以看出引用長度多集中在90個字左右,30字以下的正面引用句較少,90個字以上的正面引用句占40%,而中性引用句占31%。這說明正面引用更多發生在長句中,本身正面引用要介紹被引文獻的工作和優點,則需要更多的文字來說明。
一方面,正面引用與施引位置和引用句的長度具有一定的相關性,可為正面引用的自動識別模型提供良好的數據基礎,從而減少引用極性識別對人工的依賴程度,方便獲取更大規模的數據,在更多的研究領域探索引用極性的特點和作用。另一方面,正面引用影響因素的研究也有助于從側面深入分析正面引用的成因,以及在語義層面了解正面引用對被引文獻可能產生的影響,最終有利于建立合理公正的論文評價體系。
本文以2017年的《中文信息學報》170篇論文為樣本,利用Mann-Whitney檢驗、Kruskal-Wallis檢驗和邏輯回歸的方法,研究了正面引用和中性引用論文在影響力上的差別,引用原因對正面引用論文的影響力的作用,并進一步探討了施引位置、引用長度、參考文獻數以及引用強度等因素對正面引用和中性引用的影響。研究結果發現以下三個結論:
(1)從總體上來看,正面引用論文的影響力高于中性引用論文的影響力。以引用極性為自變量,論文總被引頻次和年均被引頻次為因變量,通過顯著性分析發現,被正面引用的論文總體上影響力高于被中性引用的論文。從定量的角度表明,自然語言處理領域的中文論文正面和中性引用的區別較大,在論文評價和學者影響力的評估中有必要區分兩種引用的影響,對單純被引頻次計數的簡單評價方法進行細化是必要的,增加正面引用的權重可能在一個側面緩節被引頻次帶來的偏差。
(2)不同原因引發的正面引用,被引文獻的影響力差別較大。根據人工標注的結果,本文將正面引用的原因劃分為比較、應用、贊揚和其他四種類型。經顯著性檢驗發現,四種原因產生的正面引用論文的影響力存在顯著性差異,其中被施引文獻界定為應用類型的論文,其影響力最大;其次是贊揚類型的論文;比較和其他兩類論文的影響力較小。一方面,這說明正面引用的論文本身也不是同質的,不能通過一個統一的權重來衡量,還需要細致的區分對待,才能縮小評估中的偏差,合理地完成單篇論文的評價。另一方面,在自然語言處理領域,引用原因為應用類型的被引文獻實際上有兩個子類:第一種,是被施引作者本身使用,如施引作者利用了被引文獻的方法或者模型;第二種,是施引文獻被廣泛應用,被很多研究者借鑒。第一種子類中,通過全文的語義分析,提取被引文獻的方法和模型,以方法應用的寬度和深度為視角,可以分析自然語言處理領域模型和方法的發展脈絡。第二種子類,可以更準確的定位領域的經典和首創類文獻,從而解析經典文獻對后續文獻的影響方向和作用方式,從語義的角度分析經典文獻的實際價值。
(3)施引位置和引用長度對引用極性有顯著影響。本文選擇的引用極性的影響因素包括:施引位置、引用長度、引用強度和參考文獻個數。其中,施引位置和引用長度對引用極性有顯著影響,而引用強度和參考文獻個數對引用極性沒有顯著影響。發現與引用極性相關的核心特征有助于引用極性的自動識別,同時,也為合理評價單篇論文提供更多的相關指標。
需要注意的是,本文的研究結果說明正面引用論文的被引頻次更高,并不是要否認傳統被引頻次在論文評價中的重要性,增加引用極性是為了糾正傳統的被引頻次的偏差。本文存在幾點不足之處:一是本文的數據來源于自然語言處理領域,結論不一定在其他領域具有普適性,尤其是引用原因的劃分,具有一定的領域依賴性;二是本文從施引文獻的角度分了四個影響因素對引用極性的作用,這四個因素并不能涵蓋與引用極性相關的所有因素,沒有考慮其他干擾因素對結果可能存在影響。例如,中文和英文論文的被引頻次分別從CNKI和Google上抓取,兩個網站被引頻次的統計方法不同,也會造成中英文論文本身存在差異性,從而在一定程度上影響最終結果??傮w來說,本文屬于探索性的研究,正面引用在論文評價和學者影響力評估中具有獨特的價值和作用,但這種作用如何量化到具體的評價模型中需要進一步的研究和改進,此外論文的影響力和負面引用關系也值得進一步探索。