




摘 要:文章選取《社會學研究》和《中國人口科學》2003~2014年間每年第1期刊載的論文為樣本,對其數據引用行為進行統計分析,研究了我國社會學領域期刊論文的數據引用現狀,比較了不同期刊的數據引用行為,統計了領域內論文數據引用的頻次分布及高數據引用論文的特點。研究發現社會學領域內數據引用行為較多,引用不規范的情況大量存在。各種年鑒及人口調查資料是社會學研究的主要數據來源,但其中的不規范引用也相對較多,而對已發表的論文中數據的引用,其引用行為通常較為規范。
關鍵詞:數據引用 社會學 學術規范
中圖分類號: G250.25 "文獻標識碼: A " 文章編號: 1003-6938(2014)06-0088-06
Data Citation Behavior in the Journal Papers of Sociology in China
Abstract A sample of articles from “Sociological Studies” and “Chinese Journal of Population Science” during 2003-2012 was selected through systematic sampling method. The data citations in these articles were counted and analyzed. The authors studied the data citation behavior in the journal papers of Sociology in China, and compared the data citation behavior between different journals. The distribution of data citation was analyzed and the top data citing papers are presented with their characteristics. The result showed the data citations in Sociology are frequent, but in which many non-standard situations occurred. All kinds of yearbooks and tabulations on the population census are the major source of data for Sociological studies followed with many non-standard citations. On the other side, data citations from published journal papers are usually more normative.
Key words data citation; sociology; academic norm
1 引言
在已有數據的基礎上開展研究是科研的基本模式之一,數據共享是現代科學發展的必然需求[1],而數據引用則是數據共享的成果體現。早在1982年,著名的科學計量學家Howard D. White就指出社會科學學者應該在著作中像引用圖書或論文一樣以規范化的格式引用他們所使用的數據[2]。然而光陰荏苒,文獻引用雖已發展極為成熟,其重要性也得到各領域的公認,但數據引用卻始終未受到充分重視。
要完善數據引用規范,并進一步發揮數據引用在科學評價中的作用,首先要了解當前的數據引用狀況。國內外目前關于數據引用行為的研究才剛起步,且已有研究所選取的樣本通常較小,很難全面、真實地反映各個學科的數據引用現狀。從已公開發表的成果來看,Valerie E選取了6種期刊上的500篇文獻作為樣本進行研究,其樣本量相對較大,經統計后發現只有14%的文獻給出了所使用的數據集的唯一標識,12%的文獻提到了其他要素如數據集作者和數據倉儲的名稱,很少有文獻將其對數據集的引用納入到參考文獻中[3]。此外,Hailey M和Mark P從人文科學、社會科學和自然科學三個類別中選取了44種期刊進行有關數據引用聲明及格式要求的調查,發現約有一半的期刊給出了數據引用指南,但經過對其中65篇論文進行內容分析后,發現大部分論文在數據引用方面有較大的缺陷[4]。國內的相關研究目前還尚為少見,墨愚曾選取《新華文摘》2001至2003年間的60篇有數據引用行為的經濟類論文進行了統計,發現在這些論文所涉及的所有281個(組)數據中,78.15%的數據沒有任何實質性出處說明,從而說明數據引用的問題較為嚴重,有學術失范之虞[5]。需指出的是墨愚的調查以數據(組)為單位,而非以論文為單位,且研究關注點主要在于數據引用方面的學術規范、編輯責任和出版物質量。
從已有研究成果可以看出,目前的關注點主要在于數據引用是否規范。然而對數據引用行為的研究,其意義絕不僅限于規范問題,還能從中發現學科內數據引用的特征,分析其變化趨勢,從而有助于理清學科發展的脈絡。
全球領先的信息供應商湯森路透推出的數據引用索引(Data Citation Index,DCI)中,生命科學、物理學的數據占大多數,社會科學的數據約占五分之一[6]。而在社會科學中,社會學(含人口學)的數據又是其主要組成部分。這說明數據引用對于社會學研究獨特的重要性,同時也說明在對我國社會科學的數據引用現狀進行分析時,社會學是重要的研究領域。首先,社會學是一個與數據密切相關的學科,對該學科的數據引用行為進行分析研究不但有利于提升學科數據引用的規范性,還可以促進學科研究與發展。另一方面,大數據時代,學術研究的主導范式已經轉向了以數據為主導的研究范式,各學科研究要注重對數據的重視,在這方面,社會學可以為其他學科提供較好的借鑒。國內外目前尚無針對社會學數據引用行為的相關研究。本文擬對我國社會學期刊的數據引用進行分析研究,以達到以下目的:了解社會學期刊論文的數據引用現狀,分析該學科數據引用行為的特征及變化趨勢,對現狀及特征的產生原因進行探討,從而加深對學科的認識;促進該學科數據引用規范的統一和完善,達到解決數據引用規范問題的目的。
2 樣本選擇與數據搜集、處理
本文擬選取《社會學研究》和《中國人口科學》兩種期刊2003~2014年共12年間每年第1期刊載的論文為樣本,研究該學科期刊論文的數據引用情況,共計期刊24冊,論文256篇。
通過期刊網站的《稿約》可了解二者的基本情況和定位:《社會學研究》由中國社會科學院社會學研究所主辦,強調以規范的經驗研究為基礎,提煉學術思想,開設的主要欄目有:專題研究、理論·方法·方法論、學術論文、學術爭鳴、學者對談、社會學筆談、研究新秀、學術信息等[7];《中國人口科學》則是由中國社會科學院人口與勞動經濟研究所主辦,著重刊登具有較高質量的人口及相關領域的研究論文、綜述、調查報告,內容包括:人口理論與政策研究、人口統計、人口與經濟、人力資本與勞動經濟、社會保障研究、人口與社會、國際人口比較、人口與生態環境、少數民族人口及計劃生育理論與實踐等[8]。《社會學研究》和《中國人口科學》同為國家社科基金首批資助期刊,在我國社會學領域內享有較高聲譽,其品質和地位受到公認,是領域內的頂級期刊,影響因子排名也居于學科前列。根據這兩種期刊欄目設置上的差異,并結合本研究在數據搜集過程中的體驗,可發現兩種期刊在研究方法上有較為明顯的定性和定量之別,《社會學研究》注重案例研究和理論探討,《中國人口科學》則傾向于采用統計學方法及工具進行數據比較和數據分析,兩者在研究對象、研究方法和風格定位上形成了各自明顯的研究特征,又同時達到國內同領域的最高水平,因此以此兩種期刊作為統計對象,可有效考察社會學領域的數據引用行為。
由于數據引用還沒有規范的格式及可靠的自動識別方法,本研究主要采用人工識別的方式搜集數據并進行歸類整理。這種方式雖然耗費時間、精力,但深入文獻內容,不但能保證數據的準確、可靠,而且能加深對本領域研究內容的了解,豐富感性認識,保證對數據結果分析的有效進行。以往文獻計量學論文通常在數據庫中大量下載數據,然后通過數據庫提供的分析工具或者自己根據需要進行編程以“瞬間”獲得結果,雖然充分利用了技術的方便快捷,卻缺乏對內容的感性認識,對分析結果的說明也容易流于數字枚舉,并在闡釋結果時可能與事實相距甚遠。
另一方面,規避人工處理的主觀性負面影響,保證結果的可靠性,建立明確、細致的數據處理規范也十分重要。類似于文獻引用,數據引用也包括作者、數據標題、出版機構、出版時間、訪問地址等數據,根據這些數據的完整程度,本文將引用行為劃分為三種:規范引用、部分引用和無引用。在判斷引用行為是否屬于規范引用時,將能否根據標注直接而明確地找到原始數據作為指導原則;對于那些標注不完整、未給出精確來源的引用行為,將其歸入部分引用;無引用則是出現引用數據但未給出任何來源信息的引用行為。
需注意的是,對于那些只在參考文獻中列出數據來源,但文中未加標注的引用行為,由于無法建立所引數據與參考文獻之間的關聯,故而歸為無引用。此外,若一個表格或其它形式的數據集,其引用來源不只一處,則使用著者標注的數據來源數量作為該數據集的引用次數,并根據每個來源的元數據標注情況確定引用行為類別。另外,在一些以數據分析為主體的論文中,作者往往會在論文開頭交代使用數據來源,但在實證分析時不再一一標注。對于這種情況,我們以作者注明的數據來源作為數據引用行為。
數據引用的識別并非數字識別那么簡單,為減少標引員的判斷偏差,本研究在正式標引前先進行試查,反復討論,補充細節,完善標準,對標引員進行培訓,以保證分析結果的可靠性和客觀性。在處理過程中,對各種情況進行仔細判別,例如:
(1)區分數據引用與事實陳述。在進行事實陳述尤其是背景介紹時,往往會出現數字,如提到年份,此時雖然有數字出現,但是并非數據引用的范疇。而有時數據引用與事實陳述的界限會比較模糊,可以以數據是否為表達的中心和主體作為依據。
(2)區分數據引用與數據提供。一些學者進行某些案例分析或者受某機構所托進行針對該機構的某方面調研時,會在論文中使用一些數據,但這些數據不是為了印證作者的觀點而被引用的數據,此時,學者是數據的擁有者,即提供方,因此,此狀況下的數據也不屬于數據引用范疇。
(3)區分論文與非論文。由于學科性質的影響,有時期刊會特別邀請相關部門的領導針對某項新政進行政策解析,此類文章盡管信息量很大,數據繁多,但缺乏摘要、關鍵詞等基本要素,也不具備研究特性,因此不屬于本文的統計行列。
3 數據分析
3.1 總體數據與分析
經數據處理并匯總,得到本研究中社會學領域數據引用的基本情況(見表1)。
可以看出,本文選用的兩種期刊12年間第一期共刊登論文256篇,總數據個數達到1561之多,平均每篇文章數據引用超過6次,說明社會學研究對數據的依賴程度較高,也證明對該領域的數據引用行為研究具有重要意義。總體來看,規范引用比率平均達到55.80%,也即超過一半的數據引用行為較為規范,但是不規范的數據引用行為仍然大量存在,這也說明了規范其數據引用行為的重要性。在非規范引用中,部分引用比率為24.28%,高于無引用比率的19.92,假如將規范引用和部分引用相加,則已超過80%。這也說明大部分學者已經意識到了在進行數據引用時應對來源加以說明,但由于對數據引用規范性認識的不足,加上當前數據引用統一標準的缺失,導致著錄要素不齊全,標引來源較為隨意,無法通過作者的著錄追溯到原始數據。
從社會學領域引用趨勢(見圖1)可以看出,在引用行為中規范引用比率2004年達到最高,為75.74%,而在2014年最低,只有34.15%。2014年的低規范引用率主要是由于當年的部分引用率較高,事實上,當年的無引用率很低,只有4.88%,說明當年期刊都注意到了數據標引的必要性,但是由于大量數據標引不完全,造成部分引用率過高,超過了60%,直接影響到了當年的規范引用比率。
3.2 期刊比較分析
經數據處理并匯總,綜合觀察《社會學研究》和《中國人口科學》這兩種期刊的數據引用情況(見表2,表3),發現:兩種期刊12年來的每年第1期的發文量非常接近,為9~12篇,統計出來的總量也相等,均為128篇,這也增強了兩種期刊的可比性。
在篇均數據個數上,《中國人口科學》為8.39,明顯高于《社會學研究》的3.80,這主要是由于《中國人口科學》具有明顯的統計學特征和計量風格,很多論文建立在大量的數據引用基礎上,可以說根據他人數據或機構數據處理、推導出自己的結論成為論文的重要構成部分。而《社會學研究》樣本中每一期都有一部分屬于沒有數據的論文,這部分論文主要進行純粹理論研究或討論,同時,每一期中都有1~3篇數據出現個數非常多的論文,而且在這部分論文中存在一種引用行為的傾向性,即或者全部都是規范引用行為,或者全部都是無引用行為。這一點可以從統計數據看出來,這些論文的引用行為會導致同期全部論文引用行為平均數值表現出相應的傾向性,其他論文對平均數值中的影響被弱化。即便有部分論文沒有數據引用行為,《社會學研究》的篇均數據個數也超過了3,以理論研究和案例分析為特征的《社會學研究》無疑具備了相當史料色彩,因此對數據的需求也不可小視。綜合來看,對數據的重視使得社會學和人文社會科學中的其他學科相比,顯得更加理性和科學。
《社會學研究》的規范引用比率除了2011和2013年外,均超過50%,基本上一直高于非規范引用(包括部分引用和和無引用)比率。《中國人口科學》規范引用比率則變動較大,2014年只有7.55%,這主要是由于當年個別論文的表格在數據標引時過于籠統,導致當年部分引用比率過高達到88.68%造成的。總體而言,《社會學研究》規范引用的平均比率為70.64%,遠高于《中國人口科學》的49.07%,說明前者的數據引用規范程度明顯更高。
3.3 論文比較分析
從社會學領域論文數據引用的頻次分布(見表4)可以看出,在所有被統計的論文中,沒有數據引用的論文、數據引用1~5次的論文和數據引用6次以上的論文大概各占三分之一左右,這也說明了該學科數據引用行為的普遍性,同時,有將近18%的論文引用數據超過10次,說明數據在其論文中起了至關重要的作用。
社會學領域總引用數據個數超過20的論文共計24篇(見表5),其中17篇來源于《中國人口科學》,這個結果和之前對兩種期刊的特征分析以及《中國人口科學》的篇均數據個數較高相吻合。
4 討論
社會學論文在數據引用方面除了數據引用量大、數據引用規范度不高之外,也表現出其他一些特征。例如在數據來源方面,社會學論文需求的數據往往是宏觀數據,體系龐大,內容完整,屬于個人或團體難以獨立搜集獲取的數據,因此更多引用已有數據。其中最常見的有兩種:人口調查資料,如各年全國人口普查資料、全國1%人口抽樣調查資料等;各種年鑒,如《中國統計年鑒》、《中國人口年鑒》和《中國科技統計年鑒》等。這些提供大量統計數據的正式出版物權威、系統、完整、豐富。因此,大量引用這些正式出版的數據是社會學論文的一大特點。
本研究在數據統計中也發現,對已發表的論文中數據的引用,其引用行為通常較為規范,但對上述調查資料、年鑒以及政策的標引,存在著較多的不規范行為,尤其是對表格中數據進行標引時,不規范的行為更是大量存在。如統計年鑒的引用沒有標明頁數、國家政策沒有注明發布機構和時間、直接引用國家的統計數據或地區的背景數據但沒有注明任何出處,等等。
判斷數據標引是否規范可以用以下兩點為參考:一是該數據是否有根據標引內容便可追溯查找到的可能,以達到規避學術不端或者使后來者重現研究過程的目的;二是該引用行為是否具有可進一步標引的可能。盡管目前尚無統一的數據引用格式或規范,但相關機構和組織也已經在諸如數據引用的必備要素等重要問題上達成了一定的共識。湯森路透建議采取以下數據引用格式:作者 (出版年份): 數據標題. 出版機構. 訪問地址。如:國務院人口普查辦公室、國家統計局人口和就業統計司 (2012): 中國2010年人口普查資料. 中國統計出版社。對于已被收錄進數據倉儲的數據集,還可以加上其網絡訪問地址或數字對象標識符(Digital Object Identifier,DOI)。
5 結語
社會學領域數據引用行為較為常見,特別是人口學方面的研究數據特征表現更為明顯。對數據的重視使得社會學領域的研究兼具定性和定量特征,從而凸顯其科學性。但由于當前數據引用統一標準的缺失,以及研究人員對數據引用規范性認識的不足,導致不規范的引用行為仍大量存在。各種年鑒及人口調查資料是社會學研究的主要數據來源,但其中的不規范引用也相對較多,而對已發表的論文中數據的引用,其引用行為通常較為規范。在本研究選取的《社會學研究》和《中國人口科學》樣本中,《社會學研究》中的論文數據引用規范程度相對更高。同時,對社會學領域期刊論文數據引用行為的分析研究可以為其他學科提供借鑒作用,以在大數據時代提升數據共享、交流及利用的能力,加快科學發現與創新的步伐。
參考文獻:
[1]Thomson Reuters. Collaborative Science: Solving the Issues of Discovery, Attribution and Measurement in Data Sharing[EB/OL].[2014-08-15].http://thomsonreute
rs.com/products/ip-science/04_037/collaborative-science
-essay.pdf.
[2]White H. Citation analysis of data files use[J]. Library
Trends, 1982, 31(3): 467-477.
[3]Valerie E., Sarah W., Nicholas M, et al. Data citation in the wild[EB/OL].[2014-08-10].http://precedings.nature.
com/documents/5452/version/1.
[4]Hailey M., Mark P. The anatomy of a data citation: Discovery, reuse, and credit[J/OL]. [2014-08-10]. http://jlsc-pub.org/jlsc/vol1/iss1/6/.
[5]墨愚. 數據引用的學術規范[J]. 編輯學刊, 2004, (3): 68-69.
[6]丁楠,潘有能. 數據引用索引工作機理與應用現狀綜析[J]. 情報理論與實踐, 2014, 37(6):59-62.
[7]《社會學研究》編輯部.《社會學研究》簡介[EB/OL]. [2014-08-15].http://qk.cass.cn/shxyj/qkjs/200903/t2009
0320_6725.htm
[8]《中國人口科學》編輯部.投稿要求[EB/OL].[2014-08-15]. http://www.zgrkkx.com/channel/tgyq.
作者簡介:丁楠,女,浙江大學圖書館館員;楊柳,女,浙江大學公共管理學院信息資源管理系本科生;丁瑩,女,浙江大學公共管理學院信息資源管理系本科生;凌晨,男,本科生;潘有能,男,浙江大學公共管理學院信息資源管理系副教授。