張若晗
(黑龍江大學 信息管理學院,黑龍江 哈爾濱 150080)
科學數據的共享和重用近年來開始蓬勃發展,政府機關、學術機構與期刊出版商紛紛鼓勵科研人員共享科學數據,但是數據共享的操作流程繁復,會耗費數據共享者的時間和精力,數據的引用標準尚未規范,數據重用者在利用二手數據進行科學研究中也遇到一些障礙。本研究探討管理學領域科研人員的數據重用現狀,為促進科學數據的發布和再利用提供建議,支持科學數據的長足發展。
為了保證樣本論文的質量,根據CNKI數據庫學科期刊導航提供的期刊影響因子數據,本研究選取國內管理學領域影響因子排名較高的4種期刊,分別為《管理世界》《公共管理學報》《管理科學》《管理學報》,這些期刊在管理學領域具有較大的影響力,對稿件的數據使用規范性要求較高,有利于提高本文統計分析結果的可信性。為了更好地體現管理學實證研究中數據重用的現狀,選擇2010年~2019年刊載的期刊論文,通過中國知網檢索主題為“數據”的文獻,共檢索到論文492篇,去除其中編輯寄語、會議報道、簡訊等文獻后,最終共獲取467篇樣本。具體樣本的分布,如圖1所示。

圖1 樣本期刊論文分布情況
為了便于樣本統計,通過內容分析法對上述467篇文獻的科學數據重用行為進行識別與標注。由于數據引用尚未有可靠的機器標識方法,主要通過人工識別的方式。筆者對文章中有關數據來源的說明性文字等也進行了標注,一般常見的表達方式是“數據說明”或“數據來源”“變量與數據”等。借助Excel對收集的數據進行批量分析與處理,具體統計的內容包括5個方面,分別是:①數據是否重用,包括樣本數據重用的比例;②數據來源類型;③數據評估判據;④數據獲取障礙;⑤數據處理方式。
對上述5個方面的內容進行識別,其中論文內未涉及的部分識別為空值,并在此基礎上計算了每一篇有數據重用的文獻的重用規范程度,具體詳見表1。

表1 統計內容具體細分及示例
此類目根據數據重用的定義確定,指的是論文的主體部分是否應用二手數據對新的研究問題進行研究,有重用取值1,無重用取值0。
統計不同數據來源類型出現的次數,由于同一篇文章會存在各種類型數據同時使用的情況,每一種類型都進行統計,但同一篇文章內同類型數據只統計一次。此類目用來反映數據重用者的數據來源類型使用偏好。
數據評估判據指的是數據重用者對數據評估時有哪些判斷依據,本研究將數據質量的評估判據歸納為:完整性、可獲得性、適用性、準確性。
數據獲取障礙反映科研人員在搜集各類數據時存在的障礙,具體細分為:可獲得性受到限制、數據缺失、定義模糊、數據異常。
數據處理方式體現科研人員根據具體情況對缺陷數據處理方式的差異。本研究具體分為剔除、匹配合并、調整、補充4個方面。
2010年~2019年管理學領域4本期刊的數據重用論文數317篇,占總論文數的67.9%,說明管理學科研人員的數據重用占實證研究的比重較大,數據重用現象較為普遍。具體統計結果如表2,僅有8篇文章未明確表明數據來源類型,說明大部分數據重用文章會標明數據來源;有165篇文章未標明評估數據時有哪些判斷依據占比較高;有141篇沒有標明數據獲取遇到的障礙以及147篇文章沒有提及對于二手數據的處理方式。可見,在重用數據時,數據來源是管理學科研人員在文章中幾乎都會交代的要素,對于如何評估數據、獲取數據的障礙以及如何處理數據等問題關注較少。

表2 具體統計結果
管理學科研人員使用的數據主要來源于政府數據(37%)、數據庫數據(26%)和網絡數據(14%),其中政府數據比重最大,大多來自統計年鑒,主要由國家統計局進行收集,規范性強。其次,占比較大的是數據庫數據,通過調研可知,管理學科研人員使用微觀數據庫作為數據來源的情況較為普遍。政府數據和數據庫數據統計結果較為可靠,并且統計數量較大,特別是微觀數據庫代表性高、針對性強,對數據的收集和存儲更加細化,受到科研人員的青睞。公共服務部門、政府機關在一定情況下會公開發布調查研究所得的相關數據,大數據環境下互聯網平臺為各個來源的科學數據傳播提供了新渠道,提高了科學數據的多渠道獲取。網絡數據主要由于獲取較為便利,科研人員可以通過網絡爬蟲有針對性地搜集數據。科研項目與論文數據(6%)主要是為特定的研究目的進行的數據收集,有特定的情境,適用性有限。檔案館的開放程度較低,其科學數據的易獲取性較弱,并且檔案數據有些屬于非公開文件,一般作為補充數據,單獨使用情況較少。詳細數據來源類型分布,如圖2所示。

圖2 數據來源類型
從調研數據看,管理學科研人員者評估數據主要關注數據的適用性(37%),原始數據一般是由數據生產者在研究過程中收集的,數據重用者在使用數據時會考慮數據是否適用于自己的研究內容,而且一般會選取具有代表性的數據,所以關注度較高。數據的完整性、數據覆蓋是否全面對于研究者也十分重要。另外,科研人員會傾向于使用數量多、時間跨度大、地域跨度大的數據,數據的準確性也是科研人員在評估數據時的標準,使用的數據準確與否對研究結果有直接影響。數據可得性也在評估時有提及,盡管占比(15%)比較低,但這也是數據重用的前提。
數據獲取最大的障礙因素是數據缺失(43%)。數據缺失一般由于一些原因產生空缺,對研究者獲取數據產生了一定程度的限制。數據由于誤差因素導致的數據異常也成為研究者獲取數據的另一大限制 (29%)。數據的可獲得性既作為數據評估的一個標準,也是數據獲取的障礙。另外,原始數據中對于數據定義模糊,導致重用者不能準確理解數據,也造成一定的障礙,但是占比較小(11%)。

圖3 數據評估判據

圖4 數據獲取障礙
通過調研分析,剔除成為管理學科研人員處理數據的主要解決方式。因為在數據處理中,對于缺失或者不可獲得的數據來說,剔除最為簡便,并且一般研究使用的數據量較大,剔除少數變量對研究結果影響不大。對于數據異常的情況,剔除相對容易。但是,每個研究的內容不同,數據處理方式也有差別,例如:將數據整理后匹配合并,或者用其他數據源進行補充、調整。

圖5 數據處理方式
研究結果顯示,重用論文有317篇,占總論文數的67.9%,重用情況較為普遍說明管理學科學研究對數據的依賴程度較高。本研究主要從數據是否重用、數據來源類型、數據評估判據、數據獲取障礙、數據處理方式5個方面具體分析管理學科研人員的數據重用特征。
在數據來源方面,本研究的結果與沈婷婷(2016)對社會學研究者二手數據利用行為分析的結果一致,幾乎全部的作者都對數據來源進行明確標注。管理學科研人員較常使用來自大型數據庫與政府部門的資料,Zhang(2011)之處使用過SDSS數據庫(天文領域)的200篇論文中,其中有51.9%是來自公開的數據庫,這樣的研究結果與本研究的調研結果大致相符。
在數據評估評估方面,管理學科研人員在重用數據時,會受數據的完整性、可獲得性、適用性、準確性等因素影響。例如,在完整性方面,會考慮調查問卷題項的豐富程度,或者數據的缺失情況是否影響研究內容;在可獲得性方面,作者在選擇具備相同條件數據時,會優先考慮方便取得或免費獲得的數據;在適用性方面,會觀察收集數據的方法是否符合自己的研究,題項的設計、問題是否吻合;在準確性方面,作者會觀察資料內容與題項設計是否吻合,或者通過統計方式檢測數據的信效度。此外,對于部分科研人員來說,數據的時間跨度和時效性也是非常重要的。
在數據處理方面,與Rolland和Lee(2013)的研究結果類似,本研究的管理學科研人員同樣會對數據進行清理,多數采用剔除缺失數據和異常的數據變為可用的狀態,在缺失數據時,會視情況匹配整合,或者用替代數據進行補充。
但從調研情況來看,仍存在一些不規范之處,在數據使用方面還有較大提升空間。調查發現,大多數作者在引用數據庫數據與圖表數據時,僅對數據來源在文中做描述性標注或者列出部分引用元素,這種數據重用行為使讀者難以通過查閱數據引文來定位原始數據,阻礙了數據的傳播與再利用。