預(yù)印本是開(kāi)放存取的主要實(shí)現(xiàn)方式之一。20世紀(jì)年代以來(lái),信息技術(shù)不斷普及、學(xué)術(shù)界競(jìng)爭(zhēng)日益激烈,研究者希望論文盡快公開(kāi),保護(hù)發(fā)現(xiàn)優(yōu)先權(quán)、商業(yè)學(xué)術(shù)出版機(jī)構(gòu)定價(jià)過(guò)高等多種因素推動(dòng)預(yù)印本快速發(fā)展[1]。目前預(yù)印本在學(xué)術(shù)出版中的論文儲(chǔ)存與優(yōu)先權(quán)確認(rèn)功能已經(jīng)得到充分證明,近年來(lái)預(yù)印本領(lǐng)域關(guān)注焦點(diǎn)是引入同行評(píng)議[2]。全球最大的多學(xué)科預(yù)印本數(shù)據(jù)庫(kù)arXiv在2017年接受了 Heising-Simons Foundation約32萬(wàn)美元的資助,啟動(dòng)了“Next Generation arXiv or arXiv-NG”計(jì)劃,其中一個(gè)備受關(guān)注的議題即為是否啟動(dòng)同行評(píng)議。
“預(yù)印本+同行評(píng)議”模式在多方面優(yōu)越于“期刊+同行評(píng)議”模式,主要體現(xiàn)在“預(yù)印本+同行評(píng)議”模式是“以文評(píng)文”,而不是通過(guò)期刊影響因子“以刊評(píng)文”,從而消除了論文評(píng)價(jià)中的影響因子搭便車現(xiàn)象[3],徹底解決了論文刊發(fā)滯后問(wèn)題(由于期刊版面有限,很多論文被錄用后需要等待數(shù)月甚至半年才能刊發(fā),如《中文社會(huì)科學(xué)引文索引》(Chinese Social Science Citation Index,CSSCI)收錄的期刊《統(tǒng)計(jì)與決策》的官網(wǎng)顯示,其2017年5月錄用的稿件要等到2018年10月才能刊發(fā)。而預(yù)印本同行評(píng)議一結(jié)束,即可正式發(fā)布稿件,不用等待版面),消除了一篇稿件被多本期刊輪流審稿現(xiàn)象(一篇投稿往往不會(huì)一投即中,而是先后投多家期刊后,才被錄用,而一本期刊審稿周期往往為1~2月甚至更長(zhǎng),這就導(dǎo)致稿件最終發(fā)表的滯后期較長(zhǎng),而預(yù)印本同行評(píng)議結(jié)束時(shí),論文即可正式發(fā)表,稿件不用被反復(fù)輪流審稿)。
在CNKI期刊論文、學(xué)位論文數(shù)據(jù)庫(kù)中使用“預(yù)印本+同行評(píng)議”進(jìn)行摘要檢索,得到的檢索結(jié)果只有5條,其中只有1篇最相關(guān)文獻(xiàn)[4]。英文文獻(xiàn)方面,在WoS數(shù)據(jù)庫(kù)中使用“pre-print+ peer review”為檢索詞,進(jìn)行主題檢索,得到57條結(jié)果,大部分為討論預(yù)印本構(gòu)建同行評(píng)議的必要性、可能性以及建議預(yù)印本采用社區(qū)同行評(píng)議模式。
關(guān)于預(yù)印本采用何種同行評(píng)議模式,目前最有代表性的觀點(diǎn)是社區(qū)同行評(píng)議(Community Review或Reader Review)。社區(qū)評(píng)議的要點(diǎn)是作者向預(yù)印本數(shù)據(jù)庫(kù)提交論文后,讀者(主要是屬于同一學(xué)科領(lǐng)域的注冊(cè)研究者或者論文作者)自由評(píng)議,預(yù)印本后臺(tái)程序根據(jù)某個(gè)規(guī)則將眾多讀者給出的評(píng)議信息整合為一個(gè)最終的評(píng)議結(jié)果[5]。社區(qū)評(píng)議的主要缺點(diǎn)是評(píng)議參與度高度分化,一部分論文可能很長(zhǎng)一段時(shí)間內(nèi)都無(wú)人問(wèn)津,如果評(píng)議結(jié)果被主流學(xué)術(shù)界接受后,用于職稱晉升、經(jīng)費(fèi)申請(qǐng)等現(xiàn)實(shí)利益場(chǎng)合,則可能出現(xiàn)大面積作弊行為,且不易控制。因此,社區(qū)評(píng)議不宜作為預(yù)印本的主要同行評(píng)議模式,只可以作為輔助、補(bǔ)充[6]。
文獻(xiàn)[5]提出了預(yù)印本的自組織同行評(píng)議新模式,其基本思路是同一個(gè)領(lǐng)域的預(yù)印本注冊(cè)者之間按照一套規(guī)則進(jìn)行匹配后,互相評(píng)議彼此的論文。“論文-評(píng)議人匹配規(guī)則”對(duì)自組織同行評(píng)議的性能表現(xiàn)有決定性影響。由于同行評(píng)議實(shí)驗(yàn)成本較高,故先以仿真方法開(kāi)展研究為宜[7]。文獻(xiàn)[8]提出了4個(gè)“論文與評(píng)議人匹配規(guī)則”,仿真結(jié)果為規(guī)則4最佳。由于篇幅限制,本文暫不列出規(guī)則4的具體內(nèi)容,讀者可自行下載文獻(xiàn)[8]細(xì)讀。
規(guī)則4的規(guī)則設(shè)計(jì)及仿真主要有3個(gè)不足:一是沒(méi)有考慮到一名評(píng)議人評(píng)議完一篇論文后,應(yīng)有適當(dāng)休息期,不能評(píng)完一篇馬上又評(píng)第二篇;二是洛特卡定律的參數(shù)設(shè)定組合中,漏掉了約束條件“不同篇數(shù)論文作者所占百分比之和為1”,導(dǎo)致仿真中引入了很多不存在的參數(shù)組合;三是直接給定不同水平評(píng)議人對(duì)不同等級(jí)論文的評(píng)議正確率,主觀性較大。
針對(duì)上述3點(diǎn)不足,本文提出了改進(jìn)后的規(guī)則5。規(guī)則5對(duì)規(guī)則4的具體改進(jìn)包括引入了評(píng)議人休息期、考慮了約束條件“不同篇數(shù)論文百分比之和為1”,排除了不滿足該條件的不合理參數(shù)組合、通過(guò)控制評(píng)議人與被議論文間等級(jí)差確保評(píng)議質(zhì)量,而不是直接給定不同水平評(píng)議人對(duì)不同等級(jí)論文的評(píng)議正確率。
本文主要提出了“論文-評(píng)議人”匹配規(guī)則的操作步驟,說(shuō)明了仿真變量、仿真變量的取值范圍與取值依據(jù),給出了論文與評(píng)議人匹配規(guī)則、評(píng)議速度與評(píng)議效度的性能評(píng)價(jià)指標(biāo),討論分析了仿真結(jié)果,總結(jié)了貢獻(xiàn),指出了需要進(jìn)一步研究的問(wèn)題。
規(guī)則5的要點(diǎn)主要包括:評(píng)議人資格等級(jí)比被評(píng)論文等級(jí)最多低1個(gè)等級(jí);有多個(gè)滿足條件的評(píng)議人組合,優(yōu)先匹配評(píng)議任務(wù)次數(shù)與已完成評(píng)議任務(wù)次數(shù)差最大者;如果還有多個(gè)組合,選擇休息期累積時(shí)間最長(zhǎng)的組合或隨機(jī)選一個(gè);如果沒(méi)有滿足條件的組合,等待下一輪匹配。
所謂“評(píng)議任務(wù)次數(shù)與已完成評(píng)議任務(wù)次數(shù)差最大”的含義是:假設(shè)一篇文章安排3個(gè)人評(píng)議,有兩個(gè)評(píng)議人組合,分別是甲乙丙3人、 ABC3人。其中,甲提交系統(tǒng)5篇、乙提交3篇、 丙提交2篇,那么甲乙丙需要完成的評(píng)議任務(wù)即各自提交論文數(shù)量乘以3,因?yàn)槊科撐亩夹枰?個(gè)人評(píng)議,分別是15、9、6次評(píng)議任務(wù)。假設(shè)甲、乙、丙分別評(píng)議了1篇,則甲乙丙組合還需要評(píng)議14+8+5即27次。類似地,ABC分別提交1、2、3篇論文,評(píng)議任務(wù)次數(shù)分別為3、6、9次,3人分別評(píng)議了1篇,則ABC還需要評(píng)議2+5+8即15篇。由于甲乙丙組合評(píng)議差27大于ABC的評(píng)議任務(wù)差15,故優(yōu)先向甲乙丙組合分配等待評(píng)議的論文。
“評(píng)議人的評(píng)議等級(jí)比被評(píng)議論文等級(jí)最多低1個(gè)等級(jí)”意味著論文由和論文等級(jí)基本相當(dāng)或更高等級(jí)的評(píng)議人進(jìn)行評(píng)議,故能以較大概率確保評(píng)議質(zhì)量。評(píng)議質(zhì)量很難直接測(cè)度,間接測(cè)度更可行。該指標(biāo)值低于70%意味著3個(gè)評(píng)議人中有兩個(gè)評(píng)議人的資格等級(jí)比被評(píng)議論文低了兩個(gè)等級(jí),評(píng)議質(zhì)量低的概率會(huì)很高。
“論文-評(píng)議人”匹配規(guī)則的性能評(píng)價(jià)指標(biāo)包括論文評(píng)議完成比例、單篇論文評(píng)議速度兩個(gè)方面。評(píng)議完成比例是指一個(gè)仿真周期(365天)內(nèi)各等級(jí)論文完成評(píng)議的比例,評(píng)議速度是指一個(gè)仿真周期(365天)內(nèi)各等級(jí)論文的單篇論文評(píng)議時(shí)間的均值,每一篇論文以評(píng)議人中最晚完成時(shí)間計(jì)算。
評(píng)議質(zhì)量的保證通過(guò)直接要求評(píng)議人資格等級(jí)滿足一定條件實(shí)現(xiàn),不必額外討論。
規(guī)則5的性能評(píng)價(jià)仿真變量以及各變量取值見(jiàn)表1,各變量取值的依據(jù)主要來(lái)自科學(xué)計(jì)量學(xué)的相關(guān)理論與規(guī)律以及部分客觀數(shù)據(jù)。

表1 規(guī)則5的性能仿真變量與取值
論文總數(shù)量在論文作者中的分布情況按照廣義洛特卡分布進(jìn)行分配。1926年美國(guó)學(xué)者洛特卡提出“撰寫x篇論文作者大約是寫1篇論文科學(xué)家人數(shù)的1/x2”,后被推廣為廣義洛特卡規(guī)律,表達(dá)式為 F(x)=C/xn,F(xiàn)(x)是撰寫 x 篇論文的作者占全部作者的百分比。考慮到不同學(xué)科研究人數(shù)差異、不同學(xué)科研究周期與論文產(chǎn)出數(shù)量差異以及學(xué)術(shù)傳播途徑差異等因素,n取值一般在1.2到3.8之間波動(dòng)。
如果低質(zhì)量論文數(shù)量較大,則洛特卡定律有效性下降。洛特卡提出該定律的時(shí)代,研究者數(shù)量很少、論文發(fā)表數(shù)量也少,與今天有很大不同。文獻(xiàn)[14]對(duì)科學(xué)網(wǎng)博客發(fā)表的網(wǎng)絡(luò)學(xué)術(shù)信息作者分布規(guī)律進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn),博文與作者分布不服從洛特卡定律,因?yàn)椴┪陌l(fā)表要求比正規(guī)論文低很多,但有基本質(zhì)量要求的成果均與洛特卡定律吻合,如專利與作者關(guān)系,顯然專利有基本質(zhì)量要求[15]。文獻(xiàn)[16]對(duì) Emerald 數(shù)據(jù)庫(kù)進(jìn)行了研究,發(fā)現(xiàn)“論文-作者”分布同樣符合洛特卡定律。
使用Python 3.4語(yǔ)言編程,程序在Windows環(huán)境中運(yùn)行。本文沒(méi)有推斷統(tǒng)計(jì)進(jìn)行數(shù)據(jù)分析,原因是仿真結(jié)果特征非常明顯,描述統(tǒng)計(jì)分析已經(jīng)足夠。今后研究可以采用推斷統(tǒng)計(jì)方法進(jìn)行更細(xì)致的分析。程序運(yùn)行100次,得到結(jié)果的均值,由于篇幅原因,沒(méi)有列出全部結(jié)果。整理后的仿真結(jié)果見(jiàn)表2。

表2 規(guī)則5的性能仿真結(jié)果
仿真主要結(jié)果如下。
一年內(nèi)評(píng)議完成比例方面,規(guī)則4中的1~5等級(jí)論文差異較大,4、5等級(jí)論文完成率均為95%,1、2、3等級(jí)論文的完成率均小于82%;規(guī)則5各等級(jí)論文的等級(jí)完成率則比較均衡,平均為92%。
評(píng)議速度方面,規(guī)則4的高等級(jí)論文評(píng)議速度比規(guī)則5快2周,規(guī)則5的低等級(jí)論文評(píng)議速度比規(guī)則4快1周,規(guī)則5的各等級(jí)論文評(píng)議速度均穩(wěn)定在7周左右。
評(píng)議質(zhì)量方面,規(guī)則4與規(guī)則5定義不同,但都要求評(píng)議人組合滿足設(shè)定條件,故評(píng)議質(zhì)量在各自定義下保持較高水平。
總的來(lái)說(shuō),規(guī)則5仿真性能表現(xiàn)比規(guī)則4更加均衡、穩(wěn)定。需要說(shuō)明的是,規(guī)則5的高等級(jí)論文評(píng)議速度慢于規(guī)則4的原因是規(guī)則4沒(méi)有考慮評(píng)議人的休息期因素。另外,根據(jù)前面的假設(shè),評(píng)議速度在46~90天之間的評(píng)議人占全部評(píng)議人的27%,幾乎占三分之一,完全可以采取措施加快速度,將評(píng)議速度減少到30~45天。因此,本文建議,某一次沒(méi)有按時(shí)完成評(píng)議的作者,其作為第一作者或者通訊作者提交預(yù)印本要求評(píng)議的論文、參與署名的論文在1個(gè)月內(nèi)暫時(shí)不予評(píng)議,這樣將會(huì)激勵(lì)大部分作者按時(shí)完成評(píng)議。
從出版速度看,出版速度=評(píng)議速度+版面等待時(shí)間。規(guī)則5的評(píng)議速度平均為57天,預(yù)印本版面等待時(shí)間為0。國(guó)內(nèi)學(xué)術(shù)期刊評(píng)議速度一般為2個(gè)月(60天),稿件錄用后2個(gè)月內(nèi)刊發(fā)的期刊尤其核心期刊是罕見(jiàn)的,高影響因子期刊甚至可能錄用半年后才有版面刊發(fā)。因此,“預(yù)印本+自組織同行評(píng)議”模式的出版速度比“期刊+同行評(píng)議”模式快。
文獻(xiàn)[5]首次提出了“預(yù)印本+自組織同行評(píng)議”模式,文獻(xiàn)[8]提出了自組織同行評(píng)議中的4個(gè)“論文-評(píng)議人”匹配規(guī)則并進(jìn)行了性能仿真。本文對(duì)文獻(xiàn)[8]提出的規(guī)則4進(jìn)行了3點(diǎn)改進(jìn),改進(jìn)后的規(guī)則5考慮了評(píng)議人休息期等更加符合實(shí)際情況的內(nèi)容,仿真結(jié)果表明規(guī)則5性能表現(xiàn)比規(guī)則4更加穩(wěn)定、均衡,可用于預(yù)印本構(gòu)建同行評(píng)議。
(致謝:Python仿真程序由桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院黃琦編寫。)
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2018年5期