999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

SSCI文獻(xiàn)引文數(shù)據(jù)的預(yù)處理

2020-02-24 16:31:18嚴(yán)建新
科學(xué)與管理 2020年1期

嚴(yán)建新

摘要:在SSCI的文獻(xiàn)數(shù)據(jù)中,同一專著或文集類在被引用時(shí)題名、版本年份及作者名拼寫存在著不一致的情況,為了使其具有一致性,本文提出了對(duì)引文數(shù)據(jù)進(jìn)行預(yù)處理的方法。對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行文獻(xiàn)和作者共被引分析,分別獲得重要文獻(xiàn)和作者的列表;對(duì)文獻(xiàn)名和作者名按字母排序,找出同一文獻(xiàn)不同的題名和出版年份以及同一作者名的不同拼寫,利用“搜索”和“替換”功能對(duì)引文數(shù)據(jù)進(jìn)行修改。經(jīng)過對(duì)引文數(shù)據(jù)的預(yù)處理,共被引網(wǎng)絡(luò)中的重要節(jié)點(diǎn)及其被引次數(shù),以及共被引連線明顯增多。對(duì)于著作和文集類被引文獻(xiàn)占較大比例的社會(huì)科學(xué)研究領(lǐng)域,進(jìn)行引文數(shù)據(jù)預(yù)處理有助于獲得更客觀的計(jì)量分析結(jié)果。

關(guān)鍵詞:引文數(shù)據(jù);預(yù)處理;SSCI;共被引分析

中圖分類號(hào):G353.1文獻(xiàn)標(biāo)識(shí)碼: ADOI:10.3969/j.issn.1003-8256.2020.01.006

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

基金項(xiàng)目:廣西高校科研重點(diǎn)項(xiàng)目(ZD2014009)

《科學(xué)引文索引》(Science Citation Index,SCI)是對(duì)自然科學(xué)研究成果進(jìn)行文獻(xiàn)計(jì)量分析常用的數(shù)據(jù)源之一,針對(duì)其數(shù)據(jù)結(jié)構(gòu),已開發(fā)出多種計(jì)量分析工具[1]。1973年,美國(guó)科學(xué)情報(bào)研究所(Institute for Scientific Information)按照SCI的模式又創(chuàng)立了社會(huì)科學(xué)引文索引(Social Science Citation Index,SSCI)。這兩個(gè)數(shù)據(jù)庫(kù)的文獻(xiàn)數(shù)據(jù)結(jié)構(gòu)相同,文獻(xiàn)的引文數(shù)據(jù)的格式也相同。因此,基于SCI文獻(xiàn)數(shù)據(jù)結(jié)構(gòu)開發(fā)的計(jì)量分析工具也同樣可用于分析SSCI的文獻(xiàn)數(shù)據(jù)。然而,筆者發(fā)現(xiàn),社會(huì)科學(xué)的許多學(xué)科領(lǐng)域有其自身的特點(diǎn),專著、文集類文獻(xiàn)在被引文獻(xiàn)中占有較大的比例。這類文獻(xiàn)的題名拼寫和版本年份往往存在不一致的問題。為了獲得更為客觀的分析結(jié)果,有必要在計(jì)量分析前對(duì)這些領(lǐng)域的引文數(shù)據(jù)進(jìn)行預(yù)處理。

2010年,董琳[2]探討了SCI文獻(xiàn)數(shù)據(jù)中機(jī)構(gòu)名和國(guó)名的處理問題,孫源[3],張晉輝和劉清[4]分別提出了針對(duì)SCI文獻(xiàn)數(shù)據(jù)中地址字段的處理方案。但筆者未能檢索到有關(guān)處理著作題名和版本年份的研究文獻(xiàn)。

1期刊文獻(xiàn)在被引文獻(xiàn)中的比例

為了比較被引文獻(xiàn)中期刊文獻(xiàn)所占的比例,筆者在SSCI和SCI數(shù)據(jù)庫(kù)中選擇了若干期刊:

(1)根據(jù)SSCI數(shù)據(jù)庫(kù)對(duì)期刊的分類,在各類別中分別選擇1種有代表性的期刊,共計(jì)57種;

(2)在SSCI數(shù)據(jù)庫(kù)中,以“Marx*”為檢索詞進(jìn)行主題檢索,選擇載文數(shù)量最多的前8種期刊;

(3)除選擇Nature和Science外,在SCI數(shù)據(jù)庫(kù)按數(shù)學(xué)、物理、化學(xué)、天文、生物和地質(zhì)6個(gè)一級(jí)學(xué)科各選擇1種有代表性的期刊,共計(jì)8種。

以表格格式(win)分別下載上述期刊2017年最后一期的論文(article)數(shù)據(jù)。利用Excel軟件分別打開上述數(shù)據(jù)文件,從中各提取20篇論文的引文信息。通過人工粗略甄別,統(tǒng)計(jì)出被引期刊文獻(xiàn)在全部被引文獻(xiàn)中的百分比。

從表1中可以看到,SCI數(shù)據(jù)庫(kù)中6個(gè)一級(jí)學(xué)科的代表性期刊,以及Nature和Science的被引期刊文獻(xiàn)在全部被引文獻(xiàn)中的百分比都相當(dāng)高,有7種期刊在90%以上,最低的Biological Reviews也接近90%。該百分比在這8種期刊中的平均值為92.5%。

SSCI數(shù)據(jù)庫(kù)按研究領(lǐng)域?qū)⑹珍浧诳瘎澐譃?7個(gè)類別,表2為各類別的代表性期刊的被引期刊文獻(xiàn)在全部被引文獻(xiàn)中的百分比。這一比例在不同類別中存在較大的差異,其中百分比較高的是與自然科學(xué)有相同或相近研究范式的學(xué)科領(lǐng)域,如精神病學(xué)(Psychiatry)、心理學(xué)(Psychology)、管理學(xué)等學(xué)科。而歷史學(xué)、社會(huì)學(xué)、文化學(xué)等學(xué)科則因研究范式的不同,這一比例就比較低,其中AmericanHistoricalReview只有28.0%。

表3列出的是2017年刊載馬克思主義研究成果最多的前8種期刊,被引期刊文獻(xiàn)在全部被引文獻(xiàn)中所占的百分比都比較低,最高的Antipode不到50%,而最低的Historical Materialism Research in Critical Marxist Theory僅有20%。這8種期刊的平均數(shù)為34.8%。

2專著和文集類引文帶來(lái)的問題

期刊論文的引文主要為兩大類型,一是期刊類文獻(xiàn),二是專著和文集類文獻(xiàn)。其他類型的被引文獻(xiàn),如新聞報(bào)道、年鑒、報(bào)告等,在全部引文中所占的比例低較。

運(yùn)用計(jì)量學(xué)軟件對(duì)SCI和SSCI的文獻(xiàn)數(shù)據(jù)進(jìn)行作者共被引和文獻(xiàn)共被引分析時(shí),對(duì)于期刊類被引文獻(xiàn)而言,主要涉及被引文獻(xiàn)第一作者名、出版年號(hào)、期刊名、卷號(hào)等信息;對(duì)專著和文集類文獻(xiàn)而言,則主要涉及被引文獻(xiàn)第一作者名、出版年號(hào)、專著或文集題名、卷號(hào)等信息。如今,期刊名已實(shí)現(xiàn)了標(biāo)準(zhǔn)化,但專著和文集的題名則未進(jìn)行標(biāo)準(zhǔn)化。當(dāng)同一部專著或同一本文集中的同一文獻(xiàn)被不同學(xué)者引用時(shí),題名的拼寫就有可能會(huì)出現(xiàn)不一致。如果該專著或文集被再版,或被翻譯成其他語(yǔ)種出版,就會(huì)出現(xiàn)版本年份的不一致。這導(dǎo)致軟件將其判定為不同的文獻(xiàn),在共被引網(wǎng)絡(luò)中同一被引文獻(xiàn)就會(huì)分裂成多個(gè)節(jié)點(diǎn)。一般而言,越是經(jīng)典的專著,節(jié)點(diǎn)分裂的現(xiàn)象越是普遍。因此,對(duì)引文數(shù)據(jù)的預(yù)處理是文獻(xiàn)計(jì)量分析的基礎(chǔ)工作之一,它直接決定分析結(jié)果的客觀性[5]。

以“Marx*”為條件,對(duì)1998—2017年SSCI收錄的論文進(jìn)行主題檢索,獲得4034條文獻(xiàn)數(shù)據(jù)。在運(yùn)用CiteSpace[6]做文獻(xiàn)共被引分析時(shí)發(fā)現(xiàn),馬克思的經(jīng)典著作《政治經(jīng)濟(jì)學(xué)批判大綱》由于題名縮寫和版本年份的不同(表4),這一文獻(xiàn)在共被引網(wǎng)絡(luò)中分裂成許多節(jié)點(diǎn)。類似地,《資本論》《哥達(dá)綱領(lǐng)批判》《共產(chǎn)黨宣言》《德意志意識(shí)形態(tài)》《1844年經(jīng)濟(jì)學(xué)哲學(xué)手稿》,以及葛蘭西的《獄中札記》、亞當(dāng)·斯密的《國(guó)富論》、哈維的《資本的極限》等經(jīng)典著作都存在節(jié)點(diǎn)分裂現(xiàn)象。

在文獻(xiàn)共被引和作者共被引網(wǎng)絡(luò)中的節(jié)點(diǎn)分裂,有可能使分析結(jié)果無(wú)法真實(shí)反映文獻(xiàn)和作者對(duì)特定研究領(lǐng)域所產(chǎn)生的影響和作用。因此,對(duì)于著作和文集類被引文獻(xiàn)占較大比例的研究領(lǐng)域,在計(jì)量分析前有必要對(duì)原始的引文數(shù)據(jù)進(jìn)行預(yù)處理,盡量消除上述的不一致現(xiàn)象。

3引文數(shù)據(jù)的預(yù)處理

引文數(shù)據(jù)的預(yù)處理是將原始數(shù)據(jù)中同一著作或文集的題名、同一作者的姓名縮寫統(tǒng)一起來(lái),并將同一著作或文集的版本年份統(tǒng)一起來(lái)。根據(jù)筆者的經(jīng)驗(yàn),可通過以下步驟完成這一工作:

(1)合并文獻(xiàn)數(shù)據(jù)。SSCI每次可下載500條文獻(xiàn)數(shù)據(jù),如數(shù)據(jù)量超過500條,將會(huì)得到2個(gè)以上的數(shù)據(jù)文件。為了便于預(yù)處理,需要將所有的數(shù)據(jù)文件合并為1個(gè),在合并前應(yīng)先備份全部數(shù)據(jù)文件。

用鼠標(biāo)右擊數(shù)據(jù)文件,在“打開方式”中選擇“寫字板”。每一條文獻(xiàn)數(shù)據(jù)均以“PT”開始,并以“ER”結(jié)束。打開第一個(gè)數(shù)據(jù)文件后再打開第二個(gè)數(shù)據(jù)文件,將第二個(gè)文件中從第一個(gè)“PT”到最后一個(gè)“ER”的部分復(fù)制到第一個(gè)文件末尾的“ER”和“EF”之間。重復(fù)上述過程,直到將所有數(shù)據(jù)文件的內(nèi)容全都復(fù)制到第一個(gè)數(shù)據(jù)文件中,以完成文獻(xiàn)數(shù)據(jù)的合并。合并后,應(yīng)更改文件名并做備份。

(2)獲取作者和文獻(xiàn)的信息,找出不同的拼寫和版本年份。運(yùn)用CiteSpace軟件,設(shè)置適當(dāng)?shù)拈撝祵?duì)合并后的文獻(xiàn)數(shù)據(jù)分別進(jìn)行作者共被引和文獻(xiàn)共被引分析,從而獲得滿足閾值的作者列表和文獻(xiàn)列表。閾值越低,越有利于發(fā)現(xiàn)分裂開的小節(jié)點(diǎn),但閾值的設(shè)置必須兼顧電腦的運(yùn)算能力。

將作者列表復(fù)制到Word文件中,并按作者名排序,找出同一作者名的不同拼寫。將文獻(xiàn)列表復(fù)制到Word文件后,先將表格轉(zhuǎn)換為文本,再以逗號(hào)為分隔符將文本轉(zhuǎn)換為表格,然后分別按文獻(xiàn)名和作者名進(jìn)行排序,分別找出同一文獻(xiàn)名的不同拼寫、不同版本年份和同一作者名的不同拼寫。

(3)修改引文數(shù)據(jù),統(tǒng)一拼寫及版本年份。用寫字板打開合并后的數(shù)據(jù)文件,利用“查找”和“替換”功能,將同一作者名、同一文獻(xiàn)的題名和同一文獻(xiàn)的版本年份分別統(tǒng)一起來(lái)。例如,將《政治經(jīng)濟(jì)學(xué)批判大綱》的作者名統(tǒng)一為“Marx K”,題名和版本年份分別統(tǒng)一為“GRUNDRISSE”和“1857”。

(4)復(fù)查。設(shè)置適當(dāng)?shù)拈撝祵?duì)處理后的數(shù)據(jù)分別進(jìn)行作者共被引和文獻(xiàn)共被引分析,按步驟(2)對(duì)獲得的作者和文獻(xiàn)列表進(jìn)行復(fù)查,如同一作者名、同一文獻(xiàn)題名和同一文獻(xiàn)的版本年號(hào)仍有不一致的情況,則應(yīng)按步驟(3)進(jìn)行修改。

在上述的步驟(2)中,如遇到作者和文獻(xiàn)的一致性無(wú)法直接判定的情況,應(yīng)充分利用搜索引擎、百度學(xué)術(shù)、多語(yǔ)種電子詞典、DOI代碼等工具進(jìn)行交叉印證。

4結(jié)果與討論

筆者對(duì)上述4034條馬克思主義研究的引文數(shù)據(jù)進(jìn)行多輪預(yù)處理后,獲得文獻(xiàn)共被引圖譜(圖1),圖中包含123個(gè)文獻(xiàn)節(jié)點(diǎn),364條共被引連線。采用相同閾值對(duì)預(yù)處理前的數(shù)據(jù)進(jìn)行文獻(xiàn)共被引分析,所得圖譜只包含72個(gè)文獻(xiàn)節(jié)點(diǎn),僅有188條共被引連線(圖2)。相比較而言,預(yù)處理后滿足閾值的節(jié)點(diǎn)增加了約71%,共被引連線增加了約94%。就節(jié)點(diǎn)《政治經(jīng)濟(jì)學(xué)批判大綱》而言,預(yù)處理后其被引次數(shù)由353次增加到425次,增加了20%。在預(yù)處理前、后的文獻(xiàn)共被引網(wǎng)絡(luò)中,被引文獻(xiàn)的排序(表5)和被引作者的排序也相應(yīng)發(fā)生了變化,這表明,經(jīng)過上述的預(yù)處理,可有效地減少節(jié)點(diǎn)的分裂現(xiàn)象。

文獻(xiàn)的共被引分析有助發(fā)現(xiàn)對(duì)一個(gè)研究領(lǐng)域的發(fā)展產(chǎn)生較大影響的研究成果,也有助于揭示該領(lǐng)域的研究熱點(diǎn)和前沿,而作者的共被引分析則有助于評(píng)價(jià)學(xué)者對(duì)該領(lǐng)域的研究所做的貢獻(xiàn)。由于著作和文集類被引文獻(xiàn)在題名拼寫、版本年份和作者名拼寫上存在不一致,當(dāng)這類文獻(xiàn)在引文中占有較大比重時(shí),就有可能會(huì)對(duì)分析結(jié)果產(chǎn)生不利的影響。實(shí)踐表明,對(duì)引文數(shù)據(jù)進(jìn)行預(yù)處理雖不能完全消除但能有效地減少節(jié)點(diǎn)的分裂現(xiàn)象,有助于提高計(jì)量分析的客觀性。然而,這類文獻(xiàn)占多大的比例就必須進(jìn)行預(yù)處理,這一問題還有待開展進(jìn)一步的實(shí)證研究。

參考文獻(xiàn):

[1]李艷,張悅,曾可,等.文獻(xiàn)信息分析工具的比較[J].中華醫(yī)學(xué)圖書情報(bào)雜志, 2015, 24(11): 41-47.

[2]董琳.學(xué)科評(píng)價(jià)之文獻(xiàn)計(jì)量數(shù)據(jù)準(zhǔn)備[J].情報(bào)理論與實(shí)踐, 2010, 33(6): 49-52.

[3]孫源.基于Word2Vec的SCI地址字段數(shù)據(jù)清洗方法研究[J].情報(bào)雜志, 2019, 38 (2): 195-200.

[4]張晉輝,劉清.基于推理機(jī)的SCI地址字段數(shù)據(jù)清洗方法設(shè)計(jì)[J].情報(bào)科學(xué), 2010, 28(5): 741-746.

[5]閆雪,歐陽(yáng)海鷹,曾首英,等.文獻(xiàn)計(jì)量數(shù)據(jù)準(zhǔn)備之?dāng)?shù)據(jù)采集與清洗:以中國(guó)水產(chǎn)科學(xué)研究院中文期刊論文分析為例[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊, 2014, 26(4): 36-40.

[6]Chen, C. CiteSpaceⅡ: Detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science and Technology, 2006, 57(3): 359-377.

The Citation Data Pre-Processing for SSCI Literature Data: A Case Study of Marxism Research

YAN Jianxin

(1.SchoolofMarxism,GuangxiUniversity,Nanning530004,China;2WISELab&ScienceofScienceand ManagementofScienceandTechnologyResearchInstitute,DalianUniversityofTechnology,Dalian116024,China)

Abstract: In SSCI literature data, a book or collected works sometimes is cited in different spellings in title and authors name, and in different publishing years due to different versions, this article proposes a way of citation data pre-processing in order to make them uniform.Obtain the title list of important cited literatures and name list of important author by cocitation analyses, rank the lists alphabetically and find out the different spellings and different publishing years, and then, make them uniform by searching and replacing.After the pre-processing of citation data, the important nodes and their citation frequency, as well as the co-cited links increase obviously in the co-citation networks. For the social research fields with high percentage of cited books or collected works, citation data pre-processing is helpful to make the bibliometric analysis more objective.

Keywords: citation data;pre-processing;SSCI;co-citation analysis

主站蜘蛛池模板: 国产精品久久久精品三级| 激情无码视频在线看| 欧美成人看片一区二区三区 | 亚洲二区视频| 无码日韩视频| 欧美三級片黃色三級片黃色1| 无码国内精品人妻少妇蜜桃视频| 99re免费视频| 亚洲一区二区精品无码久久久| 97精品国产高清久久久久蜜芽| 国产迷奸在线看| 爽爽影院十八禁在线观看| 国产一区免费在线观看| 成人在线天堂| 影音先锋丝袜制服| 久久黄色视频影| 久久无码av三级| 免费国产无遮挡又黄又爽| 91亚洲精选| 国产午夜在线观看视频| 五月天福利视频| 日本久久久久久免费网络| 国产成人精品男人的天堂下载 | 日韩在线2020专区| 欧美午夜在线视频| 国产免费羞羞视频| 狠狠色噜噜狠狠狠狠色综合久| 亚洲日韩图片专区第1页| 啊嗯不日本网站| 国产精品私拍在线爆乳| 97视频精品全国免费观看| 波多野结衣无码中文字幕在线观看一区二区 | 国产精品浪潮Av| 国产av色站网站| 亚洲色图欧美在线| 亚洲精品777| 三上悠亚精品二区在线观看| 亚洲AV无码精品无码久久蜜桃| 乱系列中文字幕在线视频 | 亚洲第一视频网站| 亚洲日本在线免费观看| 欧洲日本亚洲中文字幕| 欧美激情第一欧美在线| 香蕉eeww99国产精选播放| 片在线无码观看| 91精品专区| 美女高潮全身流白浆福利区| 国产一区二区三区精品久久呦| 日韩欧美国产三级| 国产亚洲精品va在线| 一区二区三区国产精品视频| 中美日韩在线网免费毛片视频| 亚洲AV成人一区二区三区AV| 亚洲精品无码抽插日韩| av天堂最新版在线| 五月婷婷综合网| 制服丝袜国产精品| 欧美色99| 欧美精品二区| 精品久久人人爽人人玩人人妻| 免费女人18毛片a级毛片视频| 波多野衣结在线精品二区| 亚洲精品在线影院| 亚洲最新在线| 亚洲精品波多野结衣| 国产精品无码作爱| 538国产视频| 亚洲国产精品一区二区高清无码久久 | 国产青榴视频| 伊人激情综合| 91无码人妻精品一区| 一级毛片免费观看久| 国产黄色视频综合| www.日韩三级| 久久久噜噜噜| 亚洲第一页在线观看| a级免费视频| 亚洲日韩精品无码专区| 国产亚洲高清视频| 天天干天天色综合网| 国内精自视频品线一二区| 呦视频在线一区二区三区|