999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Matlab的WOS地址字段提取與分析方法

2021-04-05 05:43:49顏斌
現(xiàn)代信息科技 2021年17期

摘? 要:為研究高校各二級(jí)單位對(duì)ESI某學(xué)科的貢獻(xiàn)度,需對(duì)近十年來(lái)SCI和SSCIS收錄論文(Article和Review)的地址字段信息進(jìn)行自動(dòng)化分析處理,以統(tǒng)計(jì)各學(xué)院機(jī)構(gòu)的發(fā)文及被引頻次情況。文章提出了一種基于Matlab的WOS地址字段提取與分析方法,可以高效快速地地檢索WOS地址字段,篩選屬于本校的地址字段,從中提取論文所屬的二級(jí)單位英文名稱(chēng)并匹配所屬首單位,進(jìn)而分析計(jì)算各二級(jí)單位在不同學(xué)科下的論文貢獻(xiàn)度。

關(guān)鍵詞:ESI;Matlab;WOS地址字段

中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)17-0065-04

Abstract: In order to study the contribution of each secondary unit in colleges to a discipline of ESI, it is necessary to automatically analyze and process the address field information of papers included in SCI and SSCIS (Article and Review) in recent ten years, so as to make statistics on the document issuance and citation frequency of colleges and institutions. This paper proposes a WOS address field extraction and analysis method based on Matlab, which can efficiently and quickly retrieve the WOS address field, screen the address field belonging to the college, extract the English name of the secondary unit to which the paper belongs and match the first unit, and then analyze and calculate the paper contribution of each secondary unit in different disciplines.

Keywords: ESI; Matlab; WOS address field

0? 引? 言

WOS(Web of Science)是美國(guó)科學(xué)情報(bào)研究(ISI)于1997年推出的基于網(wǎng)絡(luò)的引文索引數(shù)據(jù)庫(kù),它將SCI、SSCI、AHCL這3個(gè)引文數(shù)據(jù)庫(kù)集成在1個(gè)平臺(tái)上,具備多數(shù)據(jù)庫(kù)同時(shí)檢索的功能[1]。ESI(Essential Science Indicator)又稱(chēng)為基本科學(xué)指標(biāo)數(shù)據(jù)庫(kù),是科睿唯安公司推出的對(duì)科研機(jī)構(gòu)研究成果及學(xué)科發(fā)展態(tài)勢(shì)定量分析和評(píng)價(jià)的工具,也是“雙一流”建設(shè)中對(duì)一流學(xué)科評(píng)價(jià)的極為重要的參考依據(jù)[2]。

ESI和WOS數(shù)據(jù)庫(kù)是衡量科學(xué)研究績(jī)效,跟蹤科學(xué)發(fā)展趨勢(shì),評(píng)價(jià)高校、學(xué)術(shù)機(jī)構(gòu)、國(guó)家/地區(qū)國(guó)際學(xué)術(shù)水平及影響力的重要評(píng)價(jià)工具[3],目前國(guó)內(nèi)各高校都將學(xué)科是否進(jìn)入ESI全球前1%以及ESI高被引論文的數(shù)量作為衡量高校學(xué)科發(fā)展的重要指標(biāo)。高校圖書(shū)館是學(xué)校的學(xué)術(shù)性服務(wù)機(jī)構(gòu),為ESI學(xué)科建設(shè)服務(wù)已成為當(dāng)前各高校圖書(shū)館發(fā)展的重要任務(wù)和研究課題[4]。

為了統(tǒng)計(jì)分析高校各二級(jí)單位在不同學(xué)科下的ESI發(fā)文總數(shù)及總被引頻次數(shù)據(jù),本文利用WOS數(shù)據(jù)庫(kù)中的ESI期刊,選用近十年來(lái)Article和Review的論文,選取論文的地址字段作為分析的對(duì)象。從WOS數(shù)據(jù)庫(kù)下載的論文信息的地址字段中包含作者姓名、學(xué)校英文縮寫(xiě)名稱(chēng)、學(xué)院機(jī)構(gòu)英文名稱(chēng)等信息,為了準(zhǔn)確快速地獲取論文所屬首機(jī)構(gòu)的信息,需要對(duì)WOS地址字段進(jìn)行數(shù)據(jù)清洗,檢索匹配提取,進(jìn)而分析計(jì)算各學(xué)院機(jī)構(gòu)在不同學(xué)科下論文貢獻(xiàn)度。何春建提出了一種從WOS地址字段提取二級(jí)機(jī)構(gòu)數(shù)據(jù)的半自動(dòng)數(shù)據(jù)清洗方法[5],劉賢玉介紹了利用WOS快速統(tǒng)計(jì)學(xué)校(學(xué)院)論文的技巧[6],謝群提出了一種在WOS中準(zhǔn)確進(jìn)行中文機(jī)構(gòu)檢索的方法[7]。為了保證數(shù)據(jù)的準(zhǔn)確性,通常都是人工進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,但是工作量十分繁瑣,工作效率極低;而上述提及的半自動(dòng)清洗方法雖然提高了工作效率,但準(zhǔn)確性較差。為了減少在數(shù)據(jù)處理過(guò)程中出現(xiàn)的人工誤差并且提高工作效率,本文設(shè)計(jì)實(shí)現(xiàn)了一種基于MATLAB的WOS地址字段數(shù)據(jù)提取與分析方法(MW),可以快速高效的對(duì)大量論文的WOS地址字段數(shù)進(jìn)行讀取、檢索匹配、分割提取、去重合并及計(jì)算分析,大大方便了日常工作。

1? MW方法介紹

1.1? 函數(shù)表達(dá)

在本文中,主要利用了MATLAB的xlsread、writetable函數(shù)對(duì)文檔進(jìn)行讀寫(xiě)操作,strcmp、strfind函數(shù)對(duì)數(shù)據(jù)進(jìn)行檢索匹配,regexp(A, a,' split')正則表達(dá)式對(duì)數(shù)據(jù)進(jìn)行分割提取,unique、strcat函數(shù)對(duì)數(shù)據(jù)進(jìn)行去重合并,.etc最后對(duì)得到的數(shù)據(jù)進(jìn)行分析計(jì)算。

1.2? 程序設(shè)計(jì)思路

首先讀取包含本校近十年來(lái)SCI和SSCI(Article和Review)論文的Excel文檔,該文檔中的論文信息不包含地址字段信息,因此需要根據(jù)論文的WOS號(hào)從WOS數(shù)據(jù)庫(kù)下載的論文信息中檢索匹配提取對(duì)應(yīng)的地址字段信息,再截取地址字段信息中所需的學(xué)校縮寫(xiě)名稱(chēng)及學(xué)院機(jī)構(gòu)英文名稱(chēng)形成新的地址字段信息,按截取順序?yàn)槠錁?biāo)序。在查詢過(guò)程中發(fā)現(xiàn)有地址缺省的情況,對(duì)該種情況的論文進(jìn)行人工查詢,并將該篇論文的WOS號(hào)與其屬于本校的首機(jī)構(gòu)及序號(hào)信息一一對(duì)應(yīng),記錄存儲(chǔ)成如表1所示形式的“WOS號(hào)對(duì)應(yīng)表.xlsx”Excel文檔,以便以后查詢。

由于漢語(yǔ)拼音的因素帶來(lái)英譯重名及別稱(chēng)、俗稱(chēng)等情況[4],有的存在英文字符拼寫(xiě)錯(cuò)誤的情況,學(xué)校縮寫(xiě)英文名稱(chēng)存在多種形式,本文統(tǒng)計(jì)的形式就有12種,將其匯總在如表2所示的“school.xlsx”Excel文檔中,使用~ isempty(strfind(raw1, school))函數(shù)篩選屬于本校的地址字段信息及序號(hào)。

由于各學(xué)院機(jī)構(gòu)和其包含的眾多下屬院系及機(jī)構(gòu)存在眾多英文名稱(chēng),且存在英文字符拼寫(xiě)錯(cuò)誤的情況,為了匹配篩選后屬于本校的地址字段信息中包含的學(xué)院機(jī)構(gòu)英文名稱(chēng)對(duì)應(yīng)的中文學(xué)院機(jī)構(gòu)名稱(chēng),圖書(shū)館信息戰(zhàn)略研究部的工作人員通過(guò)平時(shí)的積累記錄形成了如表3所示形式的“學(xué)院機(jī)構(gòu)匹配表.xlsx”excel文檔(目前統(tǒng)計(jì)記錄了31個(gè)學(xué)院機(jī)構(gòu))。

然后對(duì)篩選后得到的屬于本校的地址字段信息進(jìn)行處理,該地址字段信息包含需要查詢的學(xué)院機(jī)構(gòu)英文名稱(chēng),通過(guò)isempty()函數(shù)從學(xué)院機(jī)構(gòu)匹配表中檢索匹配得到該篇論文所屬的學(xué)院機(jī)構(gòu)中文名稱(chēng)及其序號(hào)。針對(duì)一篇論文存在多個(gè)所屬學(xué)院機(jī)構(gòu)的問(wèn)題,根據(jù)機(jī)構(gòu)序號(hào)提取該篇論文的首學(xué)院機(jī)構(gòu)信息,最后根據(jù)“Timesited”字段計(jì)算得到各學(xué)院機(jī)構(gòu)的論文貢獻(xiàn)度,將處理后的EXCEL文檔輸出并繪制相關(guān)餅狀圖。

程序設(shè)計(jì)流程圖如圖1所示。

2? MW方法設(shè)計(jì)

2.1? 文檔讀寫(xiě)模塊

使用xlsread函數(shù)對(duì)待處理的EXCEL文檔進(jìn)行讀操作:

[~,~,raw1]=xlsread(filename1);

使用cell2table函數(shù)將數(shù)據(jù)轉(zhuǎn)化為表格形式,再使用Writetable函數(shù)將處理后的數(shù)據(jù)輸出為EXCEL文檔:

T=cell2table(raw1);

Writetable(T,filename1,'WriteVariableNames',false)

2.2? 數(shù)據(jù)檢索匹配分割提取模塊

為了獲取本校近十年來(lái)SCI和SSCI(Article和Review)論文所屬的學(xué)院機(jī)構(gòu)信息,需獲取地址字段信息,地址字段信息中包含該篇論文的學(xué)院機(jī)構(gòu)英文名稱(chēng)。但是本校近十年來(lái)SCI和SSCI論文文檔中的論文信息不包含地址字段信息,因此需要首先通過(guò)strcmp函數(shù)從WOS數(shù)據(jù)庫(kù)下載的論文庫(kù)中檢索匹配論文的WOS號(hào),根據(jù)WOS號(hào)一一對(duì)應(yīng)提取出對(duì)應(yīng)的地址字段,再通過(guò)strfind函數(shù)及regexp(A,a,'split')正則表達(dá)式分割提取得到的地址字段,截取所需的學(xué)校縮寫(xiě)名稱(chēng)及學(xué)院機(jī)構(gòu)英文名稱(chēng)形成新的地址字段信息,并按截取順序?yàn)槠錁?biāo)序,那么A論文的地址字段截取成以下三段:1.[Nanjing Univ Sci & Technol, Sch Chem Engn];2.[Beijing Jiaotong Univ, Minist Educ, Key Lab Luminescence & Opt Informat];3.[Nanjing Univ Sci & Technol, MIIT Key Lab Adv Solid Laser]。該模塊的核心代碼由以下程序?qū)崿F(xiàn):

#檢索匹配提取地址字段信息

If ( strcmp (raw1 {row_j , col1}, raw2{row_i , col2}))

test (row_j , 1) = row_j;

test (row_j , 2) = row_i;

raw1 {row_j, col1} = raw2{row_i , col2};

#分割地址

Address = regexp ( raw1{ row_j , col1 }, '; [', 'split' );#分割從WOS庫(kù)中檢索得到的地址字段

count = size (Address , 2);#分割的段數(shù)即總的通訊地址數(shù)

disp ( ['通訊地址數(shù)量:' , num2str ( count ) ]);

#對(duì)每個(gè)段進(jìn)行分割

提取并形成新的地址字段添加到raw1中

if ~isempty(strfind(Address{1,y},'] '))

address=regexp(Address{1,y}, '] ', 'split');

raw1{row_j,col+y+1}= address{1,2};

else

raw1{row_j,col+y+1}=Address{1,y};

end

#通訊地址的序號(hào)

raw1{1,col+y+1}=y;

end

2.3? 查詢?nèi)ブ睾喜⒛K

首先通過(guò)isempty()及strfind()函數(shù)對(duì)截取的每一段地址字段信息進(jìn)行篩選,得到屬于本校的地址字段信息及序號(hào)。A論文屬于本校的地址字段信息及序號(hào)為:1.[Nanjing Univ Sci & Technol, Sch Chem Engn];3.[Nanjing Univ Sci & Technol, MIIT Key Lab Adv Solid Laser]。然后讀取學(xué)院機(jī)構(gòu)匹配表的excel文檔,使用isempty()及strfind()函數(shù)對(duì)地址字段中的學(xué)院機(jī)構(gòu)英文名稱(chēng)逐一查詢,檢索到匹配項(xiàng)則返回該論文所屬的學(xué)院機(jī)構(gòu)中文名稱(chēng)及其序號(hào),由于有的地址字段包含多個(gè)學(xué)院機(jī)構(gòu)英文名稱(chēng),返回的學(xué)院機(jī)構(gòu)數(shù)據(jù)存在重復(fù)的情況,因此再使用unique()、strcat()函數(shù)對(duì)程序返回的學(xué)院機(jī)構(gòu)數(shù)據(jù)進(jìn)行去重合并操作,得到每篇論文所屬的學(xué)院機(jī)構(gòu)中文名稱(chēng)及序號(hào),A論文的所屬學(xué)院機(jī)構(gòu)為[化工學(xué)院1,電子工程與光電技術(shù)學(xué)院3]。最后,使用writetable函數(shù),將待查論文的所屬學(xué)院機(jī)構(gòu)信息數(shù)據(jù)輸出成excel文檔形式,該模塊的核心代碼由以下程序?qū)崿F(xiàn):

#篩選獲取屬于本校的地址字段信息

If ~isempty(strfind(raw1{row_j,col+y+1},school{1,s}))

#查詢所屬學(xué)院機(jī)構(gòu)

If ~isempty(strfind(raw1{row_j,col+y+1},raw4{1,i}))

if isempty(raw1{row_j,raw1_col+y})

raw1{row_j,raw1_col+y}=

string([raw4{2,i},num2str(y)]);

else

raw1{row_j,raw1_col+y}=[raw1{row_j,raw1_col+y},string([raw4{2,i},num2str(y)])];

end

#去重及合并

raw1{I ,raw1_col+j}=unique

(raw1{i ,raw1_col+j});

count =size(raw1{i ,raw1_col+j},2);

if count >1

for c=2: count

raw1{i,raw1_col+j}(1)=strcat(raw1{i,

raw1_col+j}(1),',',raw1{i,raw1_col+j}(c));

end

raw1{i,raw1_col+j}=raw1{i,raw1_col+j}(1);

end

if ~isempty(raw1{i ,raw1_col+j})

raw1{i ,col1}=strcat(raw1{i,col1},',',

raw1{i,raw1_col+j});

end

2.4? 提取首學(xué)院機(jī)構(gòu)模塊

由于一篇論文可能存在多個(gè)通訊地址的情況,為了便于統(tǒng)計(jì),本文選用論文所屬的首機(jī)構(gòu)信息作為統(tǒng)計(jì)各二級(jí)機(jī)構(gòu)在不同學(xué)科下論文貢獻(xiàn)度的標(biāo)準(zhǔn)。在3.2節(jié)中已經(jīng)獲取了本校近十年來(lái)SCI和SSCI(Article和Review)論文所屬的機(jī)構(gòu)信息及序號(hào)信息。

在本節(jié)中,首先通過(guò)isempty()函數(shù)獲得每篇論文通訊地址中所有機(jī)構(gòu)字段的序號(hào),再通過(guò)regexp(A,a,'split')正則表達(dá)式分割提取得到首機(jī)構(gòu)序號(hào),最后得到每篇論文所屬的首機(jī)構(gòu)信息,A論文的所屬首機(jī)構(gòu)為化工學(xué)院。該模塊的核心代碼由以下程序?qū)崿F(xiàn):

#獲取所有學(xué)院機(jī)構(gòu)字段的序號(hào)

if ~isempty(txt1{i,j})

raw1{i ,col1}=strcat(raw1{i,col1},',',

num2str(raw1{1,j}));

end

#分割提取首序號(hào)

if ~isempty(strfind(raw1{I ,col1},','))

address = regexp(raw1{i, col1}, ',', 'split');

raw1{i,col1}=address{1,1};

end

2.5? 學(xué)科劃分模塊

為了模擬本校各二級(jí)單位在不同學(xué)科下的ESI發(fā)文總數(shù)及總被引頻次數(shù)據(jù),需要將近十年來(lái)WOS數(shù)據(jù)庫(kù)中的ESI期刊論文(僅選取Article 和 Review)按學(xué)科進(jìn)行劃分(ESI下設(shè)22個(gè)學(xué)科),使用strcmp函數(shù)將3.4節(jié)獲取的raw1中存儲(chǔ)的數(shù)據(jù)信息按學(xué)科進(jìn)行劃分,得到22個(gè)學(xué)科每個(gè)學(xué)科下的各機(jī)構(gòu)發(fā)表的論文信息。該模塊的核心代碼由以下程序?qū)崿F(xiàn):

#按22個(gè)學(xué)科進(jìn)行劃分

j =2;

for i =2:row

if strcmp(raw1{i , Area_col1},'subject')

raw3(j,:)=raw1(i ,:);

j=j+1;

end

end

2.6? 數(shù)據(jù)計(jì)算分析模塊

若該篇論文的首機(jī)構(gòu)數(shù)目為n,引用次數(shù)為m,則每個(gè)首機(jī)構(gòu)的該篇論文被引頻次為m/n,該篇論文的占比為1/n。

最后計(jì)算每個(gè)學(xué)科下各二級(jí)單位的論文數(shù)N,被引頻次M(N篇論文的引用次數(shù)和),得到篇均被引頻次M/N。

本節(jié)以某學(xué)科為例,用表格和餅狀圖的形式分別直觀的展示不同二級(jí)單位在論文數(shù)貢獻(xiàn)度以及被引頻次貢獻(xiàn)度情況,如表4、圖2、圖3所示。

3? 結(jié)? 論

隨著“雙一流”建設(shè)步伐的加速,各高校對(duì)ESI學(xué)科建設(shè)日益重視。圖書(shū)館可通過(guò)模擬分析研究本校各學(xué)院機(jī)構(gòu)對(duì)ESI不同學(xué)科的論文貢獻(xiàn)度,作為評(píng)估學(xué)院及學(xué)校教師科研水平的重要指標(biāo),對(duì)學(xué)校潛力學(xué)科的挖掘及學(xué)院自身學(xué)術(shù)科研水平的發(fā)展有很大的指導(dǎo)意義。

本文主要設(shè)計(jì)實(shí)現(xiàn)了一種基于MATLAB的WOS地址字段數(shù)據(jù)提取與分析方法,通過(guò)分析本校各二級(jí)單位在ESI不同學(xué)科下的發(fā)表論文數(shù)貢獻(xiàn)度及被引頻次貢獻(xiàn)度,以圖表形式對(duì)比展示,了解某ESI潛力學(xué)科在不同二級(jí)單位的科研產(chǎn)出情況。

參考文獻(xiàn):

[1] 桑萊絲.SCI論文在科研水平評(píng)價(jià)中的地位和作用 [J].統(tǒng)計(jì)與決策,2007(15):59-60.

[2] 張寧,梁盟.高校圖書(shū)館服務(wù)ESI潛力學(xué)科建設(shè)探索——以山東農(nóng)業(yè)大學(xué)圖書(shū)館為例 [J].圖書(shū)館學(xué)刊,2021,43(5):55-59.

[3] 畢玲玲,孫海燕,李延剛,等.基于ESI和InCites的高校潛力學(xué)科發(fā)展預(yù)測(cè)——以中國(guó)海洋大學(xué)為例 [J].內(nèi)蒙古科技與經(jīng)濟(jì),2021(12):113-116.

[4] 劉勇.“雙一流”建設(shè)背景下高校圖書(shū)館服務(wù)ESI學(xué)科建設(shè)的內(nèi)容與策略 [J].圖書(shū)情報(bào)工作,2017,61(9):53-58.

[5] 何春建.從WOS地址字段提取二級(jí)機(jī)構(gòu)數(shù)據(jù)的半自動(dòng)數(shù)據(jù)清洗方法 [J].新世紀(jì)圖書(shū)館,2017(8):56-58+70.

[6] 劉賢玉,周小東.基于WebofScience快速統(tǒng)計(jì)學(xué)校(學(xué)院)論文的技巧 [J].圖書(shū)情報(bào)工作,2013,57(S2):210-212+207.

[7] 謝群.在WebofScience中準(zhǔn)確進(jìn)行中文機(jī)構(gòu)檢索的方法研究 [J].圖書(shū)館論壇,2011,31(1):155-157+154.

作者簡(jiǎn)介:顏斌(1996.02—),女,漢族,江蘇省淮安人,助理館員,碩士研究生,研究方向:圖書(shū)館、計(jì)算機(jī)。

主站蜘蛛池模板: 狂欢视频在线观看不卡| 538国产在线| 色精品视频| 毛片一级在线| 5555国产在线观看| 久久久黄色片| 日本一本在线视频| 国产精品手机在线播放| 成年人福利视频| 欧美不卡在线视频| 99久久精品免费看国产电影| 99久久精品国产自免费| 呦视频在线一区二区三区| 九色视频在线免费观看| 黄色国产在线| 欧美成人手机在线观看网址| 四虎影视库国产精品一区| 国产经典在线观看一区| 三区在线视频| 国产SUV精品一区二区| 一级香蕉人体视频| 成人a免费α片在线视频网站| 九色国产在线| 亚洲bt欧美bt精品| 99在线观看国产| 日韩国产欧美精品在线| 国产欧美视频在线观看| 99热这里只有成人精品国产| 精品国产毛片| 特级毛片8级毛片免费观看| 白丝美女办公室高潮喷水视频| 久久夜色精品| 日韩福利在线观看| 亚洲福利视频网址| 色有码无码视频| 日韩在线欧美在线| 美女被操黄色视频网站| 亚洲欧美激情小说另类| 久久久无码人妻精品无码| 国产精品亚洲五月天高清| 免费a在线观看播放| 国产黄在线免费观看| 欧美成人免费一区在线播放| 日本在线视频免费| 亚洲色图综合在线| 人妻21p大胆| 性视频久久| 亚洲成A人V欧美综合天堂| 最新亚洲人成网站在线观看| 国语少妇高潮| 伦精品一区二区三区视频| 五月婷婷精品| 免费毛片a| 亚洲成人黄色在线观看| 国产一区二区三区免费| 色综合日本| 小13箩利洗澡无码视频免费网站| 波多野结衣视频网站| 中文国产成人久久精品小说| 欧美午夜视频在线| 黄色成年视频| 91精品啪在线观看国产60岁| 日本精品中文字幕在线不卡| 97无码免费人妻超级碰碰碰| 性做久久久久久久免费看| 国产玖玖玖精品视频| 四虎永久免费在线| 成人一级黄色毛片| 8090成人午夜精品| 伊人久久大线影院首页| 国产jizz| 九九热免费在线视频| 五月婷婷丁香综合| 99伊人精品| 2022国产无码在线| 亚洲成A人V欧美综合| 黑人巨大精品欧美一区二区区| 午夜免费视频网站| 国产人成乱码视频免费观看| 丁香亚洲综合五月天婷婷| 网友自拍视频精品区| 国产拍揄自揄精品视频网站|