999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python和Gephi的數(shù)據(jù)自動化分析及可視化研究

2024-02-09 00:00:00葉曾瑜
科技資訊 2024年24期
關(guān)鍵詞:可視化

摘要:隨著“人工智能”技術(shù)的蓬勃發(fā)展,“智慧社會”建設(shè)正快速推進(jìn)。作為公共服務(wù)的重要組成成分,圖書館智慧化已成為必然選擇。該研究以智慧圖書館建設(shè)為切入點,基于Python和Gephi,探索文獻(xiàn)資源管理過程中實現(xiàn)數(shù)據(jù)自動化預(yù)處理、分析及可視化的方案,進(jìn)而提高文獻(xiàn)資源的利用率。在紙質(zhì)文獻(xiàn)資源方面,實現(xiàn)了架標(biāo)的批量更新和重設(shè)計;在電子文獻(xiàn)資源方面,實現(xiàn)了對大數(shù)據(jù)的自動化預(yù)處理及基于社會網(wǎng)絡(luò)分析的數(shù)據(jù)可視化。在提升工作效率的同時,提高信息準(zhǔn)確性和數(shù)據(jù)利用率,未來可進(jìn)一步拓展到報告自動化生成及專利數(shù)據(jù)挖掘等領(lǐng)域。

關(guān)鍵詞:Python""數(shù)據(jù)自動化處理""社會網(wǎng)絡(luò)分析""可視化""智慧圖書館

Research"on"Data"Automatic"Analysis"and"Visualization"Based"on"Python"and"Gephi

—Taking"the"Construction"of"Smart"Library"as"an"Example

YE"Zengyu

Library"of"South"China"Normal"University,"Guangzhou,"Guangdong"Province,"510631"China

Abstract:"With"the"vigorous"development"of"artificial"intelligence(AI)"technology,"the"construction"of"the"\"smart"society\""is"rapidlynbsp;advancing."As"an"important"component"of"public"services,""the"intelligentization"of"libraries"has"become"an"inevitable"choice."Taking"the"construction"of"smart"library"as"the"starting"point,"this"article"explores"the"solutions"for"automated"data"pre-processing,"analysis,"and"visualization"based"on"Python"and"Gephi"in"document"resource"management,"and"further"improves"their"utilization"rate."In"terms"of"paper"literature"resources,batch"updates"and"redesigns"of"shelf"labels"have"been"achieved;"In"terms"of"electronic"literature"resources,"data"automatic"pre-processing"and"visualization"based"on"social"network"analysis"have"been"achieved."It"not"only"improves"work"efficiency,"but"also"enhances"information"accuracy"and"data"utilization."In"the"future,"it"can"be"further"expanded"to"fields"such"as"automated"report"generation"and"patent"data"mining.

Key"Words:"Python;"Data"automatic"processing;"Social"network"analysis;"Visualization;"Smart"library

中國共產(chǎn)黨第二十次全國代表大會提出,要充分運用現(xiàn)代信息技術(shù),加快優(yōu)化智慧社區(qū)建設(shè),打造高質(zhì)量的新型智慧社區(qū)治理模式。圖書館作為公共服務(wù)的重要組成成分,其智慧化已成為必然選擇,這對數(shù)據(jù)處理、分析挖掘及應(yīng)用的質(zhì)量、效率提出了更高的要求。

為了建設(shè)智慧圖書館,需要要推動館員、讀者、服務(wù)[1]、資源[2]、技術(shù)[1-2]與數(shù)據(jù)的有機統(tǒng)一。首先,以數(shù)據(jù)為基礎(chǔ),建設(shè)標(biāo)準(zhǔn)規(guī)范體系;其次,立足大數(shù)據(jù)和“互聯(lián)網(wǎng)+”發(fā)展態(tài)勢,引進(jìn)物聯(lián)網(wǎng)、數(shù)據(jù)挖掘、人工智能、區(qū)塊鏈[3]等新興技術(shù),提升文獻(xiàn)等資源的利用率;再次,培養(yǎng)館員的數(shù)據(jù)素養(yǎng)[4],包括發(fā)現(xiàn)、獲取、篩選、分析、組織、解讀和共享數(shù)據(jù)的意識;最后,實現(xiàn)管理和服務(wù)的智慧化、個性化[5],做到面向讀者需求,提升用戶體驗[3]。數(shù)據(jù)挖掘是指分析大型信息庫或信息流和發(fā)現(xiàn)潛在有用的知識的過程[6]。“圖書館數(shù)據(jù)挖掘”又稱“書目挖掘”[7],是數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、文獻(xiàn)計量學(xué)的組合[8]。

該研究針對大數(shù)據(jù)背景下智慧圖書館建設(shè)中文獻(xiàn)資源管理遇到的實際問題,基于Python語言和Gephi社會網(wǎng)絡(luò)分析軟件,實現(xiàn)對大量數(shù)據(jù)的自動化處理、分析及可視化,優(yōu)化管理過程,提高文獻(xiàn)資源利用率,提升數(shù)據(jù)處理的效率、準(zhǔn)確性,保證數(shù)據(jù)處理分析過程的可追溯性。

1"智慧圖書館文獻(xiàn)資源管理所遇挑戰(zhàn)

本文從數(shù)據(jù)角度出發(fā),分析圖書館智慧化過程中文獻(xiàn)資源管理領(lǐng)域所面臨的挑戰(zhàn)。圖書館文獻(xiàn)資源主要可分為紙質(zhì)資源和電子資源。

1.1"紙質(zhì)資源管理

對于射頻識別技術(shù)(Radio"Frequency"Identification,RFID)未完全普及的圖書館,數(shù)據(jù)處理工作仍高度依賴人力,數(shù)據(jù)處理效率與信息正確率會受到多方面因素影響。如何規(guī)范架標(biāo)樣式,準(zhǔn)確高效地實施數(shù)據(jù)更新,進(jìn)而提高找書效率,是紙質(zhì)文獻(xiàn)資源管理的一大挑戰(zhàn)。

1.2"電子資源管理

盡管圖書館數(shù)字化建設(shè)高速推進(jìn),但許多商用學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫存在收費價格不合理、寡頭壟斷傾向等問題[9]。如何深入挖掘電子資源的使用情況,通過可視化手段展示以推廣,并優(yōu)化圖書館電子資源采購方案,是當(dāng)今圖書館界亟待解決的問題。

基本科學(xué)指標(biāo)數(shù)據(jù)庫(Essential"Science"Indicators,ESI)"和科技引文數(shù)據(jù)庫(Web"of"Science,WOS)被廣泛用于衡量科學(xué)研究績效。為了探索全文電子資源的使用情況,該研究對論文的引文進(jìn)行深入挖掘。以“華南師范大學(xué)”為例(下稱:目標(biāo)院校),其在2018—2022年的ESI論文數(shù)據(jù)超過1nbsp;900"000行,這對數(shù)據(jù)分析工具提出了更高的要求。

2"相關(guān)技術(shù)與理論介紹

2.1"相關(guān)Python庫

(1)pandas庫。pandas是Python讀取、保存、設(shè)置數(shù)據(jù)結(jié)構(gòu)類型的重要模塊[10]",可以實現(xiàn)對數(shù)據(jù)集的靈活重塑和旋轉(zhuǎn),基于智能標(biāo)簽對大數(shù)據(jù)集實施切片和索引等"[11]。

(2)glob庫。glob常用于路徑匹配,通過使用“*”“**”“?”等通配符,可以查找符合特定規(guī)則命名的文件。

(3)win32com庫。win32com是Python在Windows操作系統(tǒng)中實現(xiàn)組件對象模型(Component"Object"Model,COM)"編程的模塊,常用于Microsoft"Office等程序的自動化數(shù)據(jù)處理。

2.2"Gephi

Gephi是免費開源的圖形和網(wǎng)絡(luò)可視化和探索軟件,可以幫助數(shù)據(jù)分析師和科學(xué)家做出假設(shè),直觀地發(fā)現(xiàn)特征。其可以用于社會網(wǎng)絡(luò)分析,創(chuàng)建社交數(shù)據(jù)連接,以繪制社區(qū)組織和小世界網(wǎng)絡(luò)[12]。

2.3"《中圖法》

《中國圖書館分類法》(簡稱《中圖法》)是當(dāng)今國內(nèi)圖書館使用最廣泛的分類法體系,其采用字母與阿拉伯?dāng)?shù)字相結(jié)合的混合號碼,即用一個字母代表一個大類,共計22個基本大類,包括馬克思主義、列寧主義、毛澤東思想、鄧小平理論,以及哲學(xué)、社會科學(xué)、自然科學(xué)、綜合性圖書五大基本部類。簡表、詳表則使用數(shù)字和小數(shù)制對大類進(jìn)行細(xì)分[13]。

2.4"WOS論文數(shù)據(jù)

WOS核心合集是由科睿唯安(Clarivate"Analytics)開發(fā)和維護(hù)的學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫,其涵蓋了全球范圍內(nèi)各個學(xué)科領(lǐng)域的高質(zhì)量學(xué)術(shù)期刊、會議論文和專利等資源。其常用字段標(biāo)識如下所示:PT—出版物類型、AU—作者簡稱、AF—作者全名、TI—文獻(xiàn)標(biāo)題、C1—作者地址、RP—通訊作者地址、CR—被引參考文獻(xiàn)、UT—文章唯一標(biāo)識符[14]。圖1為部分常用字段示例,引文數(shù)據(jù)分析針對CR字段展開。

3"架標(biāo)自動化更新及成效

基于Python的pandas、glob和win32com等庫,對《中圖法》詳表信息進(jìn)行預(yù)處理后,將待更新架標(biāo)的分類號與其分類相匹配,最后根據(jù)字符數(shù)等生成對應(yīng)的架標(biāo)并合并。

3.1"《中圖法》分類信息預(yù)處理

由于《中圖法》分多層級,依次為部類、大類、小類、子小類,單級目錄往往無法直接呈現(xiàn)書籍的所有分類信息。因此,首先需要對《中圖法》的分類相關(guān)信息進(jìn)行預(yù)處理,即將下級分類與上級分類進(jìn)行組合,其核心代碼如下:

code_list,type_list"="dat_sup['code'].to_list(),dat_sup['type'].to_list()"#"獲取分類號和分類列表

dict_sup"="{}"#"創(chuàng)建分類號(鍵)—分類(值)字典

for"row_i,code0"in"enumerate(code_list):"#"遍歷《中圖法》分類號

dict_sup[code0]"="type_list[row_i]"#"存入字典

for"ind"in"range(1,len(code0)):"#"遍歷查看是否存在上級分類

if"code0[:-ind]"in"dict_sup:"#"采用遞歸法將上級分類及本級分類存入字典

dict_sup[code0]"="dict_sup[code0[:-ind]]+':\n'+type_list[row_i]

break

3.2"架標(biāo)分類號匹配

各架標(biāo)均包含第一本和最后一本書的分類號和分類信息。首先,統(tǒng)計待更新架標(biāo)的分類號,以Excel格式存儲,首尾書籍信息各成一列,一一對應(yīng);其次,使用pandas庫、字典或index函數(shù)等依次將分類號(如“K0”)與《中圖法》進(jìn)行匹配,獲得其分類(如“歷史、地理:\n史學(xué)理論”)。

3.3"輸出更新后的架標(biāo)信息

通過修改模板,可以實現(xiàn)對架標(biāo)排版設(shè)計的批量調(diào)整。針對文本長度不同的架標(biāo)信息,制作字號不同的架標(biāo)模板,依次插入書簽label1_1、label1_2、label2_1和label2_2,分別對應(yīng)第一本書的分類號、分類,以及最后一本書的分類號、分類,并存儲為“.dotx”的格式。使用win32com.client的Dispatch等函數(shù)將信息插入Word模板中,并另存到新文件夾(zpath1)中。以第一本書和“架標(biāo)模板1.dotx”為例,其核心代碼如下:

for"row_i,code1"in"enumerate(dat_shelf['first_code']):"#"遍歷第一本書分類號

type1"="first_type_list[row_i]"#"獲取第一本書分類

app"="Dispatch('Word.Application')"#"提取app

#"讀取Word模板,將信息輸入指定書簽(如“l(fā)abel1_1”)

doc"="app.Documents.Add(zpath+"'架標(biāo)模板1.dotx')

doc.Bookmarks('label1_1').Range.Text"="code1

doc.SaveAs(zpath1+output_fname+str(row_i)+'.docx')"#"將Word另存為新的文件

app.Documents.Close()

使用glob獲取文件夾內(nèi)的所有文件,并基于win32com.client的gencache函數(shù)合并,以便于打印。核心代碼如下:

word"="gencache.EnsureDispatch('Word.Application')"#打開word軟件

word.Visible"="False"#非可視化運行

output"="word.Documents.Add()"#新建用于存儲合并結(jié)果的空白文檔

output.PageSetup.Orientation"="1

output.PageSetup.TopMargin"="1.27*28.35"#"根據(jù)所需分別設(shè)置上下左右頁邊距,以上為例

for"file"in"glob.glob(zpath1+'\*'):"#"遍歷文件夾內(nèi)的文件并合并

output.Application.Selection.Range.InsertFile(file)

output.SaveAs(zpath2+output_fname+'.docx')"#"保存文件

output.Close()

4"WOS引文數(shù)據(jù)分析及可視化

使用Python的pandas和glob庫讀取WOS原始數(shù)據(jù),并實施預(yù)處理;使用Gephi等軟件深入挖掘目標(biāo)院校外文電子資源的使用情況。

4.1"讀取原始數(shù)據(jù)并實施預(yù)處理

以“.txt”格式存儲的WOS論文數(shù)據(jù)存在以下規(guī)律:(1)字段標(biāo)識均為2個字符,出現(xiàn)在行首,且每篇論文的首個字段標(biāo)識均為PT;(2)除字段標(biāo)識外的數(shù)據(jù)(下稱“”)以外,從每行的第四個字符開始出現(xiàn);(3)除部分異常數(shù)據(jù)以外,論文的引文來源刊均存儲在CR字段以“,"”分割所成列表的第三個字符串內(nèi)。

依次讀取目標(biāo)路徑(fpath)內(nèi)的所有txt文件,遍歷數(shù)據(jù)并分割,以獲取字段標(biāo)識和目標(biāo)數(shù)據(jù)、跳過無關(guān)數(shù)據(jù)(VR)、識別論文首行數(shù)據(jù)(PT),并創(chuàng)建論文字典,將目標(biāo)數(shù)據(jù)及引文來源刊數(shù)據(jù)(CR_J)以列表形式存入字典,最后整理并輸出為Excel。核心代碼如下:

wos_ind,dat_dict"="1,{}"#"初始化論文序號并創(chuàng)建字典

for"file"in"glob.glob(fpath+'\*.txt'):"#"依次讀取txt文件

dat"="pd.read_csv(file,skip_blank_lines=True,keep_default_na=False,sep='\t',engine='python')

for"row_i,info"in"enumerate(dat['FN"Clarivate"Analytics"Web"of"Science']):"#"遍歷數(shù)據(jù)

col_info,dat_info"="str(info)[:2],str(info)[3:]"#"獲取字段標(biāo)識/開頭字符及目標(biāo)數(shù)據(jù)

if"col_info"=="'PT':"#"如為首行數(shù)據(jù),則創(chuàng)建對應(yīng)論文字典

info_num"="'info_'+str(wos_ind)

dat_dict[info_num]"="defaultdict(list)

wos_ind"+="1

if"col_info"!="'""':"#"如為字段標(biāo)識,則給鍵賦值

col_key"="col_info

dat_dict[info_num][col_key].append(dat_info)"#"將目標(biāo)數(shù)據(jù)以列表形式存儲

if"col_key"=="'CR':"#"如為“被引參考文獻(xiàn)”字段

try:"#"如第3項為引文來源刊,存入字典

dat_dict[info_num]['CR_J'].append(dat_info.split(',"')[2])

except:"#"否則存儲原始數(shù)據(jù)

dat_dict[info_num]['CR_J'].append(dat_info)

4.2"基于社會網(wǎng)絡(luò)的電子資源使用情況分析

對目標(biāo)院校引用頻次TOP"50的引文來源刊進(jìn)行分析,統(tǒng)計全文外文電子資源對其的覆蓋率。已購電子資源覆蓋率達(dá)到80%,其中,Science"Direct(簡稱:SD)覆蓋率最高,超過25%;ACS和ProQuest-BSC次之,且均維持在10%以上。

由于部分引文來源刊被多個數(shù)據(jù)庫覆蓋,該研究使用Gephi對電子資源實施共現(xiàn)網(wǎng)絡(luò)分析,結(jié)果如圖2所示(僅展示頻率不低于50的邊及其相關(guān)節(jié)點)。已購數(shù)據(jù)庫中覆蓋刊物數(shù)最多的仍為SD;與OA電子資源的共現(xiàn)頻次較多的依次為ProQuest-BSC、EBSCO-ASP和ProQuest-PRL。

5"結(jié)論

在“人工智能”時代,數(shù)據(jù)量迅速增加,各領(lǐng)域均需提高數(shù)據(jù)素養(yǎng),提升數(shù)據(jù)處理、挖掘和利用能力。對于紙質(zhì)文獻(xiàn)資源,該研究基于Python實現(xiàn)架標(biāo)的自動化更新,通過修改模板,可以批量調(diào)整架標(biāo)設(shè)計,從而提高信息時效性、數(shù)據(jù)準(zhǔn)確性和工作效率,便于讀者找書,促進(jìn)資源流通。未來,該方法可拓展到專利數(shù)據(jù)挖掘和報告自動化生成等領(lǐng)域。

對于電子文獻(xiàn)資源,該研究使用Python和Gephi深入分析ESI論文大數(shù)據(jù),基于引文來源刊,挖掘目標(biāo)院校對外文電子資源的使用情況。對于使用頻率較高的數(shù)據(jù)庫,可以開設(shè)教學(xué)課程;對于使用頻率較低的數(shù)據(jù)庫,可以根據(jù)特色針對性地對相關(guān)群體開展推廣工作,以提高電子資源利用率。同時,該方法可以為未來電子資源采購提供參考。

參考文獻(xiàn)

[1]"CAO"G"H,"LIANG"M"L,"LI"X"G."How"to"make"the"library"smart?"The"conceptualization"of"the"smart"library[J]."The"Electronic"Library,"2018,"36(5):"811-825.

[2]"冉從敬,何夢婷.智慧圖書館資源服務(wù)模式及其實施策略[J].數(shù)字圖書館論壇.2018(6):21-29.

[3]"YUNUS"N,"ISMAIL"M"N,"OSMAN"G."Smart"library"themes"and"elements:"A"systematic"literature"review[J].Journal"of"Librarianship"and"Information"Science,2023:"09610006231207098.

[4]"高蘊梅,孫金娟.數(shù)智時代智慧館員能力體系構(gòu)建研究[J].圖書館.2024,(1):38-46.

[5]"農(nóng)慧勤.大數(shù)據(jù)環(huán)境下智慧圖書館管理與服務(wù)探究[J].參花.2024,(25):137-139.

[6]"HAN"J"W,"KAMBER"M,"PEI"J."Data"mining:"concepts"and"techniques[M]."Morgan"kaufmann,"2006.

[7]"NICHOLSON"S."Bibliomining"for"automated"collectionnbsp;development"in"a"digital"library"setting:"Using"data"mining"to"discover"Web‐based"scholarly"research"works[J]."Journal"of"the"American"Society"for"information"science"and"technology,"2003,"54(12):"1081-1090.

[8]"SIGUENZA-GUZMAN"L,"SAQUICELA"V,"AVILA-"ORDó?EZ"E,"et"al."Literature"review"of"data"mining"applications"in"academic"libraries[J]."The"Journal"of"Academic"Librarianship,"2015,"41(4):"499-510.

[9]"王豐年.我國學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫公益性和商業(yè)性的博弈:走向公益性的學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫[J].科技與出版.2017-(5):110-114.

[10]"韓文煜.基于python數(shù)據(jù)分析技術(shù)的數(shù)據(jù)整理與分析研究[J].科技創(chuàng)新與應(yīng)用,2020-(4):157-158.

[11]"pandas."pandas[EB/OL].(2024-09-20)"[2024-10-10]."https://pandas.pydata.org/.

[12]"BASTIAN"M,"HEYMANN"S,"JACOMY"M."Gephi:"An"open"source"software"for"exploring"and"manipulating"networks[C]//Proceedings"of"the"international"AAAI"Conference"on"Web"and"Social"Media."2009,"3(1):"361-362.

[13]"《中國圖書館分類法》編委會.《中國圖書館分類法》第五版使用手冊[M].國家圖書館出版社,2012.

[14]"Clarivate"Analytics."Web"of"Science"核心合集的字段標(biāo)識[EB/OL].(2020-03-15)[2024-10-10]."https://images.webofknowledge.com/WOKRS56B5/help/zh_CN/WOS/hs_wos_fieldtags.html.

猜你喜歡
可視化
自然資源可視化決策系統(tǒng)
北京測繪(2022年6期)2022-08-01 09:19:06
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統(tǒng)
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
主站蜘蛛池模板: 国产 在线视频无码| 国产亚洲现在一区二区中文| 亚洲欧洲免费视频| 亚洲天天更新| 四虎国产在线观看| 国产jizz| 91无码视频在线观看| 国产成人三级| 国产亚洲视频在线观看| 老司机午夜精品网站在线观看| 91在线丝袜| 国产av一码二码三码无码| 欧美日本在线观看| 久久精品无码一区二区日韩免费| 香蕉综合在线视频91| 十八禁美女裸体网站| 91精品国产自产在线老师啪l| 亚洲日韩国产精品无码专区| 成人毛片在线播放| 国产乱子伦精品视频| a级毛片免费看| 精品无码一区二区三区电影| 99尹人香蕉国产免费天天拍| 午夜福利在线观看成人| 亚洲精品男人天堂| 超碰aⅴ人人做人人爽欧美| 一级爆乳无码av| 日本国产在线| 国产啪在线91| 国产成人欧美| 好吊日免费视频| 国产精品九九视频| 99久久国产精品无码| 国产成人免费观看在线视频| 日韩成人高清无码| 国产综合色在线视频播放线视| 免费无码又爽又黄又刺激网站| 成人午夜精品一级毛片| 97在线免费| 天堂在线亚洲| AV老司机AV天堂| 97精品伊人久久大香线蕉| a级毛片在线免费| av无码久久精品| 青草国产在线视频| 国产va在线观看免费| 亚洲无码91视频| 欧美中文字幕一区| 香蕉eeww99国产在线观看| 久草网视频在线| 国产福利大秀91| 国产你懂得| 国产精品无码影视久久久久久久| 欧美日韩午夜| 精品少妇人妻一区二区| 台湾AV国片精品女同性| 国模视频一区二区| 国产精品香蕉在线| 久热re国产手机在线观看| 国产草草影院18成年视频| 亚洲成a人片| 国产精品综合久久久| 九九视频免费在线观看| 东京热高清无码精品| www.91在线播放| 中文字幕永久视频| 欧美午夜精品| 免费看黄片一区二区三区| 亚洲欧洲日本在线| 制服丝袜国产精品| 久久精品人妻中文系列| 国产精品不卡永久免费| 国内精品九九久久久精品 | av尤物免费在线观看| 亚洲热线99精品视频| 亚洲黄网视频| 国产在线欧美| 国产精品手机在线观看你懂的| 国产综合在线观看视频| 日本91在线| 香蕉在线视频网站| 天堂在线亚洲|