999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物醫學領域全文期刊多類型文件量化分析

2017-03-21 10:50:08,,
中華醫學圖書情報雜志 2017年3期

,, ,

在科研文獻呈指數增長的大背景下,文獻中的非文本型(圖片、表格、數據等)文件逐漸累積。隨著數字出版技術的興起,隨之而來的是科技期刊、文獻及其包含的非文本文件的全新展現形式和交互方式:在線閱讀、圖片的展示與檢索、表格的動態操作、數據的外部鏈接等等[1]。非文本型文件的內容大多簡單易讀,能直接反映文獻所涉及的研究內容、研究方法和研究結果,對文獻內容的描述具有不可替代的作用。尤其是在生物醫學領域,圖片等是醫學知識傳播的重要載體。研究人員在閱讀醫學類文獻時,首先會關注到文獻中的圖表信息,對圖表信息的感興趣度也會直接影響到研究人員閱讀科技文獻的方式。

由于全文文獻中的非文本型文件類型多樣、描述信息復雜,對其管理造成了困難。到目前為止,各大出版社、圖書館在基于非文本型文件的文獻聚類與檢索領域的工作已開展相關研發工作[2]。本文以生物醫學領域全文期刊為研究對象,量化分析多類型文件的類型與規模等信息,并尋求有效的管理和利用方法,進而充分利用文獻的各類資源。

1 相關研究

數字出版是期刊文獻中多類型文件量化分析的前提,其相關技術的不斷發展豐富了科技期刊的出版形式,使文獻的閱讀不僅限于面上文字。視頻、外部鏈接等附件形式的出現,提升了讀者的閱讀興趣。20世紀 90 年代互聯網技術快速崛起,數字出版技術也隨之興起[3]。在經歷了多年的迅猛發展之后,全球數字出版產業發展勢頭趨于平穩,我國數字出版產業繼續保持強勁增長勢頭。2014年國內數字出版產業整體收入規模為 3 387.7 億元[4],2015年為4 403.85億元,比2014年增長30%。其中,互聯網期刊、電子圖書、數字報紙的總收入為74.45億元,比2014年增長了6.66%[5-6]。

數字出版的興起和發展,使得科技期刊的出版形式、傳播手段、閱讀方式、市場主體等都發生了巨大變化[7]。國際上領先的出版商,包括 Thomson、John Wiley、Springer、Elsevier 等都已依托數據庫,建立了成熟的專業化數字出版模式。與此同時,圖書館和機構知識庫作為科技期刊和科技文獻的重要載體,也在著力研究數字出版技術、數據庫存儲和管理技術等。

華盛頓大學的Po-shen Lee等人[8]對科技文獻中圖片類文件的存在現狀進行了統計,并對其進行了識別和分析:按照方程、示意圖、照片、線性圖和表格將PMC文獻中的圖片分為5類(包括對組合圖的拆解),其中線形圖占比最多,為35.0%;其次為照片,占22.7%。為了方便文獻中圖片文件的檢索和查詢,該團隊還在此研究基礎上開發了VizioMetrix檢索系統,支持對PMC文獻的圖片文件按照方程、示意圖、照片、線性圖和表格進行分類檢索和閱讀,并可以通過點擊圖片獲得其所在文章的相關信息,如作者、摘要、鏈接和相關文件等。

美國密歇根大學的Zhe Chen等人[9]研發了一種科技文獻中圖片的分析與識別工具DiagramFlyer。該工具能夠識別出153 000篇文獻中的319 000個圖片信息,并解析出圖片的文本標簽,如圖片的坐標軸信息、圖例信息等。用戶可使用關鍵詞檢索的方法對圖片進行檢索。

本文對生物醫學領域全文文獻所包含的所有文件類型進行了解析和量化分析。

2 數據處理

2.1 數據集

本文以PMC(PubMed Central)收錄的1 815種期刊中包含的891 334篇文獻作為研究數據。PMC將期刊全文按照JATS(Journal Article Tag Suite)標準存儲[10]在nxml文件中,其他附件如圖片、壓縮包、數據文件、視頻等附在對應的nxml文件所在文件夾中。通過對JATS標準的文件內容進行標簽解析,將提取出所需標簽內的數據存儲到MongoDB數據庫中,附件則以文章名稱命名的方式與該期刊全文進行映射,同時進行結構化存儲。

一篇PMC的全文文獻可以大致分為3個主體部分,分別用,,back>標簽[11-12]標記。為了能夠實現文獻中所有附件的相互映射,實驗通過提取標簽中的信息,得出文獻的PMC編號,以此編號重命名該文獻中的所有附件。再通過標簽獲取文中表格的相關信息,如表格的首行內容、表格的首列內容等,并統計其包含的表格數量。本文所使用的標簽及其含義如表1所示。

表1 科技文獻圖表結構化描述信息的提取方法研究所使用的JATS標簽及其含義

2.2 處理流程

對數據集進行了初步結構化存儲之后,共獲得891 334篇文獻,其附件數量為9 613 877。根據附件后綴名和附件表現形式將其分為幾個大類以便對期刊全文多類型附件能進行更直觀的分析。分類方法如表2所示。

表2 全文期刊附件類型分類統計表

經統計,圖片在附件中所占的比例為80.91%,表格在附件中的比例為14.89%,分列附件所占比例的前兩位,二者共占附件總數的95%以上,而文檔、數據、視頻、網頁、壓縮包等其他格式則只占附件總數的5%。由此可見,圖片和表格是期刊文獻中對實驗流程及實驗結果的主要展示形式。因此,圖片和表格是本文中多類型文件量化分析的重點。為了對生物醫學領域全文期刊中多類型附件進行進一步分析,本文根據JATS數據存儲標準,對全文文獻進行解析,并將提取出來的標簽信息存儲在MongoDB數據庫中。再從附件多樣性、附件數量、出版時間、出版來源覆蓋面等方面進行期刊遴選,最終篩選出30種目標期刊。

選取這30種期刊1996年至2015年期間刊載的文獻作為下一步實驗數據。期刊種類的權重篩選方法如下:首先通過標簽提取出文獻所屬期刊名稱,統計出所有期刊下所包含的文章數量;然后通過提取出該文獻的出版時間,統計每年該期刊下所包含的文章數量,同時根據名稱映射得到期刊文獻對應附件的相關信息。本文以期刊附件的多樣性和數量級為權重值進行篩選,最終得到BMCBioinformatics、PLoSComputationalBiology等30種期刊作為實驗數據,總計251 458篇文章。實驗流程圖如圖1所示。

圖1 多類型文件量化分析的實驗流程

3 結果分析

3.1 多類型附件的時間變化

如圖2所示,壓縮包、視頻、數據和文檔這4類附件的坐標軸為左側主坐標軸,圖片使用的坐標軸為右側副坐標軸。該柱狀圖展現了30種目標期刊在1996-2015年附件類型的變化趨勢。

從圖2可以看出,在2006年之前,全文期刊中的附件數量是比較少的,從2006年以后才開始快速增長;在2014-2015年期間出版的文獻中,壓縮包的數量為3 949個,視頻的數量為8 516個,數據文件的數量為31 862個,文檔的數量為52 545個,圖片的數量為1 445 167個。

圖2 1996-2015年目標期刊附件數量的變化趨勢

由圖2可以看出,2014-2015年的數量是其他4類附件總數的15倍左右,可見圖片在當前的生物醫學領域全文期刊附件中占比相當高。相比其他附件,作者更傾向于使用圖片作為論文內容的展示形式。同時, doc/docx格式在文檔類附件中所占比例在80%以上,jpg/jpeg格式在圖片類附件中所占比例在50%以上,說明這兩種格式在科技論文的發表及展示過程中尤為常見。因此對于我們后續的分析有較高的研究價值。

3.2 圖片/文章數比例變化趨勢

為了獲悉每篇科技文獻中圖片的出現頻率,統計了這30種期刊每年的文章數量及圖片數量,得出文章數量變化趨勢圖和圖片/文章數量變化趨勢(圖3、圖4)。

圖3 1996-2014年目標期刊文章數量變化趨勢

圖4 1996-2014年目標期刊圖片/文章數量變化趨勢

2005年以前PMC收錄這30種期刊的文章數比較有限,從2005年開始呈現大幅度的增長,2006年收錄4 635篇文章,2014年增至42 374篇。圖片/文章數也從2006年的平均10.7張/篇,增長到了2014年的20.69張/篇。由于2005年之前每年的文章數量比較少,因此統計出的圖片與文章數之比參考意義不大。

統計分析結果顯示,自2005年期刊文章數量與篇級圖片數均有有顯著增長,這與數字出版行業的發展密切相關。生物醫學領域開放獲取期刊電子化程度也越來越高,存儲PMC的相關文章也開始逐漸增多。通過對統計數據的調查研究發現,PMC的圖片附件中一般對于圖片都保存有低分辨率和高分辨率兩個版本,低分辨率圖一般作為網頁縮略圖展示使用,而高分辨率圖一般在作為圖片解釋頁使用。同時,在部分期刊中有大部分的數學公式是以圖片的形式存儲的。這些因素導致我們統計結果中圖片與文章數之比相對較高,但眾多的圖片數量仍然體現了圖片在文獻中的重要作用。

4 結語

本文發現非文本型(圖片,表格、視頻等)文件急劇增長,且圖片和表格的占比較高、增速較快。科技文獻中的圖片和表格將作為下一步研究對象,將從圖像和表格管理與利用、圖片和表格標簽信息提取與挖掘等方面開展的研究,如圖片和表格類型的識別,圖片和表格文本以及語義標簽的提取等。通過對文獻的非文本文件的分析,將提高全文科技文獻的存儲管理及挖掘利用。

主站蜘蛛池模板: 欧美日韩专区| 久久久久青草大香线综合精品 | 日韩午夜伦| 91国内在线视频| 国产区在线观看视频| 久久这里只精品国产99热8| 欧美国产综合视频| 国产av一码二码三码无码| 国产视频大全| 亚洲自偷自拍另类小说| 白浆免费视频国产精品视频| 午夜福利在线观看入口| 日本www色视频| 九九香蕉视频| 最新加勒比隔壁人妻| 日韩区欧美国产区在线观看| 免费观看国产小粉嫩喷水 | 亚洲成人动漫在线| 成人国产精品2021| 漂亮人妻被中出中文字幕久久| 在线观看精品自拍视频| 毛片a级毛片免费观看免下载| 久久久久九九精品影院| 亚洲国产欧美中日韩成人综合视频| 中文字幕有乳无码| 99热国产在线精品99| 国产在线精品人成导航| 亚洲精品动漫| 拍国产真实乱人偷精品| 欧美亚洲香蕉| 国产精品自在在线午夜| 91区国产福利在线观看午夜| 97se亚洲综合不卡| 97视频在线观看免费视频| 成人国产免费| 狠狠色综合网| 免费A级毛片无码免费视频| 91无码视频在线观看| 日韩一区二区三免费高清| 97在线国产视频| 国产在线小视频| 精品91在线| 亚洲精品你懂的| 91精品国产91欠久久久久| 中文无码精品A∨在线观看不卡| 蜜芽一区二区国产精品| 久久semm亚洲国产| 婷婷激情亚洲| 亚洲高清资源| 一级成人a毛片免费播放| 亚洲中文字幕无码爆乳| 国产成人精品亚洲77美色| 亚洲欧洲日本在线| 国产午夜精品一区二区三区软件| 亚洲成人精品在线| 一本大道无码日韩精品影视| 欧美成人综合在线| 毛片久久网站小视频| 一级毛片在线免费视频| 免费网站成人亚洲| 美女无遮挡免费视频网站| 中文字幕在线日韩91| 国产a v无码专区亚洲av| 国产亚洲欧美日韩在线观看一区二区| 亚洲国产精品成人久久综合影院| 高清码无在线看| 国产成人麻豆精品| 日韩黄色大片免费看| 五月婷婷丁香色| 四虎成人在线视频| 秘书高跟黑色丝袜国产91在线| 国产区福利小视频在线观看尤物| 亚洲精品福利视频| 亚洲免费毛片| 国产情侣一区| 一本无码在线观看| 中文字幕欧美日韩| 国产91小视频在线观看| 国产区人妖精品人妖精品视频| 日韩第一页在线| 熟女视频91| 青青青国产视频|