999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內容特征的科學數據與科技文獻關聯研究

2018-01-10 07:33:13黃筱瑾
現代情報 2018年1期
關鍵詞:關聯科學特征

黃筱瑾

(成都理工大學圖書館,四川 成都 610059)

·理論探索·

基于內容特征的科學數據與科技文獻關聯研究

黃筱瑾

(成都理工大學圖書館,四川 成都 610059)

科學數據和科技文獻是科研成果產出的兩個重要表現形式。科技數據與科技文獻關聯分析對于實現集成信息服務、促進知識發現和完善E-science環境具有重要意義。文章從科學數據和科技文獻的元數據出發,從兩者的元數據描述中提取出表達內容特征的元數據項,并利用向量空間模型進行特征的相似性計算,從而關聯科學數據與科技文獻。

科學數據;科技文獻;元數據;向量空間模型;特征提取

隨著科學數據的高速增長和科學數據驅動的科研范式的逐步形成,科學數據在整個科研流程中的重要性越來越受到重視。對于科研工作者而言,學術資源已不再僅僅是指期刊文獻和專著等傳統文獻類型,科學數據和科研記錄資料等也逐漸成為科研人員學術信息需求的重點。將科學數據與現有的基于科技文獻的科研信息支撐系統有效地關聯,提供高質量集成信息服務,進而提高科學研究活動效率,成為一個迫切需要解決的問題。

開展科學數據與科技文獻之間的關聯對于科學數據的獲取與共享、科學數據的復用和科研創新、科技文獻的評價與評審乃至學術交流體系的轉變等都有極其重要的意義。為此,一些研究者也開展了相關的研究,文獻[1]以Elsevier出版集團的科學文獻與科學數據關聯實踐為研究對象,深入分析其4種關聯方式;文獻[2]分析了科學數據的不同來源以及科學數據與科技文獻的不同關聯模式;文獻[3]分析了當前期刊、出版商、數據庫商等不同主體,探索通過期刊與數據互聯、數據庫服務、科學數據期刊等途徑提供關聯服務的嘗試;文獻[4]基于引文進行了科學數據與科技文獻關聯研究。同時,本文作者在對科學數據與科技文獻的關聯研究中,提出了基于元數據進行兩者的關聯,并就關聯的模式及可行性進行了分析[5]。在該研究的基礎上,本文從科學數據和科技文獻的元數據中提取出表達內容特征的元數據項,基于內容特征進行科學數據與科技文獻的關聯研究。

1 內容特征提取的可行性分析

特征是對一個客體或一組客體特性的抽象結果。科學數據和科技文獻的特征都可以分為外部特征和內部特征。科學數據的外部特征是指創建者、數據來源、發布機構、數據量、格式、語種等與其表達內容沒有過多關系的特征,內部特征是指數據名稱、關鍵詞、摘要(簡介)等表達數據內容的特征。科技文獻的外部特征是指著者、著者單位、著者機構等,而內部特征是指題名、摘要、主題詞、關鍵詞等反映文獻內容的特征。如果能提取科學數據和科技文獻的內容特征,并建立他們之間的關聯,就能將其背后的科學數據與科技文獻關聯起來。

1.1 科學數據內容特征提取的可行性分析

科學數據是指各類科技活動產生的原始性基礎性數據及按照不同需求加工后的數據集和相關信息[6]。作為一種信息資源,科學數據的具體格式和類型包括:觀察模擬數據;分類術語表;數學表達式;分子、化學、基因表達式;結構、物理、計算模型;表格、圖形、圖表、地圖、圖片;實地與試驗筆記等。科學數據由于其具有數據的大量性、不均勻性、不規整性、動力學性、高維性等特點[7],對其特征進行描述是比較困難的。作者對一些科學數據庫及共享平臺進行了研究分析,其在對科學數據的特征進行揭示時,主要是通過元數據來進行描述的。元數據以其互操作性、可擴展性、語言互用性、可映射性等特點,已成為科學數據管理的基礎,目前各科學數據倉儲大多使用元數據來描述科學數據的外部特征和內容特征,進行科學數據的管理以及實現不同平臺間科學數據的交換與整合。

作者在對國內建設得比較完善的10個科學數據平臺做了分析[5]。這些科學數據平臺通過元數據來描述數據本身的特征和屬性,從而利于科學數據的存儲、利用和管理。各科學數據平臺多以DC定義的15個基本的核心元數據作為科學數據基本元數據。除此之外,再根據各學科科學數據的特點,進行有效拓展,定義一些和基本元素不重復的新元素。從調查發現,主要的元數據描述項包括數據名稱、格式、關鍵詞、摘要(簡介)、數據量、語種、分類、數據來源、創建者、其他貢獻者、創建日期、發布機構、關聯信息、范圍(時間范圍、空間范圍)、聯系信息等。

國外的科學數據倉儲平臺同樣通過元數據進行數據描述。Dryad數據庫旨在實現對進化生物學領域期刊論文的支撐數據的保存、發現、復用和管理的科學數據倉儲[8]。

Dryad的元數據描述以DC元數據元素為基礎,融合了其他元數據標準的元素。目前Dryad的元數據元素包括數據名稱、類型、作者、國家、提交日期、可獲取日期、卷期、DOI識別符、引用、統一資源標識符、描述、主題詞、關聯信息(來源文獻DOI識別符、來源文獻PMID號)。PANGAEA[9]是一個地球環境科學領域的數據倉儲,PANGAEA允許數據提交者通過使用都柏林核心、DIF或ISO 19115元數據標準進行地球環境科學科學數據的描述。目前PANGAEA的元數據元素主要包括數據名稱、關聯信息(來源文獻DOI識別符)、摘要、空間范圍、空間參數、知識共享署名許可協議、引用和責任方信息等。基于此,從元數據中提取科學數據的內容特征既具有高效性又具有可行性。

1.2 科技文獻內容特征提取的可行性分析

元數據的目的之一是用于有效地描述文獻的原始數據,保存文獻數據的內在本質,特別是對于文獻類電子資源。雖然,元數據的出現是網絡發展的產物,但是從其出現之初,就受到了圖書館界和數據庫商的青睞。圖書館在建立數字圖書館時,數據庫商對文獻類電子資源進行發展、推廣和應用時,都迫切需要一種標準和規范來描述文獻類電子資源的原始屬性,因此,元數據成為對文獻原始屬性進行描述的一大選擇。文獻[10]對萬方等幾個數字圖書館系統元數據使用情況進行了統計。中科院文獻情報中心的研究人員也針對期刊論文的元數據描述規范進行了專門的研究,其元數據元素見表1[11]。由此可見,一篇科技文獻可以從它的元數據元素中提取題名、主題、描述等來表示科技文獻的內容特征。因此,從元數據中提取科技文獻的內容特征同樣是具有可行性的。

表1 期刊論文元數據構成

由此可見,元數據已經廣泛地存在于文獻數據庫和科學數據倉儲中,為兩者的關聯提供了較為豐富的數據基礎。表2中對科學數據與科技文獻的元數據元素進行對比,在元數據元素名稱上雖然兩者的表述方式存在差異,但是其描述的實質內容卻是一樣的,特別是在內容特征元素的描述上是可以相互映射的。通過提取兩者元數據中的標題、摘要、關鍵詞等文本描述字段,可以進行兩者內容特征的關聯,從而實現科學數據與科技文獻的關聯。

表2 科學數據與科技文獻元數據映射表

2 基于內容特征的科學數據與科技文獻關聯方法

基于以上的研究分析,本研究通過對科學數據和科技文獻元數據項中的內容特征進行提取,并對提取的特征信息進行相似性計算,從而判斷科學數據和科技文獻是否具有內容相似性,見圖1。

利用文本進行相似性計算的方法有多種,本研究主要采用向量空間模型(Vector Space Model,VSM)進行文本特征表示,通過TF-IDF方法進行特征的權值計算,采用余弦相似度計算方法來衡量資源對象的相似性。

圖1 科學數據與科技文獻關聯圖

向量空間模型的基本思想是[12]:設自然語言文本表示為D,預定義的特征詞集合表示為(T0,T1,…,Tn-1。通過計算機自動分詞并計算出相應特征詞的權重(W0,W1,…,Wn-1)后,文本D可用特征項及相應的權重表示為D(T0,W0,T1,W1,…,Tn-1,Wn-1),其中n為文本D所含特征詞的個數,Ti為某一特征詞,Wi為根據某種規則計算出的該特征詞的權重。若不考慮Ti在文獻中出現的先后順序且Ti,i=0,1,…,n-1互異時,可以把(T0,T1,…,Tn-1)看作是一個n維坐標系,(W0,W1,…,Wn-1)則代表該坐標系構成的n維空間中的一個點或向量,這個向量為文本D的向量表示或者向量空間模型。

使用TF-IDF(Term Frequency-Inverse Document Frequency)方法進行特征的權值計算,文獻Di中第j個特征詞的權值Wij可以通過TF×TIF得到,其中TF(Term Frequency)和IDF(Inverse Document Frequency)分別表示術語頻率和逆文檔頻率。TF用于度量特征詞在特定文獻的重要程度,其值越大說明這個特征詞越能反映文獻的核心問題。文獻Di中第j個特征詞術語頻率為:

(1)

其中,|Tj|表示在文獻Di中特征詞Tj出現的次數,|Di|表示Di中所有單詞的個數IDF用于度量特征詞在整個文獻集中的重要性。一般來說,整個文獻集包含某一項T的文獻越多,則表明這個特征項在該文獻集中區分不同文獻的能力較差,對特定文獻的專指度也比較低,因而其值也就越小。Di中第j個特征詞的倒文本率為:

(2)

其中,Num表示文獻集中的文獻總數,df(j)表示在所有被分析的文獻中,包含了特征詞Tj的文獻數目。根據公式(1)、(2)分別計算出某特征詞的TF和IDF值,并將這兩個值相乘就得到了該特征詞的權值。從科技文獻的元數據文本內容中抽取的特征向量表示為D(Ti0,Wi0,Ti1,Wi1,…,Tin-1,Win-1),其中Ti表示第i個文本特征項,Wi表示該特征項的權重,從科學數據的元數據文本內容中抽取的特征向量表示為Sj(Tj0,Wj0,Tj1,Wj1,…,Tjm-1,Wjm-1,其中Tj表示第j個文本特征項,WJ表示該特征項的權重。

當文本以向量形式表示時,文本的相似度用文本特征向量的距離來衡量,即使用向量間夾角θ的余弦來計算,余弦計算正好是一個介于0~1的數,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性:

(3)

3 實例分析

選用國家地球系統科學數據共享平臺中的“青藏高原東緣森林生態系統土壤有機質和養分數據”[13]作為測試數據,在科技文獻的選取上,采用人工判定的方法,選取了4篇相關性的文獻及2篇不相關的文獻,具體見表3。通過對該科學數據與各科技文獻的特征向量進行相似性計算,來驗證該科學數據與科技文獻的相關性是否與人工設定的一致。

表3 實驗分析來源數據

我們利用文本特征詞提取工具ROST TF-IDF[14]及內容挖掘工具ROST Content Mining分析科學數據及科技文獻的元數據中表示內容特征的元素項的文本內容,ROST TFIDF嵌入了tf-idf Chinese模塊,根據特征詞權重的TF-IDF量化方法原理,對文本進行分詞和詞頻統計,得到“逆文本頻率指數”IDF和TF以及TF*IDF的值,見圖2。提取出科學數據和各科技文獻的特征向量,通過公式3進行科學數據與預先設定的科技文獻的相似性計算和判定,結果證明通過向量空間模型計算出的科學數據與科技文獻的關聯性與人工判斷的關聯性是一致的。

圖2 ROST CM使用過程圖

4 結 語

近年來,一批具有高使用價值的科學數據共享平臺逐步建立起來并投入使用,同時,地球科學、生物學、空間科學、材料科學等學科領域在科學數據元數據的標準、結構、管理體系、互操作性等方面進行了研究,建立了相應的科學數據共享服務的元數據體系結構,這些都為筆者從科學數據與科技文獻的元數據中提取內容特征奠定了良好的基礎。本文提出了從題名、主題、描述等元數據項中提取科學數據與科技文獻的內容特征,通過向量空間模型進行兩者相似度計算,從而進行科學數據與科技文獻關聯的方法。在實踐過程中還會涉及元數據收割、元數據映射等相關內容。同時,由于自然語言的復雜性,提取出的特征詞在表達對象內容時可能存在語義上的不確定性。針對以上問題,將在今后進行更加深入的研究。

[1]衛軍朝.科學文獻與科學數據關聯實踐研究——以Elsevier為例[J].國家圖書館學刊,2017,(3):93-101.

[2]孫文佳,常娥.科學數據與科技文獻關聯分析[J].圖書館理論與實踐,2017,(3):49-53.

[3]邱春艷.期刊文獻與科學數據的關聯服務研究[J].情報資料工作,2014,(2):63-66.

[4]郭學武.基于引文的科學數據與科技文獻關聯研究[J].情報科學,2014,(4):59-62,125.

[5]黃筱瑾.基于元數據的科學數據與科技文獻關聯研究[J].情報理論與實踐,2013,(7):27-30.

[6]鄭淑容,趙培云.科學數據共享管理:問題及對策[J].中國科技成果,2003,(23):8-10

[7]秦健.元數據與科學數據信息的組織與管理[EB].2004年數字圖書館前沿問題高級研討班.http://www.docin.com/p-19306708.html,2015-04-04.

[8]黃如花,邱春艷.Dryad數據倉儲的元數據管理[J].圖書館雜志,2014,(1):68-73.

[9]PANGAEA[EB].https://www.pangaea.de/?t=Oceans,2017-07-17.

[10]金更達.文獻類電子資源元數據發展淺議[J].大學圖書館學報,2003,(6):15-19.

[11]我國數字圖書館標準規范建設:期刊論文描述元數據規范[EB].https://wenku.baidu.com/view/7934fe2bccbff121dd3683 a4.html,2004.5.

[12]劉斌,陳樺.向量空間模型信息檢索技術討論[J].情報雜志,2006,(7):92-93,91.

[13]國家地球系統科學數據共享服務平臺.青藏高原東緣森林生態系統土壤有機質和養分數據[EB].http://www.geodata.cn/data/datadetails.html?dataguid=243357923654808&docId=576,2017-07-17.

[14]ROST虛擬學習團隊.ROST Content Mining System User Manual[EB].http://wenku.baidu.com/view/e7a62df3f90f76c661371a 76.html?re=view,2017-04-02.

LinkStudyofScientificDataandScientificLiteratureBasedonContentFeatures

Huang Xiaojin

(Library,Chengdu University of Technology,Chengdu 610059,China)

Scientific data and scientific literature are two important forms of scientific research outputs.Link application of scientific data and scientific literature plays a vital part in realizing integrated information service,facilitating knowledge discovery and improving e-science environment.The paper extracted content features from the metadata of both,used vector space model to perform similarity calculation of content features.So then,it associated the scientific data and scientific literature on the basement of content features.

scientific data;scientific literature;metadata;vector space model;feature extraction

10.3969/j.issn.1008-0821.2018.01.008

G257.3

A

1008-0821(2018)01-0056-04

2017-09-13

四川省高校人文社會科學重點研究基地科研項目“社會科學數據與社科文獻關聯性研究”(項目編號SCAA14B18)。

黃筱瑾(1984-),女,館員,碩士,研究方向:信息資源組織與建設。

(實習編輯:陳 媛)

猜你喜歡
關聯科學特征
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
如何表達“特征”
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
奇趣搭配
抓住特征巧觀察
智趣
讀者(2017年5期)2017-02-15 18:04:18
科學
科學拔牙
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 久久狠狠色噜噜狠狠狠狠97视色| 亚洲高清日韩heyzo| 老司国产精品视频91| 亚洲国产成人久久77| 中文字幕人妻无码系列第三区| 2022国产无码在线| 国产h视频免费观看| 国产视频一区二区在线观看| 亚洲第一福利视频导航| 国产免费网址| 狠狠亚洲婷婷综合色香| 天堂成人av| 午夜性爽视频男人的天堂| 久久夜色撩人精品国产| 51国产偷自视频区视频手机观看| 国产成人精彩在线视频50| 午夜一级做a爰片久久毛片| 福利一区三区| 欧美亚洲另类在线观看| 欧美专区在线观看| 91精品福利自产拍在线观看| 欧美天堂久久| 亚洲无码37.| a毛片基地免费大全| 国产在线八区| 免费又黄又爽又猛大片午夜| 成人自拍视频在线观看| 国产精品久久久久久久久久久久| 九九这里只有精品视频| 男女男免费视频网站国产| 国产精品露脸视频| YW尤物AV无码国产在线观看| 四虎综合网| 亚洲精品国产综合99久久夜夜嗨| 亚洲中文字幕av无码区| 亚洲爱婷婷色69堂| 欧美一级专区免费大片| 九九九精品视频| 精品色综合| 亚洲人成人伊人成综合网无码| 欧美成人手机在线观看网址| 熟妇丰满人妻| 国产欧美日韩va另类在线播放| 欧美啪啪网| 精品国产美女福到在线不卡f| 日韩免费中文字幕| 91久久天天躁狠狠躁夜夜| 四虎亚洲精品| 日韩亚洲综合在线| 色综合天天操| 呦系列视频一区二区三区| 欧美黑人欧美精品刺激| 日韩精品免费一线在线观看| 久久国产亚洲欧美日韩精品| 亚洲一级色| 2020久久国产综合精品swag| 国产欧美日韩资源在线观看| 青青极品在线| 美女被躁出白浆视频播放| 99精品这里只有精品高清视频 | 高清视频一区| 男女精品视频| 亚洲av成人无码网站在线观看| 国模视频一区二区| 国产97公开成人免费视频| 久热re国产手机在线观看| 亚洲人成网站色7777| 久久熟女AV| 亚洲综合九九| 91精品国产91久久久久久三级| 国产精品主播| 成人小视频在线观看免费| 一本大道香蕉久中文在线播放| 国产精品深爱在线| 国产精欧美一区二区三区| 免费观看男人免费桶女人视频| 欧美日韩一区二区三| 超清无码熟妇人妻AV在线绿巨人| 国产成人高清亚洲一区久久| 国产精品部在线观看| 色综合日本| 久久国产精品影院|