999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向非相關文獻的知識關聯檢索系統的設計與實現

2019-08-23 05:38:50劉愛琴安婷
現代情報 2019年8期

劉愛琴 安婷

關鍵詞:非相關文獻;知識關聯;中國分類主題詞表;計量分析技術;知識發現

Swanson首次提出的非相關文獻知識發現的基本發現模式,證明了非相關文獻之間存在著潛在關聯,為科學研究尋找新的線索提供了一種便捷、有效的輔助手段。現有的研究大多數是基于此模式進行的,黃水清等將此方法應用于漢語社會科學文獻,驗證了該方法對中文文獻同樣適用;李勇等在此基礎上提出了基于非相關文獻的三階知識發現方法,通過對3個文獻集分析發現潛藏的關聯,挖掘不同主題之間的關系;樓雯通過利用計量分析技術確定概念之間的關系強度,在本體的基礎上挖掘出概念間的關聯關系:邱均平等指出計量分析的館藏資源語義化方法在語義關系深度、計算機自動處理程度、可重復性和實用性方面比基于元數據和領域本體的館藏資源語義化方法更好:通過對論文的題目或者關鍵詞進行關聯發現的語義化知識發現方法不足以更清晰、準確地反映文章的主旨,而從摘要中提取主題詞則更具有代表性。

因此,本系統利用《中國分類主題詞表》作為主題詞受控詞表,對文獻摘要進行中文分詞處理并提取主題詞進行標引.提取出文檔特征矩陣并利用計量分析技術和聚類技術分析文獻間特征的相似、相異水平,對非相關文獻之間的關系從更細的粒度層面進行挖掘,揭示非相關文獻的知識關聯。基于此,設計了面向非相關文獻的知識關聯發現系統.并基于該系統為用戶精確匹配相關的知識庫,采用TOP-K算法反饋用戶相關的文獻集,為用戶提供滿意度更高的知識發現及相關擴展服務。

1研究脈絡

首先,將中國分類主題詞作為受控詞表,利用主題詞標引與用戶個性化推薦中的標簽系統相類似的特征,對文獻進行標引。其次,文獻用主題詞作為標簽,由主題詞的層次結構以及主題詞間的語義關聯程度或相似程度,構建文獻的隸屬、相關結構,此層次結構具有文獻、文獻主題詞列表、文獻主題詞的重要程度標注。最后,借助知識相關算法,挖掘文獻之間的知識相關的關聯程度,并實現知識關聯地有效揭示。

1.1理論依據

《中國分類主題詞表》是我國第一部對照索引式的綜合性分類主題一體化檢索語言,是國內圖書館用來標引文獻的主要工具。它結合了分類法和主題法的優點,更加規范、科學,是一種具有較為豐富層次、嚴謹等級結構的檢索語言,也是一種檢索工具,其創建的知識體系圖譜,既描述了知識的等級體系,主題的語義關聯,還描述了這兩者的對應聯系,在一定程度上創造了知識。將《中國分類主題詞表》中的詞語作為檢索語言,重新編碼、組織,可以形成一定結構的主題詞數據庫。通過輸入的主題詞,結合電子化的詞表,瀏覽分類的詞等級樹不僅可以檢索到與其匹配的文獻信息,而且能夠查詢到特定類別和子類的文獻。

1.2研究方法

計量分析的主要方法有共詞分析、耦合分析和共引分析等,王日芬等指出共被引矩陣和耦合矩陣是基于引用關系的共現矩陣,這兩種分析方法是基于文獻間的引用情況、利用期刊引文網絡探討學科研究的交叉關系,或者是利用關聯規則挖掘、文本挖掘等現代數據挖掘技術探討學科間的相關性和交叉知識,來分析文獻之間的關系,無法實現對文獻內部隱含關聯的有效揭示。本系統首先采用共詞分析方法計算兩個主題詞共同出現的次數,以此為依據來確定兩者的關系強度。隨后,基于文獻提取出來的主題詞.獲取高頻主題詞的共詞矩陣,從更細的粒度層面利用Kmeans聚類的方法對文獻之間的關聯關系和關聯強度進行深入挖掘。

2面向非相關文獻的知識關聯檢索系統的設計與實現

2.1系統設計

依據非相關文獻的知識關聯特征,本系統設計的知識關聯系統從非相關文獻的關聯、用戶檢索詞與主題詞的關聯和知識的匹配與反饋3方面展開。非相關文獻的關聯是通過提取的主題詞表進行相關的關聯,用戶的檢索詞與語義子系統里的主題詞庫的解析,以及在知識庫中匹配相關的文獻庫并通過TOP-K算法反饋給用戶相關的文獻集,詳見如圖1所示。

首先,將資源進行知識描述并提取其特征.建立特征標引并存儲于知識庫中以待檢索訪問。其次.利用語義子系統對用戶的檢索詞進行語義分析與提取。最后,知識庫與語義子系統提取的主題詞進行關聯匹配并返回結果。該體系包括3個層次:

1)知識集成層

先將語料按照計算機可識別的結構整理存儲入知識庫:系統接收到文獻語料后.首先提取文獻的摘要進行中文分詞處理.將文獻的摘要切分成逐個的詞語,并將切分好的詞輸入到語義子系統中,然后通過語義系統的解析并使用經過人工規范化處理的中國分類主題詞表作為主題詞受控詞表,將解析后經過規范的主題詞表返回系統,并且將這些主題詞擴展到語義子系統的主題詞庫。最后收集整理子系統獲得規范化的主題詞表提取核心主題詞.并提取文獻特征利用計量分析技術以及聚類技術分析文獻間特征的相似、相異水平,揭示出文獻之間的潛在關聯并傳輸到存儲子系統。存儲子系統接收到數據后進行索引組織和存儲操作,將數據整理匯總存儲到知識庫中。完成文檔、語義以及知識的索引工作。

2)用戶檢索層

用戶登錄用戶界面上的檢索欄借助關鍵詞檢索、模糊檢索、相關機構檢索等檢索方式輸入目標信息,進行查詢檢索。該檢索是建立在語義關聯技術之上的語義檢索,獲取用戶需求概念后借助語義子系統的推理機依次進行特征描述、特征提取、概念擴展等處理,進而調用語義庫解析出用戶需求所對應的相關語義主題詞。

3)知識發現層

語義子系統解析出的用戶需求所匹配的語義子系統與知識庫的知識進行匹配,反饋回數據檢索子系統以相關的知識庫,再利用TOP-K算法,將關聯度最大的前K條記錄組成一個文檔集返回給用戶.最終借助文件打包器對聚合的文檔進行匯總打包.實現智能可視化知識獲取,將目標資源的全文信息以PDF文檔格式條理化、可視化地呈獻給用戶。用戶可繼續進行瀏覽、檢索或其他操作等。并且.根據2/8原則,檢索系統要對熱點檢索結果進行緩存操作,為之后的檢索提高效率,提高系統的檢索性能和可用性。取代先前簡單的檢索目錄,用戶即可獲得與其查詢內容相匹配的文獻數字資源的全文信息PDF匯編文檔,以期給用戶帶來更加智能化、便利化、柔性化的文獻資源發現服務。

2.2系統實現

2.2.1數據收集

本文從Web of Science的“中國科學引文數據庫SM'導出關鍵詞為“數據挖掘”和“管理”的相關文獻數據。其中收集關鍵字為“數據挖掘”的數據5000條和關鍵字為“管理”的數據5000條。提取這10000條文獻數據的摘要,對這些摘要進行中文分詞處理。

2.2.2中文分詞

中文文本挖掘技術,都是建立在“詞”的基礎上,但漢語文字中沒有類似英文文本中獨特的切分標志——空格。在漢語中,每個詞的長短不一,人在理解語義過程中,會下意識將詞從句子中突顯出來,分別進行理解,詞的組合構成句子,最終理解一句話的語義。對于計算機來說,理解語義的能力還不夠完善,需要一種其他的方式,對中文進行分詞處理。本系統采用Jieba中文分詞工具進行中文分詞,該分詞工具的中文分詞技術將機械匹配、詞頻統計、人工智能的中文分詞算法進行糅合,精確地將連續的字,切分成符合人理解的詞語,對詞進行切分的同時,對其打上詞性標簽。

1)機械匹配的中文分詞算法

機械匹配分詞技術采用人工創建詞典,該詞典中包含盡量多的詞語以達到最大匹配。本系統對一系列字符串使用預先設計好的規則,通過最大匹配原則匹配字典中的詞,機械地將字符串分割成子串,獲得最終的詞語序列。最大匹配原則使用簡單,切詞速度快,但由于詞語二義性問題,切詞的效果相對較差。

2)詞頻統計的中文分詞算法

機器學習的方法讓海量電子資源在沒有詞典的情況下也可以進行分詞。詞頻統計的中文分詞算法是以詞為基礎,詞是較穩定的文字組合。如果漢字之間的共現頻率較高,頻繁地將它們組合在一起使用,便可將其整體作為一個語義單元進行處理。本系統依據詞頻統計結果作為是否最終將這些漢字劃分到一個詞語中(即作為分詞)的依據。

詞頻統計的中文分詞算法基于某一個詞的出現概率只由當前詞語所在的上下文語義或者其他特征決定,而與其它因素都無關的原理。N-gram是一種統計模型的分詞手段,以詞共現的概率為依據,計算出整個句子合理出現的分數值,確定一個滿意分數值作為分界值,進行最終分詞。如此進行的分詞由于基于統計的方式.分詞統計模型需要大量文本才可以獲得較高準確率,這需要更大的語料庫和更長的切詞計算時間。

3)人工智能技術的中文分詞應用

神經網絡分詞算法是擴展到文本分析領域的特殊應用。本系統使用神經網絡算法將漢字組成復雜的神經網絡,由句子的輸入構建動態的鏈接表,經過計算獲得最終有效的分詞結果輸出。該方法要求大數據集和較高的計算密集度。由于單機處理時間消耗多,一般作為分布式服務進行實施,且技術要求非常高。

2.2.3自動標引

自動賦詞標引方法.可以自動地對切分好的文本標注主題詞及詞性,本系統采用比較常見的自動賦詞標引方是tf-idf。tf指的是特定詞在一篇文獻中出現的頻率,idf指的是該詞在其他文獻中出現的頻率。如果某個詞在全體文檔語料集中出現的概率比較低而在當前文檔中呈現的概率比較高,即tf越高、idf越低則說明此詞在當前個別文檔中比較重要,即可作為當前文檔的主題詞。使用該方法.可以很簡便地獲得一個文章或一段話的主題詞。

為了協調知識檢索“高召回率、高檢全率”地目標,本系統要求語料切詞粒度盡可能的細,達到詞語全部切分;為了更貼近檢索意圖,本系統將多種方法融合并借助詞典,獲得折中的切詞效果。

2.2.4特征提取與知識關聯提取

本系統將經過中文分詞后切分到的詞語,使用語義系統進行標準化操作,篩選出系統可識別并具有代表l生的詞語,作為最終特征,即進行自動賦詞標引。而其他一些在中分詞表中沒有出現的詞也同樣可以作為主題詞,這就涉及到自動增詞標引,在標引詞語的同時通過擴展重要詞擴展字典,賦予系統相對成長性。由于詞語間都會有有語義的相似性.一些詞可以使用另一些詞替換,來表示相同的含義。而主題詞一般比較規范,本系統通過將一部分語義相同的詞語轉化成主題詞,既縮減了文檔向量空間的大小,降低計算復雜性.同時使得知識關聯系統更加精煉,提高知識利用的效率。

本系統使用語義模型,提取出文檔特征矩陣,使用特征矩陣進行知識關聯隸屬度從屬關系挖掘,獲得知識關聯模型,詳見圖2。首先,使用KMeans對數據進行簡單的聚類,將數據分成3類,可以將語義相似度較高的文檔聚類到一起,從感性上理解各文檔之間的區分度和關聯程度。為了便于多維度數據的可視化,將高緯度數據經過PCA算法進行降維處理,獲得二維數據,并進行可視化。

圖2顯示數據集之間沒有十分明顯的界限,驗證了之前的假設,各學科相互融合的觀點。通過KMeans聚類,將數據分成3類,同時在使用時候,可以劃分為更多的類,縮小所尋找知識的范圍。使用LDA主題分析,得到圖3所示結果。

圖中主題1,可以通過算法、數據挖掘、優化、等詞語進行解釋,解釋結果詳見圖3。圖3清楚地顯示了被分到同一個主題的不同詞語的比重,利用該結果.可以將同一主題的相關知識進行整合,并通過主題詞共現方式提取知識關聯。圖3左側圓表示各主題,圓的大小表示主題重要程度,右側為解釋某一主題對應的詞,用一些詞解釋某一個主題。

本系統采用Doc2Vec模型,將語義蘊含在特征創建過程中,挖掘特征矩陣,獲得特征矩陣,并可以通過不同方法驗證各文檔、各主題之間的關系。通過語義挖掘,挖掘出各主題知識之間關聯,從而形象化的描繪主體間的關聯,詳見圖4所示。圖中展示的是各文檔之間的關聯.通過連線的粗細,可以將文檔之間的關聯通過線條鏈接起來,形成一個文檔關聯。

2.2.5語義檢索

對于一般用戶的檢索過程來說,直接輸入自然語言作為檢索詞被認為是自然而然的事情,但是這些非規范的檢索詞在檢索系統中無法匹配到其所需要的信息資源。為了提高檢索質量并為用戶提供靈活的檢索服務本系統采用語義檢索的方式為用戶提供服務.在語義檢索過程中,使用向量空間模型(Vector Space Model)來判斷檢索詞,即利用一個連續的稠密向量來刻畫一個詞的特征,該方法不但可以直接的刻畫出詞與詞之間的相似度,而且可以建立一個從向量到概率的平滑函數模型,使得相似的詞向量可以映射到相近的概率空間上。比如,在判斷“一只貓在床上走來走去”這句話時,在系統庫的語料中常出現“一只狗在床上走來走去”、“一只貓在床上跑來跑去”這樣的句子,那么,即使沒有見過這句話也可以從“貓”與“狗”(“走來走去”與“跑來跑去”)之間的相似性來判斷這句話出現的概率。

借助語義挖掘模型.進行各文檔之間通過相似度計算,可以獲得相似矩陣,借助文檔語義相似矩陣,構建語義挖掘系統。將主題詞:“算法”、“醫療”、“規則”、“數據挖掘”、“效率”、“評價”、“模型”、“知識”、“仿真”、“異常”、“安全”、“預測”、“組合”、“評估”、“治療”、“基因”、“融合”、“推薦”、“空間”導人模型,輸出一個Term-document矩陣A,如圖5上半部分所示。矩陣中的每一行A;,代表著詞典里的一個詞。矩陣的每一列A j,代表著語料里的一篇文獻。Aji表示詞wi在文獻Di中的重要程度(類似于因子分析)。則可以提取行向量作該詞的語義向量,列向量為文檔向量。本文所統計的w;詞頻是收集的語料文獻D;的摘要中統計的。

將主題詞和文獻都轉換成Embedding的詞向量與文檔向量,通過計算余弦相似度,如圖5下半部分所示,最后5行數字由兩部分組成,“:”右半部分表示分檔編號,左半部分表示相似度。每一行表示所輸入的主題詞與某一編號的文檔所具有的相似度.根據相似度進行檢索匹配保證了檢索結果質量。

在實際的檢索過程中,會得到數量極多的符合條件的記錄,在一般的知識檢索系統中,會反饋給用戶關聯度最強的前n條記錄,例如知網,每次檢索可以返回10、20、50條記錄等,為了精準高效地完成此任務.本系統采用Top-K算法,根據關聯度快速排序并獲得前K條記錄,即圖5所示的相似度極大的前K條數據。收集用戶瀏覽結果,記錄瀏覽次數,從中挖掘出更深度的知識關聯,用于用戶檢索過程中提高知識檢索的準確度和效率。

通過知識關聯揭示,使用計量分析、Kmeans聚類等方法,將知識中的顯l生知識、以及難以發現的隱性知識一并挖掘、提煉出來后,通過有效的組織方式存儲起來。在用戶提出知識需求時,本系統從預先建立好的知識庫中提取有效解決辦法,再借助語義子系統的分析,獲得切實可行的解決方案,并在方案實施過程中系統及時跟蹤評價實施效果,最終高效解決用戶的問題。

3結論

本文使用《中國分類主題詞表》作為主題詞受控詞表,對文獻摘要進行分詞處理,選取文獻的主題詞并進行標引,提取文獻核心主題詞及文獻特征,利用語義挖掘模型的分析技術對文獻進行語義分析,并利用計量分析技術和聚類技術分析文獻間特征的相似、相異水平,從更細的粒度層面對非相關文獻之間的關系進行挖掘.揭示非相關文獻的知識關聯。將語義關聯的文獻進行組織,并存儲。最后集成知識庫為知識關聯系統提供知識支持,為系統便捷高效的進行知識服務提供保障,通過語義子系統對用戶檢索詞的分析與規范,經過規范化的檢索詞與知識庫的知識特征進行匹配,采用TOP-K算法反饋用戶精確、關聯度高的前K條記錄,實現知識服務的高質量化。

在下一步研究中可以考慮通過對用戶信息的收集、分析提取出用戶的特征,然后將用戶的特征與文獻資源特征進行相關匹配,實現知識的精準推送。

主站蜘蛛池模板: 国产极品粉嫩小泬免费看| 2021精品国产自在现线看| 精品国产三级在线观看| 亚洲AV无码精品无码久久蜜桃| 亚洲欧洲一区二区三区| 超清无码一区二区三区| 日韩色图区| 日韩欧美成人高清在线观看| 午夜福利无码一区二区| 国内自拍久第一页| 亚洲精品第五页| 综合五月天网| 天天综合亚洲| 亚洲人成网站色7777| 久操线在视频在线观看| 黄色网页在线播放| 亚洲男人的天堂在线观看| 欧美精品1区| 91成人在线观看| 三级毛片在线播放| 久久精品中文无码资源站| 99久久国产精品无码| 亚洲免费三区| 亚洲无码四虎黄色网站| 国产在线视频欧美亚综合| 九一九色国产| 成人国产精品网站在线看| 精品国产欧美精品v| 97精品国产高清久久久久蜜芽| 大香网伊人久久综合网2020| 久久国产拍爱| 国产精品 欧美激情 在线播放| 白浆免费视频国产精品视频| 97成人在线视频| 色天天综合| 国产无码精品在线播放| 国内精品手机在线观看视频| 99精品国产自在现线观看| 国产欧美日韩综合在线第一| 日本精品αv中文字幕| 国产精品天干天干在线观看| 日韩欧美高清视频| 香蕉久久国产精品免| 日韩二区三区无| 全裸无码专区| 国产综合另类小说色区色噜噜 | 国产欧美精品午夜在线播放| 韩国v欧美v亚洲v日本v| а∨天堂一区中文字幕| 蝴蝶伊人久久中文娱乐网| 国产乱子伦手机在线| 亚洲欧美精品一中文字幕| 国产高清无码第一十页在线观看| 国产午夜人做人免费视频| 国内精自视频品线一二区| 一本色道久久88| 一级黄色网站在线免费看| 热伊人99re久久精品最新地| 秘书高跟黑色丝袜国产91在线| 亚洲国产AV无码综合原创| 亚国产欧美在线人成| 毛片网站在线看| 热热久久狠狠偷偷色男同| 国产免费好大好硬视频| 一级香蕉视频在线观看| 久久影院一区二区h| 国产福利免费视频| 国产男女免费视频| 亚洲天堂.com| 在线亚洲精品自拍| 中文字幕在线观| 亚洲综合第一区| 精品自窥自偷在线看| 伊人久久大香线蕉aⅴ色| 天天综合网在线| 四虎亚洲国产成人久久精品| 午夜爽爽视频| 99这里只有精品在线| 色综合天天娱乐综合网| 18禁高潮出水呻吟娇喘蜜芽| 久久特级毛片| 国产在线精品网址你懂的|