999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HanLP關鍵詞抽取與句法分析的圖譜構建

2022-11-26 10:02:10閆博
電子元器件與信息技術 2022年9期
關鍵詞:頁面詞匯

閆博

黑龍江工商學院,黑龍江 哈爾濱 150001

0 引言

關鍵詞抽取和句法分析是知識圖譜構建過程的重要組成部分,其準確性直接決定了知識圖譜構建的最終效果。知識圖譜由谷歌在2012年提出,伴隨著人工智能和大數據的飛速發展,已經廣泛應用于智能搜索、自然語言處理、智能問答、個性化推薦等諸多領域[1]。垂直知識圖譜是面向特定領域的知識圖譜,具有較強的專業性,廣泛應用于專業領域問題的解決,關鍵詞抽取是知識圖譜構建的重要環節[2]。目前,關鍵詞抽取的研究中包括:基于TextRank方法并與信息熵、情感分析、邏輯回歸等方法進行算法融合,以及基于TF-IDF(Trem Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)、TopicRank等方法的關鍵詞抽取[3]。此外,依存句法分析也被應用在關鍵詞的抽取、語義角色標注等研究中。

本文采用爬蟲技術對目標網站的C語言課程內容進行采集。使用HanLP自然語言處理軟件中的CRF分詞技術切割文本,借助scikit-learn工具包中的TfidfVectorizer()方法實現TF-IDF算法并抽取關鍵詞,利用HanLP中的parseDependency()方法實現基于神經網絡的依存句法分析器。對關鍵詞和句法分析結果進行融合,最后使用Graphviz繪制圖像。

1 數據獲取

本研究以全球著名開源代碼庫GitHub中提供的課程項目C-CrashCourse為數據樣本,目標網址為https://github.com/hairrrrr/C-CrashCourse。C-CrashCourse開源項目為C語言初學者提供了從入門到高級的在線學習資源,項目以中文為講解語言,包含了知識點介紹和C語言代碼實例,具體內容模塊劃分為:導航、C語言程序設計—現代方法導讀、C語言初級、C語言進階、C語言陷阱與缺陷、C經典練習題等。本研究以“C語言程序設計—現代方法導讀”包含的24個課程內容為研究案例,使用Python爬蟲代碼庫requests對網頁進行批量采集,使用XPath選擇頁面路徑并進行內容提取,保存到JSON格式文本文件中。

數據采集包含兩個頁面層級,首先獲取主網頁https://github.com/hairrrrr/C-CrashCourse的信息,提取24個課程詳情頁面鏈接,針對詳情頁面進行內容提取并保存。主頁面、詳情頁面的關鍵信息提取規則,如表1所示。

表1 頁面主要信息XPath提取規則

詳情頁面的提取結果使用join()方法進行字符串拼接、使用replace()方法去除掉空白字符,并使用JSON格式存儲。最外層為數組,用來保存24個詳情頁面的信息;第二層為對象,key為詳情頁面名稱,value為頁面詳細信息對象;第三層為頁面文本信息和代碼信息,分別用key為“info”和“value”的對象內容表示。

2 HanLP分詞

HanLP是一款主流的人工智能自然語言處理軟件,提供多語言分詞、詞性標注、命名實體識別、關鍵詞提取、文本分類等功能,并支持Java、C++、Python等主流編程語言。HanLP的官方網站https://www.hanlp.com/提供了免費的開源項目、功能文檔,以及種類豐富的語料庫,并支持語料庫的自定義。

本研究使用HanLP提供的條件隨機場(Conditional Random Field,CRF)自然語言處理模型,進行中文分詞、命名實體識別、詞性標注[4]。

中文分詞采用BMES詞位法,即詞首、詞中、詞尾、獨立詞,基本原理如下面公式所示。其中,t代表詞位順序、c代表字序列。

然后將句子進行原子切割,并進行實體標注。采用當前位置的前后n個位置上的詞,確定特征函數,公式如下所示。其中,x為句子,y為實體標注序列。

CRF訓練模型參數wk的公式如下所示。

本研究選擇“9.數組”中“三變長數組(C99)”的文本內容,作為分詞過程的演示案例,將該文本樣例稱為“文本樣本1”。使用HanLP中的CRF分詞技術,獲取分詞結果并保存到JSON格式文件中。在抽取關鍵詞之前,根據nature中詞性的劃分,過濾掉非核心詞匯,保留詞匯的詞性如表2所示。

表2 保留詞性對照表

將過濾后的詞匯,拼接成空格間隔的字符串,用來進行后續的分析操作。

3 基于TF-IDF算法抽取關鍵詞

TF-IDF用來評估一個字詞對于一個文件集或一個語料庫中的一份文件重要程度[5]。其核心思想是,如果某個詞或短語在一篇文章中出現的概率高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類,常用于樸素貝葉斯。TF表示詞頻,計算公式如下所示,其中m表示某個詞語在一篇文章中出現的次數,n表示文章總詞數。

IDF表示逆文檔頻率,計算公式如下所示,其中N為總文檔數量,M為某個詞出現的文檔數量,使用M+1作為分母是為了避免文章未出現該詞導致分母為零的情況發生。該值用來衡量一個詞語的普遍程度。

本研究使用基于Python語言的開源機器學習工具包scikit-learn,借助sklearn.feature_extraction.text.TfidfVectorizer()實現TF-IDF,一共提取了75個詞匯。根據TF-IDF的計算結果從大到小排序,提取前10個詞匯,如表3所示。

表3 基于TF-IDF關鍵詞(前10)

在實際應用過程中,可以結合TextRank等抽取關鍵詞的算法綜合考量關鍵詞的選取,通過多次篩選提高關鍵詞選取質量;只提取權重值高于某個閾值的關鍵詞。此外,可以結合人工篩選和專業知識語料庫,篩選關鍵詞。本研究在使用TFIDF計算后,結合人工篩選的方法進一步提取關鍵詞,最終選取的核心概念詞匯包括:長度、變長數組、變長、數組、程序、函數、靜態、變量、表達式、編譯器、空間、編譯、動態內存、內存、常量等,將該關鍵詞集合定義為“詞匯表1”。

4 基于神經網絡的依存句法分析器

基于神經網絡的依存句法分析,通過分析句子內部的語法關系,將句子內部詞語的序列轉換為圖結構。常用語法關系包括動賓關系、左附加關系、右附加關系、并列關系、定中關系、主謂關系等。

依存語法是常用的語法體系,依存弧連接句子中兩個具有一定語法關系的語句,形成一棵句法依存樹。通過棧構建依存樹,從根節點root開始入棧,然后利用移進(Shift)、左規約(Left-Reduce)、右規約(Right-Reduce)三種狀態,將緩存中存儲的全部詞匯逐個壓入棧中。

神經網絡包括三個層次,輸入層(Softmax layer)、隱含層(Hidden layer)和輸出層(Input layer),模型設計來自Danqi Chen和Christopher D.Manning于2014年發表的論文《A Fast and Accurate Dependency Parser using Neural Networks》[6]。

本研究采用HanLP中的parseDependency()方法實現基于神經網絡的依存句法分析器,分析結果如圖1所示,一共包含262條數據,定義為“數據集1”。

圖1 基于神經網絡的依存句法分析示例1

通過對圖1中的序號進行關聯,可以確定詞匯之間的關系。例如,第9行的詞匯“數組”跟第10行的詞匯“變量”為定中關系。通過獲取每行數據信息的LEMMA、DEPREL、HEAD.LEMMA得到的關聯信息,一共包含262條數據,定義為“數據集2”。

將“數據集2”根據“詞匯表1”進行篩選,去除標點、單獨文字等無效的內容,最終得到53條數據,定義為“數據集3”。提取結果示例如圖2所示。

圖2 基于神經網絡的依存句法分析示例2

5 可視化圖像繪制

采用Graphviz繪圖軟件對依存句法分析器的分析結果進行圖像繪制。首先對“數據集2”的數據進行關系提取和圖像繪制,設置“核心關系”的詞匯為Root結點,并根據LEMMA、DEPREL、HEAD.LEMMA分別設置圖像中的結點詞語、依存關系詞語、依存父節點詞語。

由于繪制結果中包含了樣本段落中的全部信息,例如標點符號、單個文字等無效信息,導致圖片過于復雜,無法從中直接觀察有效的詞語關系。這里基于“詞匯表1”將“數據集2”進行刪減,只保留包含“詞匯表2”中的詞匯信息,然后再使用Graphviz繪制圖像,刪除孤立的結點,繪制圖像的結果如圖3所示。

圖3 依存語法分析結果圖示

根據上述分析結果,進一步采用HanLP中基于神經網絡的依存句法分析器,根據構建的依存語法樹,分析關鍵詞與關鍵詞之間的句法關系。例如,針對“主謂關系”和“動賓關系”提取三元關系,可直接用于構建知識圖譜。

6 結語

本文針對知識圖譜構建的關鍵步驟進行研究,通過CRF分詞、TF-IDF算法實現關鍵詞的抽取,利用基于神經網絡的依存句法分析器分析關鍵詞之間的關系,然后將抽取的關鍵詞與句法分析結果進行融合,繪制核心關鍵詞的句法分析結果。本研究為知識圖譜的構建提供了一種可行的思路。

猜你喜歡
頁面詞匯
微信群聊總是找不到,打開這個開關就好了
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
本刊可直接用縮寫的常用詞匯
本刊一些常用詞匯可直接用縮寫
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 毛片在线播放网址| 亚洲人成亚洲精品| 91精品人妻一区二区| 日韩精品中文字幕一区三区| 久久黄色影院| 久久黄色毛片| 日本在线视频免费| 成人一区专区在线观看| 亚洲综合日韩精品| 色综合天天视频在线观看| 久久久久亚洲Av片无码观看| 国产精品漂亮美女在线观看| 伊人五月丁香综合AⅤ| 欧美成人精品一区二区| 欧美区一区二区三| 国产永久在线观看| 伊人五月丁香综合AⅤ| 久久精品国产免费观看频道| 中文字幕调教一区二区视频| 一级全免费视频播放| 91在线免费公开视频| 日韩精品资源| 亚洲日本中文字幕天堂网| 免费一级毛片| 暴力调教一区二区三区| 国产情精品嫩草影院88av| 午夜小视频在线| 超碰91免费人妻| 又粗又硬又大又爽免费视频播放| 亚洲国产中文在线二区三区免| 午夜福利亚洲精品| 日韩在线中文| 国产成人综合亚洲欧洲色就色 | 99视频免费观看| 奇米精品一区二区三区在线观看| 五月天丁香婷婷综合久久| 精品国产免费观看| 亚洲中文无码av永久伊人| 国产91久久久久久| 国产一级二级三级毛片| 亚洲床戏一区| 香蕉久人久人青草青草| 久久夜色精品国产嚕嚕亚洲av| 麻豆精品在线视频| 国产成在线观看免费视频| 国产成人高清精品免费| 青草91视频免费观看| 亚洲欧洲一区二区三区| 波多野结衣一二三| 国产免费久久精品99re丫丫一| 国产成人一区在线播放| 久久久久亚洲精品无码网站| 她的性爱视频| 亚洲色图欧美| 中文字幕在线欧美| 中文毛片无遮挡播放免费| 1024你懂的国产精品| 99热这里只有精品免费| 免费观看国产小粉嫩喷水| 成人欧美在线观看| 黄色网站不卡无码| 美女免费精品高清毛片在线视| 色窝窝免费一区二区三区| 免费在线成人网| 超碰aⅴ人人做人人爽欧美| 日韩欧美色综合| 日韩精品无码不卡无码| 国产一在线| 亚洲美女一区| 高清不卡毛片| 亚洲精品国产首次亮相| 91亚瑟视频| 国产精品亚洲а∨天堂免下载| 亚洲欧美国产五月天综合| 亚洲日韩日本中文在线| 欧美区一区| 久久夜色精品| 无码国内精品人妻少妇蜜桃视频| 亚洲国产亚洲综合在线尤物| 白丝美女办公室高潮喷水视频| 国产视频久久久久| 爽爽影院十八禁在线观看|