999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然語言語義庫構建方法研究

2019-11-15 06:54:34楊菊英
重慶理工大學學報(自然科學) 2019年10期
關鍵詞:頁面語義單詞

楊菊英,江 兵,羅 佳

(1.電子科技大學成都學院 計算機系, 成都 611731; 2.四川農(nóng)業(yè)大學 商學院, 四川 都江堰 611830)

自然語言處理(natural language processing,NLP)是為了模擬人與機器之間的通信而提出[1-3]。語義語料庫構造是實現(xiàn)這一目標的有效方式,可以幫助人們組織、計算和分類語言作為數(shù)據(jù),以便人們更客觀和全面地理解這些數(shù)據(jù)以及這些數(shù)據(jù)表示的意義[4-5]。云計算是存儲語義語料庫的有效方式[6],其關鍵技術是對機器的自然語言的理解和推理。

Francis和Kuceral建立了第一個名為Brown的全球計算機可讀語料庫[7-8]。目前,語義語料庫的構建受到研究者越來越多的關注,出現(xiàn)一些英語基礎語料庫,如LOB,Bank of English和ACL/DCI等[9-10]。中文常用語料庫包括人民日報注釋語料庫、ZW大型漢語語料庫系統(tǒng)、TH通用語料庫系統(tǒng)和現(xiàn)代漢語語法研究語料庫等[11-12]。語料庫構建主要包括7個步驟:數(shù)據(jù)采集、刪除網(wǎng)頁鏈接、網(wǎng)頁清理、網(wǎng)頁解析、網(wǎng)頁內(nèi)容刪除、語料庫存儲和文本向量化。文獻[13]提出了一種從多語言文檔圖像中提取打印和手寫字符以構建語料庫的有效方法,該方法使用連通分量分析方法來移除圖形,引入了多種類型的功能和AdaBoost算法,以更通用和更健壯的方式對打印和手寫字符進行分類。文獻[14]提出了用于多文檔摘要的新的hMDS語料庫,其中包含來自多種文本類型的異構源文檔以及具有不同長度的摘要。在語料庫的構建方面,提出了一種新的構建方法,該方法適合于構建大型、異構的摘要語料庫。

文獻[16]提出一種面向充滿語義框架注釋的需求文檔語料庫,通過選擇合適的語義幀和相關的幀元素,由兩個注釋器手動標記每個需求語句,為編寫軟件提供可靠的自然語言注釋。文獻[17]用語料庫和語義詞典的聯(lián)合詞匯表示學習,該方法在語義詞典給出的關系約束下,對句子中兩個詞的共現(xiàn)進行變分預測。文獻[18]提出一種基于動態(tài)信任語義庫的Web服務匹配算法,該方法根據(jù)可信實體的服務描述構建動態(tài)的語義庫,在模糊語義情況下,匹配效果更好。文獻[19]給出了漢語口語互動分級語料庫的構建,該語料庫為國內(nèi)首個漢語口語互動分級語料庫。隨著機器人和大數(shù)據(jù)的發(fā)展,現(xiàn)有語義庫出現(xiàn)一些缺陷,如構建規(guī)模小、查詢速度慢等,而云計算的發(fā)展使得云環(huán)境下的語義庫構建規(guī)模不再受限,并縮短了查詢速度,有效解決現(xiàn)有語義庫的缺點。

本文主要關注網(wǎng)頁鏈接刪除、網(wǎng)頁內(nèi)容刪除和文本向量化,提出了一種在云服務下構建基于自然語言的語義語料庫的方法,即基于TF-IDF和向量距離的Web內(nèi)容重復數(shù)據(jù)刪除算法。該方法專注于解決語音識別中的存儲問題,它為分詞和句法分析提供功能支持。文本分段jar包基于名為ansj的開源項目,語法分析jar包基于Standford Parser。基于上述算法,選擇并矢量化非重復語料庫,然后將其存儲在Hbase中,實驗結果表明了該方法的有效性。

1 動態(tài)構建語料庫

1.1 Web鏈接和內(nèi)容重復數(shù)據(jù)刪除

Web爬蟲程序?qū)W(wǎng)頁進行爬蟲處理以獲取內(nèi)容, 每個網(wǎng)頁通常嵌套有指向其他一些頁面的鏈接,因此爬蟲解析的鏈接可能會重復。如果多次抓取一個網(wǎng)頁,可能會導致不必要的死循環(huán),這可能會降低爬蟲的整體效率。有兩種方法可以消除重復的頁面:① 刪除重復的Web鏈接;② 刪除從網(wǎng)頁中提取的重復內(nèi)容。本節(jié)主要關注鏈接重復數(shù)據(jù)刪除方法的研究,包括鏈接標準化和鏈接重復數(shù)據(jù)刪除。

1.1.1鏈接標準化

標準化的目的是檢查是否URL已被抓取或未被抓取,以減少重復的頁面并避免時間和內(nèi)存消耗。URL的組成如下:protocol://hostname[:port]/path/[;parameters][?Query] #fragment。表1描述了URL地址標準化的標準。

1.1.2Web鏈接重復數(shù)據(jù)刪除

Web鏈接重復數(shù)據(jù)刪除方法的主要思想是基于BloomFilter:密鑰的哈希值將通過多個哈希函數(shù)分配給大位數(shù)組,然后檢查哈希的對應位是否為1,以判斷密鑰是否存在。當且僅當所有哈希值都為1時,密鑰才存在,否則它不存在。該方法通過優(yōu)化BloomFilter的復雜參數(shù)、哈希函數(shù)的個數(shù)和位陣列的大小,可以盡可能地降低錯誤率。此方法將為每個任務創(chuàng)建一個新的BloomFilter,而如果任務數(shù)量很大,則可能發(fā)生內(nèi)存溢出,基于BloomFilter的方法更適合單任務爬蟲。

表1 規(guī)范化URL過程

在本文方法中,爬蟲任務是單一的,這使得資源成本相對較小,不會導致內(nèi)存溢出。同時,如果使用基于BloomFilter的網(wǎng)頁鏈接去重方法確實會出錯,那么系統(tǒng)可能只爬蟲幾個鏈接,而不會重復爬蟲相同的鏈接。

盡管這些網(wǎng)頁具有不同的URL地址,但Web內(nèi)容可能大致重復或完全重復。但是,Web爬蟲程序無法自動識別重復的內(nèi)容,因此本文設計了一種算法來消除重復的Web內(nèi)容。

根據(jù)網(wǎng)頁的整體布局和內(nèi)容,復制可以在以下4種情況下進行:① 完全重復的頁面,即頁面的整體布局和內(nèi)容完全相同;② 內(nèi)容重復頁面,即頁面整體布局不同,頁面內(nèi)容相同;③ 局部重復頁面,即頁面的總體布局是相同的,但是頁面的內(nèi)容是不同的;④ 部分重復頁面,即頁面的整體布局是不同的,一些網(wǎng)頁內(nèi)容是相同的。

1.2 TF-IDF和文本矢量化

詞頻-逆文本頻率 (term frequency-inverse document frequency,TF-IDF)是一種評估方法,可以對一個字詞的重要程度進行評估,這一字詞的重要性與其在文件中的出現(xiàn)次數(shù)成正比,與其在語料庫的出現(xiàn)頻率成反比,式(1)~(3)給出了TF-IDF的實現(xiàn)[20]。

文件中詞語ti的重要性可表示為

(1)

其中:詞ti在文件di中出現(xiàn)的次數(shù)用nij來表示;∑knk, j表示dj中所有字詞出現(xiàn)次數(shù)的總和。

IDF能度量一個詞語的重要性,式(2)給出了詞ti的IDF表達式。

(2)

其中語料庫中文件總數(shù)由|D|表示,式中分母表示包含詞語ti的文件數(shù)目。為了避免該詞語不在語料庫中導致分母為0的情況發(fā)生,將分母修正為1+|{j∶ti∈dj}|。之后得出該詞語的TF-IDF:

tf-IDFij=tfij×IDFi

(3)

由上述3式可知,對于某詞的高詞頻和低文件頻率能夠得到高的TF-IDF,TF-IDF的優(yōu)點是對文件中詞語進行過濾,保留了重要詞語,將常見詞語過濾掉。

采用文本表示法對爬蟲語料庫進行分割,過濾掉常用的停止詞,提取特征向量詞,計算特征向量的權重,最后生成文本的向量空間集。在文本矢量化中,有兩個任務:特征向量的選擇和每個特征向量的權重計算。

1) 特征向量提取是將文本分割成中文分詞,去除無用詞,將文本轉(zhuǎn)化為由單詞組成的無序集合,可以表示為式(4)。

d=(W1,…,Wn)

(4)

其中:d是語料庫文本;W是文本中的特征向量。

2) 由于文本中每個特征向量的重要性不同,因此有必要給出一個直觀的數(shù)字來顯示文本中的權重。根據(jù)先前提出的TF-IDF算法,可以定義每個特征向量的權重,如式(5)所示。

Wi=TF(wi,d)×IDF(Wi)

(5)

3) 在計算每個特征向量的權重之后,可以將文本表示為由特征向量組成的多個特征向量集,從而完成文本向量化的過程:

d=W={W1,…,Wn}

(6)

2 構建詞庫

本文將詞庫分為普通詞庫和領域詞庫,數(shù)據(jù)存儲在關系數(shù)據(jù)庫MySQL中,該數(shù)據(jù)庫存儲id、字、詞性、字頻和字段。

1) 詞性標注。根據(jù)句子的語法構成,詞性標記在文本分割后標記每個單詞的正確詞性。這是一個判斷每個單詞的詞性并對其進行標記的過程,例如名詞以及動詞、代詞、形容詞、輔助詞或單詞的其他部分。有些單詞具有多種詞性,可以稱為多類詞,系統(tǒng)可以根據(jù)自定義詞典和域詞庫智能識別相應的詞性。本文使用分詞工具Ansj來分詞,這是基于隱馬爾可夫模型(HMM)的。

2) 字頻率計數(shù)。字頻率計數(shù)用于關于每個單個字的分詞,由于存在多類別詞,因此也會識別出同一個詞的不同詞性。通過計算語料庫中每個單詞的頻率,獲得結果可以可視地描述詞匯的分布。

3) 領域詞的提取。使用文獻[15]中的方法來提取域字。該算法由3個子函數(shù)組成:語料庫預處理,語義模型提取和域表示挖掘。

4) 語料庫預處理。使用Ansj完成中文分詞和詞性標記,在語料庫中找出名詞,形容詞和其他單詞,然后過濾出“是”這樣的單詞,這些單詞經(jīng)常以動詞的形式出現(xiàn),但實際上具有很少的意義。

5) 語義模型提取。通過比較語義向量之間的余弦角相似度來確定候選字段詞中的詞擴展部分之間的語義結合強度,可以獲得更準確的候選字段字,矢量的余弦角相似度計算如下:

(7)

其中A和B是兩個向量。

6) 領域代表性挖掘?qū)印J褂肞ageRank算法來計算字段中每個單詞組件的重要性,候選域詞中最具代表性的詞匯表是通過添加和排序獲得的,從而提高域詞提取的效果。

在提取當前語料庫中的字段詞之后,可以擴展和豐富域語庫。

3 改進的網(wǎng)頁刪除算法

基于TF-IDF和單詞向量的距離,提出了一種新的Web內(nèi)容去除算法,具體描述如下:

首先,TF-IDF模型用于從文本中提取關鍵字,然后通過Word2Vec單詞向量訓練關鍵字,以找出文本中最接近關鍵字單詞向量的幾個單詞。通過比較這些詞,可以確定網(wǎng)頁的內(nèi)容是否重復,具體算法如下:

1)使用TF-IDF獲取關鍵字。

① 首先分割文檔并刪除無意義的停用詞。

② 然后根據(jù)式(8)計算詞頻TF:

(8)

其中:count(w,d)表示文件d中詞w的頻率;size(d)是文檔d中的單詞總數(shù)。

③ 之后計算逆文檔頻率(IDF),即整個文檔集合中文檔總數(shù)與文檔編號之比的對數(shù)。

④ 最后計算TF和IDF的乘積為單詞w的TF-IDF。

2)使用Word2vec訓練單詞,提取類似于文檔的關鍵詞。

Word2vec通過核心模型CBOW和Skip-gram,對給定的語料庫,通過優(yōu)化訓練模型將詞語轉(zhuǎn)化成向量。CBOW(continuous bag-of-words model)模型中,當前詞的預測概率是通過上下文決定的。上下文中所有詞對當前詞的影響權重是相同的,通過分層訓練策略,分為輸入層,隱藏層和輸出層,單隱層的訓練結構如圖1所示。

圖1 CBOW模型

Skip-gram模型與CBOW模型方向相反,其訓練策略輸入層是單個單詞,通過訓練,Word2vec將文本轉(zhuǎn)化為詞向量,Skip-gram模型見圖2。

圖2 Skip-gram模型

本文使用Word2vec的CBOW模型進行分層訓練單詞,對待處理文本進行預處理,提取類似于文檔關鍵詞步驟如下所示。

① 使用Word2vec將劃分的單詞訓練到bin中文件。

② 使用LoadModel方法加載bin文件下的相關路徑,并選擇前5個相似的關鍵字。

③ 通過單詞匹配判斷重復的頁面。如果超過3個關鍵字相似,則該網(wǎng)頁被視為重復的關鍵字,不應包括在內(nèi)。

4 實驗結果與分析

本節(jié)對文本W(wǎng)eb內(nèi)容刪除算法進行了評估。實驗使用的指標有精確率Precision和召回率Recall,并將Simhash算法與本文算法進行比較。一個好的算法通常具有較高的精確率和召回率,而這兩個標準是相互制約的,只能采取適當?shù)姆椒▽烧弑3衷谙鄬^高的值。

驗證網(wǎng)頁是否處于基于TF-IDF和數(shù)據(jù)集字向量距離的網(wǎng)頁刪除算法中的標準,即判斷兩個文本的關鍵詞是否相同,Word2Vec找到多少個與關鍵詞最接近的詞,使得算法具有最高的精度。將500個文本作為數(shù)據(jù)集抓取,其中包含50個文本,其內(nèi)容重復,這意味著對原始文本進行少量修改。根據(jù)不同匹配的數(shù)目,算法的精確率和召回率如表2所示。

表2 不同匹配數(shù)的性能指標

從表2中的數(shù)據(jù)可以看出:當匹配數(shù)為3時,文檔的精度率和召回率相對較高且穩(wěn)定,因此將匹配數(shù)設置為3是合適的。這是因為隨著匹配數(shù)的增加,使得確定文本內(nèi)容是否重復的難度增加,則檢測到重復文檔隨著減少。根據(jù)實驗數(shù)據(jù),在本文算法中,當匹配數(shù)是3時,檢測到正確重復文本的數(shù)量最大,使得此時的精確率和召回率都是最高的。

將Simhash算法與本文算法進行比較。本實驗使用500個文本作為數(shù)據(jù)集,其中包含25個完全重復內(nèi)容的文本,以及25個內(nèi)容相似的文本。本文算法選擇3作為匹配數(shù),兩種算法的精確率和召回率如表3所示。

表3 不同算法的性能對比

從表3可以看出:與算法Simhash相比,本文算法在精度和召回率方面表現(xiàn)明顯更好。這是因為本文語義庫是在云環(huán)境中構建的,結合了云計算的處理海量數(shù)據(jù)、提供超強計算能力及數(shù)據(jù)可靠存儲等特點,使得本文語義庫構建規(guī)模不受限,提高了精確率和召回率,同時保證了查詢速度。對于本文算法,兩個實驗中的數(shù)據(jù)集是不同的。表2和表3之間的比較表明:當文本相似時,本文算法的精確度和召回率更高。

可以看出,本文提出的網(wǎng)頁重復數(shù)據(jù)刪除算法在精確度和召回率方面有明顯的提高,并且區(qū)分網(wǎng)頁的重復內(nèi)容時更為有效。

猜你喜歡
頁面語義單詞
大狗熊在睡覺
刷新生活的頁面
語言與語義
單詞連一連
看圖填單詞
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
同一Word文檔 縱橫頁面并存
最難的單詞
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 无码电影在线观看| 精久久久久无码区中文字幕| 国产精品亚欧美一区二区三区 | 精品视频91| 国产成人啪视频一区二区三区| 日本亚洲欧美在线| 国产成人免费| 无码高潮喷水在线观看| 亚洲第一网站男人都懂| 亚洲中文字幕在线一区播放| 亚洲日韩欧美在线观看| 亚洲三级色| 欧美午夜在线视频| 99一级毛片| 欧美日韩精品一区二区视频| 国产真实自在自线免费精品| 伊人AV天堂| 亚洲妓女综合网995久久| 制服无码网站| 青青国产在线| 99这里精品| 亚洲国产欧美自拍| 蜜臀AVWWW国产天堂| 精品亚洲欧美中文字幕在线看 | 亚洲一区国色天香| a毛片在线| 亚洲视频四区| 亚洲娇小与黑人巨大交| 亚洲全网成人资源在线观看| 午夜在线不卡| 91精品国产丝袜| 国产视频久久久久| 国产精品理论片| 亚洲成人在线网| 国产精品林美惠子在线观看| 亚洲第一页在线观看| 国产亚洲欧美日韩在线一区二区三区| 91精品国产综合久久香蕉922| 亚洲综合香蕉| 欧美不卡视频在线观看| 色亚洲激情综合精品无码视频| 亚洲免费播放| 国产拍揄自揄精品视频网站| AV网站中文| 重口调教一区二区视频| 免费在线成人网| 最新加勒比隔壁人妻| 亚洲精品桃花岛av在线| 国产91在线|中文| 农村乱人伦一区二区| 麻豆精品久久久久久久99蜜桃| yjizz国产在线视频网| 婷婷色中文网| 亚洲第一在线播放| 国产一区亚洲一区| 91精品在线视频观看| 亚洲国产中文精品va在线播放 | 国产福利2021最新在线观看| AV老司机AV天堂| 91在线免费公开视频| 欧美特黄一级大黄录像| 欧美视频在线观看第一页| 日韩国产黄色网站| 婷婷在线网站| 亚洲网综合| 精品国产成人av免费| 日本免费新一区视频| 原味小视频在线www国产| 91福利免费视频| 91口爆吞精国产对白第三集| 亚洲综合激情另类专区| 国产日韩欧美中文| 久草国产在线观看| 国产又粗又猛又爽| 国产欧美视频一区二区三区| 国产日韩丝袜一二三区| 欧美午夜视频在线| 在线视频亚洲欧美| 亚洲欧美日韩另类| 国产激情在线视频| 自慰网址在线观看| 欧美福利在线播放|