999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于統計的地質專業詞語識別方法

2020-06-19 08:45:58王宏朱學立曾濤喬東玉郭甲騰
軟件導刊 2020年4期
關鍵詞:文本方法

王宏 朱學立 曾濤 喬東玉 郭甲騰

摘要:中文分詞是地質大數據智能化知識挖掘難以回避的第一道基本工序。基于統計的分詞方法受語料影響,跨領域適應性較差。基于詞典的分詞方法可以直接利用領域詞典進行分詞,但不能解決未登錄詞識別問題。在領域語料不足的情況下,為提高地質文本分詞的準確率和未登錄詞識別率,提出一種基于統計的中文地質詞語識別方法。該方法基于質串思想構建了地質基本詞典庫,用以改善統計分詞方法在地質文本分詞上的適應性。采用重復串查找方法得到地質詞語候選集,并使用上下文鄰接以及基于位置成詞的概率詞典,對地質詞語候選集進行過濾,最終實現地質詞語識別。實驗結果表明,使用該方法對地質專業詞語識別準確率達到81.6%,比通用統計分詞方法提高了近60%。該方法能夠識別地質文本中的未登錄詞,并保證地質分詞的準確率,可以應用到地質文本分詞工作中。

關鍵詞:地質文本;中文分詞;質串;重復串;上下文鄰接;位置成詞概率

DOI: 10. 11907/rjdk.191648

開放科學(資源服務)標識碼(OSID):

中圖分類號:TP391

文獻標識碼:A

文章編號:1672-7800( 2020)004-0211-08

0 引言

地質大數據是信息時代背景下大數據理念、技術和方法在地質領域的應用與實踐,地質調查工作是獲取地質大數據的主要途徑。地質調查工作產生了諸如地質圖件、文本、表格等類型資料。目前,基于大數據平臺的非結構化地質數據組織、存儲和快速發現問題已基本得到解決,但在此基礎上構建智能化的地質知識挖掘系統仍需探索。

文本是地質大數據重要的數據形式,自然語言是文本信息的重要載體。詞是最小的能夠獨立運用的語言單位…,但由于中文詞匯之間沒有明確的分界符,需要先進行分詞才能作進一步的自然語言處理[2]。從信息處理角度看,地質文本是利用自然語言編寫的地質特點鮮明的語義數據[3]。中文分詞是智能化地質知識挖掘基礎,對地質文檔全文檢索、文本分類、自動文摘、地質文檔信息抽取及自動翻譯等應用具有重大意義。

在通用領域分詞中,基于統計的分詞方法應用廣泛。隱馬爾科夫模型( Hidden Markov Model,HMM)[4]、條件隨機場模型( Conditional Random Fields,CRFs)[5]和最大熵馬爾科夫模型( Maximum Entropy Markov Model,MEMM)[6]等是統計分詞方法中主要的分詞模型。在專業領域分詞中往往存在大量的專業詞匯,使得分詞效果不佳。為了改進專業領域中文分詞效果,學者們開展了大量研究工作。如Huan等[7]采用一種新型的個性化分詞詞典對網絡個性化服務中用戶的瀏覽文檔進行分詞。該方法受專業詞典所限,對未被收錄進詞典中的詞匯識別率較低;Qi等[8]將專業詞典特征與字向量相結合,使用神經網絡模型解決跨領域分詞適應性問題,但該方法受訓練語料影響較大。Bao等[9]通過使用雙向馬爾科夫鏈對正向最大匹配算法和詞頻統計算法進行改進,實現對特定領域文本快速、較為準確的分詞,但沒有考慮詞語的上下文信息,分詞效果仍有改進空間。

中文分詞技術在地質領域應用不夠廣泛,相關研究不多。Lan等[10]基于條件隨機場模型構建了針對地學領域的分詞方法,較好地識別出地質礦產類術語,但其采用自定義的方法對訓練語料進行標注,在語料庫標注、定義規范程度方面有待提高。陳婧汶等[11]使用一種基于雙語料庫條件隨機場模型方法對地質礦產文本進行分詞,取得了較好的分詞效果,但所采用的語料規模較小,分詞性能仍有改進空間。通常情況下,獲取大量、規范的領域語料進行模型訓練較為困難。因此,針對地質領域語料不足的情況,如何準確識別出地質專業詞語從而獲得較好的分詞效果值得研究。本文基于質串思想構建地質基本詞典庫,對通用分詞器的核心詞典庫進行擴充,在此基礎上提出一種基于統計的中文地質詞語識別方法。采用重復串查找方法得到地質詞語候選集,使用上下文鄰接以及基于位置成詞的概率詞典對地質詞語候選集進行過濾,最終實現對地質詞語的識別。

1 中文地質文本分詞

1.1 中文分詞技術

漢語中的漢字是書面表達的最小單位,但在含義表達和相關信息處理中,詞才是最小的語言成分。在漢語文本中,將詞與詞之間加上區分標記是中文分詞的主要目的,也是任何中文自然語言應用都必須進行的第一道基本工序[12]。只有完成了漢語文本的自動分詞,才能采用各種后續語言分析手段實現相應的智能應用。目前中文分詞已被應用在信息檢索、自動文摘、機器翻譯、同音字和多音字識別、文本校對、搜索引擎等方面。

基于詞典的機械分詞、基于語法和規則的分詞以及基于統計的分詞,是中文分詞領域的3種分詞方法。基于詞典的機械分詞在分詞過程中利用詞典作為主要資源,將文檔中的字符串在詞典中進行查找。如果找到,則進行切分,否則不予切分。由于可以利用相關領域的專業詞典,因此該方法具有較高的領域自適應性,但不能很好地解決未登錄詞識別以及分詞歧義問題,而且詞典的完備性不能得到保證。基于語法和規則的分詞法,其基本思想是在分詞的同時進行句法、語義分析,利用句法信息和語義信息進行詞性標注,以解決分詞歧義現象。因為語法知識、句法規則十分復雜,基于語法和規則的分詞法所能達到的精確程度遠遠不能令人滿意[13]。基于統計的分詞法是目前自然語言處理領域的主流分詞方法,該方法在已經切分好的分詞語料庫基礎上進行統計訓練,建立語言模型并最終實現分詞解碼。在跨領域使用統計分詞方法時,必須根據相應領域的分詞訓練語料進行語言模型訓練,但是分詞訓練語料需要大量專業人員參與,獲取代價高昂。

1.2 中文地質文本特點

地質文本指在各類地質工作中產生的文字性材料,包括各類地質報告、科技文獻、觀測記錄、質量檢查記錄以及質量體系運行的相關材料等。本文的地質文本包括各類地質報告、地質科技文獻等技術性文字材料。地質報告是完成下達的地質工作任務后,在系統整理和綜合研究各種相關資料基礎上編寫的反映地質工作成果的重要技術文件。地質科技文獻是分析、研究、闡述地質科學技術問題的文章,是地質研究成果的書面表達,是地質客觀事物和科學規律的總結與闡釋[14]。

地質文本相較于一般技術性文本,不僅具有結構嚴密、邏輯關系明顯、語言嚴謹、陳述客觀等特點,還具有其自身特點。

(1)地質文本內容涉及知識面廣,領域眾多。地質學涉及學科廣泛,理論知識龐大、紛繁復雜。諸如自然科學中的數學、物理、化學,社會科學中的哲學、歷史等,都與地質學研究緊密相關,形成一系列交叉學科,如數學地質、地球物理、地球化學、地史學等[15]。同樣,地質工作涉及多種工作手段,如地質填圖、鉆探工程、物探、化探、巖礦測試等。一項地質工作往往需要通過多種工作手段的實施才能得以完成,因此所形成的地質文本內容涉及專業領域眾多,知識面廣。

(2)地質文本形式多樣。地質文本源于地質工作的實施,地質工作性質決定著地質文本的性質。地質工作實踐性很強,在地質工作實施過程中,會產生不同類型的地質文本,如在固體礦產勘查工作實施過程中,會形成地質填圖、剖面測量、探礦工程、采樣及樣品測試分析等工作手段相關的技術類文檔資料。在同一工作手段下,也往往包含不同種類的地質文本,如在開展地質填圖工作過程中會產生各類野外記錄,包括地質觀察點記錄、實測剖面記錄、重砂取樣記錄、物化探測量記錄、物化探取樣記錄、礦產調查記錄等。

(3)地質文本中包含了海量專業詞匯。地質學作為自然科學的一大分支,經過長期的認識和探索,形成了一個相對獨立的學科體系,包含了大量富有學科特色的專業術語。如文獻[16]在地質專業詞匯中,礦物名稱、巖石名稱、化石(古生物)名稱占比很大。以巖石名稱為例,在沉積巖、變質巖、巖漿巖基礎上細分而來的巖石種類有上千種。同時,由于采用的分類方法不同而產生更加繁多的巖石命名。地質學在與不同學科的交叉滲透中形成了眾多邊緣學科,這些學科的興起增加了地質詞匯量[17]。

(4)地質文本具有專業的表達形式。任何一門學科都有其特有的表達形式,如化學用分子式表述、電學用正負號表述、數學用方程式表述等。在地質文本中,除了使用自然語言外,還需要大量使用圖、表、符號、公式等。其中,圖表是地質文本常見的兩種表述方法。在地質文本中,表格具有形式簡潔、內容豐富、信息可靠、層次清晰等特點,常用來表達背景條件、比較前提、使用方法、實測(或實驗數據)、統計資料、誤差分析、對比分析等內容。地質圖件是地質成果的載體,是地質文本的核心內容,也是地質學最好的表述方式。只要有地質工作,就必然要編繪地質圖件,哪里有地質工作,哪里就有地質圖件[8]。很多實際應用中,僅靠對文字報告的理解掌握相應的地質資料是比較困難的。相反,一張精確的圖件,再配以文字表述才能更好地理解資料。

(5)客觀陳述性描述(定性與定量描述)。觀察經驗事實并加以歸納的認識方法是地質學的基本方法[18],在地質文本中存在大量的定性描述,如在描述一塊巖石時,主要從巖石的顏色、結構、構造、主要礦物組成等方面進行描述并獲得巖石定名。在地質研究中,只做到定性描述地質現象是不夠的,除定性敘述外,還應該有嚴密的量化數據,比如礦物成分、地質體厚度、礦體品位等。在地質工作過程中,定性描述與定量描述是相互統一、互為補充的。例如,在巖石描述與定名中,除了強調從巖石的各個特征進行描述外,還需要對礦物成分做估算,這有助于提高巖石定名的準確度。

1.3 地質詞語特征

地質學是完全由國外輸入的一門近代科學[19],因此地質詞語中有相當一部分詞來自外文直譯,如角閃巖、花崗巖、白堊、侏羅、三疊等。與此同時,在地質學發展過程中,有許多名詞實際上是物理化學生物及其它有關學科借用而來的,特別常見于礦物和古生物名詞,如礦物學中的大批化學名詞、結晶學中的幾何名詞。相關學科對地質學影響很大,不但借用了許多名詞,甚至連造名詞方法也全部應用。如古生物學上的命名法仍然完全采用生物學上的命名法,即用希臘文用作屬名拉丁文用作種名。

地質學經過不斷發展產生了大量地質專業詞匯,形成了一套嚴密的命名原則和方法,具有明顯的專業性、科學性、簡明性和系統性。例如,巖石地層單位可分為正式巖石地層單位(群、組、段、層等)和非正式地層單位(帶、凸鏡體、巖丘、礁等),非正式巖石地層單位的地理專名不能與“組”、“段”、“層”等術語連用,以區別正式地層單位。

中文地質詞匯在構成上遵循漢語規律,大部分詞語都是由單音節或雙音節構成的,富有漢語特征,簡明扼要而含意深刻。有的一字、一詞都確切反映出概念的分化原則,清晰地區分出一事物與它事物的不同,表達出事物的特征和屬性。地質詞匯包含大量的復合詞,在這些復合詞中,絕大多數是復合名詞。在地質詞匯中的復合名詞(如:地質羅盤、鹽丘、鉆頭等)中,前一個組成部分通常是修飾詞,詞性多為形容詞、名詞、動詞等,后一個組成部分為被修飾詞。除此之外,在地質名詞中,往往包含地名、人名,如太原組、山西組、郯廬斷裂等。

1.4 地質文本分詞粒度

文本應用目標不同,對分詞的要求也不同甚至是矛盾的,當前技術水平還做不到百分之百的正確切分。漢語中詞語或詞組的界定還沒有統一確定的標準,從而導致不同的信息處理場景對切分標準有不同要求。

一般將中文分詞分為兩個粒度:①粗粒度切分,將詞語作為語言處理最小的基本單位進行切分;②細粒度切分,不僅對詞匯進行切分,還要對詞匯內的語素進行切分。

例如:原始串:河南省西南部為南陽盆地,具有明顯的環狀和階梯狀地貌特征。

粗粒度切分:河南省/西南部/為/南陽盆地,具有/明顯的/環狀/和/階梯狀/地貌特征。

細粒度切分:河南省/西南部/為/南陽/盆地,具有/明顯的/環狀/和/階梯狀/地貌/特征。

在實際應用中,粗粒度切分和細粒度切分都有使用范圍。粗粒度切分主要用于自然語言處理的各種應用,而細粒度切分常應用于搜索引擎。對于地質文檔檢索系統,常用的方案是在索引時使用細粒度分詞以保證查全率,在查詢時使用粗粒度分詞以保證查準率。

2 識別方法

基于統計的分詞方法在跨領域應用方面存在較大缺陷,而基于詞典的方法由于可以直接使用相應領域的詞典進行分詞,具有較強的領域適應性,且領域專業詞典的獲取相比語料庫而言要容易很多。因此,如果把這兩種方法結合起來,采用統計的方法合理應用詞典,則可實現對地質專業詞語的正確切分。

基于統計的分詞方法是目前自然語言處理領域的主流分詞方法,比較有代表性的分詞系統為ICTCLAS分詞系統、Ansj中文分詞系統、結巴分詞等。如果直接使用通用分詞器對地質專業文檔進行分詞,分詞效果往往不佳,主要表現為以下3點:①由于通用分詞器所使用的核心詞典對地質專業詞匯覆蓋不全,即便是最基礎的地質詞匯往往也不能正確切分,所以在這些切分錯誤中往往會存在分詞碎片,如包含一些被切分開來的兩個或兩個以上的連續單字,一般情況下這些單字組合就是一個地質詞匯;②新詞判別問題。地質分詞是一個反復迭代過程,在這個過程中,需要不斷將發現的新詞收錄到詞典當中。基于統計的中文分詞器往往具有新詞發現功能,需要解決如何判斷這些新詞是否正確;③有意義串的提取問題。在地質領域中,重要的命名實體包括地層名、巖石命名、斷裂名、構造名、礦體名、礦帶名等。地質作為一門實踐性很強的自然科學,其研究對象通常具有一定的空間特征,這種特征在地質實體命名時也有所體現,如“東昆侖山多金屬礦帶”、“中天山成礦帶”、“欒川鉬(鎢)礦床”、“龍河林場一滿歸斷裂”等,這些詞匯屬于地質術語范疇,是對特定地質體的表述,在語義上具有唯一性,在領域內往往不能拆分理解,如“欒川鉬(鎢)礦床”往往不能理解為“欒川的鉬(鎢)礦床”。有意義串的提取對提高大數據環境下地質文檔查準率具有重要意義。

上述3個問題在自然語言處理領域屬于新詞識別問題。在地質文檔中,具有地學意義的地質詞語或短語在文檔中會多次使用,即會在文檔中反復出現。因此,找出文檔中的重復串,便可得到地質詞語的候選集合。基于統計的分詞法受統計模型影響,大多只能發現4個字以內的詞語。基于規則的分析法領域局限性大,如果切換領域就需要重建規則,而通過重復串查找獲得的地質詞語候選集合不局限于字數和領域。

重復串查找分為基于字的重復串查找及基于詞的重復串查找,基于詞的重復串查找需要預先對文本進行切分。本次地質詞語識別建立在通用分詞器切分結果的基礎上,因此采用基于詞的重復串查找。在使用通用分詞器進行切分時,地質詞語一般都是被切散,分為以下4種情況:①被切分為單字之間的組合。例如:“區調”被切為“區/調”,“水工環”被切分為“水/工/環”;②被切分為多字詞和單字的組合。例如:“古侵入體/”被切分成“古/侵入/體”,“三疊系”被切分成“三疊/系”,“倒轉背斜”被切分成“倒/轉/背斜”;③被切分為多字詞之間的組合。例如:“中國地調局”被切分成“中國/地調局”,“河南省地質調查院”被切分成“河南省/地質/調查院”;④在切分結果中,本應組合成詞的多個字與其它字/詞組合。例如:“太古宇太華巖群”在切分時切成“太/古宇太華/巖群”,“煤窯溝組”切分成“煤窯/溝組”,“變長石石英砂巖”切分為“變長/石石英砂巖”。

對于前3種情況,當新詞在文檔中出現不少于兩次時,采用重復串查找就可得到。在少量文檔下進行地質詞語提取時,第4種情況會影響詞語發現,這種情況的發生與分詞器所使用的語言模型相關。地質分詞是一個反復迭代的過程,在這個過程中,分詞結果也處于動態修正狀態。

雖然重復串查找可以發現文檔中出現次數很少的新詞,但由于詞與詞之間的搭配非常多,因而在所獲得的集合中存在較多垃圾串。在地質文檔中,重復串不僅包含了地質術語,還存在大量垃圾串。地質專業詞語識別的實質就是在重復串發現的基礎上過濾掉無意義的垃圾串。垃圾串一般分為3類:①冗余子串,例如“碳酸鹽”這樣的串包含在“碳酸鹽巖”中;②有意義串和常用字的組合,如“的地臺型基底”;③頻繁功能串,如“這是”、“其為”等。對于第一類垃圾串的判斷需要依賴它的外部使用環境,采用上下文鄰接分析識別。后兩類垃圾串的判斷要從串本身結構著手,通過字的位置成詞概率進行判斷、分析。

為解決上述3方面問題,本文基于統計方法對地質命名實體進行提取。分詞流程如圖1所示。

①首先對地質報告進行預處理,轉換為txt文本格式,使用Ansj分詞工具進行分詞,并執行第②步;②提取分詞中的新詞,并采用上下文鄰接分析和基于字的成詞概率詞典進行新詞判別,并執行第③步或第⑤步;③當在第②步中判別為新詞時,新詞入庫,執行第④步;④更新基于字的成詞概率詞典,執行第⑤步;⑤當在第②步中判別不是新詞時,對該詞進行分詞,并將結果寫入文檔切分結果中,執行第⑥步;⑥在文檔切分結果中提取重復串,形成有意義串候選集合,執行第⑦步;⑦對候選有意義串采用上下文鄰接分析和基于字的成詞概率詞典進行判別;執行第⑧步或第⑩步;⑧當在第⑦步中判別為有意義串時,更新詞典庫,執行第⑨步;⑨更新基于字的成詞概率詞典,執行第⑩步;⑩當所有候選有意義串判別完畢后,執行第①步,迭代進行下一次分詞。

3 基于質串的地質基本詞典庫構建

詞語根據詞形可分為質詞和合詞。質詞不可再分解為更小的詞語,例如“珠穆朗瑪”一詞,任何組合(“珠穆”或“朗瑪”等)都不是詞。合詞是由質詞組合而成的詞語,例如“社會保障體系”是由“社會”、“保障”和“體系”3個質詞組合而成[20]。

在中文分詞系統中必須有一個核心詞典,無論是標準分詞還是命名實體識別都離不開詞典提供的詞匯和語言模型資源。核心詞典中包含的詞匯越多,能夠正確分詞的語料范圍就越大。地質基本詞典庫是對核心詞典的補充,能夠保證通用分詞器對常用地質詞匯的正確切分,便于后續處理。

在地質基本詞典收錄方面并不是地質術語越長越好。正如前面所述,分詞單元粒度大小需要考慮到查全率和查準率的矛盾。本文以《地質礦產術語分類代碼》(GB9649-1988)為基礎,構建了一個地質基本詞典庫,用以滿足在智能地質調查大數據應用體系下對地質文檔的查全率要求。通過重復串提取以及相關統計分析方法,提取地質有意義串以滿足查準率要求。

3.1《地質礦產術語分類代碼》(GB 9649-1988)分析

《地質礦產術語分類代碼》(CB 9649-1988)(以下簡稱“CB9649”)分為35個部分,涵蓋了宇宙地質學、地球物理學、火山地質、地震地質、外動力地質學等地質學領域各個方面。GB9649共包含詞語102 433個,地質專業詞語可分為二字詞、三字詞以及多字詞(四字詞、五字詞等等),按詞長進行分類如圖2所示。

地質詞典庫主要應用方向是在大數據環境下的地質文檔檢索,為提高地質文檔查全率,傾向于分詞單位較小化。當地質詞語長度大于4時,往往由多個二字詞或三字詞組成(例如:地質勘探、俯沖構造等)。本文采用質串思想,對GB9649中的地質詞語進行分類,收錄符合質串特征的地質詞語用以構建地質基本詞典庫。

3.2 基于質串的地質基本詞典庫構建

(5)合串。若串S有不少于3種的串分解時(自分解、單字分解、其它分解方式),則稱串S為合串。

由質串的相關定義可知,質串中不包含詞語,只能分解為單字,多個質串與單字的組合可以構成合串。因此,符合質串特征的地質詞語經過組合可以構成其它地質詞語,將這些詞語收錄進地質基本詞典庫中,既能滿足查全率要求,又可通過重復串提取地質有意義串,以滿足查準率要求。本文使用通用分詞器對GB9649中的地質詞語進行分詞。如前文所述,當地質詞語長度大于4時,往往是由多個粒度較小的詞語組成,因此,本次工作僅對長度不大于4的地質詞語使用通用分詞器進行分詞,將符合質串特征的地質詞語收錄進地質基本詞典庫。

通用分詞器詞典中不包含地質詞匯,在對地質文本進行分詞時,往往只能將分詞器所包含的通用詞匯分出。對于二字術語(定義“A”、“B”為組成二字術語的單字),其切分方式只有AB(例“項目”一“項/目”)、A/B(例”心灘”一”心/灘”)兩種切分類型,”一”表示地質詞語被通用分詞器切分,下同。

對于三字術語(定義“A”、“B”、“C”為組成三字術語的單字),其切分方式有4種,分別是ABC(例“淡水湖”一“淡水湖”),AB/C(例“安順組”一“安順/組”),A/BC(例“假整合”一“假/整合”),A/B/C(例“苦橄巖”一“苦/橄/巖”)。

同理,對于四字術語(定義“A”、“B”、“C”、“D”為組成四字術語的單字),其切分方式有8種,分別是ABCD(例“阿爾卑斯”一“阿爾卑斯”),ABC/D(例“重晶石化”一“重晶石/化”),AB/CD(例“鉆進深度”一“鉆進/深度”),AB/C/D(例“蚌殼蕨屬”一“蚌殼/蕨/屬”),A/BCD(例“堇長角巖”一“堇/長角巖”),A/B C/D(例“紙色譜法”一“紙/色譜/法”),AlB/CD(例“礫質粘土”一“礫/質/粘土”),A/B/C/D(例“采場突水”一“采/場/突/水”)。

以四字詞為例對基本詞典庫的收錄規則進行說明:對于四字詞的分詞結果來說,ABCD型的切分說明該詞已被通用分詞器的核心詞典收錄;對于能被切分成A/B/C/D型的詞語,雖然沒有被分詞器的核心詞典收錄,但由于其本身被CB9649收錄,說明該詞是一個地質詞匯,符合質串特征,所以該詞應被地質核心詞典庫收錄;對于能夠被切分成其余類型的詞語,說明該詞是通用詞和字或詞的組合,這種類型的詞可以使用重復串方法進行識別處理,因此沒有收錄進基本詞典庫中。同理,對于能切分成A/B/C類型的三字詞以及能被切分成A/B/C/D的詞語都應被地質核心詞典庫收錄。

4 地質專業詞語識別

4.1 重復串提取算法思想

本文地質詞語識別建立在通用分詞器切分結果基礎上,因此采用基于詞的重復串提取,但基于詞的重復串提取算法與基于字的重復串提取算法一致,此處介紹基于字的重復串提取算法思想[21]。

(1)對處理好的字序列建立索引。例如,對于只有5個字符的文本“礦化物礦化體礦化礦井礦礦化物”文本建立單字索引如圖3所示。

(2)從單個字索引的信息開始擴展得到所有重復串。因為單字索引過程中已記錄好語料中所有出現“礦”的地址集合A,而以“礦”打頭的所有重復串地址一定包含在集合A中,那么遍歷地址集合A,根據地址掃描語料進行二字擴展、三字擴展……,可以發現以“礦”開頭的所有重復串。在上面例子中,掃描所有“礦”后面的第一個字符,擴展得到以“礦”開頭的所有兩字串(見圖4)和三字串(見圖5)。

頻次為1的串(如“礦井”、“礦礦”)不是重復串,將其刪除;對于頻次大于1的重復串(如“礦化”),要將所有信息寫入重復串文件中且繼續對其擴展,發現長度增1的重復串。

(3)新產生的重復串寫入文件后繼續擴展得到長串,反復迭代,直到出現間隔符號或長度達到指定的閾值。

4.2 重復串提取流程

基于重復串提取算法,需要記錄詞的ID索引。值得注意的是,在一段話中往往包含停用詞。停用詞主要包括副詞、助詞、連詞、介詞、標點符號等,其本身并無明確意義,僅在句子中起一定作用,例如“在”、“的”、“且”等。采用串查找發現新詞時,停用詞會導致垃圾串產生,例如:“官/道/口/群/在/測區/內/出露/較/全/,/向/西/延伸/到/盧氏/,/靈寶/一帶/,/其/巖石/組合/和/沉積/建/造/特征/均/可/對比/。/”,這句話包含停用詞10個(標點4個、“在”、“較”、“其”、“和”、“均”、“可”)。在建立詞的ID索引時,需要將上面一段話分為8個部分:“官/道/口/群/”、“測區/內/出露/”、“全/”、“/向/西/延伸/到/盧氏/”、“/靈寶/一帶/”、“巖石/組合/”、“沉積/建/造/特征/”和“對比/”,按照這8個部分建立詞的索引。因此,需要建立一個文檔用于記錄依據停用詞對文本分割后的結果,并以此為依據建立一個詞索引文檔,開辟一個緩沖棧用于存放當前擴展串及相關信息。根據索引地址鏈進行擴展,擴展串中頻次大于1的串被認為是重復串,統計詞頻和鄰接對信息后輸出到文件中,同時放人緩沖棧中用以后續擴展。當一次擴展結束后再從棧中讀取棧頂串進行新一輪擴展。第一次棧空時表示以第一個詞打頭的所有重復串發現完畢,然后讀取第二個詞的索引鏈并放人緩沖棧,依次反復直到所有重復串發現完畢。最后輸出一組文件,重復串文件用來存儲串的內容、串長、串頻、鄰接對頻次等信息。

4.3 地質專業詞語識別方法

地質專業詞語識別可以借助通用領域的新詞發現方法。新詞發現通過采用基于統計和規則過濾的方法對候選集進行過濾得到最終結果[22]。基于規則的新詞發現依賴特定領域建立的規則庫,其泛化性差,加之人工建立規則庫代價較大,規則之間多有沖突發生。基于統計的新詞發現目前使用普遍,主要有上下文鄰接分析、位置成詞概率、雙字耦合度、頻率比和互信息等。本文主要采用上下文鄰接分析和位置成詞概率方法識別地質專業詞語。

(1)上下文鄰接分析。通用的已知詞語作為頻繁使用的語言單元,在實際生活中具有一定的流通度和廣泛性。一般來說,一個詞語的內部結合度較高,其與外部上下文中的詞語關系就較為松散,例如“斷層”、“產狀”中的兩個字總是一起出現。地質詞語作為獨立使用的語言單元,在地質文本中具有一定的流通度,能夠應用于多種不同的上下文環境。上下文分析是從串的上下文人手分析其使用環境,主要通過上下文鄰接種類、臨界熵、鄰接對種類以及鄰接對熵等鄰接特征量判斷。本文受文本大小限制,采用鄰接種類進行判斷。

對于一個串S,其鄰接種類V可分左鄰接種類VL和右鄰接種類VR,分別表示左、右鄰接集合中元素的數目,反映串S所處上、下文語境種類多少。當VL≥n,VR≥n時,該串為詞。鄰接種類在一定程度上反映字符串的語言環境。

(2)位置成詞概率分析。在漢語構詞中,每個字都有自己特有的構詞作用,并非所有的字都可作為詞首、詞中、詞尾的成分,某些字往往出現在合成詞的某個或某幾個特定位置上,例如“老虎”、“老師”中的“老”通常出現在詞首,“產狀”、“鮞狀”中的“狀”通常出現在詞尾,而另一些字總是不會出現在詞首或詞尾。

地質命名實體開始是某個詞的詞首,串尾也一定是某個詞的詞尾。當檢測到串首某個字的詞首成詞概率太低時,該串可能是垃圾串;若串尾某個字的詞尾成詞概率太低時,該串也可能是垃圾串。

在切分好的語料中統計每個漢字出現在詞語中的總次數N和出現在詞首、詞尾的N1和N2,那么詞首成詞概率是Nl和N的比值,詞尾成詞概率是N2和N的比值。

對地質術語中單字成詞概率和多字成詞的詞首、詞尾概率進行統計,部分結果如表1所示。若某個字的詞首成詞概率太低,則認為該字不能作為詞首;同樣,若某個字的詞尾成詞概率太低,則該字不能作為詞尾,這樣能有效過濾新詞和常用字組成的垃圾串。如判斷“主要巖性為”中的“為”,“在采樣過程中”的“在”即可將它們判斷為垃圾串而排除。此外,還有一部分頻繁功能串也能過濾掉,如“其為”、“這是”等高頻串。

5 實驗與分析

5.1 測試集與評測指標

中文分詞研究旨在提出一種擁有通用性、實用性以及開放性的現代書面漢語自動分詞方法,而評測中文分詞方法性能優劣的評測標準為分詞準確率與分詞效率[23]。本文在通用分詞器基礎上建立地質專業詞匯抽取方法,因此對分詞效率不作評測。

分詞準確率是評估分詞方法有效性和合理性的核心評測標準,包括正確率、召回率以及綜合指標F值。

準確率P=識別正確的新詞數目/ 識別結果的新詞數目上×100%

(1)

召回率R=識別正確的新詞數目/ 重復串中正確的新詞數目× 100% (2)

綜合指標F=2×P×R/P+R

(3)

5.2 實驗結果及分析

本文實驗語料來自《1:25萬內鄉縣幅區域地質調查報告》,約33萬字。使用Ansj中文分詞器的分詞結果與本文提出的地質專業詞匯識別方法的結果進行對比,如表2所示。

本次結果抽取重復串14 070個,去除單字、重復結果后,剩余3 704個。經人工判別,正確結果2 513個;經過算法過濾后,重復串剩余2 496個,本方法正確識別結果2 036個。使用分詞器進行分詞后,分詞數量龐大,召回率難以評估。本次僅對Ansj中文分詞器所識別的新詞正確率進行了計算,識別新詞4 478個,正確識別1 050個,正確率23.4%。

通過對比,本文方法對地質詞語的識別遠遠高于通用領域分詞器。通過分析發現,由于通用分詞器一般在新詞發現方面采用基于統計的分詞方法,對于出現頻率不高的詞語,統計的分詞方法學習度不夠,從而引起錯分。而本文方法經過重復串算法,能夠將出現頻率較低的詞語查找出來,經過上下文鄰接以及基于位置成詞概率過濾后,可有效地將原本錯分的詞語組合到一起。但本文方法對僅出現一次和出現語境完全相同的新詞無法識別,因此需要添加其它策略進一步提高其識別性能。

6 結語

針對基于統計的分詞方法受語料影響跨領域適應性較差,基于詞典的分詞方法雖然可以直接利用領域詞典進行分詞但不能解決未登錄詞識別等問題,基于質串思想構建了地質基本詞典庫,對通用分詞器的核心詞典庫進行擴充,在此基礎上提出基于統計的中文地質詞語識別方法。采用重復串查找方法得到地質詞語候選集,使用上下文鄰接以及基于位置成詞的概率詞典,對地質詞語候選集進行過濾,實現地質詞語識別。實驗證明該方法提高了地質詞語識別準確率,可在地質大數據中進行相關應用。

參考文獻:

[1]黃昌寧.中文信息處理中的分詞問題[J].語言文字應用,1997(1):72-78.

[2] 昊軍.數學之美[M].北京:人民郵電出版社,2014:41-49.

[3]

ZHU Y Q, ZHOU W W.XU Y,et al. Intelligent learning for knowledgegraph towards geological data[J].Scientific Programming, 2017(3):1-13.

[4]

ZEINALI H. SAMETI H. BURCET L,et al. Text-dependent speakerverification based on i-vectors, neural networks and hidden markovmodels[J].Computer Speech&Language, 2017( 46): 53-71.

[5]

SHUAI Z, JAYASUMANA S,ROMERA-PAREDES B,et al. Condi-tional random fields as recurrent neural networks[C].IEEE Interna-tional Conference on Computer Vision, 2016.

[6] MENCEL S,Y Q J.Extracting structured data from web pages withmaximum entropy segmental markov models[C].International Confer-ence on Web Information System Engineering, 2009.

[7]

JIANG H J,REN X. LIU K.Research on dictionary for personalizedChinese word segmentation[C].The 4th International Conference onIntelligent System and Applied Material, 2014: 1-4.

[8]

ZHENC Q, LIU X Y. FU J L Neural networks incorporating dictionar-ies for Chinese word segmentation[C].Proceedings of the ThirtV- Sec-ond AAAI Conference on Artificial Intelligence, 2018: 1-8.

[9]

PANC B M, SHI H S.Research on improved algorithm for Chineseword segmentation based on mMarkov chain[C].Xi'an: InternationalConference on Information Assurance and Security. 2009.

[10]

HUANC L,DU Y F,CHEN G Y.CeoSegmenter: a statisticallvlearned Chinese word segmenter for the geoscience domain[J].Com-puters&Geosciences, 2015( 76): 11-17.

[11] 陳婧汶,陳建國,王成彬,等.基于條件隨機場的地質礦產文本分詞研究[J].中國礦業,2018.27( 9):69-74.101.

[12] 宗成慶.統計自然語言處理[M].北京:清華大學出版社,2013:129-134.

[13] 鄭捷.NLP漢語自然語言處理[M].北京:電子工業出版社,2017:88 -117

[14]趙慶.地質科技論文中語言文字表達的幾個要求[J].地質找礦論叢.2013, 28(3): 493-498.

[15] 鄭孝玉.地質情報的特點及其服務工作的有關問題[J].情報雜志.1991. 10( 4):63-67.

[16] 冀倩,翁望飛.地質學專業英語詞匯特點及構詞研究[J].皖西學院學報,2011,27(4):116-121.

[17]李廷棟,劉勇,王軍,等.略論地質圖件的十大功能——紀念黃汲清先生誕辰110周年[J].地質論評,2014,60(3):473-485.

[18]雨巖.概念·定性·定量[J].水文地質工程地質,1991(6):10-14.

[19]楊鍾健.地質名詞的來源及統-[J].地質論評,1950( Z1):55-59.

[20]何婷婷,張勇.基于質子串分解的中文術語自動抽取[J].計算機工程,2006, 32( 23):188-190.

[21]張華平,高凱,黃河燕,等.大數據搜索與挖掘[M].北京:科學出版社,2014: 104-135.

[22]黃軒,李熔烽.博客語料的新詞發現方法[J].現代電子技術,2013,36(2):144-146.

[23] 王威.基于統計學習的中文分詞方法的研究[D].沈陽:東北大學,2015.

(責任編輯:杜能鋼)

基金項目:國家自然科學基金項目(41671404);中央高校基本科研業務費項目(N170104019);中國地質調查局智能地質調查支撐平臺建設項目(DD20160355)

作者簡介:王宏(1987-),男,碩士,河南省地質調查院、河南省金屬礦產成礦地質過程與資源利用重點實驗室工程師,研究方向為地學信息處理與應用;朱學立(1963-),男,碩士,河南省地質調查院、河南省金屬礦產成礦地質過程與資源利用重點實驗室教授級高級工程師,研究方向為地質信息技術分析與應用;曾濤(1977-),男,河南省地質調查院、河南省金屬礦產成礦地質過程與資源利用重點實驗室高級工程師,研究方向為地學空間數據庫;喬東玉(1975-),男,河南省地質調查院、河南省金屬礦產成礦地質過程與資源利用重點實驗室助理工程師,研究方向為地學空間數據庫;郭甲騰(1980-),男,博士,東北大學資源與土木工程學院講師,研究方向為數字礦山、數字巖土、數字城市領域的三維地學建模與可視化、三維拓撲關系分析、并行地理計算。

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产精品99久久久久久董美香| 黄色一及毛片| 伊人久热这里只有精品视频99| 亚洲人成成无码网WWW| 国产欧美精品一区aⅴ影院| 亚洲一级毛片在线播放| 国产91蝌蚪窝| 成人小视频网| 国内精品免费| 九九精品在线观看| 欧美精品1区| 一区二区影院| 2024av在线无码中文最新| 欧美一区中文字幕| 成年人国产网站| 亚洲另类第一页| 亚洲综合第一区| 色综合天天娱乐综合网| 漂亮人妻被中出中文字幕久久 | 久久久精品无码一区二区三区| 国产在线精彩视频二区| 热99re99首页精品亚洲五月天| 久久美女精品| 免费在线视频a| 亚洲最大情网站在线观看| 久久久久久久久18禁秘| 欧美日韩国产成人高清视频| 国产91在线|日本| 国产av剧情无码精品色午夜| 久久综合国产乱子免费| 国产乱人视频免费观看| 亚洲日韩在线满18点击进入| 天天激情综合| 高清不卡一区二区三区香蕉| 青青久视频| 天天色天天操综合网| 动漫精品啪啪一区二区三区| 日韩精品亚洲人旧成在线| 老司机久久99久久精品播放 | 91精品国产自产在线老师啪l| 国产美女91呻吟求| 国产欧美网站| 国产亚洲精品自在线| 成人精品午夜福利在线播放| 亚洲AⅤ无码国产精品| 国产精鲁鲁网在线视频| 亚洲h视频在线| 九色国产在线| 狼友视频国产精品首页| 91午夜福利在线观看| 中文字幕首页系列人妻| 欧美日韩久久综合| 国产激情无码一区二区三区免费| 全部免费特黄特色大片视频| 国产另类视频| 国产av剧情无码精品色午夜| 视频二区中文无码| 国产精品女主播| 美女无遮挡被啪啪到高潮免费| 波多野结衣国产精品| 成人午夜免费视频| 日韩色图区| 亚洲成人福利网站| 999精品在线视频| 国产精品国产主播在线观看| 日韩在线中文| 久久久成年黄色视频| 亚洲精品你懂的| 婷婷六月天激情| 一本无码在线观看| a级毛片毛片免费观看久潮| 国产系列在线| 国产综合另类小说色区色噜噜| 欧美在线导航| 国产无遮挡猛进猛出免费软件| aa级毛片毛片免费观看久| 亚洲精品无码抽插日韩| 久久这里只有精品国产99| 亚洲啪啪网| 亚洲AⅤ无码国产精品| 99视频精品在线观看| 国产一区二区免费播放|