文/張婷
概念學習階段主要包括術語提取和概念形成兩個任務。目前,概念學習階段首要集中于術語抽取的研究?,F有的術語抽取研究首要分為四類:語言學方法、統計學方法、機器學習方法和混合方法。
運用語言學方法來進行的術語抽取通常情況下是來分析某個領域之內的術語的詞性組成,提取出領域內術語的詞性構成模板來提取術語。最開始是基于詞語的詞性(part-ofspeech,POS)標注為基礎來進行術語抽取,在20世紀70年代,Earl發現術語一般為名詞,采用研究詞性模板((A|N)+|((A|N)*(NP)?(A|N)*)N來篩選頻率超過一定閩值的詞語作為術語,之后的很多研究都在此基礎上進行;Klingbiel結合詞典與詞性來選擇特定的語法結構作為術語的候選詞;Bourigault運用淺層語法分析來獲得名詞短語作為術語;Justeson研究后認為術語不僅可以由單詞構成,即單詞術語,還可以由多個詞組成的復合術語,并且他們以為大多數術語由形容詞、名詞或介詞短語組成,最終呈現的動詞、副詞或連接詞很少。
他們采用((A|N)+|((A|N)*(NP)?(A|N)*)N這一詞性模板,并結合詞典來獲取候選術語;提取候選術語的思想一出現,很多研究都各自提出了復合術語的模板,包括Dagan等提出的Noun+模板,Frantzi等提出的(Noun|Adjective)+Noun模板等。此外,Sabou提取名詞短語的運用信息如詞素,詞根和語句中的方位。除了英語言語的方式術語抽取研究,中文領域的相關研究中也提出一些模板或規則來進行術語抽取,王昊等依據合成規則構造術語的方法來獲取術語;王柏林利用規則方法從學術文獻中抽取術語。
通過運用統計學的方法來進行術語抽取,主要是通過術語的一些統計學特征來區分領域術語及普通詞語,例如基于術語的領域性,領域術語要較普通詞語在某一領域的出現頻率高。Pantel等在復合術語的抽取中采用互信息與對數似然方法;Gelbukh等采用對數似然進行術語抽取;劉劍等以及李江華等采用互信息和信息嫡進行術語抽取。除了復合術語內部詞語的搭配強度,復合術語最左及最右的詞語與語料中左鄰及右領的詞的搭配強度也可用于考查復合術語的獨立性,丁杰等用左右邊界嫡確定專利術語邊界,該左右邊界嫡就是通過確定術語與其左詞及右詞搭配出現的關聯程度來考查該術語的獨立性。
此外,統計機器學習(Machine Learning,ML)方法也被應用于術語的抽取中。關于特征的選擇問題,術語抽取常用的特征有統計特征及語言學特征等,統計特征指利用一些統計學方法獲取的特征值,包括文檔頻率、反文檔頻率和TF-IDF;語言特征主要指詞類特征。Collie使用隱馬爾可夫模型提取生物范疇的術語,并提取了23個特征。包括數字、大寫字母、羅馬字符、連字符等;Shen采用隱馬爾可夫模型,辨認詞典的功用,包含:較為簡明的特點,字詞的形態特征(如前綴或后綴)、詞性特征、語義觸發功用,名詞,和特別的動詞;張承志使用條件隨機域提取出16個特征:除了根本的功用,如字、詞的長度,和講話的一部分,它還包含衍生功用,如頻率差等等。機器學習方法效果的好壞程度高度依賴于提取的特征集,當特征提取地較為完備時,可以獲得比較高的準確率以及召回率,因此,選擇什么樣的特征集是機器學習方法研究的重點。
混合方法即結合上述幾種方法來進行術語抽取的方法,一般可以分為三種:第一種是首先利用語言學方法提取語料中的候選術語,再采用統計學方法對提取的候選術語進行排序;第二種與第一種相反;第三種是首先提取特征集,再采用機器學習的方法來抽取術語。
Frantzi等人提出的C值/NC值方式。該方法是歸于第一類的方法。首先,需要利用語言學的方式從語料庫之中提取名詞的短語,然后選用統計學方法來抽取復合術語。Lossio-Ventura結合了兩種方法來抽取復合術語,第一種方法是LIDF-value(結合語言學模板,IDF以及C-value方法),是一種結合了語言學及統計學的方法,第二種是TeRGraph(基于圖信息的術語排序方法),是一種基于圖的方法(統計),基于圖的方法假設術語的鄰接術語越多,則越不具備領域性,然后采用了Dice coeff icient來計算圖中由邊連接的兩個術語間共現。Ittoo結合了語言學和統計學方法來抽取復合術語(主要用于抽取2詞復合術語),他們采用了語言學方法進行候選術語抽取,然后采用了cube互信息(MI3),并結合英文Wikipedia語料集來進行術語抽取。張雷瀚提出一種多策略融合的領域術語抽取方法,結合語言學方法及統計方法,構造術語的逆向詞性規則和領域停用詞表,利用PATTree和C-value方法獲取候選術語,再對比單一文檔和領域文檔集來計算術語領域度,通過排序獲取最終的術語。
關系抽取又包括等級關系抽取(taxonomic relationships)及非等級關系的抽取(nontaxonomic relationships),中文關系抽取主要集中在命名實體間的關系抽取,對于本體概念間的關系抽取研究很少,大多基于詞典、模板等進行概念關系抽取,效率不高。概念間等級關系獲取的主要任務是構建概念間的上下級關系,主要有四種方式:語言學方式、統計學方式、基于圖的方式和混合方式。
該方式主要經過形狀剖析、句法剖析、依存結構剖析和語義剖析來識別層次聯系。如果存在包括層次聯系的句法模式,則經過提取和總結頻繁句法模式來標識聯系。Hearst采用bootstrapping算法擴展到更多的模板,用于抽取上下位關系;Pantel等結合Web與語言學模板的方法進行了語義關系的抽取;王昊等提出了結合以文檔一術語空間為核心,結合形式概念分析的方法來進行等級關系的構建;湯青等結合句法分析與規則匹配來進行概念等級關系的抽取。根據言語的方式辨認詞之間的高精度關系。缺點是根據言語模板的方式通常需要專家常識來開發模板。在模板的擴展過程中需要耗費大量的成本,可移植性較差。
統計學方法通過對大規模語料庫的計算處理,發現規則,從而發掘聯系。該方法與言語、范疇無關,具有很強的可移植性。但是,它十分依賴于語料庫的質量和規模,使得命名聯系類型變得困難。層次聯系抽取可以看作是一個聚類或分類問題。根據聚類的層次聯系識別方法主要有兩種:層次聚類和非層次聚類。董洋溢等采用了混合了余弦相似度的核函數方法來進行概念等級關系的抽取,將這一任務轉化為分類任務。
根據圖的方法一般涉及圖節點的概念、表明聯系的圖的邊以及丈量概念之間間隔的概念之間的邊數。Kozareva主張運用根據圖的方法來從有向圖中結構。給定根節點和一些分層概念,運用預定義的模板,從而能夠發現新的從屬概念;Velardi為每個概念(在文檔集或Web中)找到定義,然后運用分類結果。結構有向圖模型,其中邊是概念之間的聯系;運用根據圖的方法來度量概念之間的相關程度,而且運用語句之間的空間間隔來丈量語句的相似性。
Suchanek結合了語言學模板機器學習算法——支持向量機從文本中獲取概念聯系;Cimian將聚類算法和言語模板相結合,從互聯網上提取上下文信息,提取上下文聯系;Rios-Alvarado組合言語學習模板和clu斯特林算法對文本中的概念來進行等級關系抽取;張曉勇結合深度學習與聚類方法從條件隨機場抽取的候選術語集中獲取概念等級關系;王昊利用形式概念分析來獲取主題概念,并采用主題概念格進行概念等級關系的獲取。
概念非等級關系的抽取通常包含兩個任務:
(1)從語料中抽取出可以組成概念非等級關系三元組的元素,包括相關的概念對以及描述概念對關系的動詞;
(2)命名概念之間的聯系。由于概念非層次聯系提取元素較多,因而概念非層次聯系提取的研討通常采用多種方式進行提取。依據這些抽取工作中運用的方式,可以分為兩類:一類是語言方式;另一種是統計學方式。
語言學方法是利用語言學模板的方法來獲取概念非等級關系三元組。Berland利用WordNet作為資源,采用模板對概念間的部分一整體關系進行抽取,生成候選概念對,再利用統計學方法進行排序;Nenadi采用了三種模板(詞典一語義模板、復合名詞模板、上下文模板)來獲取MEDLINE中的術語,上下文模板用于獲取語料庫中特征明顯的術語,然后獲取特定內容中的另一個術語、動詞和介詞,然后根據模板長度和頻率的排序規矩對模板進行排序,并使用上述模板取得三個類似度。度,然后加權生成終究的類似度值,并調整權重參數;Sanchez使用動詞模板獲取領域語料庫中的動詞,然后將非層次聯系的概念與Web相結合,然后以非層次聯系命名聯系。在漢語非層次聯系獲取的研討中,俞凡首先定義了漢語非層次聯系提取的規矩,然后結合關聯規矩發掘,提取非層次聯系的概念;何宇結合句法分析和詞典特征對專利領域的非等級關系進行獲?。悔w明等。采用句法分析來獲取概念間的非等級關系?;谀0宓姆椒P鍵在于針對不同類型的關系進行模板的提取,但是需要窮盡所有的關系類型模板并非易事,這種方法只適用于獲取特定的非等級關系。
統計學方法一般利用術語對的共現或者相似度來抽取非等級關系。Kavalec先通過語言學方法獲取語料中的動詞,通常概念非等級關系中的關系由動詞表示,再將窗口范圍限定在N個單詞的距離內,在窗口中挑選兩個詞來生成“概念-動詞-概念”三元組,再根據三元組的頻率來排序,獲取高頻三元組為候選三元組,然后利用條件概率來計算概念對與動詞的相關性。Punuru提出了VF*ICF方法(類似于TF-IDF的方式)來計量動詞注釋關系的能力,先獲取相關概念對,再從領域語料中獲取候選關系三元組(
關聯規則挖掘通常也被用于挖掘概念對之間或概念對與動詞之間的關系,Villaverde在獲取了候選非等級關系三元組的基礎上,利用相關規矩發掘方法在候選三元組中得到概念對與動詞之間具有較強相關規矩的三元組,但是該文章只關注了概念對與動詞之間的關聯度,并沒有衡量概念與概念之間的關聯程度。Gulla對比了利用關聯規則挖掘及向量空間模型兩種方法在非等級關系抽取中的效果,他們將非等級關系分為三類:不相關、相關和高度相關。結果表明,獲取的關系可以借助相似度算法來獲取,最終他們關聯規則挖掘與相似度算法相結合進行了非等級關系的獲取,其效果很好。