999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于張量遞歸神經網絡的英文語義關系分類方法研究

2015-09-18 01:52:14周佳逸上海海事大學信息工程學院上海201306
現代計算機 2015年11期
關鍵詞:語義單詞分類

周佳逸(上海海事大學信息工程學院,上海201306)

基于張量遞歸神經網絡的英文語義關系分類方法研究

周佳逸
(上海海事大學信息工程學院,上海201306)

語義關系分類作為當前語義技術的一個基礎領域,獲得廣泛的關注。提出基于張量空間的遞歸神經網絡算法,利用張量(向量-矩陣對)表示單詞,獲得更準確的語義分類結果。通過無監督的結構化方式訓練模型,大大簡便分類過程,舍棄了人工手動標注。實驗表明,該算法可以有效識別語義關系,比傳統算法性能提高5%以上。

張量;神經網絡;語義關系分類

0 引言

隨著互聯網的廣泛使用,大量信息涌入人們的生活。如何在海量信息里尋找出自己需要的信息成為人們探究的一個新課題。在對英文信息的搜索過程中,若能以主題詞及與主題詞有特定關系的目標單詞作為搜索依據,也就是說,將信息查詢問題轉換為語義關系識別問題,將大大增加搜索的效率。例如,某人需要搜索“search reasons that causes headache”,當存在工具可以自動搜索因果關系時,將減少大量搜索時間,增加搜索效率。除了作為信息搜索功能的基礎,語義關系分類方法對于詞庫建設、各領域語料集建設、社交網絡問答系統、文本翻譯、詞義消歧等都具有潛在的應用價值。詞匯的語義關系是進行語義分析的重要基礎,而語義關系技術是自然語言處理(Natural Language Processing, NLP)的關鍵步驟,因此,對于語義關系分類方法的研究是十分必要的,有利于推動相關領域的發展。

鑒于語義關系分類方法在實際應用中的廣泛應用,中外學者對此課題已經有了較長時間的關注與研究。

目前,主要的語義關系分類方法包括以下幾種:

基于模式識別的方法。此種方法主要是基于已經定義好的法則,在目標文本中進行匹配,搜索出相對應的語義關系。最早提出基于模式方法對語義關系進行分類的是Hearts[1]等人。他定義了“such a as b”和“a and other b”等模式,取得了一定成果。在這之后,越來越多的學者關注基于模式的方法并對此進行了改進。Brin[2]通過迭代的方法,根據構造好的關系實例對在已標注的文本內發現模式。

基于統計的方法。該方法根據所統計出兩個詞的同現信息大小來判斷兩個詞是否具有語義關系[3]。Peter[4]提出將點間互信息與搜索引擎相結合,通過搜索引擎提交查詢,分析返回結果。之后,也有學者提出了將聚類方法和基于模式的方法相結合來進行語義關系分類。

基于圖的方法。該方法是通過構建圖,并對圖進行聚類切分,每一個子圖就是語義關系集合。Philippe Muller和Vincent[5]等利用已有詞典構建了一個相關的詞典圖用于分類語義關系。而Einat Minkov[6]等人通過句法分析,根據語義路徑來建立圖,分類語義關系。

在以上方法中,大多數方法都需要大量的手動標記的語義資源。相比之下,本文主要結合模式方法和統計方法,根據語義樹結構對長句進行分詞,利用基于張量遞歸神經網絡算法對訓練集進行訓練,簡化了語義關系分類的過程。

1 基于張量遞歸神經網絡的英文語義關系分類方法

1.1基于張量的遞歸神經網絡算法

(1)張量空間的單詞表示

單詞通過向量空間的表示在語義領域被廣泛應用[7]。本文中,單詞將不再只由一個向量表示。在張量空間中,單詞由一階張量(向量)和二階張量(參數矩陣)組合表示。根據Collobert和Weston[8]提出的已經過無監督訓練過的50維向量模型,將所有單詞向量初始化為x,且x∈Rn。該模型可通過對Wikipedia的文本學習,預測到每個單詞在上下文中出現的概率。和其他基于向量空間模型局部同現方法相似,由該方法表示的單詞向量可以顯示句法和語義信息。與此同時,每個單詞也與一個矩陣X相聯系。在實驗中,矩陣初始化為X=I+ ε,ε為高斯噪聲。如果每個向量的維度為n,則每個單詞的矩陣為X∈Rn×n。由于表示單詞的向量和矩陣通過對語義標簽的學習,將不斷修正以合成一個可以預測分布的向量序列,因此矩陣的初始化是隨機的,通常由單位矩陣表示。

由上述可得,每個一個長度為m的短語或句子可以表示為向量矩陣對,諸如((a,A),...,(m,M))。

(2)單詞的遞歸合成

基于張量的遞歸神經網絡算法是在語義樹的基礎上進行遞歸計算,由神經網絡算法對訓練集進行訓練,獲得最終結果。

圖1 基于張量的遞歸神經網絡模型

父向量p是由兩個連續單詞的向量a和b計算而來,最常用是由Mitchell和Lapata[9]提出的函數p:p= f(a,b,R,K)。其中R為已知的先驗語法,K為背景知識。目標函數f根據不同文本有不同的可能性。

Baroni和Zamparelli[10]在他們的基礎上利用向量和矩陣空間的合成,提出針對形容詞-名字組合對的函數p=Ab,其中矩陣A表示形容詞,向量b表示名字。而Zanzotto[11]在M的基礎上,提出了以矩陣空間模型為基礎的針對詞對的合成函數p=Ba+Ab,向量a,b分別表示兩個單詞,矩陣A,B則為單位矩陣。

后兩種模型的優勢在于徹底舍棄了手動標記語料庫和明確的背景知識,無需再由人工完成語義標記。

在以上模型基礎上進行泛化,獲得如下合成函數:

其中A,B為單詞的參數矩陣,W為映射所有變形單詞到相同維度n的矩陣,W∈Rn×2n。通常,g為一個恒等函數,但此處為了擴大函數范圍,使得其不為簡單的線性函數,將g設為非線性函數(例如:sigmoid,tanh)。在該模型中,單詞的矩陣部分可以反映出具體每個單詞帶來的參數改變。Baroni等人和Zanzotto提出的模型都是本模型的特殊形式。

在多個單詞和短語進行語義合成時,由基于張量空間的詞對合成模型來合成長序列詞的向量和矩陣。在本模型中,主要思想是利用經過學習的適應于二叉語義樹的相同函數f,對單詞對進行合成,并對每個非終結點進行矩陣計算。為了計算每個非終短語的矩陣,定義父矩陣為:

其中WM∈Rn×2n,由上式可以計算得P∈Rn×n,與輸入矩陣維度相同。

當兩個單詞在語義樹中合成為一個成分時,它可以通過目標函數f和fM計算,繼續與其他單詞進行下一步的語義合成。

舉例來說,圖1的張量計算過程為:

①合成向量b和c,以及對應的矩陣,得到(p1,P1),,需要注意的是,當一個單詞由n維向量和n×n維矩陣對表示時,整個模型的維度將非常大。為了在計算中減少計算量,并提高計算速度,本模型根據張量分解算法,將矩陣進行如下分解:

②合成的向量矩陣對(p1,P1)與a相結合,獲得上層非終結點的向量矩陣對(p2,P2),

③重復①,②,應用函數f,fM自底向上遞歸計算各個節點,直至計算出頂層節點的向量和矩陣對,獲得語義合成的最終結果。

(3)模型訓練

遞歸神經網絡的一大優勢在于樹的每個節點都可以由向量來表示。通常,通過訓練每個節點的softmax分類器來預測各個類別的分布。語義關系分類通常表示為函數:

其中,Ws情感分類矩陣。若單詞大小為|V|,則Ws∈R|V|×d。a表示分類器所在的單詞。

在整個模型的訓練過程中,定義θ=(W,WM,Wlabel,L,LM作為模型參數,λ為規范化的先驗分布參數。L和LM為單詞的向量集和矩陣集。由此得到梯度的求值公式為:

上式中,E(x,t,θ)為誤差函數。為得到梯度值,需先自底向上計算每個節點的(pi,Pi),然后自頂向下采用softmax分類器進行計算。在此過程中,充分利用張量分解的優勢,對計算過程進行簡化,加快計算速度。

1.2基于張量神經網絡的英文語義關系分類方法分析

通過語義樹的建立和基于張量的神經網絡算法,該模型可以獲得語法分析中的語義關系,特別是名詞間的關系。舉例來說,英文文本“My[apartment]e1has a big[bathroom]e2.”中,通過深度學習,可分析出“bathroom”和“apartment”的關系為局部-整體的關系。語義關系分析方法對于信息提取有重要作用,同時也是詞庫建設的基礎。

語義關系分類方法需要模型擁有處理兩個任何類型的名詞的能力。如圖2,解釋了本模型如何對名詞關系進行分類。首先,找到需要分類的兩個名詞在二叉語義樹中的路徑。然后選擇最高節點,以最高節點的向量為語義關系分類的特征向量。再由兩個詞組成的二叉樹內使用基于張量的神經網絡算法對數據進行處理,獲得語義關系的分類結果,其中節點的參數矩陣將包含行列數、數據集跳過信息、正確分類關系信息等數據。

圖2 語義關系分類原理圖

2 實驗

2.1評價標準

為了測試基于張量神經網絡的英文語義關系分類方法與其他方法的效率,我們使用了NLP&CC語義關系抽取評測大綱中的指標,以F1值最為參考標準。F1值為正確率和召回率的調和平均數。

正確率為:

其中,TP為提取出正確信息條數,FP為提取出錯誤信息條數,TP+FP為提取出的信息總數。

召回率為:

其中,TP為提取出正確信息條數,FN為未提取的正確信息條數,TP+FN為所有需要提取的信息數。

通常,F-measure設置β=1時,即:

2.2實驗壞境及步驟

本次實驗將仿真環境架設在Linux系統中,版本為Ubuntu 14.04 64bit。編程語言版本為Python 2.6,JDK 1.7,配合MATLAB軟件完成最后的訓練及測試工作。

具體實驗步驟如下:

(1)準備語料集,對語料庫進行處理,去除多余的空格以及符號,規范化格式,轉變為純文本文件,為后續的分詞做準備。

(2)使用Stanford-Parser自然語言處理工具包,調用其英文處理模塊englishPCFG.ser.gz對文本進行分詞,使用sst-light工具對詞性進行標注,如NN(常用名詞)、VV(動詞)等,每一個句子都可以拆分成若干個帶標注的詞語組成的語義樹,如圖3所示。

圖3 經過分詞處理的語義樹

(3)步驟(2)生成了分詞以及標記過的文本數據,得出每個單詞的詞性及含義。因此,可根據步驟(2)獲得兩個名詞間的最小子樹,對其進行處理分類。

(4)獲取最小子樹中兩個名詞的向量-矩陣對,加入特征集(POS,NER,WordNet)

(5)利用算法計算歐幾里得距離并獲得相關參數及F1值。

在數據集的選擇上,本實驗選擇了SemEval提供的語料庫。SemEval(Semantic Evaluation)作為致力于語義研究系統的國際機構,其提供的語料庫具有一定的參考意義。在SemEval中,將數據集中的語義關系分為9種(Cause-Effect、Instrument-Agency、Product-Producer、Content-Container、Entity-Origin、Entity-Destination、Component-Whole、Member-Collection、Message-Topic),并額外增設一個other類(任何不屬于這9類語義關系的類別將被分入other類中)。

將語料集按照上述步驟進行處理,放入訓練好的模型中,得出F1值。為了對實驗方法進行公證的評價,將本實驗得出的F1值與基于張量的遞歸神經網絡算法(Tensor Recursive Neural Network,TRNN)與支持向量機模型(Support Vector Machine,SVM)、遞歸神經網絡算法(Recursive Neural Network,RNN)、線性向量-矩陣遞歸神經網絡算法(Linear Vector-Matrix Recursive Neural Network,Lin.RNN)F1值的比較,獲得算法性能的對比。

實驗結果如表1所示。

表1 實驗結果

3 結語

本文研究了一種用于語義關系分類的基于張量的遞歸神經網絡算法。該算法中,以向量-矩陣對的形式表示一個單詞,向量用于表示單詞,而矩陣參數表示該單詞與鄰接單詞的修飾作用。在計算過程中,通過對矩陣選擇張量分解算法進行簡化,明顯提高了計算速度。與其他算法相比,該算法在經過非監督化的結構學習過程后,對語料庫的語義關系分類效果較好。使得語義關系分類過程大大簡化,無需大量人工對語料庫進行標注。

然而,該算法在學習過程中,也存在所需時間較長的不足,我們下一步將致力于探尋更高效的訓練方法,以進一步提高訓練速度。

[1]Hearst,Marti A.Automatic Acquisition of Hyponyms from Large Text Corpora[C].Proceedings of the 14th International Conference on Computational Linguistics.New York:ACM.1992:539~545

[2]Sergey Brin,Rajeev Motwani,Lawrence Page,Terry Winograd.What Can You Do with a Web in Your Pocket[J].IEEE Data Engineering Bulletin,2008(21):37~47

[3]John Rupert Firth.A Synopsis of Linguistic Theory[J].Philological Society:Studies in Linguistic Analysis.1957(4):1930~1955

[4]Oren Etzioni,Michael Cafarella,Doug Downey,etc.Unsupervised Named-Entity Extraction from the Web:An Experimental Study[J]. Artificial Intelligence,2005,6(165):91~134

[5]Philippe Muller,Nabil Hathout,Bruno Gaume.Synonym Extraction Using a Semantic Distance on a Dictionary[C].Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing,2006:65~72

[6]Einat Minkov,William Cohen.Graph Based Similarity Measures for Synonym Extraction from Parsed Text[C].Proceedings of the 7th Workshop on Graph Based Methods for Natural Language Processing,2012:20~24

[7]Richard Socher,Alex Perelygin,Jean Y.Wu,Jason Chuang,Christopher D.Manning.GloVe:Global Vectors for Word Representation,2014[J]

[8]Collobert and J.Weston.A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning[C]. In ICML,2008

[9]Mitchell and M.Lapata.2010.Composition in Distributional Models of Semantics[J].Cognitive Science,38(8):1388~1429

[10]Baroni,Robert Zamparelli.Nouns are vectors,adjectives are matrices:Representing adjective-noun Construction in Semantic Space [C].In EMNLP.2010:1183~1193

[11]M.Zanzotto,I.Korkontzelos,F.Fallucchi,S.Manandhar.Estimating Linear Models for Compositional Distributional Semantics. COLING,2012

Research on the Classification of English Semantic Relationships Based on Tensor Recursive Neural Network

ZHOU Jia-yi

(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)

Classification of semantic relationships is a basic area of semantic technology and gains wide attention.Introduces a better approach to classify semantic relationships of words,tensor recursive neural network model which uses tensor(vector-matrix pairs)to represent a single words.The model trains the data by an unsupervised and structural way,which has no more need of hand-labeled corpus and simplify the process of classification.The experiment shows that the algorithm can classify semantic relationships effectively,and the outperform improves by 5 percent.

Tensor;Neural Network;Classification of Semantic Relationships

1007-1423(2015)11-0043-05

10.3969/j.issn.1007-1423.2015.11.008

周佳逸(1990-),女,上海人,碩士研究生,研究方向為神經網絡、語義分析

2015-03-03

2015-03-31

猜你喜歡
語義單詞分類
分類算一算
語言與語義
單詞連一連
分類討論求坐標
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 国产综合精品日本亚洲777| 老司机久久精品视频| 2021国产精品自产拍在线观看| 国内精品自在自线视频香蕉| 国产不卡在线看| 日韩成人在线网站| 丰满人妻久久中文字幕| 国产成人艳妇AA视频在线| 国产麻豆aⅴ精品无码| 日韩精品一区二区三区免费| 国产在线精彩视频二区| 国产精品精品视频| 国产精品视频猛进猛出| 亚洲午夜福利精品无码不卡| 国产国语一级毛片| 四虎国产在线观看| 国产一区免费在线观看| 免费人成又黄又爽的视频网站| 免费不卡在线观看av| 色欲国产一区二区日韩欧美| a毛片在线免费观看| 精品久久久久无码| 青青草a国产免费观看| 美女啪啪无遮挡| 99久久免费精品特色大片| 国产99欧美精品久久精品久久| 制服丝袜 91视频| 广东一级毛片| 在线看片中文字幕| 国产精品一区在线观看你懂的| 国产欧美网站| 无码专区国产精品一区| 成人国产精品2021| 国产区网址| 国产第一页第二页| 国产精品福利导航| 久久精品人人做人人爽| 精品综合久久久久久97超人| 国产正在播放| 99青青青精品视频在线| 亚洲第一成人在线| 在线亚洲小视频| 日韩国产一区二区三区无码| 九一九色国产| 中国国产A一级毛片| 欧洲精品视频在线观看| 影音先锋丝袜制服| 色婷婷综合在线| 日本黄色不卡视频| 狠狠色综合网| 国产成人1024精品| 精品欧美日韩国产日漫一区不卡| 91美女视频在线| 欧美日韩福利| 日本免费精品| 人妻免费无码不卡视频| 欧美日韩在线亚洲国产人| 色香蕉影院| 日韩国产高清无码| 搞黄网站免费观看| 国产男女免费视频| 亚洲第一成年免费网站| 欧美精品啪啪| 久久精品人人做人人爽97| 国产女主播一区| 国产精品.com| 99在线视频网站| 午夜视频日本| 亚洲色图欧美在线| 日本日韩欧美| 国产一级无码不卡视频| 91成人在线观看视频| 亚洲开心婷婷中文字幕| 毛片视频网址| 色九九视频| 精品少妇人妻av无码久久| 亚洲福利视频一区二区| 国产幂在线无码精品| 日韩区欧美国产区在线观看| 国产成人精品2021欧美日韩| 女人18毛片一级毛片在线 | 精品国产毛片|