999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞向量的語義學規范化

2016-04-29 00:00:00唐雨?曾蒙田
求知導刊 2016年10期

摘 要:采用深度學習方法學到的詞向量,與語言學義素還有距離,向傳統語義學義素系統靠攏是有意義的。這里提出了避讓原則,和提取向量或“呼喚”向量,相應地,概率語言模型有所改變。本文找到了兩種規范詞向量的方法:學習中注入自組織核心和學到詞向量的線性變換矩陣,把向量分量排列規范化,表示出名字。討論中涉及語言語義學對詞向量學習處理的各種啟發。

關鍵詞:人工智能;深度學習;自然語言處理;詞向量;語義

中圖分類號:H030 文獻標識碼:A 收稿日期:2016-02-01

一、相關工作

本文最后所列的參考文獻[2]曾經提出模式自動機想法,模式是滿足關系的一組要素:f(x1,x2,...,xn)。模式自動機是模式的變動: f’(x’1,x’2,...,x’n)=F[f(x1,x2,...,xn)]。模式關系滿足時有不動點。神經元網可看成模式: V=W.U 。 對矩陣和向量調整方法和終止條件看成模式自動機。每個可變項有“信息硬度級”:“目標,已知,假設,未知”。學習推理過程中,“已知”的項作為知識不變,而要求可變項隨自己變動,這就成為自組織核心。

參考文獻[3]、[4]、[5]是對詞向量的研究及綜述,通過不同的參數和語料庫,可以學習50~1000維的詞向量,能進行語義計算,如:V(羅馬)=V(巴黎)-V(法國)+ V(意大利)。依照語義學,詞向量應該能夠表示義素,但義素不知名,組合而不分離,順序隨機,沒有語義軸——對立關系。

參考文獻[7]研究了詞義聯合,如果兩詞的向量是a、b,分別有矩陣A、B,聯合詞義向量是c=f(B.a+A.b),解釋是b詞,對a詞進行一些修飾變化,反之亦然。

參考文獻[6]給出機器翻譯方法,利用詞向量之間空間關系守恒原理,對兩種語言分別進行無監督學習,提供部分雙語對照語料,學習源語言到目標語言的線性變換V(d)=W·V(s),之后對源語言單詞的向量做變換,在目標語言向量空間找到余弦最近向量,相應詞就是翻譯結果。

二、語義避讓、呼喚向量和新模型

1.語義避讓

描述詞義的向量的各個特征應該是互相補充關系,不應混淆,所以應該各安其位。比如,描述實質的名詞和修飾名詞的形容詞,應在同一向量中,各有一組向量分量,不是組合的,這就是語義避讓。語義學里義素表達一個單獨特征,以“+”表示“有”,以“-”表示“相反”。這樣可以清晰地、正交地容納不同語義信息。

語義向量內部義素應該避讓,大概的結構是:特征段+名詞段+動作關系段+賓語段+間接賓語段。邏輯上,可有下面分段的抽象示意性結構:

[adj ( attributes )(adv:degree)+

N(kind0,subject?number) + V(what action or have what relation)(preposition:structure)(adv: how,when,where)+object1(kind1)+object2(kind2)+ bias ]

對名詞向量,如果可做賓語,kind1、kind2是kind0的摘要,這是冗余部分。相應地,動詞要求賓語,可在呼喚向量對應位置為1 。如果知道是主格,如英文I 、he,object 段是0 。如果是賓格,N的是否主語維是0 。介詞與結構相關,利用簡明的語法規律,可以從不同詞向量取N、object1、object2段。

即使做了規范化,有些義素成為知名的,還可保留很多不明確知道含義的信息,這樣能使微妙信息得到表示。

bias 是偏置項,可不限制在[-1,1]區間內。如果是負數,絕對值較大,則說明結合中要求嚴格,不成立機會大;如果是正數,說明結合要求寬松。而呼喚向量尾上總是1 。

2.呼喚向量

現在的向量學習是通過向量點乘衡量結合概率的,這樣,向量內容實際上應該是自身攜帶信息和與其他詞結合度信息的混合。如果實現了上述避讓,本該結合的單詞之間,非零分量的位置不同,沒有相交點,這才有必要結合互相補充修飾。因為語義表達清晰的詞向量之間交叉少,計算點乘是不能反映結合性的,這就要求在作為主詞和作為其他詞語境時,使用不同的向量。

我們把在可以修飾自己、可以修飾對方、互相不沖突的義素位置取1的向量,稱作“呼喚向量”,或“提取向量”。它呼喚相應的信息,在進行詞結合時,通過按位乘,提取可結合信息。對詞w,有Vs(w)和Vc(w),Vs(w)是語義向量,Vc(w)是呼喚向量。定義按位乘算符為雙點“ ..” ,如 Vs(x)..Vc(y)提取能修飾單詞y的單詞x中信息。

我們與文獻[7]對 A·b+B·a 進行詞向量結合的語義解釋不同,認為本詞要表示哪些信息與自己相容,并被提取出來修飾自己。a、b 兩詞語義結合,應是:Vs(a)..Vc(b)+Vs(b)..Vc(a)。

呼喚向量與作為語境的衡量與主詞結合性的向量是一致的,兩者點乘值大,反映結合性強,共現概率大,按位乘計算量小,意義明確,而且一個位置上的分量,不會與其他位置分量值加減,這與語義學要求一致。

一個句子中,語義向量和呼喚向量都有避讓,不然是信息重疊,而相應地,單個詞的語義向量和呼喚向量之間也是避讓的,因為不會提取已有信息來修飾自己,而且可能造成沖突。提取向量與語義向量的非:非0項置0,0項置1,比較接近。

可以看出,向量如果含滿信息,其具體程度向著完整句子發展。經過避讓分段,句子語義通過句中詞向量相加成為可能。

呼喚向量的結合,是“按位或”:取兩者最大的(大于閾值看成1),再與各語義向量相加的和向量的非,按位乘,這樣,對缺少的單詞的呼喚指向性更強。當然,這里是概念化性討論,實踐中可增加細節。

從這種大概的分量段劃分就可看出,呼喚向量為1的位置,應該是自己可以結合的那些分量,排斥和不相關的位置是0。這樣,與符合呼喚要求的語義向量點乘,值就會大。

比如三目動詞對N、object1、object2三段信息(可能來自三個詞)都有提取。

3.模型變化

通過區別語義向量和語義呼喚向量,模型改變為:f(x)=1/(1+exp(-x)),

p(w,context)= f(Vs(w). Vc (context )), 或p(w,context)= f(Vc(w). Vs (context))。也可兩者結合:p(w,context)= f(x),x=α.Vs(w).Vc (context)+ β.Vc(w).Vs(context),其中,α+β=1 。

目標是對已有句子,在主詞和語境Vs、Vc 條件下, 使得p(w | context)或p(context | w)最大。

借鑒GloVe,統計出一個全局同句共現矩陣,Mij是單詞i和單詞j的同句共現計數。隨機取context中單詞都不共現的單詞,這幾行中,取值全是0 的某列對應單詞,作為w’。以1-p(w ’| context )最大,對其Vs、Vc向量進行訓練,這應該有利于學會排斥性。

可以句子為單位,句子太大時可使用前后取5個詞的窗口。這種限制的意義在于刨去冠詞、數詞等語義稀疏詞、意義比較豐滿的詞,向量求和時,非零項重疊過多,“避讓”不及。

可以比較閾值,對Vc 每次訓練后,取 0 、1 兩個值,這樣也能節省存儲空間和計算速度(乘法變成:置0和不變)。

計算點乘Vs.Vc時,可乘以一個大于1的系數,系數較大,有利于向量的稀疏化,比如取4,有1/4非零項就達到所要的概率。

初始化可以按3/4比率對Vs項取0值。而初始化的Vc可使Vs的0值項取1。

當然,這些設想需要在實現過程中加以調整、細化。

三、詞向量規范化

1.使用單義素詞作為基準

我們的目標是使詞向量與義素表示部分地一致起來,使語義處理、理解更加方便。如果前面學習模型使得詞向量,特別是單義素詞向量充分稀疏,或者進一步通過深度學習擅長的能力多層自主學習,可抽象出上層特征,把組合特征歸納成單一上層特征,就能考慮進一步規范化。

我們想到單義素詞的向量應當十分稀疏,理想狀態是單個非零項。所以可選用單義素的形容詞,比如male,female。

由于沒有針對性地指導系統學習對立義素,猜測沒有一個性別項,對男性取值1,女性取值 -1,很可能是“是否male”和“是否female”分別存在,分布在不同位置多個項上。與語義學義素分析參照,可用兩項表示一個義素,并在規范化知名義素后,把這種信息告訴系統,使之能處理對立義素。

比如以(male,female,younger,

elder,……)為向量分量標準順序,male、female、younger、elder 四個單詞的向量分別為:(1,-1,0,0,…)(-1,1,0,0,…)(0,0,1,-1,…)(0,0,-1,1,…),其他維度上,理想情況應該為0 。可按位乘0.5,把想強調的項突出來,呼喚向量通過學習得到。

2.注入自組織核心

因為學到的詞向量中對應各分量排列順序是隨機的,而各個詞語之間關系是反映客觀信息的、守恒的,如果有部分詞向量的前n個分量取值是固定不變的,那么,為了保持詞語間語義關系,其他詞的向量就會與不變向量分量取得協調,這樣,加入的含有不變分量的向量,就成為自組織的核心。這相當于給選出單詞的前n個分量,賦予了信息硬度級“已知”,把少量的指導學習信息加入到基本上無指導學習過程中,為自主學習帶來一些約束。

在注入向量取值的鉗制下,正學習的向量在前n個分量排列,就會和規范要求一致,甚至在取值上可能更接近典型的-1,0,1,并且,這部分分量在表示信息上可能更加密集。

比如,以(male,female,younger,

elder,……)為向量分量標準順序,注入male、female、younger、elder 四個單詞:(1,-1,0,0,…)(-1,1,0,0,…)(0,0,1,-1,…)(0,0,-1,1,…)。對一些可以有性別描述和相對年齡描述的詞,可強制提取向量相應項為1 。

3.通過翻譯變換進行規范化

對于作為基準的單義素詞,把向量分量位置按規范要求排列。作為目標語言的詞向量,由于V(d)=W·V(s),比如male,學會的向量,在L位置是1,M位置是-1,其他項很小,想要規范成(1,-1,0,0,…),W的第1行的第L列為1,其他是0,第L行第1列為1,其余為0;第2行的第M列為1,

其他為0,第M行第2列為1,其余為0;就能完成對male、female兩個分量的交換。完成前n個分量的規范化,學會W的前n行就可以了。而呼喚向量用同一個W進行位置變換。

當然這是理想情況,具體可在male向量中找到絕對值最大兩個分量,其余看成0,學習W,之后可以恢復實際向量各項的值,通過W的線性變換進行部分分量的規范化。m維向量X,Y點乘:∑(i=1,m)xi.yi ,順序改變,不改變加法結果。

所以本方法和前面的方法由于是統一把所有向量的分量順序進行改變,而概率語言模型中的點乘結果不變,所以學習能力與詞出現和共現的概率不變。

進行了相同規范化的多種語言,在機器翻譯時,不必再進行線性變換,直接從源語言詞向量尋找目標語言單詞。詞向量成為共同的中介。

語義學規范化會為理解、處理相關內容帶來益處。

詞向量可以表現深層語義,對詞向量進行語義學規范化,從向量中得到更多“知名義素”,將有利于符號化,使得潛意識向顯意識的轉化成為自然、有意義的過程。

規范后,機器翻譯可直接利用知名義素的名,如:V(表哥)-V(cousin)=V(elder)+V(male),V(表哥)=V(elder)+V(male)+ V(cousin),elder和male 是知名義素,可直接提取,不必學習英語使用者較少使用的短語elder male cousin。

通過單義素詞學到知名義素,并學會對立義素,可顯性處理二元對立語義,也可以用一項代替兩項,與義素表示進一步一致。

這里的討論,動機來自把詞向量引向語義學義素組的性質,區分詞的語義向量和語義呼喚向量,帶來詞向量學習的概率模型的變化。未來工作是這種模型、兩種規范化方法的程序實現。

參考文獻:

[1]賈彥德.語義學導論[M].北京:北京大學出版社,1986.

[2]唐 雨.作為概念的模式自動機[A].中國計算機學會.99青島—香港國際計算機會議論文集[C].青島,1999.

[3]Tomas Mikolov,Ilya Sutskever,Kai Chen, et al.Distributed Represent-

ations of Words and Phrases and their Compositionality[J].Advanced in Nenral Information Processing Systems,2013.

[4]J.Pennington,R.Socher,C.D.Manning.Glove: Global vectors for word representation[J]. Proceedings of 2014Conrerence on Empiricial Methods in Natural Language Processing,2014.

[5]P. D. Turney,P. Pantel. From frequency to meaning: Vector space models of semantics[J]. Journal of Artificial Intelligence Research,2010.

[6]Richard Socher, Brody Huval, Christopher D. Manning,et al.Semantic Compositionality through Recursive Matrix-Vector Spaces [J].Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012.

[7]Tomas Mikolov,Quoc V. Le,Ilya Sutskever. Exploiting Similarities among Languages for Machine Translation[J].Eprint Arxiv,2013.

主站蜘蛛池模板: 亚洲小视频网站| 国产精品无码一区二区桃花视频| 国内自拍久第一页| 无码粉嫩虎白一线天在线观看| 爽爽影院十八禁在线观看| 亚洲成AV人手机在线观看网站| 在线观看国产网址你懂的| 麻豆a级片| 四虎精品黑人视频| 毛片网站在线看| 五月激激激综合网色播免费| 日韩欧美国产三级| 97久久免费视频| 日韩欧美色综合| 日韩天堂网| 日韩av手机在线| 国模私拍一区二区三区| 日本免费福利视频| 亚洲无码A视频在线| 国产欧美精品一区二区| 亚洲欧美日韩视频一区| 亚洲天堂网2014| 亚洲人成网18禁| 午夜三级在线| 中文成人无码国产亚洲| 狠狠做深爱婷婷久久一区| 中文字幕无线码一区| 久久久久久久97| 国内精品久久人妻无码大片高| 午夜啪啪网| 国产精品成人啪精品视频| 久久不卡精品| 黄色a一级视频| 婷婷亚洲综合五月天在线| 国产激情无码一区二区APP | 免费看美女自慰的网站| 久久人搡人人玩人妻精品一| 欧美另类第一页| 日韩欧美中文字幕一本| 久久99精品久久久久纯品| 999精品免费视频| 91免费国产在线观看尤物| 欧美日韩中文国产| 视频在线观看一区二区| 99视频在线免费看| 成人在线观看不卡| 国产SUV精品一区二区| 午夜色综合| 无码'专区第一页| 国产欧美日韩va另类在线播放| 国产91无码福利在线| 日韩色图在线观看| 精品国产一区91在线| 国产成人你懂的在线观看| 日本免费a视频| 啪啪啪亚洲无码| 国产精品冒白浆免费视频| 久久综合五月婷婷| 国产a v无码专区亚洲av| 亚洲娇小与黑人巨大交| 亚洲中文字幕97久久精品少妇| 另类欧美日韩| 男女猛烈无遮挡午夜视频| 亚洲码一区二区三区| 国产精品专区第一页在线观看| www精品久久| 日本人又色又爽的视频| 91精品国产综合久久香蕉922| 亚洲激情99| 久久先锋资源| 不卡无码网| 欧美一区二区精品久久久| 日本草草视频在线观看| 欧美国产菊爆免费观看| 无码区日韩专区免费系列| 成人国产免费| 亚洲美女AV免费一区| 一级高清毛片免费a级高清毛片| 国产网友愉拍精品视频| 亚洲国产天堂久久综合| 97在线视频免费观看| 欧美日韩在线亚洲国产人|