999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BP神經網絡的藏語實體關系抽取

2019-06-06 04:21:26郭莉莉孫媛
軟件導刊 2019年3期

郭莉莉 孫媛

摘 要:隨著藏文信息開始與現代化接軌,藏文信息數量在網絡上迅速增加。面對海量的網絡信息,如何從中挖掘人們所需的信息成為目前關注的熱點。目前中文實體關系抽取研究已取得較多成果,而在藏語人物屬性抽取研究方面還有很大的提升空間。實驗選取實體位置關系、實體間距離關系、實體及周圍詞特征進行特征向量化。通過BP神經網絡模型進行分類抽取,并且取得了較好效果。研究成果可在搜索引擎、信息安全、機器翻譯等許多應用領域發揮重要作用。

關鍵詞:藏語;實體關系抽取;BP神經網絡

DOI:10. 11907/rjdk. 181807

中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)003-0007-03

0 引言

隨著互聯網的迅速發展,電子文本信息資源數量越來越多,網民的增長速度也不斷加快,其中藏族網民近年來的增長幅度達到86%,遠高于全國的平均增長速度[1]。如今自然語言處理技術已成為計算機領域的重要研究方向之一,其研究成果也為社會帶來了巨大價值。如何對龐大的電子文本信息資源進行有效利用,并從中快速、準確地獲取人們所需的信息,已成為當前關注的熱點問題。

由于互聯網數據的爆炸式增長,使研究熱點更多地轉向Web內容結構化分析[2],在自然語言處理研究中,知識圖譜開始得到人們的重點關注。由于少數民族語言知識圖譜的構建才剛剛起步,所有藏文信息以文本形式顯示為主,而缺少知識的結構化表示。如果將藏文知識以實體方式表示,并通過實體與實體之間的鏈接表征知識之間的關系,將有利于藏文知識的結構化分析與深度挖掘。

80年代初期,中國社會科學院民族所張連生嘗試用計算機進行藏文詞匯排序,開啟了藏文文本處理的先河。但由于藏語形式與英語及漢語有著很大不同,在計算機操作系統平臺上對其進行開發十分困難。截至目前,在藏語文本資源及文獻分類、文本統計[3]與嫡值計算[4]、文本資源建設與詞典構建等方面研究已取得較大進展,從而為本文的藏語實體關系抽取研究打下了良好基礎。

1 研究現狀

實體關系抽取是信息處理技術中的重要環節。由于藏語人物屬性抽取工作尚處于起步階段,還有大量工作有待完成。在英文研究方面提出了基于特征向量[5-6]與基于核函數的方法[7-8],在中文研究方面也有針對這兩種方法的具體應用研究[9-10]。在使用模式匹配技術的基礎上,鄧擘等[11]引入詞匯語義匹配技術對漢語實體關系進行抽取;張葦如等[12]提出一種基于維基百科與模式聚類的方法,從開放文本中抽取高準確率的中文關系實體對;Culotta[13]利用一些轉換規則,定義基于依存樹的核函數,并使用SVM分類器進行關系抽取;Zhang等[14]設計了一種復合卷積樹核函數進行關系抽取。

藏語自然語言處理[15]研究目前存在最大的困難是藏語語料的缺乏。在藏語實體關系抽取方面,現有研究成虹非常少。在文獻[16]中提出基于泛化模板與SVM相結合的方法抽取實體關系;在文獻[17]中提出基于SVM的方法進行藏語人名屬性抽取研究,并且已取得一定成果。

2 方法描述

BP神經網絡的實體關系抽取是將實體關系的判別問題轉化為分類問題。本文首先從許多藏文網站爬取得到具有實體關系的文本;然后從文本中篩選出具有實體關系的句子進行預處理,如分詞、詞性標注等;對于標注好的語料,選取相關實體位置關系、實體之間距離、實體及實體周圍詞特征進行向量化,作為輸入數據;最后利用構建好的神經網絡模型進行判別分類。整體抽取過程如圖1所示。

2.1 特征向量化

本文對需要處理的語料進行向量化。本文特征選取主要采用實體詞位置關系、實體詞距離關系、實體詞周圍特征以及實體本身特征。假設實體關系中的兩個實體分別為E1、E2。

(1)實體位置關系。兩個實體在藏文句子中出現的順序是決定其關系的重要因素之一。在非包含關系的實體位置特征中考慮的情況有兩種:一種情況是實體E1在實體E2之前,表示為EP12;另一種情況是實體E1在實體E2之后,表示為EP21。

(2)實體距離關系。兩個實體在藏文句子中會產生一定距離。兩個實體詞之間距離不同,表達的兩個實體詞之間的信息也不同。將兩個實體之間的距離特征表示為Ed。

(3)實體及周圍詞特征。實體詞周圍特征以及實體本身特征包含詞特征以及詞性特征。藏語與漢語、英語有很大不同,比如藏語句型是謂語后置,其中的動詞是句子的關鍵。在藏文實體關系抽取工作中,格標記同樣起著關鍵作用。

本文選擇實體周圍窗口Windows大小為2,也即是實體前后兩個詞的詞性特征,選取格助詞(/k)、動詞(/v)、形容詞(/a)、數詞(/m)、連詞(/c)作為實體周圍詞的詞性特征。本文研究中實體E2為出生地、出生日期、逝世日期、父親、母親、國籍、職業、有關人物、性別等。實體E2詞性特征E2pog可以表示為/ng、/nt、/ns、/nh、/nz 共5種。實體E1全部為人名,其詞性都為人物名詞,沒有顯著區別,所以在本文中忽略不計。[EWi]表示詞匯特征,i=1,2,[Epog]表示詞匯詞性特征,分別如式(1)、式(2)所示。

2.2 BP神經網絡

隱藏層可以有任意多個,本文使用兩層隱藏層對實體關系進行判別。隱藏層節點數一般根據前人設計所得經驗與自己試驗進行確定。另外,隱藏層節點數太多會導致學習時間過長,而節點數太少,識別未經學習的樣本能力差。隱藏層節點數L的初始值可先由以下兩個公式中的其中之一確定:

3 實驗

3.1 語料預處理

本文的藏語語料是通過配置的爬蟲系統從多個藏文網站爬取的,如維基百科(藏語版)、康巴傳媒網、中國藏族中學網等。然后從中篩選出關于藏族人物介紹的文章,并對這些句子作一些預處理,如人工分詞、詞性語料標注等,其中篩選包含人物屬性的句子4 216句,采用3 000句作為訓練數據,1 216句作為測試數據。

3.2 評價指標

實體關系抽取的性能評價使用信息檢索中的評價方法,召回率(R)可被粗略看成是測量被正確抽取的信息比例,而準確率(P)用來測量抽取的信息中有多少是正確的。一般召回率與準確率存在反比關系,也即準確率增大會導致召回率減小,反之亦然。本文采用F值對最終的系統性能進行評價,F值越接近1,表示結果越好。

3.3 實驗參數設置

本文隱藏層選用Sigmoid函數,輸出層選用線性函數。訓練函數有trainlm算法、trainrp算法、trainbfg算法、traingdx算法等。本文選用了適合模擬分類的traingdx算法。選擇的學習速度參數不能太大,否則會出現算法不收斂的情況,也不能太小,否則會使訓練時間太長。一般選擇0.01~0.1之間的值,本文選用0.01,訓練目標誤差為0.01。

3.4 實驗結果及分析

在同樣語料的情況下,本文采用支持向量機方法進行實驗,實驗結果如表1所示。

從表1可以直觀地看出,在選取相同特征及相同語料的基礎上,使用BP神經網絡模型比使用SVM模型的實驗結果在正確率、召回率以及F值上都有更好效果,其中F值提高了1%。

實驗采用MATLAB對結果作進一步分析,如圖3所示為訓練結果,隨著迭代次數增加,檢驗參數的值不斷減少。在迭代106次時,最佳的檢驗參數是0.653。

圖4是BP神經網絡模型的實際與預測分類對比結果。黑色表示預測類別的標簽,灰色表示測試之前標注好的標簽。

4 結語

本文介紹了使用BP神經網絡模型對藏語實體關系進行抽取的方法。實驗結果表明,BP神經網絡相比于SVM分類器,在正確率、召回率以及F值上都有更好效果。目前,藏語語料還不夠豐富,與漢語測試數據相比,實驗中藏語數據相對比較單一,而且標注數量有限,對語料的收集與檢驗工作還需進一步完善。因此,在藏語實體關系抽取研究上仍有很大的提升空間。該研究在搜索引擎、網絡信息過濾與信息安全、機器翻譯等許多應用領域可發揮重要的作用。

參考文獻:

[1] 李光,鐘雅瓊. 大陸研擬藏維文網絡輿情監測系統監控分裂風險[EB/OL].? http://news.ifeng.com/.

[2] BIZER C,HEATH T,BERNERS-LEE T. Linked data-the story so far [J]. International Journal on Semantic Web and Information Systems (IJSWIS),2009,5(3):1-22.

[3] 梁金寶. 藏語歷史文獻詞匯統計[D]. 北京:中國社會科學院民族學與人類學研究所,2013.

[4] 祁坤鈺. 信息處理用藏文自動分詞研究[J]. 西北民族大學學報:哲學社會科學版,2006,26(4): 92-97.

[5] ZHOU G D,ZHANG M. Extracting relation information from text documents by exploring various types of knowledge[J]. Information Processing and Management,2007(43): 969-982.

[6] NANDA KAMBHATLA. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C].? Proceedings of ACL, 2004: 178-181.

[7] QIAN L H,ZHOU G G,KONG F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]. Proceedings of COLING, 2008: 697-704.

[8] ZHOU G D,ZHANG? M,JI? D H, et? al. Tree? kernel-based? relation? extraction with context-sensitive structured parse tree information? [C]. Proceedings of? EMNLP/CONLL,2007:728-736.

[9] CHE W X,JIANG J M, ZHONG SU,et al. Improved-Edit-Distance kernel for Chinese relation extraction[C]. Proceedings of IJCNLP, 2005:132-137.

[10] 莊成龍,錢龍華,周國棟. 基于樹核函數的實體語義關系抽取方法研究[J].? 中文信息學報,2009,23(1):3.

[11] 鄧擘,樊孝忠,楊立公. 用語義模式提取實體關系的方法[J]. 計算機工程,2007,33(10):212-214.

[12] 張葦如,孫樂,韓先培. 基于維基百科和模式聚類的實體關系抽取方法[J]. 中文信息學報,2012,26(2): 75-81.

[13] CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C].? Proceedings of ACL, 2004: 423-429.

[14] ZHANG M, ZHANG J, SU J, et al. A compo site kernel to extract relations between entities with both flat and structured features [C].? Proceedings of ACL, 2006: 825-832.

[15] SUN Y, YAN X, ZHAO X, et al. Research on automatic recognition of Tibetan personal names based on multi-features[C]. International Conference on Natural Language Processing and Knowledge Engineering. IEEE, 2010:1-5.

[16] 朱臻,孫媛. 基于SVM和泛化模版協作的藏文人物屬性抽取[J]. 中文信息學報,29(6): 220-227.

[17] 蘭義涌. 藏文人名屬性抽取及消歧研究[D]. 北京:中央民族大學, 2016.

(責任編輯:黃 健)

主站蜘蛛池模板: www亚洲精品| 中文字幕天无码久久精品视频免费| 全免费a级毛片免费看不卡| 中文字幕无码中文字幕有码在线 | 国产高清在线观看91精品| 亚洲免费三区| 欧美性精品| 91在线激情在线观看| 欧美日韩一区二区在线播放 | 国产第一页亚洲| 亚洲码在线中文在线观看| 亚洲无码37.| 亚洲Aⅴ无码专区在线观看q| 无码专区第一页| 女人一级毛片| www.日韩三级| 58av国产精品| 国产污视频在线观看| 91丝袜在线观看| 久久人人爽人人爽人人片aV东京热| 尤物成AV人片在线观看| 真人高潮娇喘嗯啊在线观看| 精品撒尿视频一区二区三区| 久久精品无码一区二区国产区| 国产95在线 | 日韩毛片在线视频| 青青草原国产av福利网站| 手机精品福利在线观看| 啦啦啦网站在线观看a毛片| 亚洲手机在线| 国产日韩精品一区在线不卡| 欧美啪啪网| 国产成人精品亚洲77美色| 欧美一区二区自偷自拍视频| 在线视频97| 久久这里只有精品国产99| 国产成人综合亚洲欧美在| 国产激情无码一区二区免费| 久久久亚洲国产美女国产盗摄| 亚洲伦理一区二区| a级毛片免费网站| 亚洲国语自产一区第二页| 99久视频| 国产欧美日韩91| 狠狠做深爱婷婷综合一区| 久久香蕉国产线看精品| 亚洲精品日产AⅤ| 亚洲第一视频免费在线| 3344在线观看无码| 亚洲侵犯无码网址在线观看| 九九热精品视频在线| 国产三级国产精品国产普男人 | 亚洲第一黄色网址| 欧美曰批视频免费播放免费| 亚洲欧洲日韩综合色天使| 在线欧美日韩| 欧美自拍另类欧美综合图区| 成人午夜久久| 久久久久国产精品嫩草影院| 伊人大杳蕉中文无码| 免费a在线观看播放| 永久在线精品免费视频观看| 动漫精品啪啪一区二区三区| 99精品影院| 欧美精品色视频| 日本不卡在线| 日韩无码黄色| 在线看片中文字幕| 国产精品深爱在线| 99国产精品一区二区| 91亚瑟视频| 性视频久久| 国产在线第二页| 91精品视频网站| 97国产在线观看| 国产成人精品男人的天堂| 亚洲视频免| 97国产在线观看| 国产午夜福利片在线观看| 国产福利免费视频| 亚洲成aⅴ人在线观看| 国产XXXX做受性欧美88|