999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

藏文問句分類及關鍵詞提取

2020-02-03 08:22:00洛桑嘎登仁增多杰索南尖措才讓叁智布加
電子技術與軟件工程 2020年6期
關鍵詞:文本方法模型

洛桑嘎登 仁增多杰* 索南尖措 才讓叁智 布加

(1.西藏大學信息科學技術學院 西藏自治區拉薩市 850000 2.國家電網西藏電力有限公司 西藏自治區拉薩市 850000)

藏文自然語言處理經歷了幾十年的發展,現在已從原來的編碼研究等基礎研究慢慢步入詞法分析、句法分析階段。藏文問句預處理的研究,可以應用于藏文問答系統的設計,藏文輿論熱點話題的追蹤、藏文文本主題挖掘等研究。文本在原有研究基礎上研究了。本文在原有的研究基礎上主要實現了基于知識融合的藏文分詞標注,基于疑問詞的藏文問句分類和基于TextRank 的藏文關鍵詞提取研究。藏文問句的分詞標注研究主要參考文獻[9][10]的內容實現。關鍵詞提取主要方法有用語料訓練關鍵詞提取模型,依據模型對需要提取的文檔進行關鍵詞提取[1][2];無監督提取無需對語料標注,通過對候選詞集使用一定的算法機制將關鍵詞按重要性排序,主流的方法包括基于詞頻統計TF-IDF 模型[3][4]、基于主題LDA 模型[5][6]。

1 問句分詞標注

藏文詞匯以音節為基本單位,自動分詞就是需要將連續的藏文音節序列組合成詞序。藏文的詞性標注任務是為藏文文本中的每一個詞都標記上一個恰當的詞類標記符,確定每個詞的名詞、動詞、形容詞或其他詞類屬性。藏文除了自身獨特的語法特點還兼具漢藏語系的孤立語言特征和蒙古語、維吾爾語等黏著語特征,因而,結合藏文語言特征開展的分詞標注研究,對其他少數民族語言的分詞標注研究也具有很好的參考價值。本文采用條件隨機場統計模型進行藏文分詞標注,并利用藏文自身語言特征,采用知識融合的方式對基于條件隨機場模型的分詞標注結果進行校正,并實現了一個基于web 的藏文分詞標注系統,能自動進行大規模藏文文本的自動采集、XML 格式轉換及藏文分詞和詞性標注。本文通過基于條件隨機場(Conditional Random Fields,CRFs)的方法實現了藏文的分詞標注任務,具體實現參見文獻[8]。該文在文獻8 的基礎上,增加了命名實體識別模塊,以提高藏文自動分詞與詞性標注的準確率。

文本采用基于CRFs 的藏文命名實體識別方法。標注集采用“BIEO”的標注方法,具體如下,對于如下的藏文句子:

Sentence 代表輸入的原始文本內容,Target 表示經過CRFs 標注的結果,從上面的標注結果可以識別出,??????????? 這個人名和 ????????這個地名。

圖1:TextRank 詞匯圖

命名實體識別有助于提高分詞的準確性,尤其是對未登錄詞的識別。

2 問句分類

問句的分類是根據問句的答案類型對問句進行分類,它是問句分析最重要的功能之一。目前大多數這類問答系統都利用答案類型來指導后續步驟,尤其是答案抽取策略,例如對于問人物的問題,答案抽取會利用人物的各種特征來提取答案候選集合。本文通過疑問詞來確定問句的類型,雖然這樣的方式具有一定的魯棒性,但是對于絕大數常見的問題這種方法簡單時效。如表1 所示。

3 問句關鍵詞提取

3.1 基于詞匯圖原理的關鍵詞提取方法

TextRank 算法是一種用于文本的基于圖的排序算法。該算法可以表示為一個有向有權圖G=(V,E),如圖1 所示。

其中V 代表點的集合,E 代表邊的集合。圖中任意兩點Vi,Vj之間的權重為Wij。對于一個給定的點Vi,In(Vi)為指向該點的點集合,Out(Vi)為點Vi 指向的點集合。TextRank 的公式定義如下:

3.2 算法實現

本文通過TextRank 算法是實現關鍵詞的提取,具體實現步驟如下:

表1:常見的藏文問題分類

第一步,把藏文文本按照分句符分成一個獨立的句子;

第二步,每個句子按照上述方法進行分詞和詞性標注;

第三步,從詞性標注結果中保留名詞(包括命名實體)、動詞、形容詞登等實詞的詞性,過濾掉語氣詞、標點符號、格助詞等虛詞;

第四步,以窗口大小為5 構建有向圖,并計算詞語的共現概率;

第五步,根據概率的排序結果,挑選出概率排名前N 的詞語作為關鍵詞。

例如,對于如下的藏文文本:

首先按照分句符分開上面兩個句子:

對Sentence1 進行分詞標注之后得到:

過濾掉Sentence1[tag]中的格助詞、標點符號等詞,并構建詞匯圖,計算共現概率,得到如下結果:

最后將 ????? ?????????? ???? ?????? 作為候選關鍵詞。

4 結論

該文結合藏文分詞標注研究并實現了一種基TextRank 算法的藏文關鍵詞提取技術,該文在1500 句的藏文問句上進行了實驗研究,總體效果較好,但是也存在一些問題。比如,藏文分詞標注結果中有些重要的動詞沒有標注出來,導致后面提取關鍵詞時被過濾掉,另外,因藏文存在黏著詞的問題,雖然正確提取出了問句的關鍵詞,但是從提取出來的關鍵詞反推原文意思,存在很難理解的問題。下一步,該文將嘗試利用深度學習的方法實現藏文文本關鍵詞提取研究。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 波多野结衣一区二区三视频| 91在线无码精品秘九色APP | 国产成人精品视频一区视频二区| 亚洲性一区| 中文字幕无码中文字幕有码在线| 亚洲欧美日韩综合二区三区| 蜜臀AVWWW国产天堂| 免费在线播放毛片| 精品视频第一页| 中文字幕欧美成人免费| 亚洲欧美极品| 国产成人无码Av在线播放无广告| 亚洲精品欧美日本中文字幕| 韩日午夜在线资源一区二区| 亚洲av无码人妻| 手机在线看片不卡中文字幕| 白浆免费视频国产精品视频| 欧美日韩精品在线播放| 国产欧美精品专区一区二区| 国产精品国产三级国产专业不| 欧美高清国产| 第九色区aⅴ天堂久久香| 精品久久综合1区2区3区激情| 国产99在线| 欧美精品另类| 精品国产福利在线| 久久久久亚洲Av片无码观看| 97国产在线观看| 欧美全免费aaaaaa特黄在线| 日韩欧美国产成人| av尤物免费在线观看| av一区二区三区在线观看 | 少妇露出福利视频| 777午夜精品电影免费看| 精品人妻一区二区三区蜜桃AⅤ| 国产自在线拍| 国产va在线观看免费| 日韩欧美中文| 91亚洲国产视频| 日韩免费视频播播| 欧美日韩一区二区在线免费观看| 福利一区在线| 巨熟乳波霸若妻中文观看免费| 理论片一区| 久久香蕉欧美精品| 国产精品lululu在线观看| 国产91视频观看| aa级毛片毛片免费观看久| 99re热精品视频中文字幕不卡| 欧美在线天堂| 国产欧美日韩精品综合在线| 亚洲成综合人影院在院播放| 欧美v在线| 干中文字幕| 精品亚洲麻豆1区2区3区 | 国产91在线|日本| 五月天在线网站| 国产亚洲一区二区三区在线| 国产精品自拍合集| 国产AV毛片| 日本一本正道综合久久dvd| 亚洲av中文无码乱人伦在线r| 亚洲成年人网| 第九色区aⅴ天堂久久香| 色综合天天综合中文网| 亚洲三级影院| 久久国产精品影院| 国产一区亚洲一区| 亚洲Av综合日韩精品久久久| 国产精品人人做人人爽人人添| 日韩免费无码人妻系列| 天天综合网在线| 精品国产www| 91精品啪在线观看国产91九色| 欧美午夜一区| 国产精品视频观看裸模| 国产sm重味一区二区三区| 亚洲欧美精品一中文字幕| 中文字幕1区2区| 亚洲色图欧美| 欧美成人a∨视频免费观看| 国产精品美女自慰喷水|