999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于質子串分解的網絡新詞抽取

2014-04-29 00:44:03吳保珍
電腦迷 2014年11期

吳保珍

摘 要 發現網絡新詞在中文信息處理方面具有非常重要的作用和意義。本文提出了一種基于質子串分解的網絡新詞抽取方法。首先,從網絡上下載語料;然后,使用分解得到質串;并 在其基礎上,進一步使用改進的檢驗方法結合質子串分解方法抽取具有復雜結構的合串并比較驗證新詞;實驗結果顯示,該算法有效地提高了網絡新詞抽取的精確度。

關鍵詞 網絡新詞 質子串分解 互信息 F-MI

中圖分類號:TP391.1 文獻標識碼:A

0引言

新詞是未登錄詞的一種,即新詞也是未收入在詞典中的詞,但它和未登錄詞還是有所不同。它指通過各種途徑產生的、具有基本詞匯所沒有的新形式、新意義或新用法的詞語或者是出現在某一時間段內或自某一時間點以來所首次出現的具有新詞形,新詞義或者新用法的詞匯。

1新詞獲取系統流程

新詞識別的信息流采集于門戶網站下載的網頁,組建語料庫,對語料進行預處理,建立Pat Tree索引 ,然后進行術語抽取。其中術語抽取的方法采用基于卡方檢驗的質子串分解方法。

2網絡新詞識別方法

該模塊是系統的核心模塊。首先,對候選術語集合進行C-value參數計算,對于C-value小于給定閾值的候選術語將被從列表中刪除;然后對表中的候選術語進行字符串分解,并根據分解結果計算所有候選串的F-MI參數值;最后,根據給定的F-MI閾值,淘汰掉錯誤的候選術語,并輸出最終的術語列表。

2.1質子串分解

我們把詞簡單地分為兩類,一類是不可再分解為更小的詞匯單元的詞匯,這類詞我們稱為質詞,如“珠穆朗瑪”一詞,任何子串(“珠穆朗”或“朗瑪”等)都不是詞;另一類是由質詞組合而成的詞匯,這類詞我們稱為合詞,如“社會保障體系”則是由三個質詞(“社會”、“保障”和“體系”)組合而成的。對于串S,除了單字串和質串以外,都是合串,單字既不是質串,也不是合串。對于合串S,如果S可以串分解為S= S1 S2 S3…Sm,其中Si可以為質串或單字,但必須至少有一個是質串,則稱S=S1 S2 S3…S m是S的一種質子串分解。

2.2串分解的F-MI

本文采用改進的互信息參數F-MI來評估一個串成為術語的可能性。參數F-MI的定義分兩種:串分解的F-MI值和串的F-MI值,其中串的F-MI值的定義以串分解的F-MI為基礎。

對于串S及S的一種分解S= S1 S2 S3…Sm,串分解的F-MI的計算公式為:

S表示待計算的串,F(S)表示S在文檔集中出現的次數,T(S)表示S所有父串在文檔集中出現的次數,而C(S)表示S所有父串的個數。

參數C-value的目標是為了提高網狀術語的抽取效果。由公式3.2可知,對于極大串S,C-value(S)=F(S);而對于非極大串S,C-value參數則綜合考慮了S及其所有父串之間的網狀關系,例如對于極大串S1=“珠穆朗瑪”及其子串S2=“珠穆朗”,如果F(S1)=F(S2),則C-value(S1)=F(S1),而C-value(S2)=0。

而參數的定義為:

其中,i表示表中的行變量,j表示列變量,Oi,j表示表單元(i,j)的觀測值,Ei,j表示期望值。這里,我們取2?的表來計算,如表2所示。

表2 單詞質量和監督出現次數之間的依賴關系的2?的表

檢驗從理論上講適用于各種大小的表,但是對于2?的表的表達形式相對簡單:

=(N是語料庫中二元對的總數)

2.3串的F-MI

對某一質串S= C1 C2 C3… Cm(其中Ci均為單字),質串F-MI的計算公式為:

其中,本文定義單字的C-value(C)=F(C),如質串“珠穆朗瑪”的F-MI值為:

而對某一合串S,如果S的所有質子串分解為:

即共有n種分解方式,根據公式3.1,分別計算每一種串分解的F-MI值(f1,f2,f3,…,fn),則合串S的F-MI的定義為:

F-MI(S)=Max(f1,f2,f3,…,fn) (3.5)

本文術語抽取的重點是合串的抽取。而在抽取到的62190個合串中,只有4531個被Hownet收錄,92%以上的合串未被收錄,其原因是這些合串大部分并不屬于嚴格意義上的詞,而主要是一些短語和組合術語。另外,本文結合卡方檢驗對組合術語出現的偶然性進行驗證,從而使合串抽取的正確率有所提高。

3實驗結果及分析

(1)測試數據

我們下載了新浪(http://www.sina.com.cn)網站上從2013年1月到2013年6月的文章,共計130016篇文章,約345M。

(2)測試結果及評估

本次實驗共抽取到了241998個術語,其(下轉第45頁)(上接第43頁)中108102個被Hownet收錄,占所有抽取總數的 44.67%,質串99040個(91.62%),合串9062個(8.38%);詞典之外(OOV)的133896個術語中,質串18578個(占13.87%),合串115318個(占86.13%)。當我們對詞典之外的進行了人工評估,并規定,在合串中只有名詞性短語才被認定為是正確的詞匯。正確的詞匯共有204696個,總體準確率為85.41%。

(3)實驗結果分析

本文網絡新詞抽取的重點是合串的抽取。而在抽取到的124380個合串中,只有9062個被Hownet收錄,90%以上的合串未被收錄,其原因是這些合串大部分主要是一些短語和組合術語,并不屬于嚴格意義上的詞。另外,本文采用結合卡方檢驗和互信息F-MI檢測對組合術語出現的偶然性進行驗證,從而使合串抽取的正確率有所提高(表3、表4)。

我們通過計算抽取到的術語數目與語料規模的比值來考察分析。與文獻(Patrick & Dekang 2001)10M測試語料抽取到10268個術語相比(比值約1026.8),本文在約345M的測試語料上抽取到241998個術語(比值約876.8),該參數要小于前者,隨著測試語料規模的增大,重復術語出現增多,所以在結果上基本是一致的。

4結語

本文介紹了基于卡方檢驗和質子串分解來獲取網絡新詞,今后我們將針對參數F-MI的特點,繼續對F-MI公式進行研究和改進,以提高質串的抽取效果;在今后會根據詞法規則來自動過濾非名詞的詞匯。在本文提出的方法和實驗結果的分析的基礎上,我們將嘗試結合自然語言處理中的文本自動分類技術,基本上自動實時動態地從Internet上抓取網頁,并自動分類,對不同類別的文本集分別進行術語抽取,建立一個實時的動態的網絡新詞發現系統。

參考文獻

[1] Frantzi K, Ananiadou S. Extracting Nested Collocations[c]. Copenhagen Denmark:Proceeding of COLING,1996:41-46.

[2] Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[c]. Canada:Canadian Conference on AI,2001:36-46.

[3] 劉建舟,何婷婷,姬東鴻等. 基于開放語料的漢語術語的自動抽取[c]. 沈陽:第二十屆東方語言計算機處理國際學術會議,2003:43-49.

[4] 何婷婷,張勇. 基于質子串分解的中文術語自動抽取[J].上海:計算機工程,2006,32(23):188-190.

主站蜘蛛池模板: 中文字幕 日韩 欧美| 精品自窥自偷在线看| 2019国产在线| 亚洲成人免费看| 国产va在线观看| 国产精品无码AV中文| 国产精品入口麻豆| 亚洲综合色区在线播放2019 | 2020久久国产综合精品swag| 国产精品男人的天堂| 亚洲福利视频网址| 精久久久久无码区中文字幕| 国产精品所毛片视频| 国产在线小视频| 中文字幕中文字字幕码一二区| 一本大道香蕉中文日本不卡高清二区| 亚洲美女久久| 久久这里只有精品免费| 伦精品一区二区三区视频| 免费看的一级毛片| 国产福利一区视频| 少妇精品久久久一区二区三区| 免费国产好深啊好涨好硬视频| 欧美精品1区| 亚洲一级毛片在线观播放| 欧美啪啪一区| 国产精品欧美日本韩免费一区二区三区不卡 | 天天干伊人| 国产Av无码精品色午夜| 一级全免费视频播放| 亚洲无码熟妇人妻AV在线| 五月婷婷中文字幕| 欧美日韩第三页| 欧美日韩国产精品va| 国产精品自在在线午夜| 91精品国产综合久久香蕉922| 久久香蕉国产线看观| 欧美成人在线免费| 亚洲无码高清一区| 草草线在成年免费视频2| 久久亚洲美女精品国产精品| 无码有码中文字幕| 亚洲色图狠狠干| 亚洲一区毛片| 黄色网页在线播放| 中文字幕乱码二三区免费| 国产毛片高清一级国语| 日本91视频| 免费在线不卡视频| 久久99蜜桃精品久久久久小说| 国产精品jizz在线观看软件| 9966国产精品视频| AV在线麻免费观看网站| 日韩精品无码不卡无码| 亚洲无码精品在线播放| 久久精品这里只有国产中文精品| 天堂久久久久久中文字幕| 亚洲热线99精品视频| 中文字幕 日韩 欧美| 经典三级久久| 人人爽人人爽人人片| 夜夜操国产| a亚洲视频| 亚洲色婷婷一区二区| 欧美综合中文字幕久久| 尤物亚洲最大AV无码网站| 欧美激情综合一区二区| 精品视频一区二区观看| 亚洲swag精品自拍一区| 国产黄色视频综合| 色综合中文| 日韩国产综合精选| 91精品国产无线乱码在线| 亚洲人成影视在线观看| 一级毛片免费播放视频| 亚洲成a人片77777在线播放| 国产免费高清无需播放器| 97在线免费视频| 久久久久久午夜精品| 国产亚洲高清在线精品99| 日韩中文精品亚洲第三区| 国产精品吹潮在线观看中文|