999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Apriori算法的事件識別方法研究

2016-05-14 04:35:11張梅程利偉
數字技術與應用 2016年5期

張梅 程利偉

摘要:事件的識別對人們社會生活具有重要意義。本文借鑒Apriori方法進行事件規則挖掘,采用對擴展觸發詞進行規則約束的方式來完成事件識別任務,具體采用擴展觸發詞方式進行數據篩選,得到初步結果集;采用觸發詞方式獲得的語料結果作為規則挖掘集合,從中得到適合事件識別的規則。通過與擴展觸發詞方法結果的對比,結果表明采用機器學習方法進行規則挖掘對事件識別具有很好的適用性。

關鍵詞:Apriori算法 新聞語料 事件

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2016)05-0000-00

1引言

事件抽取隸屬于信息抽取領域,旨在把非結構化的信息用結構化的自然語言表達出來,使用戶可以得到對感興趣的事件信息的直觀反應,事件抽取的研究是科學發展的需要,具有深遠的理論意義和廣泛的應用價值。它可以結合數據挖掘、機器學習、數據庫等多個學科的技術和方法,在自動文摘、自動問答、信息檢索等多個領域體現出廣泛的應用價值[1,2]。

近些年事件抽取的相關工作進展得如火如荼,國內外涌現出大量學者對其進行研究,研究的方法主要有兩種:模式匹配的方法和機器學習的方法。其中,模式匹配的方法通過將待抽取的事件和已知的模式進行匹配來完成抽取任務;機器學習的方法則是依賴于分類器的構建和事件特征的發現,選擇合適的事件特征并應用適當的分類器來完成。

本文介紹的內容試圖找到一種方法,以此方法可以在大量的新聞內容中篩選出事件[3]。此方法結合傳統分類方法與機器學習的分類方法且借鑒ACE中對于事件抽取的相關概念[4],對其做出相應調整,并將其應用到新聞中事件的類型識別上。

2基于Apriori的事件識別算法

事件類型識別是事件抽取的一個子任務。目前處理事件抽取的方法一般分為兩個步驟:事件類型識別和事件元素識別。在事件類型識別的常用方法中,基于觸發詞的識別方法具有準確率高,抽取方法簡單易行等優點。但是這種抽取方法往往得到的結果集比較小,可以使用《同義詞詞林(擴展版)》擴展事件觸發詞的方法雖然可以使得結果集增大,但是卻使得準確率有所下降。

本文采用Apriori算法進行事件識別。一般對于給定的項目集合,算法通常嘗試在項目集合中找出若干相同子集。該算法采用自底向上的處理方法,即頻繁子集每次只擴展一個對象(該步驟被成為候選集產生),并且候選集由數據進行檢驗。當不再產生符合條件的擴展對象時,算法終止。

算法約定,事務的集合用D表示,X=>Y表示關聯規則,其中“=>”是關聯操作,X表示關聯規則的先決條件,Y表示關聯規則的結果。事務集合D中關聯規則X=>Y由支持度S和置信度C來約束。支持度表示在規則中出現的頻率,其公式表示為

S(X∪Y)= Count(X∪Y)/Count(D),

即事務集D中包含X和Y的事務所占的比例;置信度表示規則的強度,其公式表示為

C(X=>Y)= S(X∪Y)/S(X)

即事務集D中包含X的事務中有多大可能性包含Y。

Apriori算法是一個基于兩階段頻繁集理論的遞推方法,算法設計分為兩部分:預設支持度,找出所有支持度大于該最小支持度的集合;根據支持度得到的集合進一步迭代得到最終結果。

其步驟如下:

(a)掃描:通過單趟掃描事務集合D計算出各個1項集的支持度,排除那些不符合預設支持度的項,得 到頻繁1項集的集合,記作L(1);

(b)連接:假設集合L(k-1)已求得,現需要用L(k-1)求得L(K),L(k-1)中的每個項集與其他項集進行相互連接操作,可以得到候選集C(K);

(c)剪枝:根據算法性質,任何非頻繁項集合都不肯可能是頻繁項集合的子集,排除C(k)那些不包含在頻繁項集合中的集合,即刪除C(k)中所有其(k-1)項子集不包含在L(k-1)的項集;

(d)再次掃描:通過單趟掃描事務集合D計算C(k)中每項的支持度,排除那些不符合預設支持度的項,得到頻繁項k項集的集合,記作L(k);

重復上述步驟直到L(k)為空,對L(1)到L(k)取并集即為最終結果。

實際應用過程中,應結合本身業務及數據特點將數據集合盡可能壓縮,從而縮小頻繁項目集合。

3實驗

本文實驗數據采用搜狐研發中心提供的2012年的全網新聞數據(SogouCA),該數據內容來自若干新聞站點2012年6月到7月期間國內、國際、體育、社會、娛樂等18個頻道的新聞數據。在事件的類型識別中,應用Aprior方法對已知事件的語義角色及命名實體進行關聯規則的挖掘。將基于Apriori方法挖掘出的規則模板在7000條數據測試集上進行測試,部分結果如表1所示:

分析測試結果,除[V,N]規則外各規則均表現良好,[V,N]規則屬于不適用的規則,雖然其在開發集上的支持度比較高,但是測試結果其表現不佳。造成這種現象的原因可能是測試集數據分布不均衡,以致測試數據中符合[V,N]規則的數據稀少。

4 結語

本文借助規則模板的自動挖掘來縮小擴展觸發詞結果的范圍,排除掉很多反例,使得性能得到提高。本文中提出的方法會挖掘出普適性規則(謂詞規則)或是效率低下的規則([謂詞,地名]規則),這些不適用規則的識別是需要進一步研究的工作。

參考文獻

[1]王偉,趙東巖,趙偉.中文新聞關鍵事件的主題句識別[J].北京大學學報(自然科學版),2011,47(5).

[2]楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發現[J].中文信息學報, 2012,26(1).

[3]趙軍,劉康,周光有,蔡黎,開放式文本信息抽取[J].中文信息學報,2011,25(6).

[4]涂新輝,張紅春,周琨峰,何婷婷.中文維基百科的結構化信息抽取及詞語相關度計算方法[J].中文信息學報,2012,26(3).

主站蜘蛛池模板: 在线不卡免费视频| 久久久久免费看成人影片| 欧美特级AAAAAA视频免费观看| 97久久免费视频| 国产精品成人第一区| 日本精品视频| 亚洲AV人人澡人人双人| 国产白浆在线观看| 国产精品9| 亚洲成人动漫在线| 亚洲另类色| 91av国产在线| 伊人福利视频| 国产亚洲精品97在线观看| 蝴蝶伊人久久中文娱乐网| 免费无码又爽又黄又刺激网站| 亚洲日韩国产精品综合在线观看| 婷婷99视频精品全部在线观看| 天天做天天爱天天爽综合区| 波多野结衣中文字幕一区| a毛片基地免费大全| 精品99在线观看| 国产成人成人一区二区| 国产精品香蕉| 亚洲av日韩av制服丝袜| 亚洲无码熟妇人妻AV在线| 亚洲αv毛片| 国产av一码二码三码无码| 成年人福利视频| 欧美三级不卡在线观看视频| 久夜色精品国产噜噜| 国产无码网站在线观看| 国产玖玖视频| 蜜桃视频一区二区| 片在线无码观看| 日韩小视频在线观看| 99视频全部免费| a国产精品| 欧美日本不卡| 午夜免费小视频| 久久国产精品麻豆系列| 欧美有码在线观看| 欧美一级专区免费大片| 91蜜芽尤物福利在线观看| 欧美、日韩、国产综合一区| 国产色偷丝袜婷婷无码麻豆制服| 熟女视频91| 亚洲国产清纯| 欧美一级99在线观看国产| 亚洲成a∧人片在线观看无码| 国产午夜福利片在线观看| 久久精品女人天堂aaa| a亚洲天堂| 国产一二三区视频| 亚洲丝袜中文字幕| 日韩无码黄色网站| 中文字幕伦视频| 毛片基地美国正在播放亚洲| 四虎永久在线| 亚洲侵犯无码网址在线观看| 亚洲精品777| 欧美日韩亚洲综合在线观看| 亚洲AV无码乱码在线观看代蜜桃| 欧美日韩国产在线播放| 日本午夜精品一本在线观看| 婷婷亚洲最大| 亚洲一区毛片| 视频二区亚洲精品| www中文字幕在线观看| 九九香蕉视频| 91精品情国产情侣高潮对白蜜| 欧美激情第一欧美在线| 国产美女自慰在线观看| 91精品人妻互换| 国产精品林美惠子在线播放| 日本精品一在线观看视频| 欧美午夜精品| 中文字幕丝袜一区二区| 99激情网| 欧美日韩一区二区三| 无码AV高清毛片中国一级毛片| 99激情网|