999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FP 序列樹的法文詞語提取方法研究

2021-01-22 09:17:50吳曉鵬劉建國
電子科技大學學報 2021年1期
關鍵詞:單詞文本方法

于 娟,吳曉鵬,廖 曉,劉建國

(1. 福州大學經濟與管理學院 福州 350108;2. 廣東金融學院互聯網金融與信息工程學院 廣州 510521;3. 上海財經大學會計與財務研究院 上海 楊浦區 200433)

法語是聯合國工作語言之一,是歐盟、北約、世貿等眾多國際組織的官方語言及正式行政語言,是全球29 個國家的官方語言,是除英語之外最多國家使用的官方語言,其影響力僅次于英語[1-2]。法語的使用范圍主要集中于歐洲、非洲、北美洲的一些國家和地區。隨著“一帶一路”的建設和全球化進程的加快,我國與歐洲、非洲國家的經濟文化交流越來越廣泛和深入,相關的新聞、政策文件、社交媒體文件等文本數據成為跨國組織管理決策的重要依據。因此,我國亟需有效的法語文本挖掘方法技術來實現海量法語文本高效的自動分析和及時的信息提取。

但目前,國內外針對法語文本挖掘方法的研究成果較少[3]。其中,法文詞語提取是法語文本挖掘的基礎和關鍵步驟[4],是指自動獲取法語文本中出現的所有詞語的集合,包括法文單詞原形和由多單詞組成的短語。由于文本的關鍵詞或特征詞大多是短語而非單詞,所以短語的完整提取是法文詞語提取方法的關鍵。盡管法文詞語提取方法已應用于法語文本信息檢索、命名實體識別、情感分析等法語文本挖掘任務[5-7],但均為早期的N-gram 詞語提取方法[8-9]或基于形容詞與名詞組合的方法[10-11]。這些方法受限于規則的不完備性,不能為文本建模提供完備的詞庫,影響法語文本挖掘的效果和效率。

另一方面,盡管中文和英文的短語提取方法研究已較為成熟[12-13],但由于法文與中、英文在詞法和語法方面有較大差異[14-15],不能直接使用這些方法。例如,與中、英文相比,在詞法方面,法文單詞具有陰陽性的區別,動詞、形容詞、冠詞需根據名詞的陰陽性而變化;且不同語境的法文單詞還有陰陽性的改變。在語法方面,法文中的定語需要根據具體語境搭配在名詞前或名詞后,搭配順序不同則意思可能不同,如“un homme grand”意為“高大的人”,而“un grand homme”意為“偉大的人”。因此,法語文本的預處理和詞語提取方法是法語所特有的,無法直接采用針對其他語言研發的方法。

上述原因導致法文詞語提取成為當前制約法語文本挖掘準確性和高效性的瓶頸。因此,本文提出一種結合法語詞法分析和單詞共現統計規律的法文詞語自動提取方法,并設計一種新的數據結構—FP 序列樹,用于存儲具有先后順序的法文單詞串,降低單詞共現統計的時間復雜度。

1 法文詞語提取方法框架

本文的法文詞語提取方法綜合考慮法語的詞法分析和輸入文本中單詞共現的統計規律。該方法首先預處理輸入的法語文本,接著將其壓縮為FP 序列樹并基于該FP 序列樹提取無N元限制的頻繁詞串,依據不成詞庫篩選頻繁詞串,得到候選詞語,然后計算候選詞語的成詞度,交由人工判別得到最終的法文詞語集合。由于本文方法的高準確率和高召回率,未經人工判別的法文詞語集合也可作為法語文本建模的詞庫。本文方法流程如圖1 所示:

圖1 基于FP 序列樹的法文詞語提取方法流程圖

1) 文本預處理模塊包含文本清洗、詞形還原、停用詞刪除3 個子模塊。其中,文本清洗子模塊刪除輸入文本中的圖片、公式、標點符號和文本標記等,輸出法語句子序列;詞形還原子模塊,采用現成的法文詞形還原工具將法語句子序列中的每一個單詞轉換成單詞的原形,常用工具有Treetagger[16-17]、Spacy[18]、CST’s Lemmatiser[19]等;停用詞刪除子模塊,刪除那些用來構成句子但不參與構詞的單詞,如系動詞être(是)、代詞toi(你)、連詞si(如果)等,輸出一組法文單詞串。

2) 候選詞語提取模塊包含FP 序列樹構建、頻繁詞串提取、不成詞篩選3 個子模塊。其中,FP 序列樹構建子模塊將前一模塊輸出的一組法文單詞串轉存為樹形結構,即FP 序列樹;頻繁詞串提取子模塊,基于FP 序列樹,將頻次超出閾值的詞串輸出為頻繁詞串;不成詞篩選子模塊,依據不成詞庫,刪除不成詞的頻繁詞串,輸出候選詞語集合。本文第2 節詳細介紹該模塊的FP 序列樹構建與頻繁詞串提取方法。

3) 成詞判別模塊包含TFD 成詞度計算和人工判別兩個子模塊。其中,TFD 成詞度計算子模塊采用TFD 算法逐一計算前一模塊輸出的候選詞語的成詞度,將候選詞語按成詞度降序輸出;人工判別子模塊由法語專業人員對候選詞語是否成詞進行人工判別或輕微修改,得到最終輸出的法文詞語集合。經人工判別不成詞的候選詞語被加入到不成詞庫中,通過豐富不成詞庫,不斷提高本文詞語提取方法的準確率。本文第3 節詳述該模塊的TFD 成詞度計算方法。

2 候選詞語提取

在候選詞語提取階段,為了加速單詞共現分析和頻繁詞串提取,本文設計并實現了一種新的數據結構—FP 序列樹,在壓縮文本數據集的同時不丟失單詞在句子中出現的先后順序信息。FP 序列樹的設計受到了用于購物籃數據壓縮的FP 增長樹[20]的啟發。二者的主要區別在于:FP 序列樹分支上的結點不是按其在數據集中出現總頻次的大小排列,而是按其在句子中出現的先后順序排列。

2.1 FP 序列樹構建

構建FP 序列樹時,根結點不存放詞語,除根結點以外的其他結點都存儲一個單詞及其所屬單詞串的出現頻次。FP 序列樹上的一個分支存儲文本中出現的一個連續的法文單詞串模式及其頻次。重復出現的單詞串及其子串不作為新分支,而是對已有分支上的每一結點的頻次計數加1。這樣,僅需遍歷一次待分析的法語文本,即可完成FP 序列樹的構建。

“佳禾農資不管發展到多大規模,永遠不離開農業,離不開農村。我們種地就是為農民打工。”他表示,作為一個負責任的化肥貿易商、生產商,通過整合農業生產各要素,輸出種植模式,才能更好地為農業服務,使自身的經營工作更接地氣、更加穩健,從而才能把佳禾打造成一個基業長青的“百年老店”。

FP 序列樹構建完成后即構建其相應的頻次表。把頻次計數相同的結點鏈接成一個鏈表,不同頻次鏈表的頭結點組成該FP 序列樹的頻次表。

為了明晰起見,以一段法語文本為例,解釋FP 序列樹及其頻次表的構建過程。圖2 為一段法語文本及其中文翻譯,不具有特殊性。圖3 為圖2中的法語文本經過文本預處理的結果。本文采用目前法文詞形還原效果最佳的Treetagger 工具實現對圖2 文本的詞形還原,然后采用基于大量實驗總結出的停用詞表刪除其中的停用詞。圖4 為壓縮圖3文本所構建的FP 序列樹及其頻次表。

圖2 法語文本與其中文翻譯示例

圖3 圖2 法語文本的文本預處理結果

2.2 頻繁詞串提取

基于FP 序列樹提取頻繁詞串時,根據預先設定的頻次閾值以及頻次表中所存儲的頭結點指針,從FP 序列樹的每一分支中深度最大(最接近葉子結點)且滿足閾值的結點開始,獲取從該結點到根結點的分支上的單詞串,倒序輸出即為頻繁詞串。若某一分支有兩個以上結點,還需同時獲取其子分支所形成的頻繁詞串。

為了避免詞語提取被截斷,本文的提詞方法采用長度優先,即出現頻次與母串相同的子串不列入候選詞語。也即,若模式ai···aj的出現頻次大于閾值且等于模式ai···aj-1的 出現頻次,則認為ai···aj-1是不能單獨成詞的。例如,若“états Unis(聯合國)”和“états”的出現頻次均為10,則后者不列入候選詞語。具體實現方法為:若FP 序列樹某一分支滿足頻次閾值且有多個頻次相同的結點,則對每一頻次僅輸出較長子分支所形成的頻繁詞串。

圖4 圖3 文本的FP 序列樹

表1 是基于圖4 的FP 序列樹所提取得到的頻繁詞串和候選詞語,此處設定頻次閾值為2。

表1 圖4 的FP 序列樹的頻繁詞串提取結果

FP 序列樹的時間復雜度是線性的。構建文本的FP 序列樹時,僅需遍歷文本1 次,即時間復雜度為O(n)。基于FP 序列樹提取頻繁詞串時,根據頻次閾值直接讀取一個鏈表,時間復雜度為O(1)。

3 TFD 成詞度計算

文本數據集合中出現的候選詞語t是否成詞,與其出現頻次(term frequency, TF)有關,也與t的分布有關[21]。并且,實際應用的文本數據集合中,詞語在不同文本的出現頻次往往變化較大。即,若t在整個文本集合中的分布D(distribution)不均勻,則t成詞的可能性較高;反之,若t在整個文本集合中分布得較均勻,則成詞的可能性較小。因此,受文獻[22-23]的啟發,本文依據詞頻和詞分布兩項因素計算候選詞語的成詞度為:

4 實驗分析

目前還沒有檢驗法文詞語提取方法優劣的通用數據,也沒有標準的評價指標。本文采用兩組實驗比較分析本文提出的詞語提取方法與經典方法的性能。

4.1 數據介紹

采用兩個題材不同的文本數據集進行實驗分析:聯合國平行語料庫[24]和Europarl[25],分別代表書面法語和口語法語。

聯合國平行語料庫是一個由聯合國文件組成的平行文件檔案庫,本文采用其中2014 年的200 篇法語文件作為第一組實驗數據,共7.9 MB。

Europarl 是從歐洲議會議事錄中收集的平行文本語料庫,由歐洲議會討論記錄組成。本文選取其中法語文件的前2 000 行作為第二組實驗的數據,共356 KB。

這兩組實驗數據均為隨機選取,不具有特殊性。

4.2 評價指標

準確率和召回率是文本挖掘方法常用的評價指標。詞語提取方法的準確率是候選詞語中經人工判定成詞的比率;召回率是指經人工判定成詞的候選詞語占文本中出現的全部詞語的比率。但是,由于目前尚沒有經過人工精確標注的法語文本詞語提取語料庫,無法確定語料中出現的全部詞語數量,因此,本文采用正確提取詞語的數目來代替召回率評價指標。

4.3 實驗結果與分析

對兩組實驗文本數據分別進行文本預處理,使用Treetagger 實現詞形還原,刪除停用詞;接著將文本壓縮為一棵FP 序列樹,提取頻次超過2 的詞串作為頻繁詞串;然后直接將這些詞串作為候選詞語,不進行不成詞篩選。由兩名法語專業人員判別這些候選詞語是否成詞并互相檢驗。

本文的法文詞語提取方法,從第一組實驗數據提取得到19 245 個候選詞語,從第二組實驗數據提取得到1 713 個候選詞語。法語專業人員人工判別的結果顯示:第一組實驗的自動提詞結果準確率為90.8%;第二組實驗的自動提詞結果準確率為89.1%。

在對候選詞語進行成詞度計算時,分別采用本文的TFD 方法與經典的TF-IDF 方法計算頻繁詞串的成詞度,將頻繁詞串按成詞度降序輸出。比較結果如圖5 和表2 所示。

圖5 法文詞語提取方法的準確率比較

表2 法文詞語提取方法正確提取的詞語數目比較

圖5 展示TFD 和TF-IDF 兩種方法在自動判別候選詞語是否成詞方面的準確率。其中,“按成詞度降序排列的候選詞語”的m%(m=10, 20, ···, 100)是指成詞度前m%的候選詞語;準確率是指這些候選詞語中經人工判定成詞的比率。

表2 為本文方法與法語文本挖掘中詞語提取常用方法正確提取詞語的數目,包括N-gram 二元詞組法和基于形容詞與名詞組合的詞性規則法。

由實驗可知:

1) 從圖5 可以看到,對書面法語和口語法語兩種題材不同的語料進行詞語提取時,在候選詞語的成詞度計算方面,TFD 的準確率均穩定優于TF-IDF。這是由于TFD 方法增加了詞串在不同文本中分布均勻程度的因素。

2) 從表2 可見,本文的詞語提取方法正確提取的詞語數目明顯高于常用的法語文本提詞方法——二元詞組法和詞性規則法。這是因為:二元詞組法限定了所提取詞語的長度;詞性規則法限定了所提取詞語中每個單詞的詞性,只能提取得到形容詞與名詞的搭配。這些過濾規則能提高詞語提取的準確率,但同時大幅降低了提取的詞語數目。而本文方法通過總結停用詞表來精準過濾頻繁詞串,在保證準確率的同時,顯著提升了詞語提取的召回率。

3) 語料的規模影響著本文的法文詞語提取方法的召回率。圖2 的法語文本較短,其中的頻繁詞串數量較少,且常因僅作為子串出現而被誤刪,如“gestion du données (詞 形 還 原 前 為gestion des données,數據管理)”。因此,語料規模較小時,本文方法的召回率會降低。語料規模越大,本文的詞語提取方法越具有優越性。

4) 由實驗耗時可知,采用FP 序列樹存儲待分析文本中的頻繁詞串及其出現頻次,能夠快速提取不同頻次的頻繁詞串。盡管構建FP 序列樹需要花費一定時間,但能降低后續的頻繁詞串提取的時間復雜度,進而縮短詞語提取的耗時。

此外,每進行一次法文詞語提取,都應把人工判別不成詞的頻繁詞串加入到不成詞庫。隨著不成詞庫的豐富,本文方法的準確率會持續提升。這樣就可以逐漸降低人工判別的工作量,提高詞語提取的自動化程度和效果。

5 結 束 語

目前,關于法語文本挖掘的研究還在起步階段。由于法語特殊的詞法和語法規則與中、英文存在巨大差異,導致當前較為成熟的中、英文文本挖掘方法無法直接應用于法語文本挖掘。

為了支持基于法語信息的管理決策,本文提出了一種基于FP 序列樹的法文詞語提取方法。該方法能夠高效準確地從待分析的法語文本中自動獲取包含法文單詞原形和由多單詞組成的法文短語的法文詞語集合,為法語文本主題發現、分/聚類等文本挖掘任務提供詞庫。采用本文設計的FP 序列樹的數據結構壓縮文本,能夠快速提取文本中不同頻次的頻繁詞串,將詞語提取的時間復雜度降低到線性時間,從而提高文本自動分析的效率。同時,本文的法文詞語提取方法在文本預處理階段所使用的詞形還原工具影響著最終結果的準確性。

猜你喜歡
單詞文本方法
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲日本韩在线观看| 国产在线97| 久久国产精品娇妻素人| 在线观看免费国产| 茄子视频毛片免费观看| 欧洲日本亚洲中文字幕| 国产情精品嫩草影院88av| 国产中文在线亚洲精品官网| 国产人人乐人人爱| 黄网站欧美内射| 亚洲第一黄色网址| 日日拍夜夜嗷嗷叫国产| 久久婷婷色综合老司机| 国产精品网址你懂的| 色成人综合| 91精品免费久久久| 中文字幕在线永久在线视频2020| 国产高清在线观看| 亚洲av无码牛牛影视在线二区| 理论片一区| 国产熟睡乱子伦视频网站| 九九热在线视频| 99免费视频观看| 尤物精品视频一区二区三区| 亚洲男人的天堂在线观看| 免费99精品国产自在现线| 国产精品久久久精品三级| 欧美精品啪啪| av在线人妻熟妇| 亚洲精品波多野结衣| 国产成人AV大片大片在线播放 | 亚洲欧洲自拍拍偷午夜色| 国产手机在线观看| 亚洲 欧美 偷自乱 图片| 欧美日韩一区二区三区四区在线观看 | 欧美色图第一页| 亚洲人成网7777777国产| 国产免费久久精品99re丫丫一| 亚洲浓毛av| 青青网在线国产| 中字无码av在线电影| 最新无码专区超级碰碰碰| 2022国产无码在线| 国产精品自拍合集| 国产极品美女在线播放| 亚洲国产AV无码综合原创| 2021亚洲精品不卡a| 久久性妇女精品免费| 欧美黄网在线| 国产欧美日韩综合在线第一| 欧美午夜性视频| vvvv98国产成人综合青青| 国产精品亚洲天堂| 欧美国产菊爆免费观看| 日韩二区三区| 亚洲欧美日韩天堂| 伊人色婷婷| 午夜福利在线观看成人| AV不卡国产在线观看| 高h视频在线| 国产福利免费视频| 91娇喘视频| 国产精品人人做人人爽人人添| 国产欧美另类| 日本爱爱精品一区二区| 亚洲男人的天堂视频| 日韩国产亚洲一区二区在线观看| 四虎永久免费网站| 中文字幕久久波多野结衣| 国产精品久久久久久搜索| 精品三级网站| 99性视频| 亚洲综合第一页| 午夜高清国产拍精品| 国产精品浪潮Av| 成人亚洲视频| 国产老女人精品免费视频| 国产成人综合久久| 亚洲国产理论片在线播放| 日韩av高清无码一区二区三区| 99热这里只有精品久久免费 | 波多野结衣久久精品|