999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

瀕危語言與漢語平行語料庫動態構建技術研究

2018-09-26 07:07:54于重重張青川尹蔚彬孫沁瑤
計算機應用與軟件 2018年9期
關鍵詞:文本語言

于重重 曹 帥 張青川 尹蔚彬 孫沁瑤 劉 暢

1(北京工商大學計算機與信息工程學院 北京 100048)2(中國社會科學院民族學與人類學研究所 北京 100081)

0 引 言

瀕危語言,顧名思義,就是有瀕臨消失的危險的語言[1]。瀕危語言是不可再生的非物質文化資源,搶救和保存瀕危語言資料的核心任務是對這些正在流失、不可復得的語言資料及其蘊含的文化信息進行全方位的語言記錄、語料處理和語言信息保存。作為低資源語言[2-4],瀕危語言很多沒有文字,以口語的形式存在,長篇自然話語的記錄極為有限,能找到的錄音人有限,不足以反映一種語言的基本面貌。同時,自然口語的人工標注、轉錄、對應通用語言的翻譯工作量巨大。從機器翻譯的角度上去分析,建立比較好的語言模型,離不開豐富語料庫的支持[5]。因此,如何建立瀕危語言的跨語言平行語料庫是研究人員們面臨的又一重要課題。呂蘇語作為一種瀕危語言,目前只有雅礱和尼亞格楚江沿岸的大約7 000人使用[6]。本文以呂蘇語作為研究對象,為了建立呂蘇語與漢語的跨語言平行語料庫,首先使用jieba分詞對呂蘇語語料進行分詞處理;然后基于TF-IDF技術來提取呂蘇語語料的關鍵詞,再以提取的關鍵詞作為橋梁,在新浪博客靜態網頁下爬蟲獲取大量的漢語擴展文本;最后通過基于最小哈希的Jaccard相似度來計算并比較呂蘇語語料與漢語擴展文本之間的相似度,將相似度較高的漢語擴展文本作為呂蘇語的漢語擴展語料,實現呂蘇語與漢語雙語平行語料庫的動態構建技術,為機器翻譯奠定良好的基礎。

1 語料擴展方案

呂蘇語屬于漢藏語系,是藏語的一個分支。目前只有族群內部的口語交流,沒有文字傳播。因此,為了保存呂蘇語,必須要借助懂得漢語與呂蘇語兩種語言的母語人進行漢語的轉譯。通過機器翻譯建立呂蘇語與漢語之間的語言模型將會大大減少母語人的人工轉譯工作。要實現這一目標,首先需要構建呂蘇語與漢語雙語平行語料庫。

本文針對呂蘇語口語的漢語標注語料進行擴展。包含15個呂蘇語的故事文本,總計25 746個單詞,6 257個句子。目前的語料對于訓練一個精確度較高的語言模型來說,是遠遠不夠的。所以將呂蘇語作為原始語料來獲取與之相對應的漢語跨語言平行語料,簡稱漢語擴展語料,這一過程將有效擴展呂蘇語語料庫,為呂蘇語語言模型的建立做充分的準備。

如圖1所示,呂蘇語的漢語擴展語料獲取可分為四個步驟。

圖1 呂蘇語-漢語擴展語料獲取步驟

其次,提取呂蘇語語料的關鍵詞。本文以提取出來的呂蘇語核心詞表作為用戶自定義詞典,先用jieba算法對呂蘇語語料進行分詞處理,然后用TF-IDF算法來實現每篇呂蘇語語料的關鍵詞抽取。平均每篇文檔提取10個關鍵詞,則提取的關鍵詞總數為150個。結果表明,提取的關鍵詞中包含一定數量的虛詞,為了解決這一問題,每篇文檔提取20個關鍵詞,然后去掉其中的虛詞,余下150詞。這樣不但保證了關鍵詞的數量,而且確保了關鍵詞的質量。

然后,爬蟲獲取大量漢語擴展文本。以提取的150個呂蘇語關鍵詞匯作為漢語語料爬蟲的種子詞匯,通過靜態網頁爬蟲的方式從新浪博客上爬取N篇漢語擴展文本,N的計算公式如下:

(1)

式中:n是平均每篇呂蘇語故事提取的關鍵詞數,m是每篇呂蘇語故事對應的k個關鍵詞組合下爬取的漢語擴展文本篇數,l是呂蘇語故事總數。本文中n和m均取10,l取15。

最后,比較每篇呂蘇語語料與其相對應的漢語擴展語料的相似度。分別將呂蘇語語料與爬取的漢語擴展語料進行基于最小哈希的Jaccard相似度計算,得到與每篇呂蘇語語料相對應的漢語擴展語料的相似度值。如果呂蘇語語料所對應的前五個相似度的值均在0.7~1.0之間,則將由此得到的前五篇漢語擴展語料作為最終呂蘇語的漢語雙語平行語料;如果呂蘇語語料所對應的前五個相似度的最低值在0.5~0.7之間,則返回到爬蟲環節,繼續獲取語料;如果呂蘇語語料所對應的前五個相似度的最低值在0~0.5之間,則返回到關鍵詞獲取環節。

2 關鍵技術

本文中用到的主要方法有:在提取呂蘇語語料的關鍵詞時用到了基于jieba算法的中文文本分詞技術、TF-IDF關鍵詞抽取算法;在比較呂蘇語語料與漢語擴展語料的相似度時用到了基于最小哈希簽名的Jaccard相似度改進算法。

2.1 基于jieba的語料分詞

目前,針對漢語分詞的方法包括三種[7-9]:基于知識理解的分詞方法、基于字典及詞庫匹配的分詞方法和基于詞頻度統計的分詞方法。本文使用的jieba分詞[10]是一種基于詞頻度統計的全切分分詞方法。jieba分詞采用了動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合,對于未登錄詞,采用了基于漢字成詞能力的隱馬爾可夫模型,使用了維特比算法。

如圖2所示,基于jieba方法的呂蘇語語料的分詞過程主要包括三個方面:首先對呂蘇語語料進行預處理,然后基于自定義詞典的詞圖掃描方式以及動態規劃算法建立模型,找到基于詞頻的最大切分組合,最后將分詞結果輸出。

177 3D 打印輔助微創接骨板內固定術(MIPO)改善脛骨旋轉不良的前瞻性隨機對照研究 張 磊,房 雷,陳 曉,史 萌,周 琳,徐盛明,蘇佳燦

圖2 基于jieba方法的呂蘇語語料的分詞過程

2.2 基于TF-IDF的語料關鍵詞提取

基于TF-IDF的關鍵詞抽取算法[11,12]是一種主流的關鍵詞推薦方法。它利用候選關鍵詞的統計性質對其進行排序,然后選取若干個排序最靠前的候選詞作為關鍵詞。

本文中對呂蘇語語料及其漢語擴展語料進行關鍵詞提取時不僅考慮到了漢語的語言特性,而且考慮到呂蘇語的語言特性:在漢語特性中,如果以“的”、“了”、“是”等這些詞為關鍵詞獲取擴展語料,無疑是對結果毫無幫助,因此需要將這些停止詞進行過濾;在呂蘇語語特性中,像“拉菇薩”、“千子山”、“什巴”等這些少見的詞如果在某篇文章中多次出現,就可將其作為反映某篇呂蘇語語料主題的關鍵詞。與此同時,在提取關鍵詞時用自定義詞典代替jieba分詞算法中的固有詞典,有效地保留了呂蘇語語料中的特有關鍵詞。

基于TF-IDF的呂蘇語語料的關鍵詞提取步驟如圖3所示。

圖3 基于TF-IDF的呂蘇語語料關鍵詞提取過程

本文中對于每一篇呂蘇語語料,選擇其中具有代表性的20個特征詞作為關鍵詞的候選詞匯,然后去掉其中無意義的虛詞,剩余的候選詞匯作為呂蘇語語料的關鍵詞。

2.3 基于最小哈希的Jaccard相似度計算

為了識別字面上相似的文檔,最有效的方法是將文檔表示成短字符串集合,然后進行相似度比較。傳統意義上最常用的方法是Broder提出的Shingling算法[13]。Shingling算法的原理是假定一篇文檔就是一個字符串,則文檔的k-shingle定義為其中任意長度為k的子串,于是每篇文檔可以表示成文檔中出現一次或者多次的k-shingle集合。一般來講,對于少量語料相似度的計算,采用基于Shingling的Jaccard算法相對來說比較簡單,容易實現;如果要比較相似度的語料數量較大,則會產生大量的shingling集合,導致計算的速度降低。

Jaccard相似度計算方法用來測量多個集合在共同屬性上的重疊度[14]。假設給定兩個集合A和B,則A、B的Jaccard相似度記為sim(A,B)。sim(A,B)計算過程如式2所示:

(2)

本文中待處理的呂蘇語語料和漢語擴展語料的數量較多,故不將子字符串直接用成shingle,而是采用基于最小哈希的Jaccard相似度算法來計算呂蘇語語料與漢語擴展語料之間的相似度值。基于最小哈希的Jaccard相似度算法原理是:通過某個哈希函數將長度為k的子字符串映射為桶編號,然后將映射之后的桶編號看成最終的shingle集合來進行Jaccard相似度計算。采用基于最小哈希的Jaccard算法不僅使數據得到了壓縮,而且大幅度提升了程序運行的速度。具體計算過程如圖4所示。

圖4 基于最小哈希的Jaccard相似度計算流程

本文中基于最小哈希的Jaccard相似度計算過程如下:

1) 將呂蘇語語料和漢語擴展語料中的每個故事表示成一個以k個字符為單位的k-shingle集合。假如某句子內容是“我的名字叫次仁翁嘉”,如果k設為2,那么該句子對應的k-shingle集合就是‘我的’,‘名字’,…,‘次仁’,‘翁嘉’等兩個字組合的集合。

2) 統計呂蘇語語料和漢語擴展語料中每個故事對應的k-shingle集合中的元素,形成特征矩陣Ma×b。Ma×b矩陣的列對應每個呂蘇語及漢語擴展故事中的k-shingle集合,行對應所有呂蘇語語料及漢語擴展語料中的元素。如果行r對應的元素屬于列c對應的集合,那么矩陣第r行第c列的元素為1,否則為0。

3) 構建簽名矩陣。首先定義哈希函數,然后建立基于特征矩陣Ma×b的簽名矩陣。簽名矩陣的列數與Ma×b的列數,其行數為哈希函數的個數n。令SIG(i,c)為簽名矩陣中第i個哈希函數在第c列上的元素。SIG(i,c)的計算過程如圖5所示。

SIG(i,c):簽名矩陣中第i個哈希函數在c第列上的元素輸入: ? 哈希函數的個數 ? 特征矩陣的維數初始化:將所有的i和c初始化為∞輸出:哈希簽名矩陣SIG(i,c)函數:1. Loop for i=1,2,…,n2. 計算行r對應的hi(r)3. End Loop for n4. Loop for c=1,2,…,b5. IfM(r,c)=16. SIG(i,c)=min(SIG(i,c),hi(r));i=1,…,n7. End Loop for b

圖5SIG(i,c)算法流程

4) 使用Jaccard相似度計算公式來計算最小哈希下每篇呂蘇語語料與其對應的漢語擴展語料之間的相似度值。事實上,兩個集合經過最小哈希簽名計算之后得到的兩個最小哈希值相等的概率等于這兩個集合的Jaccard相似度[15]。因此,本文中最終獲得的相似度值直接作為呂蘇語語料與其對應的漢語擴展語料之間的相似度值。

3 實驗與分析

3.1 實驗數據

本文使用的呂蘇語語料來源于呂蘇語口語的漢語標注語料,其中包含15個呂蘇語的故事文本,總計25 746個單詞、6 257個句子。通過對呂蘇語語料進行jieba分詞、TF-IDF關鍵詞提取以及靜態網頁爬蟲初步獲取呂蘇語的漢語擴展語料308篇。

呂蘇語語料與初步獲取的漢語擴展語料數量比為1∶20,詞語數量比為2∶3。可以發現,初步獲取的漢語擴展語料在數量上對呂蘇語語料起到了很好的擴展作用。為了獲取與呂蘇語語料內容更加相似的漢語擴展語料,本文中設置了基于最小哈希的Jaccard相似度計算實驗。該實驗以15篇呂蘇語語料和初步獲取的308篇漢語擴展語料做為基本研究對象,通過計算呂蘇語語料與初步獲取的漢語擴展語料之間的相似度值,多次提取關鍵詞以及爬蟲獲取數據,將相似度值為0.7及以上的前五篇漢語擴展語料作為最終呂蘇語的漢語平行語料。

3.2 實驗結果

本文中的所有算法均采用python編程在PC機下實現。為了確定該方法對瀕危語言的語料擴展是否準確有效,在實驗之前使用了大量的跨語言平行語料作為測試用例,編制了專門的測試程序,糾正了測試結果。測試環境為:計算機CPU為2.50 GHz,內存8.00 GB;操作平臺是Windows 10;編程環境是Python2.7。

通過實驗,獲取呂蘇語的漢語擴展語料共計75篇,其中包含的句子總數為4 231句,句子的平均長度為30詞。為了驗證相似性,本文對呂蘇語語料及其漢語擴展語料分別進行了核心詞以及文本之間的相似度計算實驗。部分實驗結果如表1所示。

表1 實驗結果比較

結果表明,通過jieba分詞、TF-IDF關鍵詞提取、靜態網頁爬蟲以及基于最小哈希的Jaccard相似度計算四個過程獲取的漢語擴展語料在字面上與呂蘇語語料之間存在較高的相似度。與此同時,通過閱讀呂蘇語語料及其漢語擴展語料發現二者語義都涉及到類似的生活場景。

4 結 語

本文以呂蘇語作為研究對象,應用了基于jieba算法的中文語料分詞技術、TF-IDF的關鍵詞提取技術、靜態網頁爬蟲技術以及基于最小哈希的Jaccard相似度算法獲取了呂蘇語的漢語擴展語料。該擴展語料不僅使得呂蘇語語料庫在數量上得到了很好的擴展,而且呂蘇語的漢語擴展語料與呂蘇語語料在內容上具有較高的相似度,為下一步呂蘇語語言模型的建立奠定了良好的基礎。

通過對呂蘇語的漢語擴展語料的獲取,實現了瀕危語言與漢語雙語平行語料庫的動態構建技術。此技術不僅為自動語音識別技術提供了良好的保障,而且對瀕危語言非物質文化遺產的保存起到了至關重要的作用。在未來的研究當中,一方面會將語義作為文本相似性比較中的影響因素之一,目的是獲取語義相似度較高的擴展語料;另一方面改進相似度的計算方法,實現多個文本之間字面上、語義上相似度的全面比較。

猜你喜歡
文本語言
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
多向度交往對語言磨蝕的補正之道
累積動態分析下的同聲傳譯語言壓縮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
我有我語言
主站蜘蛛池模板: 欧美日韩高清在线| 日本亚洲成高清一区二区三区| 国产一在线观看| 国产成人91精品免费网址在线 | 国产欧美日韩精品综合在线| 亚洲男人天堂久久| 天堂网亚洲综合在线| 国产成人精彩在线视频50| 亚洲日韩国产精品综合在线观看| 婷婷99视频精品全部在线观看| 午夜欧美在线| 国产拍在线| 亚洲视频一区| 久久精品国产免费观看频道| 99re视频在线| 天堂亚洲网| jizz亚洲高清在线观看| 欧美a在线看| 超清无码一区二区三区| 人人妻人人澡人人爽欧美一区| A级毛片高清免费视频就| 少妇被粗大的猛烈进出免费视频| 中日无码在线观看| 亚洲成人播放| 国产亚洲精品自在久久不卡| 国产成人盗摄精品| 久久大香伊蕉在人线观看热2| 免费啪啪网址| 无码一区二区波多野结衣播放搜索 | 国产免费好大好硬视频| 婷五月综合| 精品国产电影久久九九| 伊人成色综合网| 最新午夜男女福利片视频| 亚洲无码免费黄色网址| 久久天天躁夜夜躁狠狠| 伊人久久精品无码麻豆精品| 亚洲欧洲日本在线| 亚洲国产精品国自产拍A| 国产精品自在线天天看片| 2021国产精品自产拍在线| 亚洲品质国产精品无码| 欧美A级V片在线观看| 国产97视频在线观看| 亚洲欧洲日韩久久狠狠爱| 内射人妻无码色AV天堂| 色综合网址| 国产精品亚洲一区二区三区z| 国产成人无码Av在线播放无广告| 91毛片网| 99这里只有精品6| 99久久精品国产麻豆婷婷| 欧美a在线看| 国产麻豆另类AV| 2021国产精品自拍| 亚洲另类国产欧美一区二区| 精品福利视频网| 天天色天天综合网| 国产成人亚洲日韩欧美电影| 欧美日韩资源| 天堂av综合网| 国产美女自慰在线观看| 亚洲二三区| 国产产在线精品亚洲aavv| 四虎国产永久在线观看| 午夜国产小视频| 欧美人与牲动交a欧美精品 | 日韩欧美国产精品| 国产第一页屁屁影院| 久久久久亚洲Av片无码观看| 亚洲国产欧美目韩成人综合| 在线观看精品自拍视频| 亚洲 日韩 激情 无码 中出| 五月婷婷综合网| 自拍偷拍欧美日韩| 亚洲天堂2014| 国产久草视频| 在线日本国产成人免费的| 18禁高潮出水呻吟娇喘蜜芽| 日韩亚洲综合在线| 亚洲六月丁香六月婷婷蜜芽| 久久精品人人做人人爽|