999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的韓國語新造詞透明度探究

2021-03-22 02:53:17趙天銳
電腦知識與技術 2021年4期
關鍵詞:機器學習

趙天銳

摘要:機器學習在諸多學科領域的定量分析中都已經顯現出了巨大價值。本文借助sklearn機器學習庫,以韓國國立國語院2015年發布的《新詞調查報告書》中收錄的新造詞為對象,根據報告中出現的分類標準為詞匯建立特征矩陣。而后運用多種機器學習算法進行特征選擇,最終篩選出對韓國語新造詞詞義理解影響較強的因素。實驗結果表明:如果該詞為派生詞或外來詞,該詞呈現低透明度的概率更高。

關鍵詞:韓國語;機器學習;新詞;邏輯回歸;隨機森林

中圖分類號:TP391? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)04-0204-03

Abstract: Machine learning has shown great value in quantitative analysis in many disciplines. This article uses the sklearn machine learning library provided by Python to build a feature matrix for the vocabulary based on the newly coined words included in the "New Word Survey Report" issued by the National Academy of Korean Language in 2015. Then, a variety of machine learning algorithms are used for feature selection, and finally the factors that have a strong influence on the understanding of the meaning of new Korean words are screened out. The experimental results show that if the word is a derived word or a foreign word, the word has a higher probability of showing low transparency.

Key words: Korean; machine learning; new words; logistic regression; random forest

1 引言

新造詞研究一直是韓國語詞匯學研究的重要領域,長期以來許多國內外學者對收集到的韓國語新詞或流行語進行歸類分析,從形態結構、語言來源等方面進行歸納總結,以探索新造詞生成的內在規律。雖然相關研究取得了豐富的成果,但對新造詞的分析存在一定的局限。

首先,研究范圍不明晰。在韓國語中”???”,”??”,”???”,”???”等都可以表示“新詞”這個概念。許多關于韓國語新詞的研究是新詞或者流行語,但從流行語興起到湮滅,其經歷的時間往往很短,難以對詞匯進行長期研究。因此本文選擇韓國國立國語院發布的《新造詞調查報告書》(下簡稱《報告書》)中的新造詞作為研究對象,一是清楚界定詞匯的選擇范圍,二是得到韓國國立國語院收錄的詞匯具有一定的權威性,有使用時間長,影響范圍廣的特點。其次,對韓國語新詞的分析多采用傳統語言學中音韻學、詞匯學和形態學等視角,定性分析較多,定量分析較少。過往研究常把重心放在分類和列舉方面,對分類結果的利用缺乏關注。因此本文選擇利用《報告書》中的分類標準,探討各分類對該詞匯理解難度,即透明度的影響。

隨著機器學習方法的逐步發展完善,各學科在進行定量分析時都可以借助已經封裝好的機器學習工具,達到在本領域進行數據處理的目的。本文選擇基于Python開發的機器學習庫sklearn,采用嵌入法進行特征選擇,最終篩選出對新造詞透明度影響最大的特征。在機器學習算法的選擇上,本文選擇邏輯回歸和隨機森林作為特征選擇所用的算法。和深度學習相比,傳統機器學習算法擁有更強的解釋性,因此更適合對特征的重要性進行探究,而sklearn庫中的邏輯回歸和隨機森林作為經典算法,可以方便地調用接口查看特征在模型中的貢獻度,為本文的實驗提供了便利。同時兩種算法相互驗證,可以增強實驗的可靠性。本文首先篩選《報告書》中的收錄詞匯,根據分類,用獨熱編碼建立特征矩陣,再對所得到的詞匯根據理解難易程度分為高透明度詞匯和低透明度詞匯,分別用1和0作為兩類詞匯的標簽。然后,將特征矩陣和標簽帶入模型訓練,得到使模型分類準確率最高的特征子集。最后,將子集中的特征按參數絕對值/特征重要性排序。

2 研究綜述

在對韓國語新詞展開的研究中,大多數是對新詞本身進行研究。在國內,王志國在《關于韓國語新詞構造的研究》一文當中以音韻變化、形態變化和其余變化三類來總結韓國語新詞的生成方式;孟麗在《淺談韓國新詞的特點》一文中提到韓國語新詞類型時也是主要從詞的結構和形態進行分類和列舉;李得春在《世紀之交韓國語新詞中的漢字詞》一文中從詞性、語言來源角度出發,對韓語新詞中的漢字詞進行了系統的統計和列舉;此外,姬旭在《反映社會現象的韓國語新詞特點研究》中,針對不同的社會領域對韓國新詞進行了梳理。可以看出,對新詞的研究主要是描述詞匯本身的形態,辨析詞匯的語源,盡管存在部分統計方面的研究,但更多是止于統計而不進行分析。

韓國國內對新詞的研究也一直在進行,???從連語的角度對韓國語新詞進行了研究,他認為能被承認的新詞多是以連語的形式使用,并且提出新造詞和慣用語具有很強的互通性;而???以網絡新詞為主要的分析對象,分析了詞匯的音韻學、形態論和語義論特征,并按照詞匯的透明性和兼容性又進行了分類和舉例。因此在對韓國語新詞的研究也更關心分類和舉例,期望通過總結對新詞誕生的條件進行探究。

3 基于機器學習的韓國語新造詞透明度探究

本文的總體思路是:先對《報告書》中收錄的詞條進行篩選,然后根據其中提供的四種分類標準對每個詞進行編碼,建立特征矩陣,最后將詞語送入模型進行特征選擇,并對特征選擇的結果進行可視化展示。

3.1 獨熱編碼(one-hot encoding)

《報告書》中提到了詞匯四方面的特征,分別是:詞性、語言來源、構詞方式和所屬領域。這四種特征都屬于內部無法計算,也無法比較大小關系的變量。如其中講到的詞性一共有:名詞、動詞、副詞和形容詞四類,無法說“名詞+動詞=形容詞”或者“名詞>動詞”,所以選擇獨熱編碼對其進行數字化是較為合適。那么四個詞性向量化的結果就是名詞(1, 0, 0, 0),動詞(0, 1, 0, 0),副詞(0, 0, 1, 0),形容詞(0, 0, 0, 1)。以此類推,對剩下三種特征也進行獨熱編碼,最終每個新詞都會以26位向量的形式出現在特征矩陣當中。因為涉及的特征并不多,所以不會產生維度災難,同時較大限度保留了原特征的信息。最終特征矩陣如下圖所示:

3.2 邏輯回歸模型

邏輯回歸是機器學習領域常用的分類模型,其本質是:假設數據服從某種分布,然后使用極大似然估計去推導參數。目前在工業界邏輯回歸主要用來解決二分類問題,其同Adaline自適應算法類似,都是通過在線性回歸外套用sigmoid函數找到分類超平面。在機器學習領域,二元邏輯回歸的損失函數為:

在得到損失函數之后,可以通過梯度下降等方式求出最合適的參數向量,從而得到損失函數的最小值。在實際的應用當中,為了防止模型的過擬合,常常使用添加正則項的方式對參數項進行限制,L1范式就是正則項的一種,其表現為參數向量中每個參數絕對值之和。sklearn庫中的加入L1范式的損失函數為:

其中J(θ)是之前的損失函數,C是用來控制正則化的超參數,n是特征總數。加入了L1范式的損失函數在進行訓練時可以將參數向量中的某些參數降為0,即實現特征選擇,所以本文采用加入了L1范式的邏輯回歸模型。

3.3 隨機森林模型

隨機森林模型是一種集成的強學習模型,其集成的基本學習器是樹模型。集成模型通常都是考慮多個評估器的建模結果,匯總后得到綜合結果,以此來獲得比單個模型更好的表現。該模型既能被用來解決分類問題,也能被用來解決回歸問題,能在運算量沒有顯著提高的前提下提高預測精度。若待預測的變量為離散型變量,則隨機森林的最終結果為多數樹模型的分類結果; 若待預測的是連續型變量,則隨機森林的最終結果是所有樹模型得到結果的平均值。隨機森林中為了讓各個基分類器不同,盡可能地選取不同的訓練數據進行訓練,而sklearn中的參數bootstrap,就是代表這種有放回的隨機采樣技術。

和邏輯回歸不同,樹模型的建立不具備復雜的數學過程,其建模過程中涉及到運算的只是各葉子節點的分類標準,在sklearn庫中可以通過設置參數以使用交叉熵或者基尼系數來作為葉子節點的分類標準。但這并不影響隨機森林在訓練過程中的高準確率,同時作為樹模型的集成,隨機森林也具備查看各特征重要性的接口,所以本文將其作為特征選擇的算法之一。隨機森林工作流程如下圖所示:

3.4 嵌入法(embedded)

本文采用嵌入法進行特征選擇。嵌入法是一種讓算法決定使用哪些特征的方法,即特征選擇和算法訓練同時進行。在使用嵌入法時,先使用某些機器學習的算法和模型進行訓練,得到各個特征的權值系數,根據權值系數從大到小選擇特征。這些權值系數往往代表了特征對于模型的某種貢獻或某種重要性,比如決策樹和樹的集成模型中的feature_importances_屬性,可以表示各個特征對樹的建立的貢獻,基于這種貢獻的評估找出對模型建立最有用的特征。同理,在使用添加L1 范式的邏輯回歸時,某些權值系數會逐漸趨近于零,這些權值參數對應的特征對模型的貢獻度不高,而對于權值參數不為零的特征,參數的絕對值越大,證明其對模型的貢獻度越高。嵌入法的工作流程如圖4所示:

4 實驗結果分析

本文將轉換后的特征矩陣帶入模型,使用嵌入法進行特征選擇。雖然兩種模型的原理不同,但將最終得到的結果進行對比驗證,可以看出對標簽影響最大的特征是什么,即詞性、構詞方式、語言來源和所屬領域分別會對韓國語新詞的透明度產生多大的影響。而且因為所得參數都是具體數值,所以可以進行可視化處理。最終邏輯回歸得到的權值參數和隨機森林得到的重要性程度如下表所示:

從實驗結果來看,經過邏輯回歸的特征選擇,原有的26個特征剩下9個,而隨機森林篩選過后剩下10個,數量大致相同,其中重復的特征有6個,超過半數。從中可以得到如下結論:

1)韓國語新詞透明度的影響因素是可以通過量化手段進行分析的,本文的研究具備一定的合理性;

2)“接尾詞”是影響《報告書》中新詞透明度的重要因素,兩個模型篩選出的特征都包含它并給予最高權重;

3)兩個模型選擇出的特征當中按重要性程度排序,前四名特征中有三項是重復的,分別是“接尾詞”“外來詞”和“縮略詞”;而且這三項因素的數值加和都超過了剩下因素的加和,可以說明這三項對新詞透明度影響較大。

從本文研究方法的最終結果反觀本文的研究方法,可以得到以下不足之處:

1)實驗的樣本較少,缺乏普遍性。由于本文只是篩選了《報告書》中符合條件的單詞,所以樣本包含的單詞數量較少,所得結論可靠性尚需進一步驗證;

2)在進行特征選擇時,直接選擇《報告書》中給予的分類當作特征來源,這是為了保證結論的可解釋性,但如果在特征矩陣中加入新特征,可能會得到新的結論;

3)在實驗的過程中,采取兩種算法對比驗證的策略。但實際上也有其他機器學習算法能解決分類問題并進行特征選擇,未來可以使用更多算法進行驗證。

5 結語

本文用基于機器學習的方式篩選影響韓國語新詞透明性的因素。從結果來看,收到了一定效果,得到了具體研究結論和可供支持的實驗數據。同時本文方法在細節處理上還有待優化,可以從樣本擴充、特征提取、算法選擇等方面進一步提升實驗的可靠性和結果的適用性。

此外,就以往對韓國語新詞的研究而言,本文是方法論層面的嘗試,最重要的是將較為前沿的量化分析方法和傳統的韓國語詞匯學知識進行結合。傳統的語言學知識用新方法進行度量,這可以提升語言學研究的科學性,也是未來的研究趨勢和方向。

參考文獻:

[1] 王志國. 關于韓國語新詞構造的研究[J]. 韓國語教學與研究,2018(3):11-15.

[2] 孟麗. 淺談韓語新詞的特點[J]. 科教文匯(上旬刊),2010(7):129-131,135.

[3] 李得春. 世紀之交韓國語新詞中的漢字詞[J]. 民族語文,2004(5):50-55.

[4] 姬旭. 反映社會現象的韓國語新詞特點研究[D]. 延邊大學,2016.

[5] 李航. 統計學習方法[M]. 2版.北京:清華大學出版社:北京,2019:67-109.

[6] ?????.? 2014? ?? ?? ???[R].2015.

[7] ???. ??? ??? ?? ??[J].2011.

[8] ???. ??? ???? ??? ???[J].2018.

【通聯編輯:王力】

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 少妇高潮惨叫久久久久久| 日本不卡视频在线| 国产午夜精品一区二区三区软件| 亚洲欧美日韩久久精品| 亚洲另类第一页| 全部免费毛片免费播放| 国内精品伊人久久久久7777人| 亚洲中文字幕在线观看| 国产导航在线| 国产成人高清精品免费| 无码日韩视频| 免费看a级毛片| 视频二区中文无码| 午夜国产大片免费观看| 日韩一二三区视频精品| 91毛片网| 精品99在线观看| 午夜福利无码一区二区| 国产在线高清一级毛片| 亚洲无限乱码一二三四区| 热久久国产| 欧美激情伊人| 免费无遮挡AV| 亚洲中文精品久久久久久不卡| 国产成人一区免费观看 | 免费又爽又刺激高潮网址| 久久青草热| 国产在线第二页| 亚洲Av综合日韩精品久久久| 日本影院一区| 一级不卡毛片| 国产超薄肉色丝袜网站| 亚洲一级毛片在线观播放| 污污网站在线观看| 日韩欧美国产综合| 九色最新网址| 亚洲丝袜中文字幕| 欧美翘臀一区二区三区| 永久免费av网站可以直接看的 | 国产精品手机在线观看你懂的 | 91九色国产在线| 岛国精品一区免费视频在线观看| 国产在线观看91精品| 国产真实二区一区在线亚洲| 国产一区三区二区中文在线| 在线不卡免费视频| 国产一区二区三区在线精品专区| 伊人天堂网| 片在线无码观看| 久久性妇女精品免费| 二级特黄绝大片免费视频大片| 国产91特黄特色A级毛片| 在线观看欧美国产| 巨熟乳波霸若妻中文观看免费 | 久久永久精品免费视频| 久久精品亚洲中文字幕乱码| 亚洲区第一页| 日本精品一在线观看视频| 91成人在线观看| 亚洲永久色| 超薄丝袜足j国产在线视频| 欧美精品在线看| 亚洲aaa视频| 亚洲欧美日韩中文字幕在线| 国产欧美视频在线观看| 国产真实乱子伦视频播放| 在线观看视频一区二区| 成人精品视频一区二区在线| 狠狠色丁婷婷综合久久| 亚洲伊人电影| 国产又粗又猛又爽视频| 青青操视频在线| 无码 在线 在线| 欧美日韩国产在线播放| 黄网站欧美内射| 日韩精品视频久久| 亚洲乱码视频| 操美女免费网站| 天天躁狠狠躁| 亚洲综合亚洲国产尤物| 免费三A级毛片视频| 国产区免费|