半監督算法在自然語言處理中的應用研究

2019-06-11 03:10:51黃春

科技創新導報 2019年6期

關鍵詞：應用

黃春

摘 ? 要：隨著科學技術的發展進步，機器學習方法在自然語言處理領域已經得到了廣泛的普及與應用。半監督算法作為其中一項重要方法，具有更一般的假設，方法更加直觀，解釋性好，因此在自然語言處理中有著廣泛的應用。本文以半監督算法在自然語言處理中的應用為研究對象，首先分析了半監督算法在自然語言處理中應用必要性，隨后探討分析了半監督算法的一些具體應用方式。

關鍵詞：半監督算法 ?自然語言處理 ?應用

中圖分類號：TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A ? ? ? ? ? ? ? ? ? ? ? ?文章編號：1674-098X（2019）02（c）-0131-02

通過總結半監督算法在自然語言處理中的應用，對于促進半監督算法推廣應用普及具有重要的意義。

1 ?必要性分析

有監督學習算法是當下自然語言處理中應用的一種主流算法，該方法在句法分析、詞性標注等方面均有著良好的應用效果，在機器翻譯、情感分析等領域葉達到了非常高的水準。此外，有監督學習算法在其他領域中也有著非常重要的應用，有效推動了諸如圖像處理識別、垃圾郵件識別等領域的發展。但該方法在實際應用時也有著一定的局限性，例如需要依賴大量的標注數據，而這些數據標注工作通常需要相關人員采取人工方式進行，因此工作量較大，耗費時間人力成本較高。當遇到標注語料缺乏問題，將會嚴重限制該方法應用效果。另一方面，在我國自然語言組成中，有很多少數民族語言，例如壯語、蒙語、藏語等，這些語言應用相對較為“小眾”，語料資源比較匱乏，因此嚴重限制了有監督學習算法在這些語言中的應用。此外，即使針對一些應用比較廣的語言，例如漢語、英語等，在某些實際應用中也會出現標語語料獲取難度大等問題，同樣嚴重應用效果。以構建統計句法分析應用樹庫為例，該任務由于難度較大，當前只有漢語與英語有專門的大規模標注樹庫（賓州樹庫），而阿拉伯語與俄語雖然實際應用范圍也比較廣，但由于標注樹庫規模較小，有監督學習算法對于這些語言句法分析依然難以得到有效應用。基于此，為使得語料匱乏的自然語言處理任務問題得到妥善解決，有必要對半監督算法進行研究分析。半監督算法作為當下機器學習語言的重要方法，主要研究如何同時利用標記數據與無標記數據獲得更好的語言學習性能，達到滿意的應用效果。

2 ?半監督算法在自然語言處理中的應用

2.1 應用于無向圖建立

半監督算法在實際的語言處理過程中，無法直接訓練出固定的模型。原因在于面對大量任務同時存在的情況，該算法需要對文檔中詞匯的特征進行逐一提取，難度較大。為避免出現數據稀疏問題，在應用該算法進行知識檢索過程時，需要圍繞全部數據，建立一個無向圖。具體而言，每一個數據點都各自由一個點來代表，若兩點之間具有一定相似性，則利用連接線來具體體現。然后通過設置X，用于表示無向圖中連接線的權值矩陣，其中針對數據點j與數據點k之間連接線權值，用xjk表示。若上述兩點之間不存在連接線，那么xjk=0。我們可以假設鄰近數據點為L，數據點k在數據點j的鄰近區域中，那么可得xjk=1。我們通過利用高斯核的方式對上述關系進行核對并描述，可得出如下結論：

在上述分析的基礎之上，在流形條件下，引入半督學習算法。流形條件具體是指：當數據樣本的數據復雜度較高時，將這些復雜的數據在數據復雜度較低樣本中來進行存儲的一種條件。基于此，若該條件假設成立，那么在實際進行自然語言處理時，即使面對數據復雜度相對較低的空間，也能夠實現知識的有效檢索。總的來說，通過應用半監督學習算法，可以有效降低自然語言處理各種局限性的影響，尤其是針對數據復雜度過高的局限性，可有效改善這一局限性問題，彰顯了半監督算法的應用優勢。

2.2 應用標記傳播法降低自然語言處理知識檢索的難度

標記傳播算法是一種比較典型的半監督學習算法，該算法對流形假設進行了充分的利用。主要是在所有樣本的基礎之上，通過構建K近鄰圖或完全圖，對于圖中標注樣本標簽而言，可以使其在未標注樣本之上進行傳遞。如果兩個樣本點之間有著較高的相似度，則說明越容易傳播。在上述過程中，有標注數據標簽會保持不變，而未標注數據標簽則會不間斷地進行更新。借助該方法，可以有效簡化無向圖，降低在自然語言處理過程中知識檢索的復雜度與難度，提高處理效果。

基于上述的分析可知，通過應用流形假設，在實際進行數據處理分析的過程中，能夠有效獲取與數據樣本相關的鄰近區域的圖譜。并且針對獲取的無向圖來說，也有著非常高的完整性，更有利于處理效果提升。與此同時，在圖中，我們還可以做出如下假設，在所有數據樣本中，存在一部無數標注數據樣本，這些樣本標簽可以傳遞到其余數據樣本中。如果數據樣本有著非常高的相似度，那么在實際進行樣本傳遞時，難度將會大大降低，并且在傳遞過程中，樣本的標簽也不會發生變化。但對于無標注數據樣本而言，自身標簽會完成數據更新。在實際進行無向圖建立過程中，針對兩個數據點而言，他們的相似度可以進行自定義設置，針對數據樣本之間的標簽傳遞，也可以進行標簽傳遞概率矩陣的構建，設置矩陣大小可用如下公式表示：，結果可得：

我們可以通過利用上述方法，來完成無向圖的構建，具體步驟如下。

（1）進行數據輸入：假設全部數據樣本構成了一個集合，用E表示，在該集合中，包含三個子集合，一是由標記數據構成的集合，用M表示，二是由為標記的數據組成的集合，用V表示，三是由不同數據類別屬性構成的集合，我們用D表示。

（2）以自定義的數據樣本之間的相似度計算方式為依據，完成數據樣本的無向圖，的構建，具體可表示為，從中可以獲得對應相似度矩陣，具體可用X表示。

（3）立足于數據樣本標簽傳遞過程進行計算，可以獲得傳遞概率矩陣，具體用U表示。

（4）以數據樣本標簽傳遞概率為依據，來對標簽數據之和加以計算，并更新對應的數據概率分布，具體應用公式如下：

（5）圍繞已經明確有標注的數據樣本，需要對該數據點概率值進行初始化設置，然后不斷重復（3），直至該公式滿足收斂條件。

在上述應用半監督算法進行基于自然語言處理的數據知識檢索過程中，我們可以作出如下假設：首先是時間復雜性取值大于了，同時對于標記傳播方法而言，在具體進行自然語言知識檢索過程中，采用的是直推方式，在每次進行知識檢索，需要重新對算法進行相應的測試，因此在實際應用過程中，需要在較短時間內將樣本中主題詞完成提取，使得自然語言處理計算的復雜性得到有效降低。

3 ?結語

綜上所述，半監督算法作為機器學習算法的重要組成部分，在自然語言基礎性問題處理上發揮著重要的作用。在原本使用的監督算法中，由于其實際應用有著諸多局限性，比如對于標注資料依賴性較高，需要耗費大量的人力物力資源等，整體應用成本比較高昂，并且對于標注資源需求數量較高，并不適合一些“小眾”語言學習應用，同時在標注語料擴展方面難度也比較大。而半監督算法出現，則有效彌補了上述缺陷，已經成為機器學習領域內主流發展方向之一，通過對標記數據與無標記數據進行綜合利用，從而有效提升整體數據的有效利用性。

參考文獻

[1] 朱曉光.基于半監督學習的微博情感分析方法研究[D].山東財經大學，2014.

[2] 周鑫.半監督算法在自然語言處理中應用的研究[D].哈爾濱工業大學，2014.

[3] 柏藝珊，黃展原.自然語言處理中半監督算法的應用[J].電子技術與軟件工程，2017（2）：156.