關鍵詞:哈薩克文;Word2vec;詞向量;相似度分析
doi:10.3969/J.ISSN.1672-7274.2025.05.050
中圖分類號:TP31 文獻標志碼:B 文章編碼:1672-7274(2025)05-0148-03
Abstract: The word vector embedding technology is a crucial step in the study of natural language processing, which is digitized through vectorization so that natural language can be recognized by computers and relevant processing calculations.The implementation of Kazakh language vectorization based on Word2vec is important to support the research in the feldof Kazakh language machine translation,text clasificationand recognition.In the article,the open-source iFLYTEK Kazakh corpus dataset is used as a corpus,and after cleaning,tokenization and other steps,vectorization is implemented to convert each Kazakh word intoan independentK-bit wordvector byusing Word2vc tol.Through thecomputation ofthese word vectors,the discoveryof thecontextual semantic patterns contained intheKazakhtext,the extractionofthe textual keywords,andthecomputation of the similar wordscan be achieved.
Keywords:Kazakh language;Word2vec;word vector;analysis
0 引言
隨著“一帶一路”倡議的不斷深入。“一帶一路”不僅成了一條經濟合作之路,更成為一條促進各國間文化交流與文明互鑒的重要橋梁。通過加強基礎設施建設、推動貿易和投資便利化等措施,這一倡議有助于增進各國人民福祉,推動構建人類命運共同體。哈薩克斯坦是“一帶一路”首倡之地,也是國家向西開放和走出去戰略的第一站和重要中轉站。哈薩克語使用人群主要分布在中國新疆、哈薩克斯坦和其他部分國家和地區,使用人群規模為3000多萬,其中新疆為150多萬人,哈薩克斯坦為2000多萬。本文研究的基于Word2vec的哈薩克文詞向量模型的實現,對后期中文-哈薩克語機器翻譯,哈薩克文文本分類和識別等領域研究具有重要支撐意義,能夠有效促進我國“一帶一路”倡議的實施推進和文化交流,提高了哈薩克語自然語言處理水平。
在哈薩克文向量化方面,吳守用在2010年使用VSM向量空間模型,在哈薩克語文本分類上取得了較好的成果[1]。古麗娜孜·艾力木江等在2018年提出的基于SV-NN的哈薩克文文本分類方法中,使用了貝葉斯向量化模塊實現哈薩克文詞向量化[2]。本文構建的基于Word2vec的哈薩克語文向量化模型,在哈薩克文相似詞相似度、相似詞查找等方面取得了較好的結果。
1 詞向量
詞向量嵌入(WordEmbedding)是一種將自然語言詞語或字符數字向量化表示方法,該方法將文本中每一個單詞或者字符投射到一個K位的實數向量空間中,而該向量能夠表示該單詞或者字符的語義信息。單詞或者字符的向量化表示能夠幫助更快更有效地進行自然語言處理。常見的詞向量嵌入技術有Word2vec、獨熱編碼、Glove等。
2 Word2vec原理
Word2vec是一種用于實現詞嵌入向量化技術,其原理基于分布式假設:在大規模文本語料庫中,位于上下文相似的詞常常具有相似的語義。Word2vec通過神經網絡模型來學習單詞的密集向量表示,使得相似的詞在向量空間表示中距離更近,捕捉了單詞之間的語義關系和語法信息。Word2vec有CBOW和Skip-gram兩種變體[3]。
由于訓練哈薩克文向量化的語料庫規模較小,文章采用Word2vec中CBOW訓練模型來進行了訓練。CBOW(ContinuousBagofWords)稱為連續詞袋模型,CBOW模型假設基于某中心詞在文本序列前后的背景詞來生成該中心詞。
CBOW模型先獲取某個詞的上下文,然后利用上下文推測出這個特定詞,即將某一個特征詞的上下文相關的詞對應的詞向量作為輸入并通過評估概率找出概率最大特定詞輸出[4]。如圖1所示,輸入“我愛我的祖國”,理想情況下,可以輸出“中國”一詞,完整結果為“我愛我的祖國——中國”。

Word2vec模型下,通過計算兩個詞詞向量余弦相似度,來計算其相似度[5]。

式中, A 和 B 是兩個詞向量; A?B 表示向量 A 和 B 的點積; |A| 和 |B| 分別表示向量A和 B 的模長(即向量的長度或大小)。相似度計算值在[-1,1]之間,如果兩個詞相似度計算值越接近1,說明兩個詞相似度越高。越接近0,說明兩個詞在空間向量上不相關,越接近-1,兩個詞越不相似。
3 實驗實現
3.1實驗環境配置
使用Windows10系統安裝Pycharm24.2版本,基于Python 3.12版本的解釋器,使用Gensim、re、numpy、nltk、TSNE、matplotlib等庫(模塊)進行實驗。

3.2數據預處理
實驗使用科大訊飛少數民族語言預訓練模型實驗數據集kk.txt,該數據集大小約為 41.2MB ,數據集內容包含政治、經濟、文化新聞和詞條解釋等內容。
① 將哈薩克語文本語料庫kk.txt讀取,并按行讀取,進行分詞。
② 使用re庫,清洗數據集里包含的特殊標點符號、數字和其他語言字符等。
③ 停用詞下載nltk庫里的哈薩克斯坦kazakh哈薩克語停用詞,并將其轉換為國內哈薩克語文字格式,對停用詞庫進行修改,刪除哈薩克斯坦哈薩克語專有的停用詞,增加部分國內哈薩克語停用詞,建立本實驗通用詞:哈薩克語停用詞.txt。
④ 使用Gensim模塊,用Word2vec進行模型訓練。
⑤ 用tsne模塊,對Word2vec訓練以后的100維詞向量進行降維處理,使詞向量維數能被可視化。
⑥ 用matplotlib模塊,用單詞和降維后的詞向量, 實現詞向量的可視化。
3.3模型訓練
使用CBOW模型,將詞向量維度設為100維,滑動窗口大小為3,向量化詞的最少出現次數為1。
通過模型訓練,共實現225457個詞的向量化,在模型中,選用哈薩克語日常使用中經常涉及的兩個地域名詞:“烏魯木齊”“阿勒泰”,計算“烏魯木齊”與“阿勒泰”兩詞的相似度計算結果為0.7983857。
哈薩克語里12個月份名稱中“三月”為輸入,計算與之相似的(距離最近的)11個相似詞,計算結果與現實中哈薩克語12個月份名稱能成功對應:
使用matplotlib,對用tsne模塊進行降維后的詞向量結果進行可視化,實驗結果表明:在相關領域的相似詞在坐標軸上距離近。如文學領域的專有名詞如“文學集-字典”“出版社-語言”“哈薩克語-俄羅斯語”等詞出現在相近區域。

4 結束語
本文研究的基于Word2vec實現哈薩克語向量化實驗,能夠計算出哈薩克語詞語相似度計算,在相似詞查找和哈薩克語文本向量化可視化方面具有較高的準確率,對哈薩克語機器翻譯、文本分類和識別等領域研究具有重要支撐意義。希望后來的研究人員在哈薩克語詞干提取、一詞多義,N-gram等方面進行進一步的研究,繼續優化哈薩克語詞向量化,提高準確率,為哈薩克語機器翻譯、文本分類和識別研究提供幫助,為國家經濟社會的發展貢獻力量。
參考文獻
[1]吳守用.基于SVM的哈薩克語文本分類初探[J].現代計算機(專業版),2010(4):16-19.
[2]古麗娜孜·艾力木江,乎西旦·居馬洪,孫鐵利,等.基于支持向量的最近鄰文本分類方法[J].智能系統學報,2018,13(05):799-807.
[3]席寧麗,朱麗佳,王錄通,陳俊,萬曉容,等.一種word2vec構建詞向量模型的實現方法[J].電腦與信息技術,2023.02:43-46
[4]丁海蘭.基于Word2Vec的藏文文本語義預測研究[J].西北民族大學學報(自然科學版),2021.03:15-21
[5]王麗,肖小玲,張樂樂.TF-IDF和word2vec在新聞文本分類中的比較研究[J].電腦知識與技術,2020.10:220-223