999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于語料的詞匯語義相似度認知算法?

2019-02-27 08:31:18孫偉晉
計算機與數字工程 2019年2期
關鍵詞:語義詞匯模型

吳 華 羅 順 孫偉晉

(上海通用識別技術研究所 上海 201112)

1 引言

隨著互聯網信息的爆炸式增長,如何讓機器具有類似于人類閱讀和理解信息的能力、學習和認識知識的能力、思考和解決問題的能力,從而使機器智能成為人類智能的延伸和拓展,已成為當前計算機領域的重要技術發展方向與產品開發策略之一。而詞匯的語義相似度計算正是機器智能的重要基礎之一,在信息檢索、自然語言處理、推薦系統等領域都有廣泛的應用,正在為越來越多的研究人員所關注[1]。

目前,詞匯語義相似度計算的主要方法是根據某 種 世 界 知 識 來 構 建 計 算 模 型,如HowNet[2~3]、CCD[4]、同義詞林[5~6]等語義詞典[7~8],按照概念在語言學中結構層次關系來計算詞匯語義相似度。這種方法直觀、簡單有效且易于理解,但是不可避免地面臨主觀性較強、領域敏感性較差、新詞或新語用的擴展性較弱等困難。

本文通過提取詞匯的上下文語境特征作為詞匯語義的承載單元,構建了一種基于特定語料的詞匯的語義相似度計算模型。模型通過對詞匯的語境特征的距離計算,來給出詞匯在當前語料中的相互可替代度量,并以此作為詞匯的語義相似度。

2 詞匯的語境特征

詞向量方法是目前統計語言學廣泛使用的一種方法,相關模型具有計算復雜度小、靈敏度高、易訓練等特點[5~6]。將詞向量方法應用于詞匯的語義相似度計算,分別取對象詞匯的上文和下文相鄰實詞作為語境特征向量,將基于樣本語料的詞匯語境特征向量之間的距離作為詞匯間的語義相似度度量。

舉例來說,若樣本語料如下:

語料1語料2語料3語料4語料5語料6新世紀充滿了希望。對國家未來的發展充滿信心。大數據技術的發展充滿了希望。相關政策的施行,使得新能源汽車市場的發展有了充足的動力。項目前期準備工作越充足,論證時就越有把握。對我們的事業,我有充足的信心。若我們取語境窗口為1,統計樣本語料中詞匯“充滿”和“充足”語境特征結果如下:充滿充足上文下文上文下文世紀:1次希望:2次發展:1次動力:1次發展:2次信心:1次工作:1次論證:1次我:1次信心:1次

設樣本的上文語境空間為{世紀、發展、工作、我},詞匯“充滿”的上文語境特征向量為{1,2,0,0},詞匯“充足”的上文語境特征向量為{0,1,1,1}。同樣的,設樣本的下文語境空間為{希望、信心、動力、論證},詞匯“充滿”的下文語境特征向量為{2,1,0,0},詞匯“充足”的下文語境特征向量為{0,1,1,1}。

3 語義相似度計算模型

3.1 模型準則

一般而言,詞匯語義相似度都采用歸一化度量,相似度值域為[0,1]。詞匯語義相似度計算模型需要滿足以下幾個條件:

1)詞匯和其自身的相似度為1;

2)若兩個詞匯在任何上下文中都不可替換,那么其相似度為0;

3)相似度度量是單調的,即兩個詞匯語義越相似,其相似度就越高。

對于兩個詞匯S1和S2,我們記其相似度為Sim( S1,S2),只要滿足上述條件的計算模型,都可以作為語義相似度的度量。

3.2 基于語境特征向量的相似度度量

若記樣本語料的語境空間為C={c1,c2,…,cn},其中ci表示語料中的某一個實詞。記詞匯S1和S2的語境特征向量分別為S1={s11,s12,…,s1n}、S2={s21,s22,…,s2n} ,其中sij表示第i個詞匯的語境特征向量中實詞cj的出現次數。

對照第3.1節中的相似度模型準則,基于詞匯的語境特征向量,我們構造基于語境特征向量的相似度計算模型如下:

易知Sim( S1,S2)∈[0 ,1]、Sim( S1,S1)=1,若有詞匯S3={s31,s32,…,s3n},那么

假設s31≠s11,s32=s12,s33=s13,…,s3n=s1n(s3i≠s1i的情況同理),我們從上述公式中可以發現,當 |s31-s21|< |s11-s21|時,有 Sim( S3,S2)>Sim( S1,S2) ;當 |s31-s21|> |s11-s21|時,則 有Sim( S3,S2)<Sim( S1,S2)。也就是說,當詞匯S3在樣本語境空間的投影(某一實詞的詞頻)相比詞匯S1更接近S2時,其語義相似度也就越高。

從而,上述構建的模型符合詞匯語義相似度度量的一般準則。

3.3 針對上下文語境的模型優化

針對中文的語言特點,對上、下文語境空間分別賦以不同權重,對第3.2節中的相似度模型進行優化如下:

其中SU,i、SD,i分別表示詞匯Si的上、下文語境特征向量,( α,β)為權重向量,考慮到中文“語義后置”的特點,一般我們配置β>α。

4 算法描述

step1:統計樣本語料中出現的主要實詞(為避免矩陣過于稀疏),作為語境特征空間;

step2:通過統計得到對象詞匯的上、下文語境特征向量,并向樣本的語境特征空間中進行投影;

step3:通過第3.2節或第3.3節中公式計算對象詞匯間的語義相似度;

step4:將計算結果保存至本地,構建面向語料或面向領域的語義詞。

5 算例

仍以第2節中語料為例,利用第3.3節中語義相似度計算模型,配置上、下文語境特征權重( 0 .4,0.6),計算詞匯“充滿”和“充足”在當前語料中的相似度如下:

基本符合樣本語料實際。

若采用同義詞林[5],“充滿”=“Jd06A01=”,“充足”=“Ed39A01=”采用按位計算的方法計算相似度,結果為

語義相似度度量結果也較為接近。

6 結語

本文提出的基于語料的詞匯語義相似度計算方法是一種基于計算的模糊認知類方法,把詞匯語義相似度度量的建立在基于樣本語料統計的語言事實上。因而具有以下三方面的特點,一是具有客觀性,詞匯語義相似度度量不受人為主觀影響,詞匯的語義相似度完全由語料統計給出;二是具有領域性,一方面能對領域中的新概念、新術語進行語義度量,一方面能對多義詞匯的領域義項自動識別;三是不需要詞法、句法、語義、語用等先驗知識,是一種模糊認知的經驗主義方法,便于組織大型的語義詞典。

猜你喜歡
語義詞匯模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
本刊可直接用縮寫的常用詞匯
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产亚卅精品无码| 伊人久综合| 四虎精品黑人视频| 欧美另类第一页| 欧美中文字幕无线码视频| 伊人天堂网| 国产高清色视频免费看的网址| 亚洲精品国产综合99久久夜夜嗨| 欧美高清国产| 久久综合丝袜日本网| 成人无码一区二区三区视频在线观看| 99资源在线| 国产乱论视频| 成年午夜精品久久精品| 在线观看国产精品日本不卡网| 日本亚洲最大的色成网站www| 99激情网| 国产在线精品99一区不卡| 国产91久久久久久| 色香蕉网站| 欧美精品在线观看视频| 狠狠做深爱婷婷综合一区| 日本色综合网| 色综合a怡红院怡红院首页| 91人妻日韩人妻无码专区精品| 国产sm重味一区二区三区| 在线精品亚洲一区二区古装| 国产在线98福利播放视频免费| 久久综合激情网| 亚洲中文字幕久久精品无码一区| 亚洲AV无码乱码在线观看代蜜桃| 97视频精品全国在线观看| 久久毛片网| 精品福利视频网| 97超碰精品成人国产| 国产福利不卡视频| 国产新AV天堂| 秋霞午夜国产精品成人片| 国产又色又刺激高潮免费看| 欧美精品成人一区二区视频一| 午夜国产小视频| 国产情侣一区二区三区| 制服丝袜 91视频| 国产黑丝一区| 日本一区二区三区精品视频| 91精选国产大片| a级毛片网| 亚洲中文字幕在线一区播放| 精品一区二区三区波多野结衣| 国产综合另类小说色区色噜噜| 国产成人精品在线1区| 亚洲无码在线午夜电影| 日韩在线1| 国产欧美在线观看精品一区污| 中文字幕在线一区二区在线| 成人在线观看不卡| 日韩精品一区二区三区免费| 香蕉99国内自产自拍视频| 久爱午夜精品免费视频| 日本高清免费一本在线观看| 国产精品视频白浆免费视频| 国产午夜福利在线小视频| 国产精品亚洲а∨天堂免下载| 青青青伊人色综合久久| 日韩无码视频播放| 国产av剧情无码精品色午夜| 91福利免费| 伦伦影院精品一区| 亚洲天堂首页| 人人91人人澡人人妻人人爽| 97se综合| 中文字幕1区2区| 色婷婷国产精品视频| 在线观看免费黄色网址| 91视频青青草| 亚洲av无码成人专区| 台湾AV国片精品女同性| 国产日本欧美亚洲精品视| 99精品视频九九精品| 精品91自产拍在线| 99免费在线观看视频| 国产一级一级毛片永久|