999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于相似度計算的信息化項目與專家匹配方法

2013-07-06 02:02:06荊于勤
關鍵詞:語義概念信息化

陳 莊,荊于勤

(重慶理工大學計算機科學與工程學院,重慶 400054)

信息化咨詢[1]也稱為IT咨詢,是管理咨詢的一種。信息化咨詢是管理咨詢和信息化技術相結合的產物[2-3]。在信息化咨詢過程中,咨詢專家需要對企業進行充分的調研和需求分析,甚至要對管理流程重新設計,將企業的核心問題歸納出來,分析企業需要怎樣的管理方和管理軟件。在企業信息化過程中,咨詢專家的作用不可低估,而且在信息系統交付使用后,專家還要定期進行系統運行效率評估。專家的參與保障了項目的順利進行和項目效益的最大化。因此,面對存儲在專家庫中各個領域眾多的專家信息,如何選取合適的專家對項目進行咨詢,選取怎樣的專家組合才能保證咨詢工作的公正性、科學性和合理性,從而達到最佳的匹配效果是非常重要的。現階段,對于專家的選擇一般是通過簡單的隨機抽取,或者應用均衡隨機抽取模型。這種匹配方式屬于簡單的基于關鍵字的匹配,不能較好地利用專家的動態信息(如專家的領域成就、經驗經歷等信息),不能保障項目與專家匹配的科學性。

針對這一問題,本文引入本體的概念,通過分析項目描述與專家信息,計算其語義相似度,按照相似度的大小確定項目與專家匹配與否,從而提高了項目與專家的匹配度和咨詢評審的科學性[4-9]。

1 相關方法

1.1 基于點和基于邊的語義相似度計算方法

基于本體的語義相似度計算主要有2個比較經典的方法:基于點的計算方法(node-based approach)和基于邊的計算方法(edge-based approach)。基于點的相似度計算方法也叫作信息容量法[4]。信息容量通過量化概念及其實例對象的權重或者出現的概率,反映出概念和其實例對象的語義的內容大小。在本體樹形結構中,一個點表示一個概念,即表示了相關的語義內容。概念的抽象程度隨著所在層次的提高而提高,因此反映出的信息內容隨著抽象程度的提高而減少;相反,信息內容隨著具體程度的提高反映得越多,則層次越往下走,概念所表示的含義越細化、具體。即如果概念c1的結構層次高于概念c2的結構層次,則用公式表示為

因此,存在信息內容IC(c1)>IC(c2)。

對于任意概念節點c的信息內容IC(c)可通過式(2)計算。

其中:freq(c)表示其出現頻率;N取所有頻率的最大值。基于以上的定義和公式,可以計算概念c1和c2的相似度,如式(3)所示。

其中Sup(c1,c2)表示概念c1和c2所有的共同的父概念的集合。同樣,對于所有的概念 c,都有Concept(c).child(i)={c1,c2}。在將文檔中的詞語概念化的過程中,會發現一個詞語通常對應了幾個概念,即存在一詞多義的問題,導致在構建的概念樹上雖然是同一結點,但位于樹的不同分支上。針對這一問題,在計算2個詞語之間相似度時,先找出詞語的所有概念形式,計算所有概念形式的相似度,并選擇最大值作為計算結果。

基于邊的相似度計算方法的基本思想是通過分析2個概念在本體樹中路徑的長度來計算它們之間的語義距離。2個詞語之間的相似度隨著語義距離的增加而降低,隨著語義距離的減少而增加。由于2個結點之間可能存在多條路徑且邊數不唯一,可以利用最短路徑來表示概念間的相似度,公式為

其中:sen(w)表示詞語w的所有概念的表示形式;len(c1,c2)表示2個概念之間的距離;dmax表示2個概念的層次的最大值。

1.2 改進的混合語義相似度計算方法

通過分析基于點和基于邊的2種經典的語義相似度計算方法,并且針對信息化咨詢項目與領域專家匹配的問題,提出了需要改進的幾點:

1)雖然基于點的方法充分運用了概率統計和信息論的一些相關知識,而且實施起來也比較簡單,但是在計算的過程中對2點之間的距離對相似度的影響缺乏考慮。

2)對于基于邊的方法只是單純地考慮了樹結構中結點之間的距離,即最短路徑,沒有結合一詞多義現象中概念出現頻率所傳達出的信息(出現的頻率越高,表示它的重要性越大),因此相應的相似度計算結果也會不同。

3)基于點和基于邊的方法都只是局限于對一棵數中結點的計算,而未考慮到不同樹中的2點和樹與樹之間相似度的計算。而本文要解決的匹配問題是計算項目信息和專家信息的相似度,即樹與樹之間相似度的計算。

混合語義相似度計算方法通過設置權重來表示概念點的重要性,并聯系到概念詞于本體樹中所處的區域的密集度和所在深度,將2個概念點的最短路徑邊上的權重值相加,代替簡單累計2個概念點間所擁有的邊數量,從而得到2個概念點的距離。同時,不僅計算同一棵樹中2結點的語義相似度和不同樹中2結點的語義相似度,還計算不同樹之間的語義相似度。為了便于計算相似度,先將描述項目和專家信息的非結構文檔進行結構化處理,即將文本文檔轉化成了概念樹的形式。每個文本文檔用一維概念向量來表示概念樹,用一維權重向量來表示相應的權重。

例如文檔D1描述的是信息化項目的信息,D2描述的是信息化領域專家的信息,則形式化后的概念向量為分別為:D1={c11,c22,…,c1m},D2={c21,c22,…,c2n},其相應的權重向量分別為:W1={w11,w12,…,w1m},W2={w21,w22,…,w2n}。對于2個概念點c1i和c2j的父概念點C可以表示為C={ci|ci.child(x)=c1∧ci.child(y)=c2},同時滿足c={ci|ci∈C∧min[len(ci,c1)+len(ci,c2)]},那么,概念c1i和c2j的相似度計算公式為

其中w'1i和w'2j為2個概念點歸一化計算后的權重。進而,兩文檔的相似度計算公式為

2 項目與專家匹配過程分析

在信息化咨詢項目和領域專家的匹配中,需要處理2類信息:一類是項目信息,從項目需求、說明等材料中獲取,其基本信息包括項目名稱、研究屬性、申請日期等;另一類是專家信息,可通過專家所發表的論文、經歷、榮譽等方面獲取,其基本信息包括姓名、性別、出生日期、聯系方式和單位等,還包括專家的學術研究領域、成果和經歷等。

首先指定一個需要匹配的項目,并選擇若干個候選專家計算相似度,根據計算的結果排序。項目與專家匹配主要包括4個步驟:構建本體模型、標注本體、計算相似度、確定匹配專家。

1)構建本體模型。本文選定科學研究領域為本體的構建領域,其概念源于學術研究中比較常用的詞匯和短語。選用 protégé3.4.4 版本建立本體概念模型,再將概念數據存入數據庫中。

2)標注本體。一些通過Web方式輸入的信息生成的是結構化的信息,而也有一些是導入的非結構化的包含專家和項目信息的文檔。首先,將這些非結構化的信息用本體中包含的概念和表達的層次關系來描述,每一個概念結點對應于文檔信息中的一個知識要點,然后利用語法結構對文檔進行標注。

3)計算相似度。形式化后得到的是一個樹型知識結構,通過本文介紹的混合語義相似度計算方法,將知識結構轉換為知識向量,先計算項目和專家之間每一個概念之間的相似度,再計算項目概念樹和專家概念樹的相似度。

4)確定匹配專家。待選專家按所計算的相似度結果從大到小排序。例如該項目需要5位專家,就選擇排序后的前5位專家作為該項目的匹配專家。

3 實例分析

為了驗證上述方法的有效性,選取若干項目和專家組作為實驗對象。首先,由本領域專家先根據個人判斷給出每個項目與候選專家的相似度S2,即對它們的相似度作一個主觀判斷評價。然后利用混合語義相似度計算方法進行相似度計算,得到S1。為了方便對比分析,將S1與S2的值相比得到擬合度F,如表1所示。

表1 相似度計算結果比較

這里需要說明的是,由于通過計算得出的值和專家給定的值不是一個數量級,所以,表里給出的是經過歸一化后的計算結果。項目A和項目B的平均擬合度分別為82.18%和79.80%,這說明利用本文提出的方法進行項目與專家的匹配是比較合理、科學的。

4 結束語

為了保障專家咨詢工作的公正性、科學性和合理性,選取匹配的項目專家組合,本研究規避了現階段存在的簡單隨機抽取或者均衡隨機抽取方法的弊端,解決了基于關鍵字的專家選擇缺乏語義理解的問題。引入了本體的概念,通過分析項目描述與專家信息,計算其語義相似度,按照相似度的大小確定項目與專家匹配與否,從而為項目找到最合適的專家,提高了咨詢評審的科學性。實例分析結果表明,本文提出的計算2顆概念樹的相似度計算方法較全面地考慮了應用特點,相比傳統的方法,結果更精確合理。并且,將本體的應用引入這一領域,為以后專家抽取的研究提供了新思路。

[1]丁秋林.企業信息化咨詢[M].北京:華夏出版社,2003.

[2]劉紅.中小企業的信息化問題與對策[J].經濟論壇,2004,22:23-25.

[3]Van Leeuwen J.Approaches in machine learning[M].[S.l.]:ALGORITHMS IN AMBIENT INTELLIGENCE,2004:151-166.

[4]吳江寧,楊光飛.基于本體的項目和領域專家匹配原型系統[J].計算機應用研究,2009,26(10):3787-3790.

[5]姜華.一種基于本體的概念語義相似度計算研究[J].計算機應用與軟件,2009,26(7):143-145.

[6]劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-13.

[7]康文寧,楊志強.相似度計算在智能答疑系統中的研究及應用[J].計算機技術與發展,2010,20(2):71-74.

[8]L i S J,Zhang J,Huang X,et al.Semantic computation in Chinese question-answering system[J].Comput Sci Tech,2002,17(6):933-939.

[9]Ristad E S,Yianilos P N.Learning string-edit distance[J].IEEE PAM I,1998,20(5):522-532.

猜你喜歡
語義概念信息化
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
月“睹”教育信息化
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
信息化是醫改的重要支撐
中國衛生(2014年1期)2014-11-12 13:16:34
主站蜘蛛池模板: 欧美一区二区三区不卡免费| 久久五月视频| 国产乱子伦无码精品小说| 亚洲精品福利视频| 激情国产精品一区| 日韩无码黄色| 欧美福利在线| 久久免费视频播放| 狠狠色综合久久狠狠色综合| 日本欧美午夜| 刘亦菲一区二区在线观看| 青青青视频蜜桃一区二区| 九九热视频在线免费观看| 久久综合一个色综合网| 亚洲AV无码乱码在线观看裸奔| 国产精品lululu在线观看| 全免费a级毛片免费看不卡| 国内精品久久久久鸭| 亚洲aaa视频| 中国黄色一级视频| 免费在线播放毛片| 国产精品熟女亚洲AV麻豆| a级毛片免费在线观看| 亚洲成aⅴ人片在线影院八| 国产精品久久自在自线观看| 澳门av无码| 波多野结衣在线se| 国产成人免费手机在线观看视频 | 日本午夜影院| 玖玖精品在线| 日韩人妻无码制服丝袜视频| 波多野结衣一区二区三区四区视频 | 亚洲国产成人久久精品软件| 国产香蕉在线视频| 亚洲高清在线天堂精品| 尤物国产在线| 国产国产人成免费视频77777| 伊人久久大香线蕉综合影视| 日韩av资源在线| 真实国产乱子伦视频| 福利在线不卡| 国产精品视频a| 欧美久久网| 美女视频黄频a免费高清不卡| 99精品国产电影| 久久久久国产一级毛片高清板| 国产乱子精品一区二区在线观看| 国产不卡在线看| 91激情视频| 伊人精品视频免费在线| 国产一区二区免费播放| 国产精品自在线天天看片| 狂欢视频在线观看不卡| 亚洲h视频在线| 91精品啪在线观看国产60岁| 日本精品中文字幕在线不卡| a级毛片免费网站| 在线a视频免费观看| 99热这里都是国产精品| 91毛片网| 亚洲免费福利视频| 国产亚洲一区二区三区在线| 中文字幕在线视频免费| 欧美一区二区精品久久久| 99久久精品免费看国产免费软件| 女人一级毛片| 最新无码专区超级碰碰碰| 欧美成人午夜视频免看| 亚洲va精品中文字幕| 国产精品成人观看视频国产 | 手机在线国产精品| 国产成人调教在线视频| 午夜福利视频一区| 一本无码在线观看| 大学生久久香蕉国产线观看 | 欧美日本视频在线观看| 狠狠躁天天躁夜夜躁婷婷| 99在线观看免费视频| 国产成人免费视频精品一区二区| 亚洲性一区| 三上悠亚一区二区| 国语少妇高潮|