999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于潛在語義分析的遷移學習方法

2014-04-29 00:00:00李亞麗等
無線互聯科技 2014年4期

摘 要:遷移學習是研究如何利用大量的源領域標記數據,幫助少量標記甚至無標記的相關領域來解決特征稀疏問題的一種方法。針對遷移學習的研究大多只是從特征項表層對數據進行分析并沒有考慮到源領域與目標領域之間的語義相關性問題,提出一種基于潛在語義分析的遷移學習方法。通過實驗表明,本文算法可以較大提高分類器的精確度。

關鍵詞:遷移學習;機器學習;潛在語義分析;語義相關

1 潛在語義分析方法(LSA)

潛在語義分析是一種將文本信息組織成空間語義結構的新模型,其基本思想是假設文本中的特征項與特征項之間存在某種聯系,通過對大量的文本集進行統計分析,從中提取出特征項的上下文使用含義。

潛在語義分析的基本過程是:首先構造典型特征項—文本矩陣M,然后應用奇異值分解技術,把特征項匯和文本從高維空間降到了低維潛在語義空間。最后得到一個新的矩陣M’。潛在語義分析只取前k個最大的奇異值,而將剩余的值設為零。

2 基于潛在語義分析方法的遷移學習

2.1 數據的矩陣表示

潛在語義分析出發點是文本中的特征項與特征項之間存在某種聯系,采用統計計算的方法,對大量的文本進行分析來尋找這種潛在的語義結構。在遷移學習語義分析的實現方法中文本矩陣的元素值并不僅僅是詞頻信息以及對單個文本的貢獻度,它還體現著特征項在文本集中區別、分辨類標簽的能力。因此對特征項權重的計算方法包括文本貢獻權重和類標簽貢獻權重兩部分。最后將兩個權重相乘,得到最終特征項權重。

2.2 建立源領域與目標領域之間的橋梁

由于兩個領域間的相似性,可能存在一個低維的潛在語義空間,成為連接源領域和目標領域之間的橋梁,從而幫助完成源領域到目標領域的分類方法的遷移。

本文采用潛在語義分析方法挖掘源領域與目標領域中這一共同的低維潛在語義空間。使用奇異值分解技術,將源領域與目標領域的高維數據特征表示,映射到低維潛在語義空間中。

2.3 源領域到目標領域特征項的遷移

通過建立的低維潛在語義空間可得到文本和特征項的k維特征表示。但是在這個潛在空間中,源領域數據與目標領域數據擁有共同的特征表示,這有利于計算、分析有用的特征項,進而實現源領域中有用特征項到目標領域的遷移。從源領域篩選有用特征項主要分兩步完成。首先要消除同義詞“噪音”影響,然后從源領域中查找有用特征項。通過兩步矩陣調整,即可得到目標領域數據的新的特征表示。

2.4 算法描述(Tr_LSA)

輸入:兩個訓練數據集Ta和Tb,一個未標記的測試數據集S,一個傳統的分類器。

輸出:測試數據集S的標簽

(1)對訓練數據做去停用詞、詞干化等處理,得到特征項-文本矩陣M。(2)對矩陣M進行奇異值分解,將M中特征項與文本映射到低維潛在語義空間,建立聯系Ta與Tb之間的橋梁。(3)去除“噪音”,從Ta中找出Tb中特征項的同義詞,調整矩陣M結構;根據調整后的矩陣M,從Ta中找出遷移詞,再對矩陣M進行調整。(4)分析調整后的矩陣M,得到目標領域數據新的特征表示,利用傳統分類器,在訓練數據集中得到一個最終分類器,對測試數據集S進行分類。

由于Tr_LSA算法對特征項和文本的處理都是在低維空間中計算的,所以在一定程度上提高了算法的時間效率。

3 實驗結果與分析

3.1 數據集

本文使用20 newsgroups數據集,采用層次化的組織方式,包含7個頂級類別、20個子類別,并將其分成5組數據集。

3.2 對比算法

為了驗證基于潛在語義分析的遷移學習方法的有效性,選取了傳統文本分類器SVM和NB做對比,并使用TrAdaBoost算法與本文方法作對比。表1展示了傳統分類器和遷移學習算法在不同數據集上精確度對比,可遷移學習算法在處理不同分布數據集時,其分類性能明顯優于傳統分類器。另外,與TrAdaBoost算法相比,Tr_LSA算法也基本比TrAdaBoost算法的精度高。

表1 各種算法下實驗精確度

數據集SVMNBTrAdaBoostTr_LSA

comp vs rec0.6330.6010.8140.865

rec vs sci0.7070.6230.7850.819

sci vs talk0.6280.5990.7920.820

comp vs sci0.6930.7040.8110.841

comp vs talk0.7140.7110.7950.840

4 結論

遷移學習方法放松了對訓練數據和測試數據同分布假設的要求,利用相似領域的數據幫助目標領域數據分類。本文提出一種基于潛在語義分析的遷移學習方法,首先通過對大量數據進行統計分析,通過奇異值分解技術,對訓練數據挖掘其深層的語義含義,得到源領域與目標領域的一個低維的潛在語義空間。然后以此為橋梁,挖掘特征項與文本之間的關聯關系,去除同義詞”噪音”影響,進而從源領域中篩選出與目標領域文本關聯度較大的特征項,作為遷移詞。在大量實驗數據中表明,本算法能較大提高分類的精確度。同時本算法的可擴展性強,算法可擴展性強,當資源不斷增多,算法的時間復雜度與空間復雜度不會明顯增加。

[參考文獻]

[1]Dietterich T G,Domingos P,Getoor L,et al.Structured machine learning:the next ten years [J].Machine Learning,2008,73(1):3-23.

[2]董秀杰.基于LSA的文本分析[D].北京理工大學.2008.

[3]劉昌鈺,唐常杰,于中華,杜永萍,郭穎.基于潛在語義分析的BBS文本Bayes鑒別器[J].計算機學報,2004,27(4):566-572.

主站蜘蛛池模板: 无码久看视频| 成人福利一区二区视频在线| 国产丝袜丝视频在线观看| 欧美日本中文| 色综合天天视频在线观看| 久久公开视频| 国产喷水视频| 亚洲天堂777| 欧美日韩精品一区二区视频| 91成人试看福利体验区| 一级爱做片免费观看久久| 色天天综合久久久久综合片| 亚洲精品波多野结衣| 国产丝袜无码精品| 国产成人高精品免费视频| 国产伦片中文免费观看| 国产精品无码AV中文| 伊人色综合久久天天| 国产区免费精品视频| 成人国产精品网站在线看| 小说 亚洲 无码 精品| 高清无码手机在线观看| 国精品91人妻无码一区二区三区| 国产精品女在线观看| 国产嫖妓91东北老熟女久久一| www.av男人.com| 四虎国产永久在线观看| 国产你懂得| 亚洲一区毛片| 自拍欧美亚洲| 69精品在线观看| 久久网欧美| 国产日韩欧美在线视频免费观看| 日本道中文字幕久久一区| 日本五区在线不卡精品| 国产精品欧美在线观看| 人妻丰满熟妇av五码区| 亚洲日韩每日更新| 精品无码一区二区三区电影| 99久久国产综合精品2023| 国产自产视频一区二区三区| 99一级毛片| 国产在线第二页| 午夜a级毛片| 欧美激情首页| 亚洲天堂.com| 日韩av电影一区二区三区四区 | 全部毛片免费看| 99999久久久久久亚洲| 成人夜夜嗨| 人妻熟妇日韩AV在线播放| 18禁不卡免费网站| 久久香蕉国产线看精品| 亚洲成人在线免费观看| 99久久国产自偷自偷免费一区| 亚洲欧洲自拍拍偷午夜色无码| 国产精品美人久久久久久AV| 色综合中文| 国产欧美日韩va| 波多野结衣一区二区三区四区视频 | 久久久久国产精品熟女影院| 国产激情国语对白普通话| 国产精品午夜福利麻豆| 国产精品黄色片| 黄色网页在线播放| 99ri精品视频在线观看播放| 美女内射视频WWW网站午夜 | 中文无码精品A∨在线观看不卡 | 五月综合色婷婷| 亚洲女同欧美在线| 国产欧美日韩专区发布| 伊大人香蕉久久网欧美| 亚洲一区二区三区麻豆| 在线另类稀缺国产呦| 国产小视频a在线观看| 99在线视频免费| 夜夜操国产| 欧美日韩免费| 欧美第二区| 久久久久人妻一区精品| 亚洲一本大道在线| 又大又硬又爽免费视频|