999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關(guān)鍵詞協(xié)同投票過(guò)濾的短文本特征提取算法研究

2015-06-07 11:09:41周麗杰于偉海郭成
泰山學(xué)院學(xué)報(bào) 2015年6期
關(guān)鍵詞:特征提取特征文本

周麗杰,于偉海,郭成

(1.煙臺(tái)職業(yè)學(xué)院電教中心,山東煙臺(tái)264670; 2.煙臺(tái)市普通話培訓(xùn)測(cè)試中心,山東煙臺(tái)264003;3.大連理工大學(xué)軟件學(xué)院,遼寧大連116620)

基于關(guān)鍵詞協(xié)同投票過(guò)濾的短文本特征提取算法研究

周麗杰1,于偉海2,郭成3

(1.煙臺(tái)職業(yè)學(xué)院電教中心,山東煙臺(tái)264670; 2.煙臺(tái)市普通話培訓(xùn)測(cè)試中心,山東煙臺(tái)264003;3.大連理工大學(xué)軟件學(xué)院,遼寧大連116620)

特征提取算法的目的是為了放大特征項(xiàng)和非特征項(xiàng)之間的權(quán)值差異性。目前文本特征提取算法通常都是面向通用文本,文本因篇幅差異在采用通用特征提取算法進(jìn)行特征提取時(shí)性能也各有差異.以關(guān)鍵詞詞頻特性為基礎(chǔ),構(gòu)建關(guān)鍵詞間協(xié)同過(guò)濾投票矩陣,投票矩陣中特征值作為特征項(xiàng)之間的投票數(shù)值,以投票權(quán)值和反文檔頻率共同來(lái)表征特征項(xiàng)權(quán)值,以此來(lái)滿足短文本內(nèi)容簡(jiǎn)短而特征提取準(zhǔn)確率較高的要求.以新浪微博數(shù)據(jù)為測(cè)試數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明,本文算法能夠較為明顯地差異化特征項(xiàng)和非特征項(xiàng)之間的權(quán)值.

共現(xiàn)頻率;投票矩陣;協(xié)同過(guò)濾;特征提取;短文本

短文本因內(nèi)容簡(jiǎn)短,在對(duì)短文本進(jìn)行特征提取時(shí)要更加注重特征提取算法的準(zhǔn)確率,否則稀疏的關(guān)鍵詞將嚴(yán)重影響文本主題的表征[1].目前,短文本的特征提取已經(jīng)在自然語(yǔ)言處理、問(wèn)題系統(tǒng)、搜索引擎等多個(gè)領(lǐng)域嶄露頭角,對(duì)于時(shí)下流行的微博話題發(fā)現(xiàn)具有非常重要的現(xiàn)實(shí)意義[2-3].

經(jīng)典的特征提取算法有基于關(guān)鍵詞詞頻方法(TF)、基于文檔倒排頻率方法(TF-IDF)、基于卡方統(tǒng)計(jì)方法(CHI)和基于信息增益的方法(IG)等.上述算法在文本特征提取領(lǐng)域都是非常成熟的算法,然而在處理時(shí)下流行的微博短文本時(shí)效果不佳[4].針對(duì)文本的結(jié)構(gòu)特征,有研究者采用最長(zhǎng)公共子序列(LCS)的方法試圖從結(jié)構(gòu)角度來(lái)對(duì)文本塊做整體劃分以此來(lái)進(jìn)行特征提取,這種方式比較適用于長(zhǎng)文本[5];針對(duì)中英文在表達(dá)上的差異性,結(jié)合中文微博和英文Twitter的差異性,研究者們?cè)噲D從語(yǔ)義的角度來(lái)出發(fā),通過(guò)HowNet和WordNet詞典計(jì)算特征項(xiàng)語(yǔ)義權(quán)值來(lái)進(jìn)行特征提取,因詞典本身容量有限難以適用適應(yīng)微博中不斷出現(xiàn)新詞的場(chǎng)景[6];在對(duì)文本結(jié)構(gòu)化分析的基礎(chǔ)上,有學(xué)者提出發(fā)現(xiàn)文本中相同或相近語(yǔ)法結(jié)構(gòu)來(lái)進(jìn)行特征項(xiàng)篩選,諸如提取文本中名詞-動(dòng)詞組合、動(dòng)詞-副詞組合[7],這種方式同樣比較適用于長(zhǎng)文本,短文本本身篇幅非常有限,其自身包含的模式串也非常有限.

本文在關(guān)鍵詞詞頻信息的基礎(chǔ)上,以關(guān)鍵詞在文本中出現(xiàn)頻率為依據(jù),構(gòu)造短文本中關(guān)鍵詞間共現(xiàn)頻率矩陣,共現(xiàn)頻率矩陣中元素的權(quán)值表示為該特征項(xiàng)在短文本中出現(xiàn)次數(shù).某元素的權(quán)值通過(guò)其它特征項(xiàng)對(duì)該元素進(jìn)行投票所得,采用迭代進(jìn)化的方式,當(dāng)元素的權(quán)值進(jìn)行一定次數(shù)的迭代趨于穩(wěn)定時(shí),則該趨于穩(wěn)定的權(quán)值與反文檔頻率組合作為該特征項(xiàng)的最終權(quán)值.

1 投票模型

投票模型依賴圖結(jié)構(gòu),圖以結(jié)點(diǎn)和邊構(gòu)成,各個(gè)節(jié)點(diǎn)都有出度和入度之分,投票模型假設(shè)各個(gè)節(jié)點(diǎn)的權(quán)值受到出度和入度的影響.每一條指向該節(jié)點(diǎn)的邊都認(rèn)為是其它節(jié)點(diǎn)對(duì)該節(jié)點(diǎn)的投票(即節(jié)點(diǎn)入度),從該節(jié)點(diǎn)出發(fā)的邊則認(rèn)為是該節(jié)點(diǎn)對(duì)其它節(jié)點(diǎn)的投票(即節(jié)點(diǎn)出度),根據(jù)出度和入度的關(guān)聯(lián)性對(duì)節(jié)點(diǎn)的權(quán)值進(jìn)行迭代計(jì)算[8-9].投票模型的具體流程可表示如表1所示.

表1 投票模型算法流程

根據(jù)表1所示投票模型算法流程圖,對(duì)于圖中某個(gè)節(jié)點(diǎn)v,則該節(jié)點(diǎn)的權(quán)值可以量化表示為公式1所示.

在公式1中,wv'和wv分別表示本次迭代和上次迭代時(shí)節(jié)點(diǎn)v的權(quán)值,in_degree(v)和out_degree (vi)分別表示節(jié)點(diǎn)v和節(jié)點(diǎn)vi的入度和出度.

2 改進(jìn)的特征提取算法

將文本轉(zhuǎn)化為圖的表示方式,圖中各個(gè)節(jié)點(diǎn)對(duì)應(yīng)于文本中各個(gè)關(guān)鍵詞,圖中節(jié)點(diǎn)之間的邊關(guān)系對(duì)于文本中關(guān)鍵詞之間共現(xiàn)頻率,如此,可以通過(guò)關(guān)鍵詞間投票關(guān)系實(shí)現(xiàn)特征項(xiàng)的提取.

2.1 共現(xiàn)投票矩陣構(gòu)建

通過(guò)文本分詞和停用詞去除,將文本切分為以關(guān)鍵詞組合來(lái)表征的集合,以關(guān)鍵詞作為基礎(chǔ)進(jìn)行投票矩陣構(gòu)建,構(gòu)建的二維矩陣表示如表2所示.

表2 投票矩陣

在表2中,wij表示關(guān)鍵詞ti和關(guān)鍵詞tj之間的共現(xiàn)頻率,共現(xiàn)頻率表示關(guān)鍵詞ti和關(guān)鍵詞tj共同出現(xiàn)的次數(shù).

在表2中,可以看出文本被形式化的表征為圖的模式,wij可以對(duì)應(yīng)于關(guān)鍵詞ti和關(guān)鍵詞tj邊上的權(quán)值,關(guān)鍵詞則對(duì)應(yīng)于圖中各個(gè)節(jié)點(diǎn).

2.2 特征項(xiàng)權(quán)值計(jì)算

通過(guò)將文本中關(guān)鍵詞轉(zhuǎn)為二維矩陣的表現(xiàn)方式,借助于投票模型,從而實(shí)現(xiàn)關(guān)鍵詞間投票權(quán)值計(jì)算.

關(guān)鍵詞存在于文本當(dāng)中,關(guān)鍵詞間具有一定的關(guān)聯(lián)性,關(guān)鍵詞之間的關(guān)聯(lián)性通過(guò)相互之間的共現(xiàn)關(guān)系加以體現(xiàn)[10],共現(xiàn)關(guān)系構(gòu)成投票關(guān)系,以投票關(guān)系來(lái)反映關(guān)鍵詞在文本中重要程度.根據(jù)投票模型和表征文本的二維矩陣,關(guān)鍵詞ti的投票權(quán)值可表示為公式2所示.

vwti'和vwti分別表示本次迭代和上次迭代時(shí)關(guān)鍵詞ti的權(quán)值,wtitj和wtjti分別表示關(guān)鍵詞ti和tj的共現(xiàn)頻率以及關(guān)鍵詞tj和關(guān)鍵詞ti的共現(xiàn)頻率.關(guān)鍵詞的投票權(quán)值受到當(dāng)前投票權(quán)值以及其它節(jié)點(diǎn)的投票共同影響.

關(guān)鍵詞當(dāng)前的投票權(quán)值通過(guò)其自身的權(quán)值和其它節(jié)點(diǎn)的投票加權(quán)獲得.其它節(jié)點(diǎn)的投票加權(quán)表示為當(dāng)前的共現(xiàn)頻率與該節(jié)點(diǎn)的共現(xiàn)頻率之和的比例決定.

2.3 特征項(xiàng)選擇

通過(guò)特征項(xiàng)投票權(quán)值,可以反映出該關(guān)鍵詞在文本中重要程度[11],同時(shí)文本特征選擇的結(jié)果是該特征項(xiàng)能夠較為明顯地區(qū)分該文本和其它文本,在TF-IDF方法[12]的基礎(chǔ)上,將關(guān)鍵詞詞頻信息更改為特征項(xiàng)投票權(quán)值與反文檔頻率的乘積,通過(guò)此種方式,一方面提取出來(lái)的特征項(xiàng)反映了該特征項(xiàng)在文本中重要程度,另一方面,也能夠達(dá)到區(qū)分文本的目的.則最終關(guān)鍵詞t的權(quán)值可表示為公式3所示.

3 實(shí)驗(yàn)與分析

本文實(shí)驗(yàn)采用新浪微博測(cè)試數(shù)據(jù)集,數(shù)據(jù)集來(lái)源于數(shù)據(jù)堂科研共享平臺(tái),微博內(nèi)容語(yǔ)料庫(kù)由北京理工大學(xué)網(wǎng)絡(luò)搜索挖掘與安全實(shí)驗(yàn)室張華平博士,通過(guò)公開(kāi)采集與抽取從新浪微博、騰訊微博中獲得.為了推進(jìn)微博計(jì)算的研究,已通過(guò)自然語(yǔ)言處理與信息檢索共享平臺(tái)(www.nlpir.org)予以公開(kāi)共享其中的23萬(wàn)條數(shù)據(jù)[13-14].

3.1 實(shí)驗(yàn)結(jié)果

將23萬(wàn)條數(shù)據(jù)隨機(jī)分成9組,分別采用本文算法VA(vote algorithm)、文檔頻率算法(TF-IDF)、卡方統(tǒng)計(jì)算法(CHI)和信息增益算法(IG)[15]計(jì)算這9組數(shù)據(jù)中關(guān)鍵詞的權(quán)值.

分別對(duì)9組數(shù)據(jù)中特征項(xiàng)權(quán)值較大者和權(quán)值較小者兩兩做差值,對(duì)所有的差值做平均化,如表3所示.

表39 組數(shù)據(jù)權(quán)值差值平均值

在表3中可以看出,本文算法VA在特征提取時(shí),能夠較為明顯地差異化特征項(xiàng)中權(quán)值較大者和特征項(xiàng)中權(quán)值較小者,從而達(dá)到特征提取的目的,即通過(guò)權(quán)值差異分離出特征項(xiàng),特征項(xiàng)之間的形式化表示如圖1所示.

圖1VA、TF-IDF、CHI和IG四種算法權(quán)值比較圖

在圖1中可以看出,本文算法VA和IG算法使得特征項(xiàng)的權(quán)值差異性較為明顯,這也比較符合實(shí)際的情況,IG算法本身是比較好的特征提取算法.相比而言,TF-IDF算法和CHI算法的差異化并不明顯,也表明TF-IDF算法和CHI算法在處理微博這種短文本時(shí)效果并不明顯.從圖中走勢(shì)圖上可以表明本文算法在微博短文本特征提取時(shí)效果較為明顯.分別從9組數(shù)據(jù)中統(tǒng)計(jì)TopN(N=3)條特征項(xiàng)權(quán)值差異化最大的前N條數(shù)據(jù),比較前N條記錄的權(quán)值差異化平均值,如表4所示.

表4 TopN權(quán)值差異平均值

在表4中可以看出,本文算法VA使得9組中數(shù)組的權(quán)值較為明顯,相對(duì)于其它三種,本文算法VA使得權(quán)值差異化也保持最大化,從數(shù)據(jù)中可以看出本文算法能夠使得特征項(xiàng)權(quán)值差異化較明顯,同時(shí)也說(shuō)明本文算法不僅在穩(wěn)定上較好,同時(shí),在局部數(shù)據(jù)上效果同樣很明顯,當(dāng)需要根據(jù)TopN來(lái)取特征記錄時(shí),本文算法是一個(gè)比較好的選擇.本文算法的走勢(shì)圖如圖2所示.

圖2 四種算法在9組數(shù)據(jù)上TopN值

3.2 結(jié)果分析

從實(shí)驗(yàn)結(jié)果可以看出,本文算法在特征提取時(shí)能夠較為明顯的差異化特征項(xiàng)之間的權(quán)值特征,從而達(dá)到區(qū)分特征項(xiàng)的目的.

本文算法主要從微博短文本自身的特性出發(fā),利用微博文本內(nèi)容的結(jié)構(gòu)特征,利用特征項(xiàng)之間的投票關(guān)系來(lái)判定特征項(xiàng)在文本中的重要程度,相比于IG算法在特征提取方面,本文算法不需要IG算法來(lái)進(jìn)行特征類別掃描,能夠較為明顯地降低時(shí)間開(kāi)銷,同時(shí)又能使得特征選擇的效果較好.

4 結(jié)論

本文以時(shí)下流行的微博短文本為研究出發(fā)點(diǎn),分析并闡述文本特征提取的目的是為了差異化特征項(xiàng)和非特征項(xiàng)的權(quán)值,文本中關(guān)鍵詞間共現(xiàn)頻率為基礎(chǔ),構(gòu)建關(guān)鍵詞間共現(xiàn)頻率矩陣,以圖模型中投票為理論出發(fā)點(diǎn),將關(guān)鍵詞間關(guān)聯(lián)性通過(guò)關(guān)鍵詞間相互投票加以反映,關(guān)鍵詞的投票權(quán)值用來(lái)表征該關(guān)鍵詞在文本重要性,同時(shí)結(jié)合反文檔頻率來(lái)區(qū)分各個(gè)文檔.改進(jìn)的算法在新浪微博測(cè)試語(yǔ)料庫(kù)上的結(jié)果可以表明本文算法能夠較為明顯地差異化特征項(xiàng)和非特征項(xiàng),從而達(dá)到文本特征提取的目的.

[1]熊忠陽(yáng),藺顯強(qiáng),張玉芳,牙漫.結(jié)合網(wǎng)頁(yè)結(jié)構(gòu)與文本特征的正文提取方法[J].計(jì)算機(jī)工程,2013(12):200-203.

[2]Jung Yi Jiang,Shian Chi Tsai,Shie Jue Lee.Multi-label text categorization based on fuzzy similarity and k nearest neighbors[J].Expert Systems with Applications,2012,39(3):2813-2821.

[3]何曉亮,宋威,梁久禎.基于資源分配網(wǎng)絡(luò)和語(yǔ)義特征選取的文本分類[J].計(jì)算機(jī)工程與科學(xué),2014(2):340-346.

[4]邵曉根,鞠訓(xùn)光,胡局新,馬忠偉.基于改進(jìn)權(quán)重的貝葉斯推理和TFIDF算法文本主題詞提取研究[J].南京師大學(xué)報(bào)(自然科學(xué)版),2014(1):57-60.

[5]程傳鵬,蘇安婕.一種短文本特征詞提取的方法[J].計(jì)算機(jī)應(yīng)用與軟件,2014(6):162-164.

[6]路永和,梁明輝.遺傳算法在改進(jìn)文本特征提取方法中的應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014(4):48-57.

[7]李明江.結(jié)合類詞頻的文本特征選擇方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2014(7):2024-2026.

[8]張鳳琴,王磊,張水平,王鵬,程超.一種基于聚類加權(quán)的文本特征生成算法[J].計(jì)算機(jī)應(yīng)用研究,2013(1):146-148.

[9]侯勇,鄭雪峰.基于最大間隔超平面的增強(qiáng)特征提取算法[J].計(jì)算機(jī)應(yīng)用,2013(4):998-1000.

[10]李建林.一種基于PCA的組合特征提取文本分類方法[J].計(jì)算機(jī)應(yīng)用研究,2013(8):2398-2401.

[11]林少波,楊丹,徐玲.基于類別相關(guān)的新文本特征提取方法[J].計(jì)算機(jī)應(yīng)用研究,2012(5):1680-1683.

[12]Yan hui Gu,Zheng lu Yang,Guan dong Xu.Exploration on efficient similar sentences extraction[J].World Wide Web,2013,23(1):1-32.

[13]陳炯,張永奎.一種基于詞聚類的文本特征描述方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011(2):211-215.

[14]劉海峰,劉守生,張學(xué)仁.聚類模式下一種優(yōu)化的K-means文本特征選擇[J].計(jì)算機(jī)科學(xué),2011(1):195-197.

[15]Aminul Islam,Diana Inkpen.Semantic text similarity using corpus-based word similarity and string similarity[J].ACM Transactions on Knowledge Discovery from Data,2008,2(2):1-25.

Research on Short Text Feature Extracting Algorithm Based on Keywords Collaboratively Voting Filter

ZHOU Li-jie1,YU Wei-h(huán)ai2,GUO Cheng3
(1.Electronic Teaching Center,Yantai Vocational College,Yantai,264670; 2.Yantai Mandarin Training and Testing Center,Yantai,264003; 3.School of Software Technology,Dalian University of Technology,Dalian,116620,China)

Feature extraction algorithm is designed to amplify the weight difference between feature and non-feature characteristics.Currently,the text feature extraction algorithm is usually designed for general text,however,there exists performance difference while adopting common feature extracting algorithm because of length differences among texts.In this paper,we begin with the term frequency,constructing voting matrix of collaborative filter among terms,the characteristic value in voting matrix is set as the voting value between characteristics,merging the inverted document frequency with voting value to represent weight of characteristic in order to meet the requirement of the content of short text is less while precision rate of characteristic extracting is high.The experimental results on sina weibo datasets show our proposed algorithm can significantly amplify the weight between feature and non-feature characteristics.

common frequency;voting matrix;collaborative filter;feature extracting;short text

TP391

A

1672-2590(2015)06-0043-05

2015-09-28

國(guó)家自然科學(xué)基金資助項(xiàng)目(61401060;61272173);山東省高等學(xué)校科技計(jì)劃基金資助項(xiàng)目(J12LN73)

周麗杰(1976-),女,山東龍口人,煙臺(tái)職業(yè)學(xué)院電教中心實(shí)驗(yàn)師.

猜你喜歡
特征提取特征文本
如何表達(dá)“特征”
在808DA上文本顯示的改善
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于MED和循環(huán)域解調(diào)的多故障特征提取
如何快速走進(jìn)文本
主站蜘蛛池模板: 波多野结衣一级毛片| 色网站免费在线观看| 国产在线一区二区视频| 91色国产在线| 国产欧美日韩视频怡春院| 欧美视频免费一区二区三区| 国产日韩av在线播放| 国产精品男人的天堂| 亚洲精品第一页不卡| 暴力调教一区二区三区| 日日拍夜夜嗷嗷叫国产| 九九视频免费看| 国产成人亚洲欧美激情| 国产制服丝袜无码视频| 色综合成人| 欧美成在线视频| 欧美区在线播放| 中文字幕中文字字幕码一二区| 最新加勒比隔壁人妻| 宅男噜噜噜66国产在线观看| 日韩欧美中文在线| 九九视频免费在线观看| 欧美午夜精品| 亚洲国产日韩视频观看| 一级成人a做片免费| 国产1区2区在线观看| 国产欧美性爱网| 国产成人91精品免费网址在线 | 少妇精品网站| 激情爆乳一区二区| 色综合天天娱乐综合网| 日本国产精品一区久久久| 国产成人福利在线| 日韩精品毛片人妻AV不卡| 91麻豆国产在线| 91日本在线观看亚洲精品| 亚洲娇小与黑人巨大交| 日本91在线| 国产精品偷伦在线观看| 国产麻豆另类AV| 国产AV毛片| 久久综合九色综合97网| 91无码国产视频| 国产欧美亚洲精品第3页在线| 国产第二十一页| 亚洲无码一区在线观看| 日韩无码视频专区| 亚洲成AV人手机在线观看网站| 国产制服丝袜无码视频| 欧美啪啪视频免码| 99久久精品国产自免费| 国产欧美日韩在线一区| 亚洲国产成人精品一二区| 一级毛片无毒不卡直接观看| 青青青视频免费一区二区| 久久婷婷国产综合尤物精品| 亚洲无码免费黄色网址| 91色在线观看| 日韩精品无码一级毛片免费| 高清无码一本到东京热| 亚洲午夜片| 久久久久国产一级毛片高清板| 麻豆国产精品视频| 欧美精品在线看| 国产精品福利一区二区久久| 伊人查蕉在线观看国产精品| 这里只有精品免费视频| 亚洲天堂区| 97影院午夜在线观看视频| 欧美成人综合视频| 国产区成人精品视频| 亚洲精品中文字幕午夜| 波多野结衣一区二区三区四区视频| 国产超碰在线观看| 伊在人亚洲香蕉精品播放| 亚洲一级毛片免费看| 日韩在线欧美在线| 欧美在线中文字幕| 国产97区一区二区三区无码| 日本成人一区| 真实国产精品vr专区| 亚洲欧美在线看片AI|