999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本分類的果農(nóng)短信分類

2015-01-27 10:05:55黃彥,溫繼文,陳英義
湖北農(nóng)業(yè)科學(xué) 2014年23期
關(guān)鍵詞:文本挖掘

黃彥,溫繼文,陳英義

摘要:將手機短信平臺中的短信轉(zhuǎn)化為文本的特性,把文本分類算法運用到短信處理技術(shù)之中,通過對短信文本進行預(yù)處理、特征選擇及分類器等步驟,將果農(nóng)短信文本按不同果業(yè)信息類別進行分類,根據(jù)分類結(jié)果,有針對性地向果農(nóng)提供有效的果業(yè)信息服務(wù)。

關(guān)鍵詞:文本挖掘;短信分類;果農(nóng)

中圖分類號:TP311.5 ? ? ? ?文獻標(biāo)識碼:A ? ? ? ?文章編號:0439-8114(2014)23-5864-04

DOI:10.14088/j.cnki.issn0439-8114.2014.23.062

短信是依托現(xiàn)代通信技術(shù)手段為農(nóng)民提供即時通信服務(wù),實現(xiàn)信息進村入戶的重要手段。手機短信平臺為果農(nóng)提供果業(yè)信息,幫助他們及時、準(zhǔn)確地掌握科技技術(shù)信息,了解市場行情,為其決策提供相關(guān)的依據(jù)。目前,農(nóng)村存在短信服務(wù)平臺,如移動“農(nóng)信通”、聯(lián)通“電子農(nóng)務(wù)”、“12316”農(nóng)業(yè)短信平臺等,實現(xiàn)短信預(yù)訂、接受、推送等短信服務(wù)。為了向果農(nóng)更有針對性地推送果業(yè)相關(guān)信息,提高農(nóng)業(yè)短信平臺的應(yīng)用功能,需要對果農(nóng)按照所發(fā)短信內(nèi)容類型的不同進行分類。

果農(nóng)向農(nóng)業(yè)短信平臺發(fā)送的咨詢短信中,80%左右的電子化信息都是以無結(jié)構(gòu)自由文本的形式存在的,具有模糊性和歧義性,人或者計算機都難以使用這些未經(jīng)整理的信息。于是就需要文本挖掘技術(shù)來對這些短信內(nèi)容進行分類篩選。

為此,主要針對以短信形式提交的果業(yè)問題,根據(jù)短信可轉(zhuǎn)化為文本這一特性,憑借對短信文本相關(guān)特性和相關(guān)技術(shù)的研究了解,將文本分類算法運用到短信處理技術(shù)之中。通過對短信文本進行預(yù)處理、特征選擇及分類器等步驟,分析推理果農(nóng)所提問題涉及的領(lǐng)域分類,從而針對性地為果農(nóng)提供果業(yè)信息。

1 ?基于文本分類的短信處理過程

1.1 ?文本分類研究現(xiàn)狀

Feldman等[1]在1995年正式提出文本挖掘的概念,到現(xiàn)在共有不到20年的時間,相對于國外的快速發(fā)展,文本挖掘在中國的研究尚處于起步階段。文本分類是文本挖掘的主要技術(shù)之一,它是根據(jù)給定的文本內(nèi)容,將其判定為事先已經(jīng)確定的若干個文本類別中的一類或者幾類的過程。

在短信分類研究方面,相關(guān)文獻相對較少,其中涉及文本分類算法原理及改進的很多。王忠軍[2]、陳功平等[3]、賀曼麗[4]研究了一種基于改進貝葉斯算法的短信分類方法,設(shè)計并實現(xiàn)了一種基于改進貝葉斯的垃圾短信過濾系統(tǒng)。劉金嶺[5]提出同義概念歸并、上下位概念的聚焦以及短信文本重點詞匯的確定方法,利用主題句選取算法獲取短信文本的主題,采用KNN算法將短信文本的主題進行分類。朱伙[6]在文本分類的基礎(chǔ)上設(shè)計一個基于文本分類算法的中文短信用戶興趣分層算法。龔壘[7]利用支持向量機算法對短信文本進行分類識別,進而完成對垃圾短信的過濾。雷楊[8]以Stacking作為短信過濾系統(tǒng)的集成學(xué)習(xí)算法,得到了一個比較有效的短信分類系統(tǒng)。崔彩霞[9]提出了一種基于字特征的短信分類方法,該方法有效地降低了使有用短信的錯判率。在應(yīng)用方面,主要研究集中在手機短信監(jiān)控[10]和垃圾短信處理[7,11]上。

從目前研究現(xiàn)狀來看,文本挖掘在短信分類中的研究主要是短信分類技術(shù)及改進的研究,涉及的技術(shù)比較分散,而在技術(shù)應(yīng)用方面的介紹缺很少,可以說文本挖掘在農(nóng)業(yè)短信分類方面的應(yīng)用在國內(nèi)還處于空白階段。

1.2 ?基于文本分類的短信處理

文本分類是一個映射的過程,它將未標(biāo)明類別的文本映射到已有的類別中,映射規(guī)則是系統(tǒng)根據(jù)已分類好的分類樣本總結(jié)出分類的規(guī)則,建立分類的判別公式和規(guī)則,在新文本到來時,根據(jù)總結(jié)出來的判別規(guī)則確定文本相關(guān)的類別[12]。對短信進行分類的過程如圖1,主要分為三部分。

1)建立分類模型。分類模型由訓(xùn)練模塊和分類模塊構(gòu)成。在訓(xùn)練模塊,先抽取訓(xùn)練樣本中的關(guān)鍵詞集合;建立關(guān)鍵詞字典;建立訓(xùn)練樣本詞頻,訓(xùn)練分類器,建立基于K-近鄰文本分類器。在分類模塊,根據(jù)訓(xùn)練模塊建立的關(guān)鍵詞字典,將測試文本向量化,用特征子集表示。

2)分類模型的評價。測試分類模型的分類效果,修正分類模型,提高分類模型的分類效果。

3)測試階段。輸入未知類別的文檔向量,利用分類器,經(jīng)由分類模型得到測試文檔的類別。

在這里只針對文本如何進行預(yù)處理、K鄰近算法原理及應(yīng)用進行具體描述,即建立分類模型部分;分類模型評價及測試階段部分省去。

1.2.1 ?短信預(yù)處理 ?①中文文本分詞處理。中文分詞就是將連續(xù)的中文字序列按照一定的規(guī)范重新組合詞序列的過程。由于中文是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,中文詞語分析即是中文信息處理的基礎(chǔ)與關(guān)鍵,因此選擇較好的分詞模塊非常重要。此研究采用的是基于多層隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS[13]。

ICTCLAS分詞系統(tǒng)在切分排歧方面,提出了一種基于N-最短路徑的策略,即在早期階段召回N個最佳結(jié)果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結(jié)果會在未登錄詞識別和詞性標(biāo)注之后,從N個最有潛力的候選結(jié)果中選優(yōu)得到。該算法實現(xiàn)了漢語詞匯切分結(jié)果在核心詞庫盡可能小的前提下達到最優(yōu)。

②去除停頓詞及禮貌用語停頓詞通常指在各類文檔中都頻繁出現(xiàn)的詞,這些詞一般是代詞、介詞、連詞等高頻詞。它們不具有任何類別信息,不能作為特征使用。停用詞過濾首先要構(gòu)造停用詞表,在文本校對處理后把校對后的會話中的各詞條分別和停用詞表中詞進行比較,如果該詞條在停用詞表中,則刪除該詞條。基于這一原理將短信中的冠詞、助詞、感嘆詞、禮貌用語等沒有實際意義的詞語去掉,只剩下具有實際意義的詞組。

1.2.2 ?短信分類 ?K近鄰法屬于懶惰學(xué)習(xí)方法,其基本思想是:給出測試文檔,系統(tǒng)在已經(jīng)分類好的訓(xùn)練集中查找與其最近的K個鄰居,根據(jù)這些鄰居的類別分布情況獲得測試文檔的類別。其中可以用這些鄰居與測試文檔的相似度進行加權(quán),從而獲得較好的分類效果[14,15]。其分類過程如下:endprint

1)計算詞頻(TF)。詞頻是指詞組t在文檔中出現(xiàn)的次數(shù)。可以用公式(1)計算詞頻:

TF(t,d)=0.5+■(1)

式中,f(t,d)指的是t詞組在d類別中出現(xiàn)的次數(shù)。MaxFreq(d)指的是在類別中所有的詞組出現(xiàn)次數(shù)最多的類別的f(t,d)。

2)計算逆文檔頻率IDF。逆文檔頻率是指在所有的文檔中某詞語出現(xiàn)的次數(shù)。可以用公式(2)計算逆文檔頻率:

IDF=1+log(■)(2)

式中,n是指所有的類別數(shù)目,k是指出現(xiàn)關(guān)鍵詞t的類別總數(shù)。

3)計算weight。使用公式(3)來計算weight:

weight(t,d)=TF(t,d)IDF(t)(3)

4)計算短信內(nèi)容與各個細分類別的相似度。根據(jù)上一步算出的14個細分類別下每個關(guān)鍵詞的weight,可以表示為

Di=(Wi1,Wi2,…,WiN),其中i=1,2,3。(4)

同時也能計算出新短信內(nèi)容中每個關(guān)鍵詞的Weight,可以表示為D=(W1,W2,…,Wn)。然后根據(jù)以下相似度的計算公式(5)可以得出新短信與各細分類別之間的相似度[16]。

Sim(Di,Dj)=■WitWjt(5)

根據(jù)最后計算出的相似度,可以比較新短信與各細分類別的相似度哪個更高一些,從而確定該短信應(yīng)歸屬的類別。若出現(xiàn)了相似度相等的情況,該短信則同時歸屬于相應(yīng)的類別,可重復(fù)出現(xiàn)。

2 ?基于文本分類的果農(nóng)短信分類

果農(nóng)短信內(nèi)容為“您好,我家水蜜桃今年豐收了,能幫忙提供下市場參考價格,以便我定價銷售嗎?謝謝!”根據(jù)KNN算法的步驟介紹,將要對該評論應(yīng)該屬于哪個類別進行判斷。

2.1 ?分詞、去除停頓詞、禮貌用語及單詞衍生形態(tài)查詢

首先,通過ICTCLAS分詞系統(tǒng)經(jīng)過分詞,結(jié)果如下:

您/r 好/a ,/w 我家/r 水蜜桃/n 今年/t 豐收/v 了/y ,/w 能/v 幫忙/v 提供/v 下/v 市場/n 參考/v 價格/n ,/w 以便/d 我/r 定價/n 銷售/v 嗎/y ?/w 謝謝/v !/w

將這條內(nèi)容中的虛詞、助詞、禮貌用語等無實際意義的詞(您、好、了、能、下、以便、嗎、謝謝等)去掉,并進行單詞衍生形態(tài)查詢,將零散的詞組規(guī)范化,最終得到詞組“我家、水蜜桃、今年、豐收、幫忙、提供、市場、參考、價格、我、定價、銷售”。

2.2 ?果業(yè)短信詞庫構(gòu)建

2.2.1 ?果業(yè)信息概況 ?現(xiàn)階段中國果業(yè)數(shù)據(jù)和農(nóng)村信息具有季節(jié)性、地區(qū)性、時效性、真實性和引導(dǎo)性等五大特點,信息的內(nèi)容大致包含四大類:①科技類信息:種植技術(shù)、新品種、病蟲害防治、農(nóng)產(chǎn)品加工以及林業(yè)、氣象、水利、環(huán)境和建筑等信息;②市場價格行情類信息:農(nóng)產(chǎn)品供求與價格、成交量和國際貿(mào)易等方面信息;③政策信息類:政策、法規(guī)、法律等方面的問題;④科普信息:農(nóng)業(yè)科學(xué)常識,文化教育知識類信息[17,18]。

2.2.2 ?果業(yè)信息的關(guān)鍵詞庫 ?通過對農(nóng)業(yè)短信平臺的研究及查閱相關(guān)資料,從果農(nóng)的短信中總結(jié)出各類信息的關(guān)鍵詞,以此為參照文檔構(gòu)建果業(yè)信息的關(guān)鍵詞庫。果業(yè)信息劃分為四個大類別,各類別下劃分了小類別,每個小類別分別對應(yīng)一些關(guān)鍵詞,由于關(guān)鍵詞太多,在這里只是簡單列舉一下,關(guān)鍵詞詞庫設(shè)定如表1所示,當(dāng)然在提取信息類別關(guān)鍵詞之前,要先確定所詢問果類品種,再基于此進行表1的短信分類。

2.3 ?果業(yè)信息分類

2.3.1 ?計算詞頻(TF) ?因為本研究中14個細分類別是建立的果業(yè)信息的關(guān)鍵詞詞庫,所以每個詞語均只出現(xiàn)了一次,所有各個關(guān)鍵詞的TF=1。

2.3.2 ?計算逆文檔頻率 ?各詞組在14個細分類別中只出現(xiàn)一次,所以,計算的IDF=1+lg(14/1)=2.146 1,這個值都是相同的,具體見表2。

2.3.3 ?計算weight ?weight(t,d)=TF(t,d)×IDF(t),如表2中括號內(nèi)的數(shù)值所示。

2.3.4 ?計算新評論與Doc1、Doc2以及Doc3的相似度 ?Sim(新短信,D2-1)=2.146 1×2.146 1=4.605 8

Sim(新短信,D2-2)=2.146 1×2.146 1+2.146 1×2.146 1=9.211 5

根據(jù)以上的計算結(jié)果可知,新短信內(nèi)容與市場價格行情類信息下的兩個細分類別有關(guān),相似度分別為4.605 8、9.211 5,通過比較可知,新短信與D2-2的相似度最高,即“農(nóng)產(chǎn)品價格”的關(guān)鍵詞庫,于是就可以把這條新內(nèi)容歸類為“農(nóng)產(chǎn)品價格”。

3 ?小結(jié)與討論

對果農(nóng)短信進行分類的目的就是可以對果農(nóng)所關(guān)心的問題的不同進行歸類,這樣可以有針對性地提供相應(yīng)的果業(yè)信息服務(wù)。這個功能的實現(xiàn),減少了農(nóng)戶搜索相關(guān)果業(yè)信息的時間和精力,可以更方便、及時地了解到自己需要的信息,同樣也提高了果業(yè)信息推廣的實用性和便捷性。

此外,研究只是針對一條短信進行了分類算法如何具體應(yīng)用的演示,并沒有針對大規(guī)模果業(yè)相關(guān)短信進行測試試驗,對分類器效果的驗證還需進一步研究。

參考文獻:

[1] FELDMAN R, DAGAN I. Knowledge discovery in textual databases (KDT)[Z]. In: proceedings of the First International Conference in Knowledge Discovery and Date Mining (KDD-95). Montreal, Canada. August 20-21,1995:112-117.endprint

[2] 王忠軍.文本分類在短信過濾中的應(yīng)用[D].遼寧大連:大連理工大學(xué),2006.

[3] 陳功平,沈明玉,王 ?紅,等.基于內(nèi)容的短信分類技術(shù)[J].華東理工大學(xué)學(xué)報(自然科學(xué)版),2011,37(6):770-774.

[4] 賀曼麗.基于內(nèi)容挖掘的垃圾短信過濾分類方法研究[D].長沙;湖南大學(xué),2007.

[5] 劉金嶺.基于主題的中文短信文本分類研究[J].計算機工程,2010,36(4):30-32.

[6] 朱 ?伙.基于文本分類算法的短信用戶興趣分層算法研究[D].廣州:中山大學(xué),2011.

[7] 龔 ?壘.基于支持向量機的垃圾短信過濾方法研究[D].河南焦作:河南理工大學(xué),2011.

[8] 雷 ?楊.基于集成學(xué)習(xí)的垃圾短信多級分類技術(shù)研究[D].成都:電子科技大學(xué),2009.

[9] 崔彩霞.基于字特征的短信分類方法研究[J].太原師范學(xué)院學(xué)報(自然科學(xué)版),2011,10(1):103-105.

[10] 李 ?凡.基于內(nèi)容的短信智能分類系統(tǒng)的設(shè)計與實現(xiàn)[D].沈陽:東北大學(xué),2010.

[11] 鐘延輝.基于文本挖掘的垃圾短信過濾方法[D].成都:電子科技大學(xué),2009.

[12] 周 ?茜,趙明生,扈 ?昊.中文文本分類中的特征選擇研究[J].中文信息學(xué)報,2004,18(3):17-23.

[13] 何元嬌.基于本體的語義文本分類研究[D].北京:北京化工大學(xué),2008.

[14] 劉 ?鋒,白 ?凡.一種改進的K近鄰算法在網(wǎng)頁分類中的應(yīng)用[J].電子技術(shù),2010(7):30-31.

[15] 劉開袆,江志雄.基于K-近鄰方法的網(wǎng)絡(luò)信息文本分類[J].貴州大學(xué)學(xué)報(自然科學(xué)版),2009,26(3):60-63.

[16] 孔 ?靜.基于語義和領(lǐng)域相關(guān)的文本聚類研究[D].東營:中國石油大學(xué)(華東),2009.

[17] 孫 ?燕.重慶果農(nóng)適用的果業(yè)信息手機查詢平臺研究[D].重慶:西南大學(xué),2011.

[18] 楊木容.果農(nóng)視角下的果業(yè)信息需求和服務(wù)開展的調(diào)查研究[J].安徽農(nóng)業(yè)科學(xué),2011,39(2):7455-7456,7459.endprint

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優(yōu)化
商情(2016年32期)2017-03-04 00:27:28
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數(shù)據(jù)挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 香蕉视频在线精品| 国产欧美视频综合二区| 91精品啪在线观看国产60岁| 久久中文字幕av不卡一区二区| 亚洲综合久久成人AV| 国产激情无码一区二区APP | 亚洲第一视频网| 久久一日本道色综合久久| 欧美特黄一级大黄录像| 三上悠亚精品二区在线观看| 特级做a爰片毛片免费69| 欧美中文一区| 亚洲国产精品VA在线看黑人| 久久婷婷六月| 欧美在线精品一区二区三区| 真实国产精品vr专区| 国产精品永久久久久| 国产不卡一级毛片视频| 素人激情视频福利| 亚洲中文字幕无码mv| 九色综合视频网| 综合亚洲色图| 人妻无码一区二区视频| 欧美日韩另类在线| 精品无码一区二区三区电影| 国产精品免费久久久久影院无码| 国产综合无码一区二区色蜜蜜| 看国产毛片| 国产一级二级在线观看| 女高中生自慰污污网站| AV在线天堂进入| 欧美成人综合在线| 亚洲三级片在线看| 亚洲日韩精品伊甸| 91久久国产综合精品| 日韩高清中文字幕| 热久久综合这里只有精品电影| 欧美A级V片在线观看| 91综合色区亚洲熟妇p| 国产一国产一有一级毛片视频| 亚洲a免费| 亚洲中文字幕国产av| 日本午夜三级| 一区二区三区四区精品视频 | 日韩毛片免费观看| 2022国产无码在线| 国产视频入口| 免费中文字幕在在线不卡| 91系列在线观看| 99热免费在线| 国产天天色| 精品91视频| 白浆免费视频国产精品视频| 69精品在线观看| 无码乱人伦一区二区亚洲一| 精品亚洲国产成人AV| 国产乱肥老妇精品视频| 国产又粗又爽视频| 国产高清色视频免费看的网址| 欧美伦理一区| 国产成人精品亚洲日本对白优播| 综合亚洲色图| 又猛又黄又爽无遮挡的视频网站| 国产成人精品一区二区三在线观看| 无码中文字幕加勒比高清| 99人妻碰碰碰久久久久禁片| 欧美不卡视频一区发布| 婷五月综合| 福利国产微拍广场一区视频在线| 亚洲福利片无码最新在线播放| 欧美日韩免费| 亚洲欧美另类视频| 夜夜操天天摸| 尤物亚洲最大AV无码网站| 亚洲日韩精品欧美中文字幕| 午夜毛片免费观看视频 | 一级毛片免费观看久| 国产精品一区二区在线播放| 免费国产一级 片内射老| 激情六月丁香婷婷| 久久天天躁狠狠躁夜夜2020一| 性69交片免费看|