999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF- IDF 的網(wǎng)絡(luò)地理文本信息分類研究

2020-05-12 10:01:56王英杰
科學(xué)技術(shù)創(chuàng)新 2020年10期
關(guān)鍵詞:分類特征文本

王英杰

(北京建筑大學(xué) 測繪與城市空間信息學(xué)院,北京100044)

網(wǎng)頁文本信息是非結(jié)構(gòu)化數(shù)據(jù),文本格式自由多樣,內(nèi)容更新頻繁,在不同文章環(huán)境下容易產(chǎn)生不同的意義。地理學(xué)名詞匯具有不同于基礎(chǔ)詞匯的形式與用法,往往蘊(yùn)含著豐富專業(yè)信息,將地理學(xué)名詞引入文本分類可以有效提高對(duì)地理相關(guān)文本的分類結(jié)果。因此,本文針對(duì)文本分類提出了基于地理學(xué)名詞的特征權(quán)重計(jì)算方法,在分詞過程中識(shí)別地理學(xué)名詞使其不被分割,在向量空間模型表示中利用地理學(xué)名詞,重新分配特征權(quán)重從而提高分類器的性能,即提高與地理相關(guān)的文本信息分類的正確率。

1 基于TF-IDF 的地理文本分類設(shè)計(jì)

1.1 文本分類原理

文本分類或者稱為自動(dòng)文本分類,是指計(jì)算機(jī)將載有信息的一篇文本映射到預(yù)先給定的某一類別或某幾類別主題的過程。文本分類另外也屬于自然語言處理領(lǐng)域。本文中文本和文檔不加區(qū)分,具有相同的意義。

文本分類的形式化定義如下:

1.2 文本分類設(shè)計(jì)

地理學(xué)名詞反映了地理學(xué)內(nèi)容的廣泛性,還反映了中國地理現(xiàn)象和中國地理學(xué)研究的特色,并對(duì)所有選定的地理學(xué)名詞進(jìn)行了科學(xué)定義。針對(duì)地理學(xué)名詞的特點(diǎn)提出了本文文本分類的技術(shù)路線。

(1)利用爬蟲技術(shù)爬取百科平臺(tái)文本數(shù)據(jù),將文本統(tǒng)一化處理,得到待分類文本信息。

(2)在文本預(yù)處理過程中加入地理學(xué)名詞詞典,利用地理學(xué)名詞重新對(duì)文本分詞,一并得到統(tǒng)計(jì)量。

(3)基于地理學(xué)名詞提出新的特征權(quán)重計(jì)算公式,得到全新特征矩陣。

(4)在已有的基礎(chǔ)上使用K 近鄰算法作為分類器訓(xùn)練方法,通過分類器得到文本分類。

2 基于地理名詞的TF-IDF 特征權(quán)重計(jì)算方法

以往TF-IDF 算法基本關(guān)注是特征項(xiàng)的詞頻和逆文本頻率這兩個(gè)指數(shù),而詞頻和逆文本頻率對(duì)于地理相關(guān)文本的特殊性是沒有任何意義的,所以根據(jù)文本中地理名詞的特殊性,使用其加入語料庫,可以解決文本分詞過程中出現(xiàn)的歧義問題,從而有效地提高文本分詞的準(zhǔn)確率。并且根據(jù)特殊的語義產(chǎn)生的分詞能夠更有效地描述文本,使文本的向量空間模型更準(zhǔn)確。因此本文針對(duì)現(xiàn)有的TF-IDF 算法,提出了基于地理學(xué)名詞的改進(jìn)策略。

針對(duì)特征項(xiàng)長度改進(jìn)權(quán)重:特征項(xiàng)的字?jǐn)?shù)可以衡量該特征項(xiàng)是否重要,在文本分詞后的統(tǒng)計(jì)結(jié)果中,單字是頻率最高的,而多字的特征項(xiàng)則頻率較低。而且對(duì)于特征項(xiàng)而言,單字不能傳達(dá)有效的信息且難以用來作為文本信息的特征。而多字特征項(xiàng)卻本身所傳達(dá)的信息量多可以作為文本信息的特征,因此這一指標(biāo)可以用來衡量特征項(xiàng)的權(quán)重。通常較長的特征用來表示特定的信息,例如“天安門”所傳達(dá)的信息就是特定地點(diǎn),因此利用特征項(xiàng)長度改進(jìn)權(quán)重。

本文基于地理學(xué)名詞在地理相關(guān)文本中的重要性及特殊性對(duì)其基礎(chǔ)上改進(jìn),提出了改進(jìn)的權(quán)重算法公式:

其中l(wèi)en(t)是特征項(xiàng)的長度,將分子,分母同時(shí)加上len(t)將會(huì)提高特征項(xiàng)t 在文本d 中的權(quán)重。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)流程

基于改進(jìn)特征項(xiàng)權(quán)重的文本分類流程:

(1)文本預(yù)處理得到文本分詞和文本詞典。

(2)特征處理包括特征頻率統(tǒng)計(jì),特征評(píng)估,特征加權(quán)。

(3)將文本建立向量空間模型(向量表示)。

(4)輸入分類器得到分類結(jié)果。

實(shí)驗(yàn)使用開源jieba 工具對(duì)原始數(shù)據(jù)進(jìn)行分詞處理,利用傳統(tǒng)TFIDF 算法作為比照實(shí)驗(yàn)。

3.2 結(jié)果分析

通常文本分類的評(píng)價(jià)指標(biāo)為精度(Precision)、召回率(Recall)和F1 得分(F1 score)。

精度(P)是正確分類樣本占總分類樣本數(shù)量的百分比,召回率(R)是正確分類樣本占某分類總樣本數(shù)量的百分比,F(xiàn)1 值是平衡查準(zhǔn)率和查全率兩個(gè)不同分類效果指標(biāo),對(duì)某一類別。

類別 傳統(tǒng)TF-IDF (實(shí)驗(yàn)1) 傳統(tǒng)TFIDF 結(jié)合改進(jìn)權(quán)重 (實(shí)驗(yàn)2) P R F1 P R F1 1 86.65 87.94 86.96 91.11 92.45 92.35 2 89.97 89.71 89.73 91.52 92.79 91.03 3 81.73 84.62 82.08 91.79 91.59 92.3 平均值 86.12 87.42 86.26 91.47 92.28 91.89

從上表中可得實(shí)驗(yàn)二的準(zhǔn)確率和召回率均比實(shí)驗(yàn)一高且F1 得分平均值比實(shí)驗(yàn)二的F1 得分平均值高5.54%,通過實(shí)驗(yàn)對(duì)比可得,地理學(xué)名詞加入文本預(yù)處理可使分類有所提升,同時(shí)可以減少特征項(xiàng)的數(shù)量使向量空間模型的緯度降低。

4 結(jié)論

本文基于傳統(tǒng)TF-IDF 算法,提出一種新的地理文本分類方法,根據(jù)地理特征名詞、和特征項(xiàng)長度因素改進(jìn)了傳統(tǒng)TF-IDF 中的權(quán)值計(jì)算,針對(duì)不同特征項(xiàng)采取不同計(jì)算方式。最后通過數(shù)據(jù)分析及評(píng)價(jià)指標(biāo)數(shù)值驗(yàn)證該方法合理有效且效果較好。然而該方法尚未深入考慮待分類文本中未識(shí)別的地理特征項(xiàng)如何提取。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 日本一本正道综合久久dvd| 在线日韩一区二区| 久久精品日日躁夜夜躁欧美| 亚洲va视频| 国产97公开成人免费视频| 久久一日本道色综合久久| 色悠久久综合| 国产主播一区二区三区| 四虎成人精品| 天堂成人av| 亚洲第一中文字幕| 欧美综合在线观看| 五月婷婷伊人网| 亚洲天堂免费| 青青草原国产精品啪啪视频| 久久青草精品一区二区三区| 成年人午夜免费视频| 久久综合伊人77777| 国产午夜看片| 国产1区2区在线观看| 久久精品免费看一| 99久久婷婷国产综合精| 欧美日韩综合网| 亚洲欧美日韩动漫| 精品久久国产综合精麻豆| 91欧美在线| 国产亚洲欧美在线视频| 亚洲三级视频在线观看| 免费播放毛片| 亚洲国产成人自拍| 暴力调教一区二区三区| 国产乱人免费视频| 伊人久热这里只有精品视频99| 國產尤物AV尤物在線觀看| 啪啪免费视频一区二区| 欧美自拍另类欧美综合图区| 日韩国产无码一区| 精品欧美视频| 国产性精品| 亚洲中文无码h在线观看| 91小视频在线观看免费版高清| 亚洲国产欧美目韩成人综合| 国语少妇高潮| 国产激爽大片高清在线观看| 国产免费羞羞视频| 国产手机在线ΑⅤ片无码观看| 国产成人a毛片在线| 亚洲v日韩v欧美在线观看| 美美女高清毛片视频免费观看| 激情成人综合网| 国产成人欧美| 亚洲成人精品| 四虎国产精品永久一区| 日韩精品久久久久久久电影蜜臀| 日韩欧美国产综合| 国产一区二区人大臿蕉香蕉| 黄片在线永久| 男人天堂亚洲天堂| a级毛片视频免费观看| 亚洲性视频网站| 无套av在线| 久久99精品国产麻豆宅宅| 国产91色在线| 国产人人乐人人爱| 成年人视频一区二区| 国产青青操| 精品在线免费播放| 亚洲国产中文欧美在线人成大黄瓜 | 亚洲香蕉在线| 亚洲无码不卡网| 激情无码字幕综合| 国产成人狂喷潮在线观看2345| 国产精品一区二区不卡的视频| 人妻精品久久久无码区色视| 亚洲妓女综合网995久久| 少妇高潮惨叫久久久久久| 亚洲AⅤ无码国产精品| 久久综合九色综合97婷婷| 日本欧美一二三区色视频| 成人午夜视频网站| 免费jizz在线播放| 国产成人91精品|