999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向傳媒領(lǐng)域文本分類訓(xùn)練器的設(shè)計(jì)

2017-09-29 11:19:23宋燕燕
科學(xué)家 2016年12期
關(guān)鍵詞:特征提取分類文本

宋燕燕

摘要 傳媒領(lǐng)域存著在大面積的領(lǐng)域知識(shí),這類領(lǐng)域知識(shí)將特征項(xiàng)與文本類別相關(guān)聯(lián)在一起,非常有助于區(qū)分文本的具體類別。本文設(shè)計(jì)方面一種面向傳媒領(lǐng)域知識(shí)的文本分類訓(xùn)練器,旨在提高傳媒領(lǐng)域文本的分類性能。訓(xùn)練器將以非常直觀的方式實(shí)現(xiàn)關(guān)鍵詞檢索,特征詞提取,文本分類功能,可以方便地對(duì)未知的文件進(jìn)行分類,統(tǒng)計(jì)文本關(guān)鍵詞出現(xiàn)的頻率和文本內(nèi)容的訓(xùn)練。

關(guān)鍵詞 文本分類;傳媒領(lǐng)域;詞頻統(tǒng)計(jì);特征詞

中圖分類號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào)2095—6363(2016)12—0032—02

伴隨著互聯(lián)網(wǎng)的迅猛發(fā)展和日益遍及,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,電子文本信息迅速的擴(kuò)大,如何有效地安排和管理這些信息,并且迅速、精確地找到用戶所需要的信息是當(dāng)時(shí)信息技術(shù)領(lǐng)域面對(duì)的一大應(yīng)戰(zhàn)。文本分類作為處理和安排很多文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在較大程度上處理信息亂現(xiàn)象的問題,便利用戶精確地定位所需的信息和分流信息。

文本分類是指采用計(jì)算機(jī)程序?qū)ξ谋炯凑找欢ǖ姆诸愺w系進(jìn)行分類標(biāo)記和有效管理,方便用戶進(jìn)行查詢。文本分類訓(xùn)練器的設(shè)計(jì)通常包括文本的特征向量表示、文本特征向量的降維,以及文本分類器的設(shè)計(jì)與測(cè)試等。

本文通過分析利用Java技術(shù)構(gòu)建分類訓(xùn)練器的結(jié)構(gòu)框架,明確了基于Java構(gòu)建分類訓(xùn)練器理論可行性,并進(jìn)一步設(shè)計(jì)了系統(tǒng)的技術(shù)流程和功能實(shí)現(xiàn),從而為面向傳媒領(lǐng)域的文本分類訓(xùn)練器的研究和應(yīng)用提供了一種方法。

1相關(guān)技術(shù)介紹

文本分類問題的困難之一便是特征空間的高維性,而特征提取的主要功能就是在保留文本核心信息的情況下盡量減少要處理的單詞數(shù),也就是降低向量空間維數(shù),從而提高文本處理的效率和精度。特征提取方法成為文本分類中首先要解決的問題。

特征提取的常用辦法分為根據(jù)概率的特征提取辦法和根據(jù)語義的特征提取辦法。根據(jù)概率的特征提取辦法是先對(duì)文檔進(jìn)行分詞,過濾掉停用詞,并用傳統(tǒng)算法對(duì)詞語權(quán)重進(jìn)行核算,得到權(quán)重的排序后,按權(quán)重值的大小選擇相應(yīng)的特征作為文檔的特征關(guān)鍵字。而根據(jù)語義的特征提取辦法是在過濾掉停用詞后對(duì)詞語構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過詞語網(wǎng)絡(luò)結(jié)構(gòu)對(duì)特征權(quán)值進(jìn)行核算,從而得到終究文檔的特征詞。

現(xiàn)在選用的分類辦法根本都是根據(jù)機(jī)器學(xué)習(xí)的思維。對(duì)于傳媒范疇,有些專業(yè)詞具有顯著的種類傾向性,是判別文本種類的重要依據(jù),如:當(dāng)文本中較多的呈現(xiàn)“新媒體”“媒體”“移動(dòng)媒體”等這些詞語時(shí),咱們就簡單將文本聯(lián)想到媒體工業(yè)這一種類。咱們把這些行業(yè)內(nèi)流轉(zhuǎn)度高、盡人皆知、與具體種類有關(guān)的語義常識(shí)稱為范疇常識(shí),把握住范疇常識(shí)有助于文本分類。

2文本分類訓(xùn)練器功能需求以及設(shè)計(jì)

面向于傳媒領(lǐng)域的文本分類訓(xùn)練器的功能需求有以下的幾個(gè)大的方面:該系統(tǒng)要可以對(duì)文本或文件夾進(jìn)行分類、訓(xùn)練、關(guān)鍵字檢索、詞頻查詢、清屏等具體操作來滿足用戶的多種需求;要給用戶提供直觀方便的操作界面,設(shè)計(jì)的圖形界面方便用戶直觀快速的找到自己需要的功能和其它的一些信息;盡可能詳細(xì)的優(yōu)化輸出功能,讓使用者可以更直接看到所需要的文本和訓(xùn)練結(jié)果;盡可能多的訓(xùn)練文本,合理設(shè)置傳媒領(lǐng)域關(guān)鍵詞才會(huì)使文本分類更加準(zhǔn)確。

根據(jù)功能需求對(duì)系統(tǒng)進(jìn)行設(shè)計(jì),主要設(shè)計(jì)流程如圖1所示。

3文本分類訓(xùn)練器的實(shí)現(xiàn)

文本分類訓(xùn)練器采用Java開發(fā),分類訓(xùn)練器的屬性數(shù)據(jù)可直接存儲(chǔ)于XML文檔中,在系統(tǒng)內(nèi)部可以方便地實(shí)現(xiàn)屬性數(shù)據(jù)的讀入和讀出,滿足用戶對(duì)屬性數(shù)據(jù)直觀的獲取需求。

1)分類模塊的實(shí)現(xiàn)

每個(gè)關(guān)鍵詞在此類文章里出現(xiàn)的平均比例等于關(guān)鍵詞出現(xiàn)次數(shù)除以文章總字?jǐn)?shù),統(tǒng)計(jì)關(guān)鍵詞種類和數(shù)量,然后把這些關(guān)鍵詞所對(duì)應(yīng)的類枚舉出來,然后將關(guān)鍵詞出現(xiàn)數(shù)量乘以在訓(xùn)練里面的平均占比,得出概論,再歸一化成百分?jǐn)?shù)排列。部分代碼如下:endprint

猜你喜歡
特征提取分類文本
分類算一算
在808DA上文本顯示的改善
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 高潮毛片无遮挡高清视频播放| 最新亚洲人成无码网站欣赏网 | 在线视频亚洲欧美| 天天躁夜夜躁狠狠躁躁88| 亚洲国产精品日韩av专区| 亚洲激情区| 午夜啪啪网| 国产成人精品一区二区不卡| 亚洲成年人片| 国产97视频在线观看| 久久精品91麻豆| 日韩在线成年视频人网站观看| 国产特级毛片aaaaaa| 国产精品一线天| 婷婷六月激情综合一区| 国产在线八区| 天天躁夜夜躁狠狠躁图片| 欧美人人干| 国产精品美女自慰喷水| 国产精品美人久久久久久AV| 日韩欧美亚洲国产成人综合| 国产91线观看| аⅴ资源中文在线天堂| 手机在线免费不卡一区二| 亚洲中文精品久久久久久不卡| 呦女亚洲一区精品| 99精品国产自在现线观看| 国产视频大全| 999精品免费视频| 青青草国产一区二区三区| 69av免费视频| 久久不卡国产精品无码| 欧美中出一区二区| 精品剧情v国产在线观看| 九九热视频在线免费观看| 亚洲AV无码久久天堂| 国产99精品久久| 国产精品第| 日韩在线网址| 亚洲成a∧人片在线观看无码| 国内精品久久九九国产精品| 天堂久久久久久中文字幕| 少妇精品网站| 精品久久久久久中文字幕女| 色香蕉网站| 直接黄91麻豆网站| 久草视频精品| 亚洲色大成网站www国产| 亚洲人成网站在线观看播放不卡| 久久不卡精品| v天堂中文在线| 全色黄大色大片免费久久老太| 在线观看免费国产| 国产青榴视频| 成人韩免费网站| 亚洲国产精品美女| 一级毛片在线免费看| 精品人妻系列无码专区久久| 国产成人高清精品免费软件| 亚洲日韩精品无码专区| 国产精品中文免费福利| 97se亚洲综合在线韩国专区福利| 久久精品国产999大香线焦| 影音先锋丝袜制服| 亚洲自拍另类| 亚洲第一中文字幕| 欧美国产成人在线| 中文无码精品A∨在线观看不卡| 四虎国产永久在线观看| 国产高清毛片| 国产精品无码影视久久久久久久 | 欧美亚洲中文精品三区| 毛片在线播放a| 亚洲综合一区国产精品| 亚洲精品无码久久久久苍井空| 好久久免费视频高清| 91福利片| 国产国产人在线成免费视频狼人色| 亚洲黄色高清| 欧美yw精品日本国产精品| 日韩色图在线观看| 日韩成人高清无码|