999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞頻統(tǒng)計(jì)的文本可視化實(shí)現(xiàn)

2016-12-15 02:47:20
軟件 2016年11期
關(guān)鍵詞:可視化單詞文本

朱 巧

(北京郵電大學(xué) 網(wǎng)絡(luò)與交換國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100876)

基于詞頻統(tǒng)計(jì)的文本可視化實(shí)現(xiàn)

朱 巧

(北京郵電大學(xué) 網(wǎng)絡(luò)與交換國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100876)

隨著海量文本的涌現(xiàn),信息超載和信息提取速度慢等問(wèn)題促使了文本可視化技術(shù)的出現(xiàn)。文本可視化通過(guò)對(duì)文本資源的分析,提取信息,并以圖形化方式呈現(xiàn)出來(lái),為人們提供了一種快速獲取文本關(guān)鍵信息的有效手段。在介紹了文本可視化的概念和重要性的基礎(chǔ)上,著重闡述了基于詞頻統(tǒng)計(jì)的中文文本可視化的實(shí)現(xiàn)方法?;谀澄⒉┵~戶的微博數(shù)據(jù),首先使用TF-IDF算法進(jìn)行關(guān)鍵詞提取,得到帶有權(quán)重的詞語(yǔ),然后基于SVG技術(shù)和四叉樹(shù)算法,實(shí)現(xiàn)了文本布局算法。最后得到的可視化效果良好,能全面、直觀地反映出用戶的興趣和關(guān)注點(diǎn)。

文本可視化;關(guān)鍵詞提??;四叉樹(shù)算法;TF-IDF

本文著錄格式:朱巧. 基于詞頻統(tǒng)計(jì)的文本可視化實(shí)現(xiàn)[J]. 軟件,2016,37(11):114-117

0 引言

文本信息在生活中無(wú)處不在,日常中的書(shū)籍、郵件、咨詢、新聞,都是以文本作為載體。隨著信息技術(shù)的發(fā)展,信息量呈現(xiàn)出爆炸增長(zhǎng),人們通過(guò)閱讀獲取和理解信息的速度明顯滯后。傳統(tǒng)的文本分析技術(shù),比如文本聚類(lèi)、語(yǔ)義分析等,能在一定程度上挖掘出文本數(shù)據(jù)中的主要信息,但是人在理解這些挖掘結(jié)果的時(shí)候仍然存在困難,文本可視化在這樣的背景下產(chǎn)生。

文本可視化是數(shù)據(jù)可視化的一個(gè)重要主題,它利用可視化技術(shù)讓人直觀地認(rèn)識(shí)數(shù)據(jù),為人們提供了一種理解復(fù)雜文本的內(nèi)容、結(jié)構(gòu)和內(nèi)在規(guī)律等信息的有效手段。俗話說(shuō),一幅圖勝千言萬(wàn)語(yǔ),通常情況下,人們從圖像中獲取的信息比直接從大量文字中獲取的信息更快速、準(zhǔn)確,信息量也更多。

微博作為新興媒體,在人們的生活中日益流行。對(duì)微博中用戶行為的統(tǒng)計(jì)、分析,和微博內(nèi)容中信息的挖掘等成為了研究的熱點(diǎn)。本文希望能夠通過(guò)文本可視化的手段,清晰地反映微博賬戶的關(guān)注點(diǎn)。

1 文本可視化的相關(guān)理論

就文檔類(lèi)別來(lái)說(shuō),可以把文檔分為單文本、文檔集合和時(shí)序文本數(shù)據(jù)三個(gè)類(lèi)別;從一篇文檔本身來(lái)說(shuō),又包含詞語(yǔ)、語(yǔ)法和語(yǔ)義三個(gè)層級(jí)。文檔的這些屬性使文本信息的分析需求更為豐富。例如,在分析新聞報(bào)道時(shí),分析的重點(diǎn)是能概括新聞的內(nèi)容。而對(duì)于一系列跟蹤報(bào)道所構(gòu)成的新聞專(zhuān)題,人們不但關(guān)注每一時(shí)間點(diǎn)的具體內(nèi)容,還包括新聞熱點(diǎn)的隨著時(shí)間的變化趨勢(shì)。針對(duì)文本信息和屬性的多樣

性分析需求,人們提出了很多具有特性的可視化技術(shù)。通常,文本可視化可以分為基于關(guān)鍵詞的文本可視化、基于文本關(guān)系的文本可視化這幾類(lèi)[1]。

1)基于關(guān)鍵詞的文本可視化

當(dāng)遇到海量文本時(shí),人們需要對(duì)整個(gè)文本的關(guān)鍵內(nèi)容進(jìn)行快速概覽,這種場(chǎng)景適合使用基于關(guān)鍵詞的文本可視化。關(guān)鍵詞指的是從原始文本中提取的能反映文本內(nèi)容的側(cè)重點(diǎn)的語(yǔ)義單元。提取文檔中關(guān)鍵詞的原則多種多樣, 其中最常見(jiàn)的方法是使用詞頻來(lái)反映文本特征,通常認(rèn)為單詞的重要性與它在文檔中出現(xiàn)的頻率呈正比。

2)基于文本關(guān)系的文本可視化

這種可視化方式的關(guān)注點(diǎn)在于文本內(nèi)部或者文本所在的文本集合的關(guān)聯(lián)信息,包括文檔之間的引用信息、從文檔中提取的結(jié)構(gòu)信息等。常用的手段有樹(shù)狀圖和節(jié)點(diǎn)連接的網(wǎng)絡(luò)圖。

本文主要針對(duì)基于詞頻統(tǒng)計(jì)的文本可視化方法進(jìn)行了深入研究。

2 基于詞頻統(tǒng)計(jì)的文本可視化

隨著微博的日趨流行,對(duì)微博中用戶行為的統(tǒng)計(jì)、分析,和微博內(nèi)容中信息的挖掘等成為了研究的熱點(diǎn)。本文統(tǒng)計(jì)了新浪微博中某個(gè)賬戶發(fā)布的微博內(nèi)容,希望能通過(guò)可視化方法,反映出該賬戶用戶的關(guān)注點(diǎn)信息。

2.1 可視化設(shè)計(jì)

標(biāo)簽云是常用的基于詞頻統(tǒng)計(jì)的可視化方法,也稱(chēng)為詞云、文字云。標(biāo)簽一般是獨(dú)立的詞匯,常常按字母順序排列,其重要程度又能通過(guò)改變字體大小或顏色表現(xiàn),所以標(biāo)簽云可以靈活地依照字母順序或熱門(mén)程度檢索一個(gè)標(biāo)簽。這樣的特性使標(biāo)簽云適用于展現(xiàn)熱點(diǎn)的話題或者特性,因此選取標(biāo)簽云作為用戶微博內(nèi)容的呈現(xiàn)方式。

文本可視化系統(tǒng)通常涵蓋了三個(gè)步驟[2],本文工作也按照這個(gè)步驟進(jìn)行:

1)挖掘文本中的特征信息;

這個(gè)階段需要進(jìn)行信息收集和數(shù)據(jù)預(yù)處理,然后針對(duì)可視化的目的和需求,通過(guò)各種數(shù)據(jù)處理的手段提取出文本中的特征信息。

2)可視化設(shè)計(jì)和呈現(xiàn);

針對(duì)提取的特征信息,用適合的可視化表達(dá)方式,通過(guò)圖形設(shè)計(jì)和計(jì)算機(jī)編碼等手段進(jìn)行可視化實(shí)現(xiàn)。

3)用戶與信息圖的交互。

2.2 文本信息提取

標(biāo)簽云展示的是文本中出現(xiàn)頻率高的詞語(yǔ)。在文本信息提取過(guò)程中,需要通過(guò)對(duì)原始文本進(jìn)行關(guān)鍵詞抽取、歸一化處理等操作,提取出帶有權(quán)重的單詞。

常用衡量詞頻和權(quán)重計(jì)算方法有很多種,如布爾權(quán)重法、熵函數(shù)和TF-IDF權(quán)重法。其中最常用的是TF-IDF權(quán)重法,該方法算法相對(duì)簡(jiǎn)單、并有較高的準(zhǔn)確度和召回率,所以一直受到相關(guān)研究人員和眾多應(yīng)用領(lǐng)域的青睞。

TF-IDF方法由Salton等人提出[3],它的基本思想是,具有較高權(quán)重的單詞,應(yīng)該在該篇文檔中出現(xiàn)次數(shù)較多(TF),而在其他文檔中出現(xiàn)次數(shù)和范圍都較?。↖DF)。計(jì)算單詞權(quán)重的公式為:

weighti,j=tfi,j*idfi=tfi,j*log(N/nj) (1)

在上式中,tfi,j是指特征項(xiàng)tj在文檔中出現(xiàn)的次數(shù);idfi是指出現(xiàn)特征項(xiàng)tj的文檔的數(shù)量的倒數(shù)。N表示總文檔數(shù)量,nj指出現(xiàn)特征項(xiàng)tj的文檔數(shù)。

本文采用TF-IDF權(quán)重法進(jìn)行關(guān)鍵詞提取,由于只在當(dāng)前文檔中選取,所以不需要逆向文件頻率(IDF)文本語(yǔ)料庫(kù)。對(duì)收集了某微博賬號(hào)一個(gè)月發(fā)布的微博之后,對(duì)其發(fā)布的微博內(nèi)容提取的部分結(jié)果如下:

表1 關(guān)鍵詞提取結(jié)果Tab.1 The result of keyword extraction

為了方便進(jìn)一步地展示,需要對(duì)權(quán)重值進(jìn)行歸一化處理,使最終的權(quán)重分布在0到1之間,選取的歸一化公式為:

其中,wi代表某個(gè)詞語(yǔ)的原本權(quán)重值,min代表所有詞語(yǔ)的權(quán)重值中的最小值,max代表所有詞語(yǔ)的全種植中的最大值,wi′代表進(jìn)行歸一化之后的結(jié)果。

完成文本信息提取之后,需要進(jìn)行圖元布局的設(shè)計(jì)和實(shí)現(xiàn)。

2.3 標(biāo)簽云布局算法的實(shí)現(xiàn)

目前,已經(jīng)有一些算法和項(xiàng)目對(duì)標(biāo)簽云的布局算法進(jìn)行了實(shí)現(xiàn),其中最為出名的是Jonathan Feinberg的Wordle[4]。在這個(gè)項(xiàng)目用Java Applet實(shí)

現(xiàn)了很好的標(biāo)簽云布局效果。雖然Wordle在布局實(shí)現(xiàn)上已經(jīng)非常成熟,但是該項(xiàng)目仍有一些缺陷:首先,它不支持中文作為輸入,這讓它的使用場(chǎng)景有了很大限制;其次,它把布局結(jié)果生成了一張圖片,無(wú)法進(jìn)行交互,很大程度影響了用戶體驗(yàn)。

為了提高交互性,同時(shí)兼顧跨平臺(tái)性,本文基于SVG(Scalable Vector Graphic)技術(shù),實(shí)現(xiàn)了標(biāo)簽云的布局算法。SVG是基于擴(kuò)展標(biāo)記語(yǔ)言XML的一種二維矢量圖格式。由W3C組織于2000年正式發(fā)布[5]。相對(duì)于其他的圖形格式,如PNG、GIF、JPEG等,SVG有卓越的優(yōu)勢(shì):

1. 可收縮性。SVG作為一種矢量圖格式,與柵格化格式的圖像相比,圖形可以按照任意尺寸縮放而保存本來(lái)的清晰度。

2. 交互性強(qiáng)。由于SVG完全支持DOM(文檔對(duì)象模型),因此SVG中的圖形對(duì)象完全可以通過(guò)腳本語(yǔ)言,比如JavaScript來(lái)接受外部事件的監(jiān)聽(tīng)和處理(如鼠標(biāo)點(diǎn)擊,鼠標(biāo)懸停等動(dòng)作),以實(shí)現(xiàn)自身或?qū)ζ渌麍D形對(duì)象的控制。

3. 跨平臺(tái)性良好。SVG并非僅僅是一種圖像格式,由于它是一種基于XML的描述語(yǔ)言,意味著它完全繼承了XML語(yǔ)言的跨平臺(tái)性和可擴(kuò)展性。因此,SVG可以很好地跨平臺(tái)工作,該標(biāo)準(zhǔn)一經(jīng)推出立刻得到了包括Apple,Autodesk,IBM,Google,Microsoft,Netscape, Sun在內(nèi)各大公司的實(shí)現(xiàn)和支持。

選用SVG作為圖形繪制格式后,在標(biāo)簽云的實(shí)現(xiàn)上,需要重點(diǎn)考慮單詞的尺寸、顏色、布局,以及用戶的交互。通常來(lái)說(shuō),標(biāo)簽云把單詞按照頻度或者權(quán)重遞減的順序進(jìn)行排列,頻度或者權(quán)重與單詞顯示的尺寸呈正比。常用的標(biāo)簽云布局有水平排列布局,而為了效果更加美觀,在一些設(shè)計(jì)中標(biāo)簽云形成不同的外形。為了效果美觀,也能通過(guò)編程實(shí)現(xiàn),本文將單詞沿著螺旋形狀的路徑布局。其布局算法步驟為:

1. 獲取輸入的詞語(yǔ)列表,該列表是按照詞語(yǔ)的權(quán)重進(jìn)行排序的,每個(gè)詞語(yǔ)包括內(nèi)容和權(quán)重兩個(gè)屬性。

2. 從權(quán)重最大的一個(gè)詞語(yǔ)開(kāi)始遍歷列表,對(duì)于列表中的每一個(gè)詞語(yǔ),首先根據(jù)詞語(yǔ)本身長(zhǎng)度和權(quán)重值計(jì)算出詞語(yǔ)的尺寸。

3. 在螺旋路徑的某一個(gè)位置上,試圖將詞語(yǔ)放置上去。

4. 檢測(cè)當(dāng)前詞語(yǔ)是否與已經(jīng)放置的詞語(yǔ)發(fā)生了碰撞。

5. 如果沒(méi)有發(fā)生碰撞,那么這個(gè)單詞放置的位置是合理的,完成當(dāng)前單詞的放置,繼續(xù)放置下一個(gè)單詞;如果發(fā)生碰撞,則返回第3步,重新放置當(dāng)前的單詞。

整個(gè)流程如圖1所示。在這個(gè)算法中,影響算法復(fù)雜度和效率的關(guān)鍵部分在于碰撞檢測(cè),也可以說(shuō)是重疊檢測(cè)。如果每次檢測(cè)都遍歷所有單詞,那么復(fù)雜度為O(n2),效率過(guò)低。為了提高二維空間中碰撞檢測(cè)的算法速度,四叉樹(shù)被廣泛應(yīng)用[6]。四叉樹(shù)是一種常用的數(shù)據(jù)結(jié)構(gòu),可用于描述二維空間。在進(jìn)行兩個(gè)物體的碰撞檢測(cè)時(shí),其基本思想是先把空間用橫豎兩條坐標(biāo)軸等分成4象限,一個(gè)物體通常只在其中的某個(gè)象限,如果兩個(gè)物體所在的象限不同,那么確定不發(fā)生碰撞;如果檢查到所處象限相同,則把這個(gè)象限再往下分割成4個(gè)子象限。使用四叉樹(shù)算法可以讓碰撞檢測(cè)的時(shí)間復(fù)雜度從O(n2)提高到O(nlogn)。

圖1 布局算法流程圖Fig.1 The flow chart of layout algorithm

圖2 文本可視化結(jié)果Fig.2 The result of Text Visaulization

3 文本可視化實(shí)現(xiàn)效果

圖2展示了基于詞頻統(tǒng)計(jì)的文本可視化最終實(shí)現(xiàn)效果,可以看到單詞在平面上的布局均勻、美觀,并且很少有重疊的單詞。在關(guān)鍵詞提取過(guò)程中擁有

較大權(quán)重的關(guān)鍵詞的尺寸更大,不同關(guān)鍵詞的重要性在標(biāo)簽云中一目了然。鼠標(biāo)懸停在單詞上時(shí),右側(cè)展示出跟這個(gè)單詞相關(guān)聯(lián)的微博,具有很好的交互性。

4 結(jié)束語(yǔ)

文本可視化是可視化的熱點(diǎn)研究?jī)?nèi)容,它利用文本處理技術(shù)和計(jì)算機(jī)圖像的技術(shù),把文本中的信息用圖形的形式展現(xiàn)給用戶,幫助用戶理解這些信息。

本文首先介紹了文本可視化的相關(guān)理論知識(shí)。然后著重介紹了基于詞頻統(tǒng)計(jì)的文本可視化的實(shí)現(xiàn),并以用戶微博數(shù)據(jù)為基礎(chǔ),進(jìn)行了信息提取、圖元布局設(shè)計(jì)和布局實(shí)現(xiàn)。最終的實(shí)現(xiàn)效果良好。

[1] 劉芳. 信息可視化技術(shù)及應(yīng)用研究[D]. 浙江大學(xué), 2013. LIU F. Study of Information Visualization[D]. Zhejiang University, 2013.

[2] 唐家渝, 劉知遠(yuǎn), 孫茂松等. 文本可視化研究綜述[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2013, 25(3): 273-285. TANG J Y, LIU Z Y, SUN M S, et al. A Survey of Text Visualization[J]. Journal of Computer—Aided Design 8L Computer Graphics, 2013, 25(3): 273-285.

[3] 施聰鶯, 徐朝軍, 楊曉江等. TFIDF算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2009, 29(z1): 167-170, 180. SHI C Y, XU C J, YANG X J, et al. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(z1): 167-170, 180.

[4] FERNANDA B V,MARTIN W, JONATHAN F, et al.Participatory Visualization with Wordle[J]. IEEE transactions on visualization and computer graphics, 2009, 15(6): 1137-1144.

[5] KIM E, HUANG X, TAN G, et al. Markup SVG—An Online Content-Aware Image Abstraction and Annotation Tool[J]. IEEE transactions on multimedia, 2011, 13(5): 993-1006.

[6] 關(guān)振群, 宋超, 顧元憲等. 有限元網(wǎng)格生成方法研究的新進(jìn)展[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2003, 15(1): 1-14. GUAN Z Q, SONG C, GU Y X, et al. Recent Advances of Research on Finite Element Mesh Generation Methods[J]. Journal of Computer-Aided Design & Computer Graphics, 2003, 15(1): 1-14.

The Realization of Text Visualization Based on Word Frequency Statistics

ZHU Qiao
(State Key Laboratory of networking and switching, Beijing University of Posts and Telecommunications, Beijing 100876, China)

Along with the emergence of massive text, the problem of information overload and the slow speed of information extraction prompted the emergence of text visualization. By analyzing the text, extracting the information and presenting it in a graphical way, text visualization provides an effective way to extract the key information of a text. After introduce the concept and importance of text visualization, emphatically expounds the realization of text visualization based on word frequency statistics. A micro-blog account’s data is chosen as the source data. First, use the TF-IDF algorithm for keyword extraction, and get keywords with weight. Then, realize the text layout algorithm based on SVG and quad-tree algorithm. The visual effect is good, and it can fully and directly reflect the account’s interests.【Key words】: Text visualization; Word frequency statistics; Quad-tree algorithm; TF-IDF

TP391

A

10.3969/j.issn.1003-6970.2016.11.025

朱巧(1992-),女,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)可視化。

猜你喜歡
可視化單詞文本
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
單詞連一連
在808DA上文本顯示的改善
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
主站蜘蛛池模板: 精品午夜国产福利观看| 亚洲一级无毛片无码在线免费视频 | 亚洲人妖在线| 真人免费一级毛片一区二区| 91久久国产成人免费观看| 国产精品美女网站| 91在线精品免费免费播放| 亚洲成a人片| 色噜噜在线观看| 啦啦啦网站在线观看a毛片| 国产成熟女人性满足视频| 国产又黄又硬又粗| 亚洲AV无码乱码在线观看裸奔| 中国特黄美女一级视频| 亚洲视频免| 国产一区二区影院| 国产正在播放| 国产91丝袜| 亚洲精品无码在线播放网站| 狠狠综合久久| 亚洲伊人久久精品影院| 美女被操91视频| 91成人在线免费观看| 亚洲成人精品久久| 国产经典免费播放视频| 91久久夜色精品国产网站| 欧美视频在线观看第一页| 欧美国产中文| 青草视频在线观看国产| 亚洲精品在线观看91| 日韩无码真实干出血视频| 中文字幕佐山爱一区二区免费| 国产精品毛片一区| 91高清在线视频| 日韩黄色大片免费看| 亚洲不卡网| 97成人在线视频| 日本免费新一区视频| 在线国产资源| 国产视频a| 色综合成人| 98精品全国免费观看视频| 成年人国产网站| 国产精品无码制服丝袜| 重口调教一区二区视频| 色吊丝av中文字幕| 国产精品综合久久久| 人妻丰满熟妇啪啪| 国产成人高清在线精品| 国产一区在线观看无码| 亚州AV秘 一区二区三区 | 国产特一级毛片| 久久99国产精品成人欧美| 91午夜福利在线观看| 国产精品久久久久无码网站| 午夜国产大片免费观看| 国产黄色片在线看| 男人天堂伊人网| hezyo加勒比一区二区三区| 国产成人高精品免费视频| 亚洲性视频网站| 欧美精品v日韩精品v国产精品| 亚洲国产精品美女| 亚洲人成网站在线播放2019| 九九九精品成人免费视频7| 亚洲国产无码有码| 欧美性久久久久| 亚洲天堂精品视频| 国产乱人免费视频| 色婷婷在线播放| 久久综合久久鬼| 免费国产高清视频| 2020国产免费久久精品99| 国产va视频| 99久久精品美女高潮喷水| 亚洲精品无码高潮喷水A| 精品亚洲国产成人AV| 久久这里只有精品66| 亚洲高清在线天堂精品| 无码aⅴ精品一区二区三区| 国产女人在线| 国产欧美在线|