中文分詞技術(shù)在社會化媒體分析中的應(yīng)用*

2014-11-27 12:41:56孟麗李葆青胡玲芳張躍

中國教育技術(shù)裝備 2014年16期

◆孟麗李葆青胡玲芳張躍

隨著社會的發(fā)展，社會化媒體（Social Media）已經(jīng)在網(wǎng)絡(luò)化環(huán)境中被廣泛研究。社會化媒體包含交互式的應(yīng)用和分享交換用戶生成內(nèi)容的平臺創(chuàng)建。在過去的十年，社會化媒體迅速發(fā)展。通過對它們的建模分析，從這個超越社會溝通的、擁有大量數(shù)據(jù)的超集中，可以很好地反映并提煉出交往互動者之間的思想動態(tài)、行為傾向，甚至某一社交群體的集體策略。因而，本文主要是對社會化媒體分析系統(tǒng)采集的數(shù)據(jù)，應(yīng)用中文分詞技術(shù)進(jìn)行處理分析，最終得到有用的關(guān)鍵詞，為可以提前預(yù)測社會群體的交往意向和可能發(fā)生的行為結(jié)果（比如判定投資或營銷群體的興趣方向、旅游公司和游客動態(tài)、特定人群的行為意向、學(xué)生群體的思維模式和動機(jī)等）提供一定的依據(jù)，為后續(xù)研究加以干預(yù)，或進(jìn)行行為控制，為達(dá)到所希望達(dá)到的經(jīng)濟(jì)社會運(yùn)行模式、群體和個人行為以及提高教育教學(xué)的可控性奠定一定的基礎(chǔ)。

1 社會化媒體

社會化媒體包括平臺創(chuàng)建和交換用戶生成內(nèi)容，通常社會化媒體也被稱為消費(fèi)者產(chǎn)生的媒體（CGM）。社會化媒體和傳統(tǒng)的媒體有所不同，比如報(bào)紙、書本、電視等任何一種媒體印刷成本較高，而社會化媒體在印刷出版方面的成本卻很低，但社會化媒體并不是完全不同于傳統(tǒng)媒體，它與傳統(tǒng)的媒體存在密切的聯(lián)系。

社會化媒體的形式很多，包括博客、社交網(wǎng)站、虛擬社區(qū)等。社會化媒體有七個方面是大家一直關(guān)注的：身份、交談、分享、存在、友誼、名譽(yù)及成員。不同的社會化媒體有不同的關(guān)注點(diǎn)，像維基百科等合作項(xiàng)目經(jīng)常關(guān)注的是共享及信譽(yù)，而在虛擬社區(qū)中身份、存在、信譽(yù)等備受關(guān)注。總之，社會化媒體在人們的生活中發(fā)揮著舉足輕重的重要。因此，對社會化媒體的分析更具有研究價值。

社會化媒體的定義學(xué)者Andreas Kaplan和Michael Haenlein認(rèn)為社會化媒體是一組建立在Web2.0技術(shù)基礎(chǔ)上，允許創(chuàng)建和交換用戶自創(chuàng)內(nèi)容的互聯(lián)網(wǎng)應(yīng)用[1]，它包含交互式的應(yīng)用和平臺創(chuàng)建，分享和交換用戶生成內(nèi)容，是允許人們撰寫、分享、評價、討論、相互溝通的網(wǎng)站和技術(shù)。所謂社交媒體應(yīng)該是廣大網(wǎng)民自發(fā)分享、提取、創(chuàng)造新聞資訊，然后傳播的過程。社交媒體的產(chǎn)生依賴的是Web2.0的發(fā)展，現(xiàn)階段主要包括社交網(wǎng)站、微博、微信、博客、論壇、播客等。類似的，Toni Ahlqvist等人認(rèn)為社會化媒體概念包含三個關(guān)鍵元素，即：Web2.0技術(shù)、用戶自創(chuàng)內(nèi)容（UserGenerated Content，UGC）以及所產(chǎn)生的人際關(guān)系網(wǎng)[2]。

社會化媒體發(fā)展目前，社會化媒體的發(fā)展越來越迅速。社會化媒體已經(jīng)在整個互聯(lián)網(wǎng)中占據(jù)主流地位，根據(jù)Alexa網(wǎng)站名稱統(tǒng)計(jì)數(shù)據(jù)，當(dāng)前世界訪問量排名前十大網(wǎng)站中，有五個是社會化媒體網(wǎng)站，像Facebook、Twitter、YouTube等社會化媒體網(wǎng)站更可謂風(fēng)靡全球，家喻戶曉[3]。截至2014年5月，F(xiàn)acebook有近13億的活躍用戶，其中包括超過10億移動活躍用戶。目前已經(jīng)有專門關(guān)注娛樂、運(yùn)動、金融和政治的社會化媒體。

2 中文分詞技術(shù)

中文分詞的概念中文分詞就是將一段或一句中文字序列分成相對獨(dú)立的詞序列的過程[4]。通過分詞，可以使句子以單個詞語的形式出現(xiàn)，從而使整個句子的語義簡單化。

常用的中文分詞算法目前，常用的中文分詞算法有基于字符串匹配的分詞算法、基于詞的頻度統(tǒng)計(jì)的分詞算法、基于知識理解的分詞算法，其中，基于字符串匹配的分詞算法主要包括最大正向匹配法和最大逆向匹配法。在對社會化媒體進(jìn)行分析時，筆者所采用的主要是基于字符串匹配的分詞算法，所用本文主要對基本字符串匹配的分詞算法進(jìn)行詳細(xì)的介紹。

基于字符串匹配的分詞算法是按照一定的策略將待切分的漢字字符串與一個“充分大”的機(jī)器詞典中的詞進(jìn)行匹配[5]，也就是按照一定的策略在詞典中進(jìn)行對比查找。目前，基于字符串的分詞算法主要有正向最大匹配算法及逆向最大匹配算法。

1）最大正向匹配法（Forward Maixmum Matching Method），通常簡稱FMM，其思想是假定分詞詞典中的最長詞條有s個漢字字符，則用待切分文檔的當(dāng)前字串中的前i個字作為匹配字段，在詞典中進(jìn)行查找。整個算法的思路如圖1所示。

2）逆向最大匹配法（Reverse Maximum Matching Method），通常簡稱為RMM法，其基本原理與FMM法相同，不同的是分詞切分的方向與FMM法相反，一個是從左至右的切分，另一個是從右至左的切分，并且它們使用的分詞辭典排序方式也有所不同。其算法如圖2所示。

3 中文分詞技術(shù)在社會化媒體分析中的應(yīng)用

本文主要是對社會化媒體分析系統(tǒng)采集的數(shù)據(jù)，采用一定的分詞算法進(jìn)行處理，提煉出關(guān)鍵詞，為后期預(yù)測社會群體的交往意向和可能發(fā)生的行為結(jié)果，以及學(xué)生群體的思維模式和行為動機(jī)等提供一定的依據(jù)。

數(shù)據(jù)采集本文所用的數(shù)據(jù)來自項(xiàng)目組成員設(shè)計(jì)出來的社會化媒體分析系統(tǒng)，采集的是南京大學(xué)論壇數(shù)據(jù)。在該數(shù)據(jù)采集平臺中，數(shù)據(jù)采集分為網(wǎng)址采集和內(nèi)容采集兩部分。

1）網(wǎng)址采集。先進(jìn)行網(wǎng)址采集，根據(jù)采集到的網(wǎng)址，再采集相應(yīng)的帖子內(nèi)容。網(wǎng)址采集最多可分為四級采集，以南京大學(xué)論壇為例，南京大學(xué)論壇使用二級采集就可以采集到論壇帖子的網(wǎng)址，所有采集都是按照正則表達(dá)式來采集。在論壇中有精華帖、分頁貼，精華帖需要單獨(dú)處理，分頁貼主要是針對帖子有多頁的問題，如上一頁、下一頁。

2）內(nèi)容采集。采集到論壇的網(wǎng)址后，根據(jù)帖子的網(wǎng)址就可以采集帖子內(nèi)容。采集到論壇的網(wǎng)址后，根據(jù)帖子的網(wǎng)址就可以采集帖子論壇，一般關(guān)注的數(shù)據(jù)主要有標(biāo)題、帖子內(nèi)容、發(fā)帖以及回帖用戶名、帖子存在的時間、帖子的關(guān)注度、討論區(qū)等。該數(shù)據(jù)采集平臺如圖3所示，采集的數(shù)據(jù)如圖4所示。

分詞處理通過最大正向匹配算法和最大逆向匹配算法，對所采集的數(shù)據(jù)進(jìn)行分詞處理，為提煉關(guān)鍵詞奠定一定的基礎(chǔ)。在分詞處理的過程中存在近義詞和停用詞，是近義詞的進(jìn)行合并，是停用詞的把它過濾掉，最后只留下關(guān)鍵詞，這些關(guān)鍵詞通常是名詞和動詞。在整個數(shù)據(jù)整理過程中，因?yàn)楹芏嗾搲械奶诱Z言很不規(guī)范，語法結(jié)構(gòu)很亂，新詞多，所以分詞也存在一定困難。

表1 最大正向匹配法實(shí)例匹配步驟

表2 最大逆向匹配法實(shí)例匹配步驟

1）最大正向匹配法處理實(shí)例。從采集的數(shù)據(jù)中，抽取了部分?jǐn)?shù)據(jù)進(jìn)行分詞實(shí)驗(yàn)，例如：待切分語句“我們急需提高英語口語及聽力水平”，如果在詞典中匹配，只要匹配成功就切分出來，那么這一句話切分的結(jié)果可能為“我們/急需/提高/英語口語/及/聽力/水平”。如果事先知道詞典的最長詞長，那么將減少很多步驟，從而提高分詞速度。此處假設(shè)詞典中最長詞長為7，整個匹配過程如表1所示。

2）最大逆向匹配法處理實(shí)例。在對社會化媒體分析平臺采用的數(shù)據(jù)進(jìn)行分詞處理的過程中，除了采用最大正向匹配算法外，還采用最大逆向匹配算法進(jìn)行處理。例如：待切分句子“求兼職新概念英語老師”，如果在詞典中匹配，只要匹配成功就切分出來，那么這一句話切分的結(jié)果可能為“求/兼職/新/概念/英語/老師”。在進(jìn)行匹配時，采用的是逆序詞典，假設(shè)詞典中最常詞長為7，整個匹配過程如表2所示。

在分詞的過程中，本文主要采用最大正向匹配和最大逆向匹配相結(jié)合，但是仍然存在一些問題，如在對歧義詞和未登錄詞進(jìn)行處理時存在一定的瑕疵。在以后的研究中，筆者會進(jìn)一步著重處理歧義詞和未登錄詞。

4 結(jié)論

通過中文分詞技術(shù)，對社會化媒體分析系統(tǒng)采集的數(shù)據(jù)進(jìn)行處理，為后續(xù)關(guān)鍵詞檢索奠定一定的基礎(chǔ)。今后筆者的努力方向是進(jìn)行關(guān)鍵詞檢索，對關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析；同時，對分詞之后的文本進(jìn)行特征挖掘及分析，為進(jìn)一步預(yù)測社會群體的交往意向和可能發(fā)生的行為結(jié)果，以及學(xué)生群體的思維模式和行為動機(jī)等提供依據(jù)。

[1]Kaplan A M, Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media[J].Business Horizons,2010(3):59-68.

[2]World Wide Web[EB/OL].http://www.springer.com/computer/database+management+%26+information+retrieval/journal/11280.

[3]王明會,丁焰,白良.社會化媒體發(fā)展現(xiàn)狀及其趨勢分析[J].信息通信技術(shù),2011(5):10.

[4]曹衛(wèi)峰.中文分詞關(guān)鍵技術(shù)研究[D].南京:南京理工大學(xué),2009(6):5.

[5]曹聰聰.中文分詞算法研究[D].海口:海南大學(xué),2007(5):15.

中國教育技術(shù)裝備2014年16期

中國教育技術(shù)裝備的其它文章: 立足機(jī)械設(shè)計(jì)與制造專業(yè)平臺的逆向設(shè)計(jì)及制作特色方向建設(shè)探索*; 基于ADDIE模型的翻轉(zhuǎn)課堂教學(xué)設(shè)計(jì)研究; 影響大學(xué)物理多媒體課堂授課質(zhì)量的環(huán)境因素分析; PowerPoint2013的視頻功能探究; 高職院校光通信實(shí)訓(xùn)室的建設(shè)和教學(xué)探索; 虛擬消防演練教學(xué)系統(tǒng)的設(shè)計(jì)與開發(fā)*