◆孟麗 李葆青 胡玲芳 張躍
隨著社會的發展,社會化媒體(Social Media)已經在網絡化環境中被廣泛研究。社會化媒體包含交互式的應用和分享交換用戶生成內容的平臺創建。在過去的十年,社會化媒體迅速發展。通過對它們的建模分析,從這個超越社會溝通的、擁有大量數據的超集中,可以很好地反映并提煉出交往互動者之間的思想動態、行為傾向,甚至某一社交群體的集體策略。因而,本文主要是對社會化媒體分析系統采集的數據,應用中文分詞技術進行處理分析,最終得到有用的關鍵詞,為可以提前預測社會群體的交往意向和可能發生的行為結果(比如判定投資或營銷群體的興趣方向、旅游公司和游客動態、特定人群的行為意向、學生群體的思維模式和動機等)提供一定的依據,為后續研究加以干預,或進行行為控制,為達到所希望達到的經濟社會運行模式、群體和個人行為以及提高教育教學的可控性奠定一定的基礎。
社會化媒體包括平臺創建和交換用戶生成內容,通常社會化媒體也被稱為消費者產生的媒體(CGM)。社會化媒體和傳統的媒體有所不同,比如報紙、書本、電視等任何一種媒體印刷成本較高,而社會化媒體在印刷出版方面的成本卻很低,但社會化媒體并不是完全不同于傳統媒體,它與傳統的媒體存在密切的聯系。
社會化媒體的形式很多,包括博客、社交網站、虛擬社區等。社會化媒體有七個方面是大家一直關注的:身份、交談、分享、存在、友誼、名譽及成員。不同的社會化媒體有不同的關注點,像維基百科等合作項目經常關注的是共享及信譽,而在虛擬社區中身份、存在、信譽等備受關注。總之,社會化媒體在人們的生活中發揮著舉足輕重的重要。因此,對社會化媒體的分析更具有研究價值。
社會化媒體的定義 學者Andreas Kaplan和Michael Haenlein認為社會化媒體是一組建立在Web2.0技術基礎上,允許創建和交換用戶自創內容的互聯網應用[1],它包含交互式的應用和平臺創建,分享和交換用戶生成內容,是允許人們撰寫、分享、評價、討論、相互溝通的網站和技術。所謂社交媒體應該是廣大網民自發分享、提取、創造新聞資訊,然后傳播的過程。社交媒體的產生依賴的是Web2.0的發展,現階段主要包括社交網站、微博、微信、博客、論壇、播客等。類似的,Toni Ahlqvist等人認為社會化媒體概念包含三個關鍵元素,即:Web2.0技術、用戶自創內容(UserGenerated Content,UGC)以及所產生的人際關系網[2]。
社會化媒體發展 目前,社會化媒體的發展越來越迅速。社會化媒體已經在整個互聯網中占據主流地位,根據Alexa網站名稱統計數據,當前世界訪問量排名前十大網站中,有五個是社會化媒體網站,像Facebook、Twitter、YouTube等社會化媒體網站更可謂風靡全球,家喻戶曉[3]。截至2014年5月,Facebook有近13億的活躍用戶,其中包括超過10億移動活躍用戶。目前已經有專門關注娛樂、運動、金融和政治的社會化媒體。
中文分詞的概念 中文分詞就是將一段或一句中文字序列分成相對獨立的詞序列的過程[4]。通過分詞,可以使句子以單個詞語的形式出現,從而使整個句子的語義簡單化。

常用的中文分詞算法 目前,常用的中文分詞算法有基于字符串匹配的分詞算法、基于詞的頻度統計的分詞算法、基于知識理解的分詞算法,其中,基于字符串匹配的分詞算法主要包括最大正向匹配法和最大逆向匹配法。在對社會化媒體進行分析時,筆者所采用的主要是基于字符串匹配的分詞算法,所用本文主要對基本字符串匹配的分詞算法進行詳細的介紹。
基于字符串匹配的分詞算法是按照一定的策略將待切分的漢字字符串與一個“充分大”的機器詞典中的詞進行匹配[5],也就是按照一定的策略在詞典中進行對比查找。目前,基于字符串的分詞算法主要有正向最大匹配算法及逆向最大匹配算法。
1)最大正向匹配法(Forward Maixmum Matching Method),通常簡稱FMM,其思想是假定分詞詞典中的最長詞條有s個漢字字符,則用待切分文檔的當前字串中的前i個字作為匹配字段,在詞典中進行查找。整個算法的思路如圖1所示。
2)逆向最大匹配法(Reverse Maximum Matching Method),通常簡稱為RMM法,其基本原理與FMM法相同,不同的是分詞切分的方向與FMM法相反,一個是從左至右的切分,另一個是從右至左的切分,并且它們使用的分詞辭典排序方式也有所不同。其算法如圖2所示。
本文主要是對社會化媒體分析系統采集的數據,采用一定的分詞算法進行處理,提煉出關鍵詞,為后期預測社會群體的交往意向和可能發生的行為結果,以及學生群體的思維模式和行為動機等提供一定的依據。
數據采集 本文所用的數據來自項目組成員設計出來的社會化媒體分析系統,采集的是南京大學論壇數據。在該數據采集平臺中,數據采集分為網址采集和內容采集兩部分。



1)網址采集。先進行網址采集,根據采集到的網址,再采集相應的帖子內容。網址采集最多可分為四級采集,以南京大學論壇為例,南京大學論壇使用二級采集就可以采集到論壇帖子的網址,所有采集都是按照正則表達式來采集。在論壇中有精華帖、分頁貼,精華帖需要單獨處理,分頁貼主要是針對帖子有多頁的問題,如上一頁、下一頁。
2)內容采集。采集到論壇的網址后,根據帖子的網址就可以采集帖子內容。采集到論壇的網址后,根據帖子的網址就可以采集帖子論壇,一般關注的數據主要有標題、帖子內容、發帖以及回帖用戶名、帖子存在的時間、帖子的關注度、討論區等。該數據采集平臺如圖3所示,采集的數據如圖4所示。
分詞處理 通過最大正向匹配算法和最大逆向匹配算法,對所采集的數據進行分詞處理,為提煉關鍵詞奠定一定的基礎。在分詞處理的過程中存在近義詞和停用詞,是近義詞的進行合并,是停用詞的把它過濾掉,最后只留下關鍵詞,這些關鍵詞通常是名詞和動詞。在整個數據整理過程中,因為很多論壇中的帖子語言很不規范,語法結構很亂,新詞多,所以分詞也存在一定困難。

表1 最大正向匹配法實例匹配步驟

表2 最大逆向匹配法實例匹配步驟
1)最大正向匹配法處理實例。從采集的數據中,抽取了部分數據進行分詞實驗,例如:待切分語句“我們急需提高英語口語及聽力水平”,如果在詞典中匹配,只要匹配成功就切分出來,那么這一句話切分的結果可能為“我們/急需/提高/英語口語/及/聽力/水平”。如果事先知道詞典的最長詞長,那么將減少很多步驟,從而提高分詞速度。此處假設詞典中最長詞長為7,整個匹配過程如表1所示。
2)最大逆向匹配法處理實例。在對社會化媒體分析平臺采用的數據進行分詞處理的過程中,除了采用最大正向匹配算法外,還采用最大逆向匹配算法進行處理。例如:待切分句子“求兼職新概念英語老師”,如果在詞典中匹配,只要匹配成功就切分出來,那么這一句話切分的結果可能為“求/兼職/新/概念/英語/老師”。在進行匹配時,采用的是逆序詞典,假設詞典中最常詞長為7,整個匹配過程如表2所示。
在分詞的過程中,本文主要采用最大正向匹配和最大逆向匹配相結合,但是仍然存在一些問題,如在對歧義詞和未登錄詞進行處理時存在一定的瑕疵。在以后的研究中,筆者會進一步著重處理歧義詞和未登錄詞。
通過中文分詞技術,對社會化媒體分析系統采集的數據進行處理,為后續關鍵詞檢索奠定一定的基礎。今后筆者的努力方向是進行關鍵詞檢索,對關鍵詞進行統計分析;同時,對分詞之后的文本進行特征挖掘及分析,為進一步預測社會群體的交往意向和可能發生的行為結果,以及學生群體的思維模式和行為動機等提供依據。
[1]Kaplan A M, Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media[J].Business Horizons,2010(3):59-68.
[2]World Wide Web[EB/OL].http://www.springer.com/computer/database+management+%26+information+retrieval/journal/11280.
[3]王明會,丁焰,白良.社會化媒體發展現狀及其趨勢分析[J].信息通信技術,2011(5):10.
[4]曹衛峰.中文分詞關鍵技術研究[D].南京:南京理工大學,2009(6):5.
[5]曹聰聰.中文分詞算法研究[D].海口:海南大學,2007(5):15.