999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文分詞技術在社會化媒體分析中的應用*

2014-11-27 12:41:56孟麗李葆青胡玲芳張躍
中國教育技術裝備 2014年16期

◆孟麗 李葆青 胡玲芳 張躍

隨著社會的發展,社會化媒體(Social Media)已經在網絡化環境中被廣泛研究。社會化媒體包含交互式的應用和分享交換用戶生成內容的平臺創建。在過去的十年,社會化媒體迅速發展。通過對它們的建模分析,從這個超越社會溝通的、擁有大量數據的超集中,可以很好地反映并提煉出交往互動者之間的思想動態、行為傾向,甚至某一社交群體的集體策略。因而,本文主要是對社會化媒體分析系統采集的數據,應用中文分詞技術進行處理分析,最終得到有用的關鍵詞,為可以提前預測社會群體的交往意向和可能發生的行為結果(比如判定投資或營銷群體的興趣方向、旅游公司和游客動態、特定人群的行為意向、學生群體的思維模式和動機等)提供一定的依據,為后續研究加以干預,或進行行為控制,為達到所希望達到的經濟社會運行模式、群體和個人行為以及提高教育教學的可控性奠定一定的基礎。

1 社會化媒體

社會化媒體包括平臺創建和交換用戶生成內容,通常社會化媒體也被稱為消費者產生的媒體(CGM)。社會化媒體和傳統的媒體有所不同,比如報紙、書本、電視等任何一種媒體印刷成本較高,而社會化媒體在印刷出版方面的成本卻很低,但社會化媒體并不是完全不同于傳統媒體,它與傳統的媒體存在密切的聯系。

社會化媒體的形式很多,包括博客、社交網站、虛擬社區等。社會化媒體有七個方面是大家一直關注的:身份、交談、分享、存在、友誼、名譽及成員。不同的社會化媒體有不同的關注點,像維基百科等合作項目經常關注的是共享及信譽,而在虛擬社區中身份、存在、信譽等備受關注。總之,社會化媒體在人們的生活中發揮著舉足輕重的重要。因此,對社會化媒體的分析更具有研究價值。

社會化媒體的定義 學者Andreas Kaplan和Michael Haenlein認為社會化媒體是一組建立在Web2.0技術基礎上,允許創建和交換用戶自創內容的互聯網應用[1],它包含交互式的應用和平臺創建,分享和交換用戶生成內容,是允許人們撰寫、分享、評價、討論、相互溝通的網站和技術。所謂社交媒體應該是廣大網民自發分享、提取、創造新聞資訊,然后傳播的過程。社交媒體的產生依賴的是Web2.0的發展,現階段主要包括社交網站、微博、微信、博客、論壇、播客等。類似的,Toni Ahlqvist等人認為社會化媒體概念包含三個關鍵元素,即:Web2.0技術、用戶自創內容(UserGenerated Content,UGC)以及所產生的人際關系網[2]。

社會化媒體發展 目前,社會化媒體的發展越來越迅速。社會化媒體已經在整個互聯網中占據主流地位,根據Alexa網站名稱統計數據,當前世界訪問量排名前十大網站中,有五個是社會化媒體網站,像Facebook、Twitter、YouTube等社會化媒體網站更可謂風靡全球,家喻戶曉[3]。截至2014年5月,Facebook有近13億的活躍用戶,其中包括超過10億移動活躍用戶。目前已經有專門關注娛樂、運動、金融和政治的社會化媒體。

2 中文分詞技術

中文分詞的概念 中文分詞就是將一段或一句中文字序列分成相對獨立的詞序列的過程[4]。通過分詞,可以使句子以單個詞語的形式出現,從而使整個句子的語義簡單化。

常用的中文分詞算法 目前,常用的中文分詞算法有基于字符串匹配的分詞算法、基于詞的頻度統計的分詞算法、基于知識理解的分詞算法,其中,基于字符串匹配的分詞算法主要包括最大正向匹配法和最大逆向匹配法。在對社會化媒體進行分析時,筆者所采用的主要是基于字符串匹配的分詞算法,所用本文主要對基本字符串匹配的分詞算法進行詳細的介紹。

基于字符串匹配的分詞算法是按照一定的策略將待切分的漢字字符串與一個“充分大”的機器詞典中的詞進行匹配[5],也就是按照一定的策略在詞典中進行對比查找。目前,基于字符串的分詞算法主要有正向最大匹配算法及逆向最大匹配算法。

1)最大正向匹配法(Forward Maixmum Matching Method),通常簡稱FMM,其思想是假定分詞詞典中的最長詞條有s個漢字字符,則用待切分文檔的當前字串中的前i個字作為匹配字段,在詞典中進行查找。整個算法的思路如圖1所示。

2)逆向最大匹配法(Reverse Maximum Matching Method),通常簡稱為RMM法,其基本原理與FMM法相同,不同的是分詞切分的方向與FMM法相反,一個是從左至右的切分,另一個是從右至左的切分,并且它們使用的分詞辭典排序方式也有所不同。其算法如圖2所示。

3 中文分詞技術在社會化媒體分析中的應用

本文主要是對社會化媒體分析系統采集的數據,采用一定的分詞算法進行處理,提煉出關鍵詞,為后期預測社會群體的交往意向和可能發生的行為結果,以及學生群體的思維模式和行為動機等提供一定的依據。

數據采集 本文所用的數據來自項目組成員設計出來的社會化媒體分析系統,采集的是南京大學論壇數據。在該數據采集平臺中,數據采集分為網址采集和內容采集兩部分。

1)網址采集。先進行網址采集,根據采集到的網址,再采集相應的帖子內容。網址采集最多可分為四級采集,以南京大學論壇為例,南京大學論壇使用二級采集就可以采集到論壇帖子的網址,所有采集都是按照正則表達式來采集。在論壇中有精華帖、分頁貼,精華帖需要單獨處理,分頁貼主要是針對帖子有多頁的問題,如上一頁、下一頁。

2)內容采集。采集到論壇的網址后,根據帖子的網址就可以采集帖子內容。采集到論壇的網址后,根據帖子的網址就可以采集帖子論壇,一般關注的數據主要有標題、帖子內容、發帖以及回帖用戶名、帖子存在的時間、帖子的關注度、討論區等。該數據采集平臺如圖3所示,采集的數據如圖4所示。

分詞處理 通過最大正向匹配算法和最大逆向匹配算法,對所采集的數據進行分詞處理,為提煉關鍵詞奠定一定的基礎。在分詞處理的過程中存在近義詞和停用詞,是近義詞的進行合并,是停用詞的把它過濾掉,最后只留下關鍵詞,這些關鍵詞通常是名詞和動詞。在整個數據整理過程中,因為很多論壇中的帖子語言很不規范,語法結構很亂,新詞多,所以分詞也存在一定困難。

表1 最大正向匹配法實例匹配步驟

表2 最大逆向匹配法實例匹配步驟

1)最大正向匹配法處理實例。從采集的數據中,抽取了部分數據進行分詞實驗,例如:待切分語句“我們急需提高英語口語及聽力水平”,如果在詞典中匹配,只要匹配成功就切分出來,那么這一句話切分的結果可能為“我們/急需/提高/英語口語/及/聽力/水平”。如果事先知道詞典的最長詞長,那么將減少很多步驟,從而提高分詞速度。此處假設詞典中最長詞長為7,整個匹配過程如表1所示。

2)最大逆向匹配法處理實例。在對社會化媒體分析平臺采用的數據進行分詞處理的過程中,除了采用最大正向匹配算法外,還采用最大逆向匹配算法進行處理。例如:待切分句子“求兼職新概念英語老師”,如果在詞典中匹配,只要匹配成功就切分出來,那么這一句話切分的結果可能為“求/兼職/新/概念/英語/老師”。在進行匹配時,采用的是逆序詞典,假設詞典中最常詞長為7,整個匹配過程如表2所示。

在分詞的過程中,本文主要采用最大正向匹配和最大逆向匹配相結合,但是仍然存在一些問題,如在對歧義詞和未登錄詞進行處理時存在一定的瑕疵。在以后的研究中,筆者會進一步著重處理歧義詞和未登錄詞。

4 結論

通過中文分詞技術,對社會化媒體分析系統采集的數據進行處理,為后續關鍵詞檢索奠定一定的基礎。今后筆者的努力方向是進行關鍵詞檢索,對關鍵詞進行統計分析;同時,對分詞之后的文本進行特征挖掘及分析,為進一步預測社會群體的交往意向和可能發生的行為結果,以及學生群體的思維模式和行為動機等提供依據。

[1]Kaplan A M, Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media[J].Business Horizons,2010(3):59-68.

[2]World Wide Web[EB/OL].http://www.springer.com/computer/database+management+%26+information+retrieval/journal/11280.

[3]王明會,丁焰,白良.社會化媒體發展現狀及其趨勢分析[J].信息通信技術,2011(5):10.

[4]曹衛峰.中文分詞關鍵技術研究[D].南京:南京理工大學,2009(6):5.

[5]曹聰聰.中文分詞算法研究[D].海口:海南大學,2007(5):15.

主站蜘蛛池模板: 久久精品娱乐亚洲领先| 2021国产在线视频| 中文字幕无码中文字幕有码在线| 国产剧情无码视频在线观看| 亚洲国产清纯| 91视频精品| 亚洲成人精品| 人妻丝袜无码视频| 国产夜色视频| 色噜噜狠狠色综合网图区| 国产av无码日韩av无码网站| 国产成人亚洲无码淙合青草| 日本人妻一区二区三区不卡影院| a毛片免费看| 国产性生大片免费观看性欧美| 亚洲综合色婷婷| 青青网在线国产| 国产亚洲精久久久久久久91| 99久久无色码中文字幕| 女人18一级毛片免费观看| 国产一区二区三区在线精品专区| 日韩一区二区三免费高清| 国产玖玖视频| 免费观看国产小粉嫩喷水| 日本亚洲欧美在线| 国产成人精品2021欧美日韩| 国产99欧美精品久久精品久久| 日韩精品久久无码中文字幕色欲| 日本道中文字幕久久一区| 国产成人精品在线1区| 国产精品美女网站| 亚洲中文字幕精品| 国产精品私拍在线爆乳| 日韩成人在线网站| 日本爱爱精品一区二区| 婷婷亚洲视频| jizz在线免费播放| 色综合手机在线| 在线人成精品免费视频| 亚洲午夜福利在线| 亚洲视频一区| 青青青国产免费线在| 久久久久人妻一区精品色奶水| 激情五月婷婷综合网| 秋霞午夜国产精品成人片| 色婷婷狠狠干| 精品少妇人妻av无码久久| 99热这里只有精品免费| 亚洲欧美一级一级a| 亚洲第一区在线| 精品無碼一區在線觀看 | 小说区 亚洲 自拍 另类| 国产一区在线视频观看| 国产一区二区三区视频| 国产高清在线观看| 91www在线观看| 精品国产电影久久九九| 在线观看亚洲国产| 国产91透明丝袜美腿在线| 成人毛片免费在线观看| 婷婷六月综合网| 国产免费精彩视频| 经典三级久久| 亚洲国产成人精品无码区性色| 国产一级二级三级毛片| 亚洲国产一区在线观看| 国产无套粉嫩白浆| 国产成人精彩在线视频50| 成人免费黄色小视频| 狠狠色婷婷丁香综合久久韩国| 国产97视频在线| 爆乳熟妇一区二区三区| 国产91精品久久| 尤物特级无码毛片免费| 国产精品v欧美| 潮喷在线无码白浆| 国模私拍一区二区| 亚洲Av综合日韩精品久久久| 欧美成人一区午夜福利在线| 亚洲欧洲国产成人综合不卡| 男女性色大片免费网站| 亚洲第一成年免费网站|