999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交媒體的企業(yè)行為事件挖掘

2018-11-16 07:57:58鄧文君
中文信息學(xué)報(bào) 2018年10期
關(guān)鍵詞:模型企業(yè)

鄧文君,袁 華,錢 宇

(電子科技大學(xué) 經(jīng)濟(jì)與管理學(xué)院,四川 成都 611731)

0 引言

社交媒體作為目前最重要的信息源之一,在社會(huì)輿論、信息傳播、企業(yè)營銷等方面發(fā)揮著其他媒介所不可替代的作用。據(jù)新浪《2016微博企業(yè)白皮書》統(tǒng)計(jì),截至2016年12月底,企業(yè)賬號(hào)注冊(cè)量已達(dá)到130萬,越來越多的企業(yè)利用社交媒體平臺(tái)塑造企業(yè)品牌、產(chǎn)品營銷推廣、客戶關(guān)系管理。相對(duì)傳統(tǒng)的信息傳播方式,企業(yè)加入社交媒體,不僅可以通過平臺(tái)獲取及時(shí)有用的信息,更重要的是還可以發(fā)布大量與企業(yè)經(jīng)營活動(dòng)相關(guān)的信息,而這些信息具有重要的商業(yè)和研究?jī)r(jià)值。

近年來,自然語言處理領(lǐng)域的研究卓有成效。相對(duì)于其他信息類型,文本在實(shí)際生活中使用頻繁、用途廣泛、表達(dá)豐富,而社交媒體中企業(yè)信息主要也是以文本形式呈現(xiàn),且內(nèi)容簡(jiǎn)潔、傳播迅速、相對(duì)真實(shí)且系統(tǒng)地記錄了企業(yè)各方面信息[1]。這些特性非常有利于企業(yè)行為識(shí)別及其演化分析。

然而,有效識(shí)別企業(yè)行為并研究企業(yè)行為演化規(guī)律面臨巨大挑戰(zhàn)。第一,社交媒體數(shù)據(jù)為短文本,具有表達(dá)類型多樣、噪音多、主題多等特點(diǎn);第二,傳統(tǒng)自然語言處理方法,如字典、統(tǒng)計(jì)、標(biāo)注等不能有效表征企業(yè)行為;第三,企業(yè)行為由動(dòng)詞刻畫,人工標(biāo)注耗時(shí)費(fèi)力,且易忽略詞語語境。

為了克服這些挑戰(zhàn),本文提出利用淺層神經(jīng)網(wǎng)絡(luò)有效識(shí)別企業(yè)行為的方法。它不僅可以將企業(yè)行為刻畫成可以計(jì)算的高維向量,而且還保留詞語間部分語義和位置關(guān)系。然后,再基于企業(yè)行為的識(shí)別結(jié)果,分析企業(yè)行為演化,對(duì)比基于企業(yè)大事件等傳統(tǒng)角度分析企業(yè)演化。本文通過社交媒體中企業(yè)信息分析行為演化過程,落腳點(diǎn)更小,針對(duì)性更強(qiáng)。

1 相關(guān)工作

對(duì)本文提出的企業(yè)行為識(shí)別及其演化分析,更通俗的研究領(lǐng)域?yàn)槭录R(shí)別及話題演化。前人在這個(gè)領(lǐng)域做過很多研究,主要從傳統(tǒng)數(shù)據(jù)源識(shí)別事件,比如Zhiwei Li等人[2]在2005年提出了利用概率模型將新聞內(nèi)容和時(shí)間信息統(tǒng)一作為事件識(shí)別的要素從而識(shí)別新聞事件。隨著微博、推特等社交媒體發(fā)展,越來越多的研究聚焦于社交媒體,Wayne Xin Zhao等人在2013年提出一個(gè)針對(duì)突發(fā)事件文本表征模型,將突發(fā)事件的特征映射為向量[3]。對(duì)于突發(fā)事件,學(xué)者關(guān)注疾病爆發(fā)事件、經(jīng)濟(jì)危機(jī)事件、總統(tǒng)選舉、恐怖事件等,Becker等人[4]利用聚類算法去識(shí)別社交媒體數(shù)據(jù)中的事件;Qian等人[5]提出了BMM-SLDA模型,通過整合有監(jiān)督主題模型提高事件分類框架;Ritter等人[6]提取四組元素去匹配重要事件;Becker等人[7]還提出學(xué)習(xí)多特征相似矩陣的識(shí)別技術(shù);Young等人在2014年設(shè)計(jì)了一個(gè)生成模型,可以識(shí)別時(shí)間、位置以及緊急情況和非緊急情況不同性質(zhì)的事件;Rozenshtein等人在2014年提出使用兩個(gè)圖模型來形式化事件檢測(cè)的問題;Dong等人[8]提出了一種使用社交媒體數(shù)據(jù)進(jìn)行多尺度事件檢測(cè)的新方法。

對(duì)于話題演化方面的研究,傳統(tǒng)的方法如TFIDF(Term Frequency-Inverse Document Frequency),僅僅通過詞頻表征文檔,忽略了詞語的語義和位置關(guān)系;或者是利用矩陣的奇異值分解技術(shù)對(duì)文本降維,從而處理文本數(shù)據(jù);其中,最為有名的是Blei等人[9]提出的概率生成模型LDA(Latent Dirichlet Allocation)以及其他學(xué)者在LDA基礎(chǔ)上提出的概率模型。本文是利用淺層神經(jīng)網(wǎng)絡(luò)Word2Vec訓(xùn)練詞表征,從而識(shí)別企業(yè)行為,然后再對(duì)識(shí)別結(jié)果進(jìn)行企業(yè)行為演化分析。詞表征訓(xùn)練的優(yōu)點(diǎn)不僅是將文本語料轉(zhuǎn)化為可計(jì)算的向量,更重要的是結(jié)合了詞語之間的語義和位置關(guān)系。

2 研究方法

2.1 企業(yè)行為定義

企業(yè)行為(Enterprise Behavior)是指企業(yè)為了追求一定目標(biāo)而進(jìn)行的相關(guān)商業(yè)或社會(huì)活動(dòng),主要包括生產(chǎn)行為、分配行為、營銷行為、金融行為、創(chuàng)新行為等。而本文中的企業(yè)行為指企業(yè)利用社交媒體平臺(tái)發(fā)布企業(yè)相關(guān)信息從而達(dá)到產(chǎn)品發(fā)布、銷售、推廣以及粉絲關(guān)系管理等目標(biāo)的一系列行為,主要包括了發(fā)售(產(chǎn)品的發(fā)布和銷售)、推廣(產(chǎn)品的營銷推廣)、招募(招募粉絲及粉絲關(guān)系管理)、研發(fā)(產(chǎn)品技術(shù)創(chuàng)新和產(chǎn)品研發(fā))、合作(企業(yè)與其他企業(yè)或社交媒體的大V合作)等等。

本文使用的企業(yè)行為標(biāo)簽是邀請(qǐng)志愿者結(jié)合企業(yè)行為定義和對(duì)語料庫中前500個(gè)高頻動(dòng)詞的理解,最終確定的企業(yè)行為類別標(biāo)簽。根據(jù)實(shí)驗(yàn)需要,本文形成了發(fā)售、推廣、招募、研發(fā)、合作五類和銷售、推廣、研發(fā)、合作四類企業(yè)行為標(biāo)簽。

2.2 企業(yè)行為識(shí)別方法

2.2.1 問題定義

首先用Weibos表示語料庫所有文檔,如式(1)所示。

(1)

企業(yè)通過社交媒體平臺(tái)發(fā)布企業(yè)相關(guān)信息,而這些信息中隱含了大量企業(yè)行為。為了識(shí)別企業(yè)行為,假設(shè)企業(yè)行為共有n類,用集合E表示,如式(2)所示。

E={e1,e2,…,ei,…,en}

(2)

上述每一類行為都能被一組k維向量表示,如式(3)所示。

ei=[vi1,vi2,…,vij,…,vik]

(3)

其中向量的元素vij表示事件的一個(gè)觸發(fā)詞。

由于社交媒體平臺(tái)信息多為短文本(限定140字),本文假定每一篇文檔最多包含一類行為。因此,本文需要解決的問題是,識(shí)別出一篇新文檔Weiboj中的企業(yè)行為ei,然后分析帶有時(shí)間戳的企業(yè)行為如何演化。

2.2.2 企業(yè)行為識(shí)別研究框架

本文提出的企業(yè)行為識(shí)別框架主要分為兩部分:構(gòu)建企業(yè)行為識(shí)別分類器,以及利用分類器來識(shí)別新文檔中的潛在事件。完整的流程如圖1所示。

圖1 企業(yè)行為識(shí)別框架

構(gòu)建企業(yè)行為識(shí)別分類器流程如下:(1)對(duì)語料庫數(shù)據(jù)進(jìn)行預(yù)處理; (2)利用Word2Vec訓(xùn)練詞表征; (3)人工標(biāo)注部分企業(yè)行為標(biāo)簽,形成種子數(shù)據(jù); (4)對(duì)種子數(shù)據(jù)進(jìn)行動(dòng)詞抽取,并基于詞表征計(jì)算種子數(shù)據(jù)集中企業(yè)行為向量seedei; (5)根據(jù)企業(yè)行為seedei對(duì)語料庫中剩余動(dòng)詞進(jìn)行相似度識(shí)別形成觸發(fā)器; (6)基于觸發(fā)器形成企業(yè)行為向量ei進(jìn)行企業(yè)行為識(shí)別。

對(duì)于一篇新的文檔weiboj,首先進(jìn)行數(shù)據(jù)預(yù)處理,再抽取動(dòng)詞,然后用動(dòng)詞向量表征新文檔。

2.2.3 數(shù)據(jù)預(yù)處理

本文使用了Python+scrapy的爬蟲框架,抓取了國內(nèi)知名手機(jī)廠商(主要有華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、VIVO、HTC、TCL)的官方微博。

數(shù)據(jù)預(yù)處理主要包括以下幾方面:

? 數(shù)據(jù)清洗:使用Python的庫Beautifulsoup對(duì)數(shù)據(jù)集中html5標(biāo)簽進(jìn)行解析,然后再刪除重復(fù)數(shù)據(jù)。

? 分詞處理:將文本分成有意義的單元,本文使用Jieba對(duì)文本進(jìn)行分詞。

? 刪除無意義詞:由于文本中經(jīng)常包含一字詞和停用詞,為了獲得更好的實(shí)驗(yàn)效果,所以需要?jiǎng)h除無意義詞。

數(shù)據(jù)預(yù)處理后,文檔由k個(gè)有序詞元素組成,如式(4)所示。

weiboi=wi1,wi2,…,wik

(4)

其中,wij表示weiboi中第j個(gè)位置上的詞。

2.2.4 詞表征

對(duì)于詞表征,即是將詞語表征為向量,如式(5)所示。

(5)

近年來,從海量非結(jié)構(gòu)化文本數(shù)據(jù)中訓(xùn)練詞表征,已經(jīng)取得了卓有成效的研究。尤其Mikolov等人[10]提出Skip-gram模型,Skip-gram模型訓(xùn)練詞表征主要是通過輸入當(dāng)前詞語來預(yù)測(cè)詞語周圍出現(xiàn)的詞語,簡(jiǎn)單來講,它的數(shù)學(xué)模型就是給定文檔的訓(xùn)練詞組ws=ws1,ws2,…,wsT,訓(xùn)練對(duì)象的最大概率,如式(6)所示。

(6)

其中wst表示ws中第t個(gè)詞,pwsj|wst表示出現(xiàn)詞wst條件下出現(xiàn)wsj的概率,b表示第t個(gè)詞前后b個(gè)詞,即訓(xùn)練窗口大小。

2.2.5 觸發(fā)器及企業(yè)行為識(shí)別

Ritter等人提出利用觸發(fā)器識(shí)別社交媒體中人的行為,本文將其觸發(fā)器思想運(yùn)用到企業(yè)行為識(shí)別中,觸發(fā)器及企業(yè)行為識(shí)別如下:

(1) 種子行為表征:利用種子數(shù)據(jù)中同一類企業(yè)行為中所有動(dòng)詞的平均詞向量來表示這種子企業(yè)行為,如式(7)所示。

(7)

其中,seedei表示種子數(shù)據(jù)中企業(yè)行為向量,用seedei=vi1,vi2,…,vij,…,vim表示,i表示標(biāo)簽類型,Ri表示i類標(biāo)簽中的動(dòng)詞總數(shù),vec(seedij)表示種子數(shù)據(jù)中第i類企業(yè)行為中第j個(gè)動(dòng)詞的向量。

(2) 同義詞識(shí)別:淺層神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞表征,使得詞向量保留了詞語部分語義和位置關(guān)系。本文利用詞向量的這個(gè)特性,進(jìn)行同義詞識(shí)別。根據(jù)cosine計(jì)算兩個(gè)動(dòng)詞相似度。如式(8)所示。

(8)

(3) 觸發(fā)器識(shí)別:在本文中假定語料庫中動(dòng)詞都能在一定程度上觸發(fā)某類企業(yè)行為。

第一步:利用(1)種子行為向量對(duì)剩余前top個(gè)高頻動(dòng)詞進(jìn)行同義詞識(shí)別,如式(9)所示。

(9)

其中vi表示剩余的前top個(gè)動(dòng)詞詞組中的第i個(gè)動(dòng)詞,vec(vi)是利用詞表征得到的動(dòng)詞向量。

第二步: 取相似度值最大。如果最大值大于等于閾值u0,則動(dòng)詞的企業(yè)行為標(biāo)簽e*為最大相似度值;如果最大值小于u0,動(dòng)詞會(huì)被當(dāng)成噪音過濾掉。如式(10)所示。

(10)

(4) 企業(yè)行為表征:利用觸發(fā)器動(dòng)詞詞組(triggerv)的平均向量表征企業(yè)行為,如式(11)所示。

(11)

其中,vec(triggervij)表示觸發(fā)企業(yè)行為i中的j個(gè)動(dòng)詞,Ri為觸發(fā)動(dòng)詞總數(shù),由此得到企業(yè)行為向量表示為ei=vi1,vi2,…,vij,…,vik。

(5) 分類器:第一步:通過觸發(fā)器表征企業(yè)行為ei;新文檔向量用vec(weiboi)表示,利用cosine計(jì)算兩者相似度。如式(12)所示。

(12)

第二步: 本文給sim(vec(weibok),ei)設(shè)定閾值用u1表示。如果sim(vec(weibok),ei)的最大值小于閾值u1,這將此篇文檔標(biāo)為NULL,反之,將此文檔標(biāo)注為相似度最高的企業(yè)行為標(biāo)簽。如式(13)所示。

(13)

其中,i*表示企業(yè)行為標(biāo)簽。

綜上所述,對(duì)新文檔的企業(yè)行為識(shí)別算法如表1所示。

表1 企業(yè)行為識(shí)別算法

2.3 企業(yè)行為演化模型

基于識(shí)別結(jié)果進(jìn)行企業(yè)行為演化建模,演化分析包括兩個(gè)維度:(1)企業(yè)在某一時(shí)間段的行為演化; (2)競(jìng)爭(zhēng)型企業(yè)間行為的對(duì)比演化。演化分析的兩個(gè)維度不僅可以研究企業(yè)自身行為趨勢(shì),而且可以對(duì)比競(jìng)爭(zhēng)企業(yè)的市場(chǎng)走勢(shì)。

基于以上兩個(gè)維度,假設(shè)企業(yè)用集合C表示,即C=c1,c2,…,ci,…,ck,某一區(qū)間設(shè)為T=tx~ty,時(shí)間粒度設(shè)置為t個(gè)月,企業(yè)行為用E=e1,e2,…,ei,…,en表示。

對(duì)于某一企業(yè)ck(常量)的企業(yè)行為ei在時(shí)間區(qū)間T,時(shí)間粒度為t月的所對(duì)應(yīng)的企業(yè)行為數(shù)量如式(14)所示。

(14)

因此,企業(yè)在時(shí)間區(qū)間為T,時(shí)間粒度為t月,企業(yè)ck所對(duì)應(yīng)的所有企業(yè)行為ei占比如式(15)所示,其中Ratio主要用于衡量某一企業(yè)在時(shí)間粒度t發(fā)布信息的重點(diǎn)(即該階段企業(yè)行為占比情況)。

(15)

同理,對(duì)于企業(yè)行為em(常量)在時(shí)間區(qū)間T,時(shí)間粒度為t月,某企業(yè)ci對(duì)應(yīng)企業(yè)行為em數(shù)量表示如式(16)所示,

(16)

因此,在時(shí)間區(qū)間為T,時(shí)間粒度為t月,針對(duì)特定企業(yè)行為em所對(duì)應(yīng)的k家企業(yè)的占比如式(17)所示,這里Ratio主要用于衡量在同一時(shí)間段,各個(gè)企業(yè)發(fā)布信息的重點(diǎn)(即該階段不同企業(yè)的同一行為的占比情況)。

(17)

所以,通過以上兩個(gè)模型,可以求得針對(duì)特定企業(yè)的某些企業(yè)行為占比情況,以及針對(duì)特定企業(yè)中某些企業(yè)的特定行為占比情況。由于企業(yè)行為都帶有時(shí)間戳進(jìn)而可以得到企業(yè)行為的演化情況。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)

本次實(shí)驗(yàn)數(shù)據(jù)來自新浪微博[注]http://weibo.com,數(shù)據(jù)對(duì)象是國內(nèi)知名手機(jī)企業(yè)的官方微博(包括華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、VIVO、HTC和TCL等十家企業(yè)),圖2為企業(yè)賬號(hào)發(fā)布原始數(shù)據(jù)樣式。

圖2 微博原始數(shù)據(jù)樣例

本次實(shí)驗(yàn)一共爬取數(shù)據(jù)88 874條(數(shù)據(jù)量12.2MB),每條數(shù)據(jù)包括微博ID、賬號(hào)名、發(fā)布時(shí)間、發(fā)布內(nèi)容四個(gè)屬性值。通過對(duì)語料庫進(jìn)行數(shù)值統(tǒng)計(jì)(表2),可以看到語料庫中動(dòng)詞總數(shù)為1 397 726個(gè)。人工難以將所有動(dòng)詞進(jìn)行準(zhǔn)確標(biāo)注,所以本文提出的觸發(fā)器識(shí)別具有重要的意義。

表2 預(yù)處理后數(shù)據(jù)統(tǒng)計(jì)

續(xù)表

對(duì)語料庫中所有動(dòng)詞進(jìn)行統(tǒng)計(jì),得到語料庫中前100個(gè)高頻動(dòng)詞詞頻統(tǒng)計(jì),如圖3所示。

另外,本文對(duì)微博賬號(hào)的數(shù)據(jù)分布進(jìn)行統(tǒng)計(jì)(表3),包括了每個(gè)賬號(hào)名(ID號(hào))、微博總數(shù)以及時(shí)間間隔。由于社交媒體平臺(tái)系統(tǒng)記錄了企業(yè)信息,非常有利于后續(xù)研究企業(yè)行為演化過程。

本次實(shí)驗(yàn)需要用到種子數(shù)據(jù)和基準(zhǔn)數(shù)據(jù),種子數(shù)據(jù)的主要目的是用于對(duì)企業(yè)行為進(jìn)行分類,所以種子數(shù)據(jù)中每篇文檔都被標(biāo)注企業(yè)行為標(biāo)簽。基準(zhǔn)

表3 微博數(shù)據(jù)分布統(tǒng)計(jì)

圖3 語料庫中剩余動(dòng)詞前100個(gè)高頻動(dòng)詞

數(shù)據(jù)主要用于對(duì)分類器的準(zhǔn)確率、召回率以及F值進(jìn)行評(píng)估。為了標(biāo)注數(shù)據(jù),本文邀請(qǐng)志愿者隨機(jī)讀取文檔,并根據(jù)對(duì)文檔的理解給其標(biāo)注對(duì)應(yīng)的企業(yè)行為標(biāo)簽,第一份種子數(shù)據(jù)的標(biāo)簽類別分別是推廣、發(fā)售、研發(fā)、合作、招募五類。第二份的標(biāo)簽分別是銷售、研發(fā)、合作、推廣四類。每組種子數(shù)據(jù)包括1 000篇文檔,每一類型總數(shù)一致,基準(zhǔn)數(shù)據(jù)集中包括300篇文檔,每一類型總數(shù)一致,一共標(biāo)注了兩組基準(zhǔn)數(shù)據(jù)。

3.2 訓(xùn)練詞表征

對(duì)于詞表征,本文通過Word2Vec訓(xùn)練詞向量表征文檔,可以通過Python調(diào)用Gensim[注]Genism來源:https://radimrehurek.com/gensim/完成的語料訓(xùn)練。

Word2Vec包括了兩個(gè)模型,分別是Skip-gram和CBOW(Continuous Bag of Words),其中主要的參數(shù)是窗口、模型、維度。為了驗(yàn)證最佳窗口以及最佳模型,本文對(duì)數(shù)據(jù)集data_1和data_2進(jìn)行分類評(píng)估,選擇維度size=100(即將詞映射成100維的向量);對(duì)于窗口以及模型參數(shù),窗口參數(shù)取值列表window=2,3,4,5,6,7,8,模型參數(shù)列表sg=[0,1],sg=0表示選擇CBOW,sg=1表示選擇skip-gram,對(duì)比評(píng)價(jià)指標(biāo)F_值如圖4所示。

從圖4可以明顯看出,對(duì)于兩組數(shù)據(jù)集,skip-gram模型都比COBW更好;而窗口選擇window=7效果最好。

因此,本文選擇的參數(shù)如下所示:

? 向量維度size=100;

? 內(nèi)容的窗口大小window=7;

? 選擇模型sg=1,即選擇Skip-gram。

3.3 企業(yè)行為識(shí)別

3.3.1 觸發(fā)器參數(shù)實(shí)驗(yàn)

觸發(fā)器參數(shù)實(shí)驗(yàn)主要針對(duì)參數(shù)top(表示高頻動(dòng)詞取值)。本文對(duì)剩余動(dòng)詞中前top個(gè) 高 頻 詞 進(jìn)行觸發(fā)器識(shí)別,通過對(duì)高頻動(dòng)詞和種子數(shù)據(jù)中企業(yè)行為進(jìn)行相似度計(jì)算。如果最大相似度小于閾值,則此高頻動(dòng)詞無法觸發(fā)企業(yè)行為,如果相似度最大值大于等于閾值,那么詞高頻動(dòng)詞觸發(fā)了企業(yè)行為,將此動(dòng)詞加入到觸發(fā)對(duì)應(yīng)企業(yè)行為的觸發(fā)器中。

圖4 基于F_值指標(biāo)的詞向量訓(xùn)練窗口及模型趨勢(shì)

基于數(shù)據(jù)集data_1,研究隨著前top個(gè)動(dòng)詞變化(top=[100,200,300,400,500,600,700,800,900]),分類器的準(zhǔn)確率、召回率和F_值的變化如圖5所示,其中觸發(fā)器閾值設(shè)定u0=0.3,分類器閾值設(shè)定u1=0.3

圖5 Data_1高頻動(dòng)詞對(duì)觸發(fā)器影響

從圖5明顯看出隨著top變化,識(shí)別效果會(huì)在某一個(gè)點(diǎn)達(dá)到峰值,data_1中峰值為top=400。實(shí)驗(yàn)表明,隨著top增加,觸發(fā)器識(shí)別能夠提高企業(yè)行為識(shí)別。但隨著top增加,噪音也會(huì)增加,觸發(fā)器會(huì)降低企業(yè)行為識(shí)別準(zhǔn)確性。

表4展示了觸發(fā)器中每一類企業(yè)行為對(duì)應(yīng)的前五個(gè)觸發(fā)動(dòng)詞。根據(jù)觸發(fā)器參數(shù)實(shí)驗(yàn),在此觸發(fā)器識(shí)別參數(shù)選擇分別為:top=100,u0=0.3。

從表4中可以看出“發(fā)售”行為的觸發(fā)器動(dòng)詞組識(shí)別效果較好,而其他企業(yè)行為都相應(yīng)地加入了噪音動(dòng)詞。此結(jié)果說明觸發(fā)器單憑閾值u0設(shè)置,不能夠有效地過濾掉高頻動(dòng)詞中的噪音動(dòng)詞,觸發(fā)器識(shí)別導(dǎo)致企業(yè)行為加入了相應(yīng)的噪音動(dòng)詞。

綜上,對(duì)觸發(fā)器參數(shù)識(shí)別中參數(shù)選擇如下:

? 剩余動(dòng)詞中高頻動(dòng)詞:top=400;

? 相似度閾值:u0=0.3

3.3.2 分類器識(shí)別效果

為了驗(yàn)證我們提出的企業(yè)行為識(shí)別模型的有效性,我們比較了其他四種表征詞向量的方法,分別是詞袋(Bag of Words,BOW)[11]、TFIDF+BOW、TFIDF加權(quán)以及LDA。LDA是一個(gè)無監(jiān)督學(xué)習(xí)算法,將文檔集中每一篇文檔的主題以概率分布的形式給出;BOW假設(shè)文檔中詞匯是獨(dú)立的,基于文檔中的詞匯來構(gòu)建詞典,最后用詞典向量表征一篇文檔;TFIDF+BOW則需計(jì)算數(shù)據(jù)集中每個(gè)詞的TFIDF值,選擇高頻的TFIDF值的詞形成詞袋向量,從而表征文檔;而TFIDF加權(quán)選擇詞的方式與TFIDF+BOW一致,只是向量每一維的值等于對(duì)應(yīng)詞語在該句中的TFIDF值,以它作為加權(quán)值,從而表征文檔。它的主要缺點(diǎn)是忽略文本語法和語序關(guān)系導(dǎo)致識(shí)別效果不佳。對(duì)于四種方法,對(duì)比實(shí)驗(yàn)結(jié)果如下:

從圖6可以看出基于Word2Vec表征文檔向量的分類效果,明顯優(yōu)于其他四種表征文檔的方法。其主要原因是:Skip-gram模型是一個(gè)淺層神經(jīng)網(wǎng)絡(luò)。它的每個(gè)詞與其上下文建立聯(lián)系(窗口控制),通過對(duì)語料庫的訓(xùn)練使得參數(shù)得到優(yōu)化,最終使得相關(guān)或者相似的詞更接近,用于觸發(fā)器以及企業(yè)行為識(shí)別的效果自然更優(yōu)。但是,本文的方法也存在局限性,比如不能有效地識(shí)別出NULL,即識(shí)別出每一篇文檔都具有企業(yè)行為。

圖6 分類器對(duì)比實(shí)驗(yàn)結(jié)果

本文對(duì)于分類器識(shí)別,相似度閾值參數(shù)選擇如下:u1=0.3。

3.4 行為演化形式化

根據(jù)演化模型,針對(duì)維度一,本文分別選取了華為、VIVO、中興三家企業(yè)在2015年1月到2016年6月的數(shù)據(jù),用于研究這三家企業(yè)五類企業(yè)行為上的演化過程。其中參數(shù)分別表示為T=2015.1~2016.6,t=1個(gè)月,ck=[“華為”,“中興”,“VIVO”],E=[“發(fā)售”,“推廣”,“研發(fā)”,“合作”,“招募”],最后得到了三家企業(yè)的演化過程。(如圖7~圖9所示)。

圖7 2015.1~2016.6華為公司行為演化

圖8 2015.1~2016.6VIVO公司行為演化

圖9 2015.1~2016.6中興公司行為演化

針對(duì)維度一,可以看出不同企業(yè)的行為分布差異明顯,不同企業(yè)利用社交媒體平臺(tái)的側(cè)重點(diǎn)也不同。如圖7和8,可以看出華為注重在社交媒體中發(fā)布企業(yè)“合作”和“研發(fā)”行為等相關(guān)的企業(yè)信息,而VIVO則是側(cè)重將社交媒體平臺(tái)作為一個(gè)營銷推廣平臺(tái),發(fā)布“招募”類信息。圖9展示出中興各類行為都有涉及,而“發(fā)售”行為占比很低。

針對(duì)維度二,分別取了華為、VIVO、中興、小米四家企業(yè)在2015年1月到2016年6月的數(shù)據(jù)中“發(fā)售”、“研發(fā)”、“合作”、“推廣”、“招募”五類企業(yè)行為。參數(shù)表示為T=2015.1~2016.6,t=1個(gè)月,C=[“華為”,“中興”,“VIVO”,“小米”],em=[“發(fā)售”,“研發(fā)”,“合作”,“推廣”,“招募”],五類企業(yè)行為具體演化如圖10~圖14所示。

圖10 2015.1~2016.6四家企業(yè)“發(fā)售”行為演化

圖11 2015.1~2016.6 四家企業(yè)“研發(fā)”行為演化

圖12 2015.1~2016.6 四家企業(yè)“合作”行為演化

圖13 2015.1~2016.6 四家企業(yè)“推廣”行為演化

圖14 2015.1~2016.6 四家企業(yè)“招募”行為演化

針對(duì)維度二,對(duì)于同一類的企業(yè)行為,競(jìng)爭(zhēng)型企業(yè)之間具有不同的演化過程。通過分析競(jìng)爭(zhēng)型企業(yè)間演化過程,能夠了解預(yù)測(cè)對(duì)手的情況。圖10針對(duì)“發(fā)售”行為,可以看出華為發(fā)布的“發(fā)售”信息較少甚至沒有,而小米和VIVO兩家以營銷起家的企業(yè)明顯更加側(cè)重于在社交媒體平臺(tái)進(jìn)行營銷,而中興則是走“中庸路線”;圖11針對(duì)“研發(fā)”行為,四家企業(yè)每月發(fā)布“研發(fā)”行為各有規(guī)律,其中華為的占比相對(duì)較高;圖12針對(duì)“合作”行為,其中中興和華為兩家企業(yè)合作行為表現(xiàn)明顯,而小米和VIVO發(fā)布關(guān)于“合作”行為的博文則相對(duì)較少;圖13針對(duì)“推廣”行為,其中VIVO和小米穩(wěn)居高位,且呈現(xiàn)對(duì)抗趨勢(shì),即強(qiáng)競(jìng)爭(zhēng)關(guān)系。而中興、華為在社交媒體上發(fā)布“推廣”信息明顯低于前兩家企業(yè);圖14針對(duì)“招募”行為,VIVO作為營銷型企業(yè),VIVO的招募行為明顯高于其他三家企業(yè)。

4 總結(jié)與展望

社交媒體中海量的用戶生成數(shù)據(jù)(User-generated Content,UGC)免費(fèi)且易獲取。這類數(shù)據(jù)具有重要的商業(yè)和研究?jī)r(jià)值,但傳統(tǒng)的統(tǒng)計(jì)分析和自然語言處理方法不能有效地處理這些數(shù)據(jù)。因此,本文提出了利用深度學(xué)習(xí)工具Word2Vec和動(dòng)詞觸發(fā)器有效識(shí)別企業(yè)行為的方法,然后再基于識(shí)別方法分析企業(yè)行為的演化過程。

研究結(jié)果表明:本文基于神經(jīng)網(wǎng)絡(luò)模型挖掘企業(yè)行為的方法明顯優(yōu)于傳統(tǒng)方法,但是未來仍需要改進(jìn)對(duì)NULL(空類)以及多類主題的識(shí)別。對(duì)于企業(yè)行為的演化分析,不僅可以用于分析企業(yè)自身演化,也可以分析競(jìng)爭(zhēng)對(duì)手間對(duì)比演化,未來可以用于對(duì)企業(yè)發(fā)展規(guī)律、企業(yè)關(guān)系抽取、企業(yè)知識(shí)圖譜等方向的研究。

猜你喜歡
模型企業(yè)
一半模型
企業(yè)
企業(yè)
企業(yè)
企業(yè)
企業(yè)
重要模型『一線三等角』
敢為人先的企業(yè)——超惠投不動(dòng)產(chǎn)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 99中文字幕亚洲一区二区| 国产精品人人做人人爽人人添| 91小视频在线| 蜜臀AVWWW国产天堂| 久久无码免费束人妻| 九九久久精品免费观看| 国产成年无码AⅤ片在线| 久久久久亚洲av成人网人人软件| 伊人久久精品亚洲午夜| 九九久久99精品| 欧美a在线| 亚洲第一视频免费在线| 国产精品青青| 亚洲中文字幕97久久精品少妇| 精品五夜婷香蕉国产线看观看| 色国产视频| 日本午夜精品一本在线观看| 国产h视频免费观看| 欧美成人aⅴ| 精品無碼一區在線觀看 | 午夜毛片福利| 欧美一级高清片久久99| 国产精品三级专区| 亚洲第一区在线| 国产精品亚洲一区二区三区在线观看| 免费在线色| 欧美特级AAAAAA视频免费观看| 精品少妇人妻无码久久| 超薄丝袜足j国产在线视频| 一级毛片无毒不卡直接观看| 国产精品久久久久久久久久98| 精品无码一区二区三区电影 | 国产精品福利导航| 麻豆AV网站免费进入| 亚洲欧洲日韩综合| m男亚洲一区中文字幕| 久久77777| 亚洲精品免费网站| 久久综合婷婷| 欧美乱妇高清无乱码免费| 国产福利一区在线| 日韩天堂视频| 国产91导航| 久久综合五月婷婷| 欧美亚洲欧美| 久无码久无码av无码| 91久久天天躁狠狠躁夜夜| 亚洲国产综合自在线另类| 思思热在线视频精品| 91成人在线观看视频| 色综合久久88色综合天天提莫| 国产肉感大码AV无码| 亚洲三级视频在线观看| 成人韩免费网站| 日本黄色不卡视频| 日本成人精品视频| 996免费视频国产在线播放| 国产一级妓女av网站| 久夜色精品国产噜噜| 亚洲激情99| 麻豆国产在线不卡一区二区| 日韩a在线观看免费观看| 制服丝袜 91视频| 青青草原国产精品啪啪视频| 456亚洲人成高清在线| 91精品国产91久久久久久三级| 免费人成在线观看成人片| 国产成人久久综合777777麻豆| 中文字幕资源站| 幺女国产一级毛片| 久久久久无码精品| 一边摸一边做爽的视频17国产| 欧美日本在线一区二区三区| 国产日本欧美在线观看| 国产一区亚洲一区| 国产伦精品一区二区三区视频优播| 久久综合婷婷| 五月激情综合网| 天天色天天综合| 亚洲国产看片基地久久1024| 天天爽免费视频| 欧美全免费aaaaaa特黄在线|