王維建
(上海新華控制技術(shù)(集團(tuán))有限公司,上海 200240)
隨著互聯(lián)網(wǎng)的快速發(fā)展,我國(guó)的網(wǎng)民數(shù)量快速增加。據(jù)CNNIC發(fā)布的《第39次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示[1],截至2016年12月,我國(guó)網(wǎng)民規(guī)模達(dá)7.31億,互聯(lián)網(wǎng)的普及率達(dá)到53.2%。微博作為分享簡(jiǎn)短實(shí)時(shí)信息的廣播式的社交網(wǎng)絡(luò)平臺(tái),吸引了龐大的用戶群。《報(bào)告》顯示,截止至2017年3月31日,微博月活躍用戶已達(dá)3.4億。作為新興的媒介,微博依靠其龐大的用戶群數(shù)量和迅速的消息傳播能力,使得一些微博熱點(diǎn)事件能在極短時(shí)間內(nèi)廣泛傳播并形成網(wǎng)絡(luò)輿情。有些網(wǎng)絡(luò)水軍也利用這個(gè)特點(diǎn)來(lái)控制輿論、傳播謠言等,使得微博給不法分子留下了可趁之機(jī)。計(jì)算微博文本相似度,有助于比較微博之間的關(guān)系,對(duì)于識(shí)別網(wǎng)絡(luò)水軍、尋找輿論操控者以及打擊傳播違法虛假信息的行為都有重大意義。同樣,計(jì)算微博文本相似度的工作為微博傳播路徑構(gòu)建、微博熱點(diǎn)話題檢測(cè)和微博輿情檢測(cè)等奠定基礎(chǔ)。
微博,即微型博客,源自英文單詞microblog。作為Web 2.0的產(chǎn)物,微博屬于博客的一種形式,但單篇的文本內(nèi)容通常限制在140個(gè)字以內(nèi)。這一特點(diǎn)使得微博的信息碎片化,文本本身普遍短小、簡(jiǎn)潔,與傳統(tǒng)意義上的文章有較大的差別,使得傳統(tǒng)的用于長(zhǎng)文本相似度計(jì)算的方法不太適用于微博研究。同時(shí),微博中經(jīng)常包括各種以“@”開(kāi)頭的用戶ID名稱和各類表情的使用等,大大增大了微博文本處理的難度。因此,如何利用微博短文本的特點(diǎn)設(shè)計(jì)高效的微博文本相似度計(jì)算算法成為一個(gè)難點(diǎn)。
本文提出一種基于公共塊的“對(duì)稱-補(bǔ)償”微博文本相似度計(jì)算模型,根據(jù)微博文本各個(gè)詞之間的相似度、公共塊中詞項(xiàng)的數(shù)量、詞語(yǔ)在微博中出現(xiàn)的順序及微博標(biāo)簽等屬性來(lái)計(jì)算微博間的相似度,并設(shè)置一個(gè)合理的閾值,當(dāng)相似度大于該閾值時(shí)認(rèn)為兩條微博是“相似的”。
國(guó)內(nèi)外研究者已經(jīng)開(kāi)展了大量的文本相似度計(jì)算工作,提出過(guò)多種類型的算法。張煥炯、王國(guó)勝等[2]提出基于漢明距離的文本相似度計(jì)算,王振振、何明等[3]提出基于LDA主題模型的文本相似度計(jì)算方法,郭慶琳、李艷梅等人[4]提出利用TF-IDF算法提取特征詞并用向量空間余弦值來(lái)衡量文本相似度的算法。但是,這些算法不是專門針對(duì)微博短文本,在用于短小簡(jiǎn)潔的微博文本相似度計(jì)算時(shí)效果難免會(huì)下降。對(duì)于短文本相似度計(jì)算,重慶理工大學(xué)黃賢英等人[5]提出基于公共詞塊的英文短文本相似度計(jì)算,將傳統(tǒng)文本相似度計(jì)算與短文本的特點(diǎn)結(jié)合起來(lái)。
微博本身具有簡(jiǎn)潔性和隨意性,使得微博文本并不像傳統(tǒng)文本一樣具有較為固定的結(jié)構(gòu)與語(yǔ)法,甚至還可能夾雜一些表情、用戶ID或者網(wǎng)絡(luò)流行用語(yǔ)。微博文本中還可能含有標(biāo)簽話題,即以“#”開(kāi)頭和結(jié)尾的、高度概括表達(dá)該條微博文本內(nèi)容主題的文字,一般不超過(guò)10個(gè)字?;诠矇K的“補(bǔ)償-對(duì)稱”博文本相似度計(jì)算模型將緊密結(jié)合并利用微博的特點(diǎn)進(jìn)行相似度計(jì)算,計(jì)算框圖如圖1所示。

圖1 計(jì)算流程
微博文本的隨意性,使得它并不像普通傳統(tǒng)性文本有清晰的結(jié)構(gòu)、明晰的格式以及合乎邏輯的語(yǔ)法。微博中常常有一些對(duì)計(jì)算微博文本相似度的干擾項(xiàng),如表示各種表情的編碼、以“@”開(kāi)頭來(lái)引用某一用戶ID或者含有系統(tǒng)自帶的“轉(zhuǎn)發(fā)微博”“秒拍視頻”等詞項(xiàng)。正文部分各類標(biāo)點(diǎn)符號(hào)如“,”“?”等,或者是一些常用的停用詞如“哦”“啊”“的”詞,也不利于正確計(jì)算微博之間的相似度。所以,對(duì)微博文本先進(jìn)行預(yù)處理顯得十分必要。
預(yù)處理流程如下:
步驟 1:去除微博文本中形如“http∶//”“https∶//”的網(wǎng)址。
步驟2:去除以“#”開(kāi)頭的微博標(biāo)簽,并提取儲(chǔ)存用于之后的處理。
步驟3:去除以“@”開(kāi)頭的微博用戶ID。
步驟4:去除停用詞,停用詞集合A={哦,啊,嗎,阿,哎,哎呀,哎喲,唉,吧,……}共598個(gè)詞元素(限于篇幅僅列出部分詞元素)。
步驟5:去除標(biāo)點(diǎn)符號(hào),標(biāo)點(diǎn)符號(hào)集合B={“,”“。”“!”“?”“:”“、”……}共58個(gè)(限于篇幅僅列出部分標(biāo)點(diǎn)符號(hào))。
整個(gè)計(jì)算模型的最小子結(jié)構(gòu)是依賴于詞語(yǔ)與詞語(yǔ)之間的相似度。所以,經(jīng)過(guò)預(yù)處理后的微博文本,還需要對(duì)其進(jìn)行分詞處理,從而進(jìn)行后續(xù)計(jì)算相似度的工作。
本文提出利用Google開(kāi)發(fā)的一款開(kāi)源詞向量計(jì)算工具word2vec計(jì)算并構(gòu)建兩條微博文本的詞語(yǔ)相似度矩陣[6],核心是神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法。采用CBOW(Continuous Bag-of-Words)和Skip-Gram兩種模型,將詞語(yǔ)映像到同一坐標(biāo)系,得出數(shù)值向量。CBOW的目標(biāo)是根據(jù)上下文預(yù)測(cè)當(dāng)前詞語(yǔ)的概率,且上下文所有的詞對(duì)當(dāng)前詞出現(xiàn)概率的影響權(quán)重一樣,因此叫Continuous Bag-of-Words模型。例如,在袋子中取詞,取出數(shù)量足夠的詞即可,至于取出的先后順序無(wú)關(guān)緊要。Skip-gram剛好相反,它是根據(jù)當(dāng)前詞語(yǔ)來(lái)預(yù)測(cè)上下文的概率。word2vec可以在百萬(wàn)數(shù)量級(jí)的詞典和上億的數(shù)據(jù)集上進(jìn)行高效訓(xùn)練,且該工具得到的訓(xùn)練結(jié)果——詞向量可以很好地度量詞與詞之間的相似性。
通過(guò)爬取大量微博文本,將其進(jìn)行分詞后作為word2vec神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集。word2vec神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程,每個(gè)詞的向量維度被設(shè)置為400。詞向量訓(xùn)練時(shí)上下文掃描窗口的大小被設(shè)定為5,而最低頻率設(shè)定為5,即如果一個(gè)詞語(yǔ)在所有文檔中出現(xiàn)的次數(shù)小于5則被丟棄。在大量數(shù)據(jù)訓(xùn)練后,可以獲得一個(gè)相比其他模型更加適用于微博這個(gè)特定類型文本的計(jì)算詞語(yǔ)相似度的模型,對(duì)一些網(wǎng)絡(luò)用語(yǔ)、流行話語(yǔ)、特定的人名或者英文單詞等都更加有針對(duì)性。對(duì)兩條微博,從兩個(gè)詞對(duì)集合中分別選擇一個(gè)詞組成一組詞對(duì),計(jì)算詞對(duì)的相似性。利用word2vec計(jì)算每組詞對(duì)的詞語(yǔ)相似度可以構(gòu)建一個(gè)矩陣,矩陣元素是對(duì)應(yīng)兩個(gè)詞的相似度。
本文提出基于公共塊“對(duì)稱-補(bǔ)償”模型算法進(jìn)行微博文本相似度的計(jì)算,具體步驟如下:
步驟1:在得到微博文本詞語(yǔ)相似度矩陣后,遍歷該矩陣每一行,找到該行中相似度最大值(≥0.3),并把該值對(duì)應(yīng)的詞對(duì)寫入詞對(duì)集合。
步驟2:將第一條微博記為微博A,第二條微博記為微博B。
步驟3:將詞對(duì)集合中的每對(duì)單詞屬于微博A的詞項(xiàng)寫入詞集1,屬于微博B的詞項(xiàng)寫入詞集2。
步驟4:將步驟2中的兩個(gè)詞集根據(jù)在對(duì)應(yīng)的微博文本中出現(xiàn)的順序進(jìn)行排序,得到排序后的詞集1記做D_WordList1,排序后的詞集2記做D_WordList2。
步驟5:從D_WordList1中選擇前兩個(gè)詞語(yǔ),如果它們?cè)谠~對(duì)集合中對(duì)應(yīng)的詞語(yǔ)在D_WordList2中不是連續(xù)遞增,則將這兩個(gè)詞從D_WordList1中刪除,并且作為兩個(gè)公共塊寫入公共塊集合,重復(fù)該操作;如果它們對(duì)應(yīng)的詞語(yǔ)在D_WordList2中是連續(xù)的,則繼續(xù)遍歷到D_WordList1下一個(gè)元素進(jìn)行順序判斷,直到D_WordList1變?yōu)榭占?/p>
步驟6:計(jì)算公共塊在微博A、微博B中的順序向量。為方便計(jì)算,直接定義公共塊集合順序向量在微博A中的順序向量為r1=(1,2,…,i),而相應(yīng)地通過(guò)在公共塊序列中的詞對(duì)可以找到每個(gè)公共塊在微博B中出現(xiàn)的順序,確定微博B的順序向量。
步驟7:采用公共塊序列計(jì)算文本相似度基于以下三條規(guī)則。(1)文本的公共塊數(shù)量越多,文本之間的相似度越高;(2)文本公共塊所包含的詞項(xiàng)個(gè)數(shù)越多,文本間的相似度越高;(3)兩篇文本中公共塊的先后順序越符合,文本間的相似度越高。
具體的計(jì)算公式如式(1)~式(3)所示:

其中simword由公共塊包含詞項(xiàng)數(shù)量決定,simorder由公共塊在兩篇文本中的出現(xiàn)順序決定,B(D1,D2)指所有公共塊包含的詞項(xiàng)總數(shù),L(D1)和L(D2)指兩篇微博文本中分別包含的詞項(xiàng)個(gè)數(shù),r1和r2分別指公共塊在微博D1和微博D2中的順序向量,根據(jù)公共塊在兩條微博中出現(xiàn)的順序,可以計(jì)算出兩條微博對(duì)應(yīng)的順序向量。α和β為實(shí)際實(shí)驗(yàn)中人為調(diào)整的兩個(gè)系數(shù)參數(shù),本文設(shè)α=0.7,β=0.3。
步驟8:補(bǔ)償。在構(gòu)建詞語(yǔ)間的相似度矩陣中可以明顯發(fā)現(xiàn),有些詞語(yǔ)的相似度非常高,這是微博文本相似度高的指示標(biāo)志。同樣,利用微博文本特有的以“#”開(kāi)頭和結(jié)尾的話題功能,當(dāng)兩條微博相同話題數(shù)量越大,可以認(rèn)為兩條微博“相似”的可能性越大。因此,計(jì)算過(guò)程中記錄相似度大于0.8的詞對(duì)數(shù)目并記為Count1,可以得到補(bǔ)償性指標(biāo)。

同時(shí),記錄兩條微博的相同話題標(biāo)簽數(shù)量,并記為Count2,以得到補(bǔ)償性指標(biāo):

通過(guò)補(bǔ)償,將上述計(jì)算的sim(D1,D2)進(jìn)行修正,得到新的sim(D1,D2):

步驟9:對(duì)稱。從上述步驟中可以看出,在順序向量的選取中,為了方便計(jì)算,將微博A的順序向量直接定義為r1=(1,2,…,i),再以該向量為參照結(jié)合公共塊序列和詞項(xiàng)的排序結(jié)果得出微博B的順序向量。顯然,這樣的計(jì)算不具有對(duì)稱性,即把第一條微博作為微博A而把第二條微博作為微博B計(jì)算得出的結(jié)果,不同于把第二條微博作為微博A而把第一條微博作為微博B計(jì)算得出的結(jié)果。因此,對(duì)稱算法將第一條微博作為微博B,第一條微博作為微博A,并重復(fù)上述的步驟3到步驟7,分別記兩次計(jì)算得出的相似度結(jié)果為sim1(D1,D2)和sim2(D1,D2),則最終兩條微博之間的相似度為:

以從新浪微博上隨機(jī)選取的兩條微博為例子來(lái)分析算法流程。兩條微博內(nèi)容如下:
①震驚!詹老漢生涯首次被驅(qū)逐出場(chǎng)??!還是在球隊(duì)大比分領(lǐng)先的情況下!#詹姆斯被驅(qū)逐#轉(zhuǎn)發(fā)微博【可愛(ài)】【可愛(ài)】【可愛(ài)】
②#詹姆斯被驅(qū)逐#職業(yè)生涯首次,詹姆斯對(duì)裁判判罰不滿,連吃到兩個(gè)T直接被驅(qū)逐出場(chǎng)!@NBA籃球協(xié)會(huì)【花心】
經(jīng)過(guò)去除標(biāo)點(diǎn)符號(hào)、停用詞以及表情之類的工作之后進(jìn)行分詞,得到對(duì)應(yīng)的兩條文本為:
①震驚 詹 老漢 生涯 首次 驅(qū)逐 出場(chǎng) 還是在 球隊(duì) 大比分 領(lǐng)先 的 情況 下
② 職業(yè)生涯 首次 詹姆斯 對(duì) 裁判 判罰 不滿連 吃 到 兩個(gè) t 直接 被 驅(qū)逐 出場(chǎng)
可以看出,經(jīng)過(guò)文本預(yù)處理后,微博中對(duì)相似度計(jì)算無(wú)關(guān)緊要的東西已經(jīng)被去除,且以詞語(yǔ)的形式來(lái)表達(dá)這條微博的內(nèi)容,以進(jìn)行關(guān)于相似度計(jì)算的工作,然后通過(guò)word2vec計(jì)算構(gòu)建相似度矩陣。限于篇幅,這里給出矩陣的部分結(jié)果如表1所示。

表1 微博詞語(yǔ)相似度計(jì)算矩陣部分結(jié)果
在得到的完整相似度矩陣中,若以第一條微博為微博A,第二條微博為微博B,則可以得到詞對(duì)集合為{<驅(qū)逐,首次>,<大比分,出場(chǎng)>,<首次,判罰>,<老漢,驅(qū)逐>,<領(lǐng)先,詹姆斯>,<生涯,驅(qū)逐>,<情況,驅(qū)逐>,<球隊(duì),驅(qū)逐>,<出場(chǎng),首次>,<詹,裁判>,<震驚,裁判>},由詞對(duì)集合生成詞集并排序可以得到D_WordList1{震驚,詹,老漢,生涯,首次,驅(qū)逐,出場(chǎng),球隊(duì),大比分,領(lǐng)先,情況}和D_WordList2{首次,首次,詹姆斯,裁判,裁判,判罰,驅(qū)逐,驅(qū)逐,驅(qū)逐,驅(qū)逐,出場(chǎng)},然后遍歷D_WordList1,尋找其在WordList2中對(duì)應(yīng)的詞語(yǔ),得到公共塊序列{[(震驚,裁判),(詹,裁判),(老漢,驅(qū)逐),(生涯,驅(qū)逐)],[(首次,判罰)],[(驅(qū)逐,首次),(出場(chǎng),首次),(球隊(duì),驅(qū)逐)],[(大比分,出場(chǎng))],[(領(lǐng)先,詹姆斯),(情況,驅(qū)逐)]}。
由以上分析知,兩微博公共塊數(shù)量為5。所以,微博A的順序向量為r1=(1,2,3,4,5)。對(duì)于第一個(gè)公共塊的第一個(gè)元素(震驚,裁判),可以從D_WordList2中知道“裁判”出現(xiàn)在第4個(gè)位置,故順序向量r2第一個(gè)元素為4,經(jīng)過(guò)類似計(jì)算可以得出微博B的順序向量為r2=(4,6,1,11,3)。
在兩條微博構(gòu)建的相似度矩陣中,矩陣元素大于0.8的詞對(duì)數(shù)目共有6對(duì),而相同的話題標(biāo)簽有一個(gè),所以可以計(jì)算得到Bonus1=1.18,Bonus2=(1+0.08),則:

同樣地,交換兩條微博位置,即以第二條微博為微博A,第一條微博為微博B,經(jīng)過(guò)相同步驟后可以計(jì)算得到sim2(D1,D2)=0.669,因此得到該兩條微博的相似度最終結(jié)果為:

采用真實(shí)的新浪微博數(shù)據(jù)進(jìn)行測(cè)試,且微博的話題標(biāo)定利用新浪微博中的“熱門話題”功能,其在每一個(gè)熱門話題中的微博都圍繞同一個(gè)主題,且內(nèi)容也較為相似。而不同的熱門話題中的微博由于主題不同內(nèi)容不同,所以相似度較低。因此,論文將屬于同一熱門話題下的微博標(biāo)定為“相似的”,而屬于不同熱門話題的微博標(biāo)定為“不相似的”,作為算法的測(cè)試集。
實(shí)驗(yàn)分別選用80組人工標(biāo)定為“相似的”的微博與80組人工標(biāo)定為“不相似的”的微博來(lái)測(cè)試算法有效性。將數(shù)據(jù)測(cè)試結(jié)果分為如表2所示的4種情況。

表2 分類實(shí)驗(yàn)評(píng)價(jià)表
由表2可以計(jì)算出準(zhǔn)確率和召回率:

準(zhǔn)確率越高,說(shuō)明被預(yù)測(cè)為“相似的”的微博中確實(shí)為“相似的”的微博所占比例越高;召回率越高,說(shuō)明實(shí)際為“相似的”的微博被正確預(yù)測(cè)為“相似的”的比例越高。因此,可以用準(zhǔn)確率和召回率來(lái)評(píng)價(jià)算法模型的有效性。
由于LDA模型、TF-IDF算法等并不太適用微博這種簡(jiǎn)短而又隨意的文本相似度計(jì)算,因此將采用黃賢英等人提出的傳統(tǒng)的基于公共塊的短文本相似度計(jì)算方法和本文提出的“補(bǔ)償-對(duì)稱”模型算法分別進(jìn)行實(shí)驗(yàn),并比較兩者的實(shí)驗(yàn)結(jié)果。
經(jīng)過(guò)計(jì)算,兩種方法得到的計(jì)算結(jié)果在各個(gè)相似度區(qū)間的數(shù)據(jù)組數(shù),如表3所示。

表3 兩種方法的計(jì)算結(jié)果
對(duì)于傳統(tǒng)的公共塊算法,結(jié)果如圖2所示。

圖2 基于傳統(tǒng)公共塊算法的微博相似度頻率
圖2 左邊是被標(biāo)定為“不相似的”的微博的各個(gè)相似度的頻率,圖2右邊是被標(biāo)定為“相似的”的微博的各個(gè)相似度的頻率。同樣,對(duì)于“補(bǔ)償-對(duì)稱”模型,其實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 基于“補(bǔ)償-對(duì)稱”模型的微博相似度頻率
可以明顯看出,傳統(tǒng)的公共塊模型算法中,在相似度為0.3~0.5中,“相似的”微博與“不相似的”微博有較多重疊,使得算法在該區(qū)間內(nèi)的區(qū)分性不高。而“補(bǔ)償-對(duì)稱”算法盡管在該區(qū)間內(nèi)同樣有重疊,但可以看到其重疊數(shù)量相對(duì)較少,區(qū)分性有提升。
圖4、圖5給出不同的判斷閾值應(yīng)用兩種模型的準(zhǔn)確率和召回率。

圖4 兩種方法在不同閾值下的準(zhǔn)確率曲線

圖5 兩種方法在不同閾值下的召回率曲線
可以看出,在準(zhǔn)確率方面,隨著閾值的增加,兩種方法的準(zhǔn)確率都在不斷提高。在閾值小于0.4的情況下,傳統(tǒng)公共塊模型算法計(jì)算得到的準(zhǔn)確率略微高于“補(bǔ)償-對(duì)稱”模型;而在閾值大于0.4時(shí),“補(bǔ)償-對(duì)稱”模型準(zhǔn)確率則明顯更高。在召回率方面,隨著閾值的增加,兩種方法的召回率都在不斷下降。但是,在各個(gè)閾值情況下,“補(bǔ)償-對(duì)稱”模型的召回率都要明顯高于傳統(tǒng)公共塊模型至少10%。可見(jiàn),無(wú)論在準(zhǔn)確率還是召回率方面,本文提出的算法模型識(shí)別效果都要好于傳統(tǒng)的公共塊模型。
將上述準(zhǔn)確率和召回率的曲線繪制在同一張圖中,如圖6所示。對(duì)于“補(bǔ)償-對(duì)稱”模型,當(dāng)把閾值設(shè)置在較低的位置如0.34時(shí),雖然可以獲得高達(dá)95%的召回率,但是實(shí)驗(yàn)的準(zhǔn)確率卻不到65%;當(dāng)把閾值設(shè)置在較高的位置如0.48時(shí),可以發(fā)現(xiàn)其準(zhǔn)確率達(dá)到了95%的水平,但是召回率顯著下降,僅有60%左右。因此,為了達(dá)到較好的效果,即準(zhǔn)確率和召回率都保持在較高的水平,選擇兩條召回率曲線與準(zhǔn)確率曲線的交點(diǎn)對(duì)應(yīng)的橫坐標(biāo)0.42作為閾值。在該閾值下,召回率與準(zhǔn)確率都達(dá)到了80%以上,整體效果良好。這為應(yīng)用“補(bǔ)償-對(duì)稱”模型提供了參考:設(shè)置閾值在0.42左右,可以使召回率和準(zhǔn)確率都保持在較高水平。

圖6 兩種方法的準(zhǔn)確率與召回率曲線
同理,取傳統(tǒng)公共塊模型算法的召回率和準(zhǔn)確率曲線的交點(diǎn)橫坐標(biāo)作為其閾值。顯然,在專門針對(duì)短文本的兩種算法中,傳統(tǒng)公共塊模型與“補(bǔ)償-對(duì)稱”模型在選擇上述閾值的情況下都可以達(dá)到比較良好的效果。但是,本文提出的“補(bǔ)償-對(duì)稱”模型的召回率與準(zhǔn)確率比傳統(tǒng)模型高了8%,說(shuō)明該模型相比傳統(tǒng)公共塊模型有更好的分類效果。
從以上實(shí)驗(yàn)結(jié)果可以看出,“補(bǔ)償-對(duì)稱”模型進(jìn)一步將相似度極高的詞項(xiàng)和微博標(biāo)簽話題考慮在內(nèi),對(duì)相似度進(jìn)行補(bǔ)償,并且彌補(bǔ)了公共塊算法本身存在的不對(duì)稱性而可能造成的相似度計(jì)算偏差較大的缺點(diǎn),使得實(shí)驗(yàn)得到的結(jié)果要優(yōu)于傳統(tǒng)的公共塊模型算法。
提出的基于公共塊“補(bǔ)償-對(duì)稱”模型的文本相似度計(jì)算方法不僅考慮了文本的公共塊數(shù)量、文本公共塊所包含的詞項(xiàng)個(gè)數(shù)以及兩篇文本中公共塊的先后順序,還考慮相似度極高的詞項(xiàng)和微博標(biāo)簽話題,對(duì)相似度進(jìn)行補(bǔ)償,進(jìn)一步彌補(bǔ)了公共塊算法本身存在的不對(duì)稱性,提高了相似度計(jì)算的精度,可為微博溯源、輿情檢測(cè)、網(wǎng)絡(luò)水軍識(shí)別、打擊違法犯罪等提供技術(shù)支持。閾值選擇對(duì)于準(zhǔn)確率與召回率的影響較大,下一步工作將探討如何根據(jù)實(shí)際需要設(shè)定閾值,從而使算法能夠更好地達(dá)到預(yù)期效果。