崔婉秋 杜軍平 寇菲菲 李志堅 Lee JangMyung
1(智能通信軟件與多媒體北京市重點實驗室(北京郵電大學) 北京 100876)2 (釜山國立大學電子工程系 韓國釜山 46241) (wanqiucui@foxmail.com)
近年來,社交網絡信息在微博等社交平臺上得以廣泛的傳播和共享.由于社交媒體上用戶發布信息的字數受平臺限制,并且描述具有隨意性,缺乏語義的短文本大量涌現.為了用戶在社交媒體平臺上更加有效、及時的交流和信息獲取,針對短文本的語義分析和搜索成為了目前的研究熱點[1].傳統的文本語義分析技術中,通常僅考慮文本字面語義[2],對于短文本的查詢則采用基于語義的擴展方法[3-4].然而,微博短文本的稀疏性和語義局限性使單純的文本語義分析方法不能很好地實現對文本語義的有效挖掘.本文利用微博短文本特有的社交屬性,包括引導性輔助信息標簽、“@提及”和鏈接信息URL.這些輔助信息大多被作為外部元數據來描述文本內容,對其充分挖掘會使微博文本在搜索中體現更多的社交語義信息.本文在微博搜索中結合概念化語義信息,融合標簽引導的話題趨向以及微博互動文本內部的關聯,解決微博短文本的語義稀疏性問題,使搜索更具話題指導性.
社交網絡搜索是目前研究的熱點問題.賈焰等人[5]對社交網絡智慧搜索技術進行了全面地分析與總結.傳統的擴展搜索方法如用搜索結果擴展的偽相關反饋方法[6],或通過外部知識庫的概念化擴展方法[7-8]都是單純地從文本語義出發,沒有考慮文本之間的聯系.此外,在已有利用標簽[9-10]和微博結構信息[11]進行輔助搜索的研究中,沒有分析文本的語義.本文融合文本語義和標簽等社交結構信息,用社交語義對文本做進一步擴充,使用戶在標簽指引的主題一致性和社交緊密度等特征的輔助下,挖掘微博文本之間更多的潛在語義關系,提高微博短文本搜索的精確性.
在相關短文本研究的基礎上,本文基于維基百科的顯性語義分析算法(explicit semantic analysis, ESA),獲取短文本的概念化語義信息.利用標簽和社交關系構建語義標簽圖模型,生成關聯標簽特征,從而表示短文本的社交語義信息.提出基于社交與概念化語義的擴展搜索(expanded search based on social and conceptual semantic, SCS-ES)算法.通過實驗驗證,SCS-ES算法能夠有效地提高微博短文本搜索的性能.
本文的主要貢獻有4方面:
1) 提出一種基于社交與概念化語義的擴展搜索方法SCS-ES,挖掘社交網絡中特有的社交屬性,擴充短文本語義,從而提高搜索準確性.
2) 提出利用Wikipedia生成的最具語義表示的概念詞作為純文本的標簽.解決微博數據集中標簽使用少的問題,并實現微博結構的統一表示,為抽取標簽構建圖模型奠定基礎.
3) 在概念空間內利用社交關系,構建社交語義標簽圖模型.挖掘出社交關聯下語義相似的文本,豐富短文本的社交語義.
4) 在不同微博數據集上的實驗結果表明,本文提出的SCS-ES算法能夠有效地增強短文本的語義,改進微博短文本的搜索準確性.
隨著社交網絡的發展短文本形式不斷涌現,針對短文本的研究變得非常重要.由于其自身短小的特點,在搜索中文本語義分析和擴展方法具有重要的研究價值和意義.本節對短文本在搜索中的相關技術進行概述.
近年來,在文本搜索領域存在大量的研究成果,包括大量地從純文本中分析語義提高搜索有效性的方法.經典的LSA和LDA等語義分析方法,基于統計思想來構建語義學習模型,忽略了詞語間的語義關系,因而容易造成文本語義信息的缺失.
此外,由于概念模型在短文本語義學習中的有效性,被認為是一種有效的語義挖掘方法,受到了廣泛的關注.如基于Wikipedia知識庫[12-13]的ESA[14]方法,以及基于Probase的LexSA[15]等計算語義的方法[16-17],它們提供了跨領域背景知識的相關概念,構建了概念袋向量,用于表示短文本的深層語義結構,擴展了短文本的含義.以上方法優于詞袋和主題模型等僅關注詞及統計思想的方法,能夠提供更多可參考的文本語義信息.
由于短文本自身簡短、描述隨意且缺乏語義信息的特點,使得在搜索中單純的字面語義分析面臨一定的困難.王仲遠等人[1]針對短文本的理解方法分析了多種處理技術,在搜索中提供給用戶可理解的語義關系解釋.針對短文本的搜索方法主要著重于擴展的形式,可以增強文本特征詞的語義描述能力,特征詞數量的增加也可以在一定程度上解決短文本特征向量稀疏性問題.如基于時空特性[18]的擴展、概念袋[7-8]及兩者結合的反饋概念模型[19],這些方法采用相關文本或概念攜帶的信息來擴充文本的表示.

Fig. 1 Short text extended search algorithm based on social and conceptual semantics圖1 基于社交與概念化語義的短文本擴展搜索算法
基于概念語義的搜索利用外部知識源提供在文檔集合和查詢中沒有顯性表現出來的額外背景知識和上下文.與主題模型等方法相比,基于外部知識庫的方法具有更好的詞匯覆蓋率,計算模型可以有效地應用于不斷更新的語料庫.但單純的概念袋及概念反饋擴展模型,僅從文本表面進行分析,雖然在語義理解上形成了統一的知識模式,但是在微博短文本中,短小和歧義性會導致概念化的方法受到一定的局限.因此,充分挖掘微博的社交屬性,利用社交結構和標簽等輔助信息進行語義挖掘是面向微博搜索的發展趨勢[9-11].
在微博搜索中,將微博短文本擴展為一種包含3個域的虛擬文本結構:原始文本域ST(short text)、概念化語義特征域CS(conceptual semantics)和標簽社交特征域HS(hashtag semantics).該擴展過程在離線階段完成,數據集中短文本形成的語義特征結構ST′表示為
ST′={ST+CS+HS},
(1)
其中,將微博中的標簽和純文本部分統一稱為短文本,即原始文本域ST={ST1,ST2,…,STn},n為微博文本處理后的短文本總數,包括文本和標簽2部分,短文本由一組詞或短語組成,表示為STi={t1,t2,…,tk};CS為借助Wikipedia外部知識庫對ST進行概念化后生成的概念化語義特征域;在標簽短文本被概念化的基礎上,將其根據微博中的社交屬性構建語義標簽圖模型,并通過模型生成短文本的社交特征域HS.
給定查詢Q,將其類似于短文本的擴展表示為3部分語義結構Q′={Q+CS+HS}.其中,CS的獲取過程與微博短文本生成過程相同,社交特征則通過與微博中標簽(短文本)生成的HS進行語義相似性計算,獲取最相近的一組標簽作為Q的標簽社交特征.在2.3節中將給出其詳細的生成過程.針對微博短文本的搜索結果由Q′與ST′的top-K相關性排序分數給出,計算為

(2)
其中,idf(ti)為典型的逆文檔頻率,weight為詞在擴展短文本所有域中的累積權重,本文2.4節將對式(2)進行詳細說明.
SCS-ES算法的實現由3部分組成,分別為對微博短文本的概念語義特征擴展、社交語義特征擴展以及基于語義擴展的微博短文本搜索,如圖1所示.下面將分別對每部分進行說明.
由于Wikipedia是目前最大的知識密集型網絡倉庫,它是動態更新、快速增長的事件資源,具有一定的新聞價值和事件覆蓋性,因此它非常適合作為在社交網絡信息快速傳播的環境下進行搜索的外部參考資源.將Wikipedia作為微博短文本概念化語義生成的知識庫,將它的文章標題作為概念,頁面內容作為相應概念的描述,從而構建一個概念語義空間模型.由于概念空間的概念詞語是從Wikipedia抽取出來的,因此短文本通過概念化表示后語義屬性具有良好的可讀性.
2.2.1 概念化
采用顯性語義分析算法ESA[14]進行短文本的概念語義分析.對Wikipedia頁面描述中顯性存在的詞語進行分析,將每個概念都表示為相應頁面詞語的屬性向量,即轉換為概念空間的向量模型來表示,并在概念空間中進行概念提取和估計.利用倒排索引技術將短文本中每個詞項映射為與其相關的Wikipedia概念的加權序列,在該方式下原始文本被表示為概念化空間下的權重向量C.其中,短文本中的詞語t在相應概念c下的映射概率為P(c|t),以概念的代表性分數表示為
(3)
其中,count(·)為詞語t與概念c的共現次數;M是在Wikipedia中抽取出來的概念頁面的集合,ci∈M.
短文本進行概念映射后,從詞向量空間轉換為概念空間,被向量化為C=(wc 1,wc 2,…,wc k).每一項為短文本STi在概念ci下的對應權重,表示概念與短文本的關聯強度,計算為

(4)


(5)

(6)
其中,|M|為Wikipedia的概念頁面總數;N(ti)為詞語ti在概念頁面ci內出現的次數;N(ci)是概念ci在所有詞語映射中出現的次數.
2.2.2 概念特征擴展
在離線和在線階段分別對微博數據集和查詢(統稱為短文本)進行概念化,使其服從概念空間內的概念關聯權重分布.將ST基于Wikipedia的概念知識映射到統一的概念空間下,生成一列相關概念集合,由概念與文本的相應概率表示.取排序top-k的最具代表性的概念詞語組成CS.原始文本被統一擴展為ST+CS.
例1. 微博短文本“天津濱海新區爆炸現場發巨響騰起蘑菇云”,對其分詞和去停用詞等預處理后,概念化特征擴展生成的概念特征為CS={天津市,爆炸,蘑菇云,2015天津港危化品倉庫爆炸事故,開發區}.
從短文本中提取概念后,整個建模過程轉化到概念空間內.結合概念空間與社交屬性,對標簽短文本進行建模,生成社交語義標簽圖.同時對短文本實現社交語義(關聯標簽特征)的擴展,作為SCS-ES算法的主要部分.
2.3.1 社交語義標簽圖模型構建
微博文本中的輔助信息“@提及”指向一個活躍的微博用戶,該用戶討論了此話題或者在該問題上具有一定的權威性.通過“@”作為微博實體的鏈接,用戶可以將他們共同感興趣的話題聯系起來.同樣地,涉及到相同URL鏈接的用戶,他們討論和關注了同一個鏈接內容.因此通過上述信息可以將整個微博網絡形成一種潛在的關聯,以圖的形式來表征和計算社交網絡中的自然語義,充分考慮了社交特征的關聯,并在概念空間下將標簽之間的相關性組織起來.
在對短文本進行語義概念化轉換后,它們被映射到統一的概念空間中.不同概念之間是相互獨立的,我們通過在概念空間的基礎上構建社交語義標簽圖,將概念之間通過社交關系、標簽共現等輔助屬性進行連接,形成具有話題一致性的圖結構.由于微博文本信息中包含標簽的僅占少部分,因此我們對微博中純文本內容進行標簽信息的補充.由于概念化詞語是對短文本內容的語義總結,與標簽微博中的話題總結作用類似,所以將純文本的top-n相關的概念詞作為標簽,將微博數據空間統一格式為:#標簽#和純文本.將整個微博數據之間建立社交關聯,從而生成社交語義信息.
構建完整緊湊的社交概念化語義標簽圖G=V,E,W.其中,V為標簽表示的節點;E表示標簽之間的關聯關系;W為連接邊的權重,反映了標簽之間相關性的緊密程度,包括每條邊上各種社交關系的平均累加權重以及標簽概念化詞語的重疊度,在關聯標簽的生成過程中,連接標簽之間重疊的概念化詞語越多,標簽表達的語義越相關.將社交概念化語義標簽圖導入適用于社交網絡圖形結構的Neoj4圖數據庫[20],使節點關系更直觀,關聯操作更靈活.為了使社交語義標簽圖結合微博信息傳播中的社交關系,定義標簽之間的連接規則如下:
規則1. 標簽共現在同一短文本中,則標簽之間存在連接(表示2個標簽具有同一話題傾向性);
規則2. 標簽出現的文本中具有相同的URL,則標簽之間形成連接邊(包含相同鏈接信息的文本內容,文本可能討論同一事件或主題);

Fig. 2 Social semantic hashtag graph model with an instance of node enlargement for a part of the same event圖2 社交語義標簽圖模型同一事件部分節點放大實例
規則3. 標簽出現的文本包含@同一個人或組織,標簽之間建立連接(2個標簽的內容與同一個人或組織相關時,它們在語義上相似.例如,2個微博內容中都@天津防火,則其均涉及“天津爆炸”的話題).
圖2為社交語義標簽圖模型中同一事件部分節點的放大實例表示,節點分為標簽和概念(由網格節點表示)2類.節點屬性包括mid,mention,URL,concept.其中mid為微博編號,mention為微博內容中帶有@字段的信息,URL為鏈接信息,concept為節點信息(標簽或文本)概念化映射生成的一組概念.由于每個節點可能出現在同一話題下的多條微博信息中,因此節點所在微博內的mid,mention和URL會對應多個不同的取值,將其作為節點相應屬性的值.其次concept屬性能夠使標簽圖充分地融合文本語義信息.如標簽節點#天津港爆炸事故#,其4個屬性內容如下:
mid={CvA0nw9EH,CvA33xInC,CvA3ggmJV,…};
mention={天津消防,人民日報,法制晚報,…};
URL={http://t.cn/RL3J6I4,http://t.cn/RL39DD,…};
concept={天津市,爆炸,蘑菇云,2015天津港危化品倉庫爆炸事故,消防員,…}.
2.3.2 社交語義特征的生成
在關聯標簽生成的過程中,利用共享概念及社交規則實現節點之間連接緊密度的測量,進而生成語義一致性的標簽集合,通過關聯標簽對短文本進行社交語義的擴展.
針對微博短文本關聯標簽特征的擴展,在概念空間內進行關聯標簽的度量.定義語義一致性分數來評估標簽n與短文本st中的目標標簽v的相關概率.在社交語義標簽圖中,針對標簽對應的概念集,生成一組與給定短文本包含的標簽語義一致性的標簽集.原始標簽節點v與其鄰居標簽n的語義一致性分數計算為
S(ni|v,sti)=e(ni,v)+Ssim(ni|v,sti),
(7)
其中,e(ni,v)為ni與v節點之間邊的權重,即兩節點之間滿足連接規則的情況下,3種規則中權重的平均值.對于每一個規則,邊的權重是2個標簽節點共現的屬性數與目標節點中包含該屬性的數量的比值.例如,2個標簽節點共現mid的個數與目標節點包含的mid個數的比值.利用每個標簽的概念詞語重疊的數量衡量標簽之間的語義相似性,計算為

(8)

Table 1 Extended Instance of HashtagText Generated Associated Hashtags Feature
表1 標簽純文本生成的關聯標簽特征擴展實例

Table 1 Extended Instance of HashtagText Generated Associated Hashtags Feature
Hashtag∕Plaint TextAssociation Hashtags#天津港爆炸事故##天津塘沽大爆炸#,#天津濱海新區碼頭爆炸#,#祈福天津#,#突發#,#今夜與濱海同在#,etc.暴雨Concepts“雨”,“強降雨”,“泥石流”,#暴雨#,#武漢暴雨#,#暴雨直播#,#暴雨成災#,etc.
① https:dumps.wikimedia.orgzhwiki
由于查詢短文本的社交語義擴展是在線階段實現的,所以更新標簽圖模型存在響應時間的問題,將查詢短文本概念化后生成的一組概念語義特征,表示為CSQ.離線階段生成微博短文本(除去標簽部分)的概念化特征表示為CSs t.將兩者進行相似性匹配,選擇CSs t中與CSQ相關性top-k的概念集所對應的標簽,作為Q的關聯標簽擴展部分HS.其中,根據CSs t和CSQ中的公共概念來表示語義相關性,如式(9)所示:

(9)
其中,|CSQ∩Cs t|為2個概念集公共概念的個數;p(ci|CSQ)與p(ci|Cs t)表示公共概念集內ci在對應集合內的概念代表性分數.
對微博短文本和查詢分別進行社交語義特征的生成計算,如對例1中的微博短文本進一步獲得社交語義特征為HS={天津塘沽大爆炸,天津濱海新區碼頭爆炸,祈福天津,突發,今夜與濱海同在}.最后所有短文本擴展為2部分語義特征表示的形式ST′=ST+CS+HS.即例1中短文本擴展表示為ST′={天津,濱海新區,爆炸現場,蘑菇云;天津市,爆炸,蘑菇云,2015天津港危化品倉庫爆炸事故,開發區;天津塘沽大爆炸,天津濱海新區碼頭爆炸,祈福天津,突發,今夜與濱海同在}.
對原始短文本的2部分擴展操作使文本具有了結構化特征,每個域代表短文本不同的語義信息.選擇適用于該類型文本數據的搜索技術BM25F[21]排序算法,在搜索中體現3個域對文本解釋的不同重要程度,在擴展的緊密語義空間內得出相似性最高的搜索結果.
由于標簽在微博事件發展的一致性中起到聚集和指導作用,因此標簽在搜索中十分重要,將HS域在搜索中定義為最大的權值,概念化語義在語義層面上對搜索起到理解作用,因此將CS域賦予高于原始文本ST的權重.詞在所有域中的累積權重可計算為

(10)


(11)
其中,N是在數據集中的文檔數,df是出現詞t的文檔數.
采用本文提出的SCS-ES算法對微博短文本進行搜索測試,分別對數據集及預處理、實驗中參數的設置、對比算法和評價指標進行介紹,最后展示搜索實驗的結果.
采用維基百科離線數據集作為外部知識庫,用于短文本概念語義的映射.在新浪微博3個事件組成的數據集上評估SCS-ES算法的有效性.
3.1.1 維基百科外部知識庫
從中文維基百科網站①下載數據zhwiki-2017 0701-pages-articles.xml.bz2,分別以數據庫的形式存儲,如page.sql,interlinks.sql等.為了減少對概念化操作產生噪聲和干擾,對概念進行篩選.刪除數據中對語義理解和擴展沒有作用的頁面,包括非概念頁面(如Talk)、字數少于200的短頁面以及在關系結構中鏈接少于3的概念頁面.將候選概念頁面通過wikiExtractor解析為文本格式,由opencc進行繁化簡操作.下載的數據大小為1.4 GB,解析后包含948 835篇文章,篩選后剩余167 328候選概念頁面.
將抽取出來的信息利用Apache Lucene①構建倒排索引,完成概念化過程中詞與概念的映射和匹配操作,同時加速短文本的概念映射.在映射中只對描述事件的關鍵詞語進行概念化,避免生成噪聲概念詞對搜索產生影響.
3.1.2 微博數據集及預處理
對新浪微博中與國民安全相關的熱點突發事件的數據通過相應的關鍵詞進行爬取,采用關鍵詞及組合形式進行搜索,得到包含精確事件及少量噪聲的數據集.爬取了2個主要事件的168 199條數據,將其處理形成以下4個數據集.
1) 數據集1.它是由“天津、塘沽、爆炸、倉庫、濱海新區”及各自組合獲得的單一事件數據.
2) 數據集2.它是由關鍵詞“暴雨,湖北,武漢,防汛、災害”及各自組合獲得的單一事件數據.
3) 數據集3.它是由數據集1和數據集2合并組成的混合事件數據.
4) 數據集4.它是參照文獻[22],選取實驗室10名成員對數據集1進行分類標注獲得帶有分類標簽的數據集4.為了減少標注過程的誤差,給定類別描述的關鍵詞及對應的類別標簽:爆炸現場(0)、消防員救援(1)、醫療傷亡(2)、祈禱(3)、爆炸無關信息(4).每個成員分別對每一條微博文本進行標注,在10個類別標簽中選取數量最多的作為該文本的類別標簽.
將每一個數據集中的內容進行抽取,獲得純文本、#標簽#、“@”提及和鏈接信息URL字段(可以為空).將純文本和標簽內容進行繁化簡、分詞和去噪聲處理,以便概念化.通過對社交輔助信息之間的關聯關系進行計算,構建社交語義標簽圖模型,并將其導入圖數據庫Neoj4中,形成標簽節點和概念節點的連接圖結構.抽取后微博內容中包含的輔助信息數量及分別占數據集的比例統計如表2所示:

Table 2 Auxiliary Information of Microblog Datasets
信息檢索的評價指標主要包括搜索到相關文檔的能力和對相關文本正確排序的能力.采用準確率P@K、平均準確率MAP和歸一化折扣累積增益NDCG指標來評估搜索算法的性能(K為搜索返回結果的閾值).相應的評價指標和計算公式如下:
1) 準確率

(12)
其中,tr是返回結果中正確的文檔數;fr為結果中錯誤文檔的數量.兩者之和為結果列表中文檔的總數K.
2)MAP值在準確率的基礎上考慮了返回文檔在列表中的位置信息.其公式為
(13)
其中,Qn為查詢次數,position(r)為第r個相關文檔在返回列表中的位置,R表示相關文檔的個數.
3)NDCG是衡量排序質量的指標.它為連續值的索引,基于返回的前K個搜索結果進行計算.

(14)
其中,R(j,d)是文檔相關性等級,m是文檔返回的位置.
3.3.1 對比算法
我們參照文獻[10]的方法,邀請10名經驗豐富的微博用戶參與搜索任務,對搜索結果進行評價.其中,每人任意給出10條事件相關的搜索作為搜索集Q.為了評估SCS-ES的有效性,分別選取了概念化和主題擴展的4種對比搜索算法進行實驗.每種算法分別返回top-K個搜索結果組成結果集合.為了避免由多個搜索之間的學習效果引起的認知偏差,對每個搜索算法的搜索結果集進行匿名和隨機組合分配給實驗參與者,并讓參與者在其中指定K個與搜索最相關的結果.計算被用戶標記為相關的結果與每個算法返回的K個結果之間的相關匹配程度.此外,為了驗證人為因素對算法有效性的影響,我們采用文獻[3]客觀評價的方法,在分類數據集中將搜索的返回結果是否與查詢屬于同一類別作為搜索的正確性依據.
對比算法介紹如下.
1) ESA-ES[14](explicit semantic analysis-extended search).基于ESA的概念搜索擴展方法,通過顯性語義分析對文本進行概念擴展.
2) Topic-ES[23](topic-extended search).利用主題詞代替概念,利用LDA生成短文本的主題分布,并作為短文本的擴充部分.
3) SEMD[10](semantically enriched microblog document).語義化擴充微博文檔算法.對微博短文本標簽和文本信息分別進行概念化擴展,文檔結構包含5個域:純文本、標簽、分詞后的標簽、維基百科鏈接實體擴展的分詞標簽和純文本.
4) ESAC[24](explicit semantic analysis confidence).通過結合ESA和概念-詞語之間的關聯規則置信度對查詢進行概念化擴展,進而實現短文本擴展搜索.
3.3.2 參數設置及討論
文獻[25]表明在偽相關反饋中,作為擴展詞進行擴展搜索的詞數設定為20時,對于擴展搜索的效果最佳,因此設定ESA-ES的概念擴展詞個數k=20.Topic-ES算法中選取主題模型LDA.根據文獻[23],設定模型參數α=50/l(設主題數l=10),β=0.01,吉布斯采樣迭代次數為1 000,每個主題返回20個主題詞進行搜索擴展.此外,在SCS-ES算法中由于概念和標簽長度不固定,分詞后擴展的詞語數量不能保持一致,因此根據經驗將概念特征擴展和關聯標簽特征擴展的詞數均設置為k=5.
利用top-n純文本的概念化詞語作為文本標簽進行標簽圖的構建,參數n的取值會影響算法構建社交語義標簽圖的結構緊湊性,從而影響關聯標簽特征的生成,因此SCS-ES算法的搜索有效性會隨著n值的變化而改變.為了驗證n值何時能夠使SCS-ES算法達到最佳狀態,在3個數據集上進行了實驗比較,圖3為SCS-ES算法在參數n的不同取值下搜索MAP@10指標的敏感性結果.

Fig. 3 The influence of parameter n on the search accuracy of SCS-ES algorithm圖3 參數n對SCS-ES算法搜索準確率的影響
如圖3所示,當n=2時,在3個數據集上搜索的平均準確率均相對較高,說明取2個概念詞語作為標簽能夠擬合微博環境下標簽存在的實際數量,使社交網絡結構緊湊且標簽不冗余,保證了社交語義標簽圖生成社交特征的有效性.此外,數據集1表現的搜索效果最佳,數據集3中的搜索效果優于數據集2.結合表3內統計的各數據集中微博輔助信息的數量可知,SCS-ES算法的搜索性能與數據集內微博文本包含的輔助信息的比例成正相關,說明SCS-ES算法中標簽數量對擴展搜索性能起到了一定的作用,所占比例越大,指導搜索的效果越好.
為了分析SCS-ES算法在微博短文本數據集上的搜索性能,在P@K,MAP和NDCG三個指標上驗證其搜索的有效性,并與對比算法進行了比較和分析.
3.4.1P@K指標上的對比結果與分析
為了充分展示SCS-ES算法的搜索效果,以下實驗中均設置作為純文本標簽的概念化詞語的個數top-n中n=2.此外,由于數據集1包含的標簽等輔助信息數量最大,使SCS-ES算法能夠充分發揮優勢,因此為了排除數據集對SCS-ES算法的影響,并充分驗證SCS-ES在搜索上與對比算法性能的優勢,本節在數據集1中分別選取搜索結果返回值K為10,20,30,40,50時,計算SCS-ES和對比算法搜索準確率P@K的結果,如表3所示.隨著K值的增大,SCS-ES與所有對比算法的P@K值均呈逐漸下降的趨勢.

Table 3 Comparison of P@K on Dataset 1表3 在數據集1中P@K指標對比

Fig. 5 Comparison of NDCG under two datasets圖5 2個數據集下NDCG指標對比
從表3結果中進一步分析可知,SCS-ES算法的總體性能最佳,相比SEMD算法P@K值提升了10%左右,SEMD與Topic-ES算法在搜索準確率上差距不大,均優于ESA-ES算法,這表明單純的概念化方法并不理想,利用標簽的SCS-ES和SEMD方法具有較好的準確率.當K=10時各算法準確率達到峰值,說明K=10時每個搜索算法的性能均最顯著,SCS-ES算法與對比算法相比能夠實現最好的搜索準確率.
為了排除人為因素的影響,選擇數據集1和數據集4(相同的數據,區別為有無分類信息)進行搜索實驗.在數據集4的每一類數據中選取10條作為2個數據集的搜索集合,并根據人為判斷和客觀類別區分的方法計算P@10的結果,對比結果如圖4所示.從圖4中可以看出,對于同一算法在2個數據集上的P@10結果非常接近,并且客觀評價的數據集4上的效果優于人為評價的數據集1,說明通過人為評價的方式更加嚴格,在返回結果相關性的判斷上,會更加的趨于用戶搜索意圖.驗證了本文實驗設置中無分類數據集中所用的評價方式具有一定的可信度.

Fig. 4 Comparison of P@10 of algorithms under two datasets圖4 2個數據集下算法P@10指標對比
3.4.2NDCG指標上的對比結果與分析
為了研究不同數據集對實驗中算法性能的影響,選取單一事件數據集1和數據集2以NDCG指標進行實驗,得出數據集上SCS-ES與對比算法的搜索性能.
圖5為在數據集1和數據集2中SCS-ES及對比算法NDCG指標的對比.實驗結果表明,當K=30時數據集1和數據集2中SCS-ES及所有對比算法均達到最好的搜索效果.從圖5中可以看出,SCS-ES和SEDM算法在數據集1中的搜索效果優于數據集2的對應實驗結果,因此數據集的變化對SCS-ES和SEMD算法的影響最明顯,說明在利用了標簽信息的算法中,標簽所占數據集的比例會影響算法的整體性能,而其他對比算法在2個數據集上的NDCG值并沒有明顯變化,說明利用微博輔助信息進行擴展搜索的性能會受到微博內容中標簽等輔助信息數量的影響,且包含的輔助信息越多,搜索效果越好.
圖5(b)展示為數據集2中SCS-ES和對比算法的實驗結果.雖然數據集2內包含的輔助信息數量并沒有使算法SCS-ES達到最佳搜索效果,但是其搜索結果仍優于其他對比算法.對于概念化方法ESA-ES只分析了文本的字面語義,通過外部知識庫進行概念轉換時,短文本和描述隨意的特點使概念表示存在噪聲,因此搜索結果最差.主題詞擴展的Topic-ES算法通過分析文本的主題分布獲得主題語義,由于其訓練語料庫存在局限性,搜索的效果并不理想.SEMD算法利用標簽進行了擴展搜索,針對微博短文本的搜索效果比ESA-ES和Topic-ES算法有一定提升.但SEMD算法僅根據微博中現有的標簽進行擴展,微博中存在大量無標簽的純文本,無法獲取標簽語義,因此搜索效果沒有SCS-ES算法的NDCG指標高.在SCS-ES算法中對純文本進行了標簽的補充,同時通過社交關系構建了社交語義標簽圖模型,使短文本的語義擴展通過文本語義和社交語義2部分實現,實驗結果表明,SCS-ES算法能達到最佳的搜索效果.
3.4.3MAP指標上的對比結果與分析

Fig. 6 Comparison of MAP under three datasets圖6 3個數據集下MAP指標對比
為了去除單一數據集在搜索中事件一致性的指導效果,對混合事件數據集3進行實驗.圖6為3個數據集中SCS-ES及對比算法MAP值的實驗結果.從圖6中分別可以看出K=10時,SCS-ES及所有對比算法的MAP值均達到最優,本文算法SCS-ES在3個數據集中的MAP值顯著優于對比算法.圖6(a)為數據集1中的MAP結果,SCS-ES的效果明顯優于圖6(b)和圖6(c)中分別表示的數據集2和數據集3中SCS-ES算法的MAP值.3個數據集上SEMD算法MAP值變化幅度大于其他對比算法,受到標簽比例的影響.此外,在單一事件數據集1和數據集2及混合事件數據集3下,SCS-ES均體現了較好的MAP值,在數據集1上效果最佳.在數據集3上的實驗略優于數據集2上的實驗結果,說明數據集包含的輔助信息(標簽、@提及和URL)的數量對于SCS-ES算法具有一定的影響,成正相關.數據集包含的輔助信息數量越多,算法的性能越好,并且混合事件對SCS-ES算法并沒有影響和限制.對上述實驗結果進行分析可知,在P@K,NDCG和MAP值3個評價指標中,本文算法SCS-ES優于所有對比算法;其次是利用了標簽信息分域搜索的SEMD算法和主題詞擴展的算法Topic-ES;最差的是概念詞擴展算法ESA-ES.
我們在表4中展示了SCS-ES及所有對比算法在3個數據集上進行的搜索實驗中3個指標總體性能的平均值.從表4中可以看出,SCS-ES算法的搜索性能的平均值最佳,說明該算法具有很好的穩定性.僅通過概念化(ESA-ES)或主題詞進行擴展搜索的算法(Topic-ES)比沒有引入標簽文本分域的算法(SEMD和SCS-ES)的性能好.由于SEMD算法沒有考慮各個文本域的語義信息,沒有對微博中大量缺乏標簽的文本進行處理,也沒有融合微博環境下的社交關系等信息,因此搜索效果沒有本文提出的SCS-ES算法的效果好.SCS-ES算法在進行微博短文本擴展搜索中,有效地利用社交屬性信息擴充了微博短文本的語義,并且對缺乏標簽的純文本進行了補充,在搜索中結合了文本概念化語義和社交語義,滿足微博環境下的搜索需求,并且顯著提高了微博短文本的搜索效果.

Table 4 Comparison of Average Search Performance on Three Datasets表4 在3個數據集上的平均搜索性能比較
在面向搜索的研究中,搜索反饋時間是重要的,雖然本文是針對短文本語義擴展搜索精度的研究,但是為了驗證該算法在搜索反饋時間上是否在用戶可接受的范圍內,我們選取對比算法SEMD[10]、ESAC[24]與SCS-ES算法進行搜索響應時間的對比實驗.在搜索數據集大小變化的情況下,驗證算法搜索響應時間的有效性,實驗結果如圖7所示:

Fig. 7 Comparison of the average search response time圖7 平均搜索響應時間的對比
圖7展示了在數據集1、數據集2和數據集3上分別進行搜索,返回P@10結果時算法的平均搜索響應時間.從表2數據集信息統計中可知,每個算法的平均搜索響應時間都隨著數據量級的增長而增大.SEMD算法的響應時間略長,這是由于SEMD在擴展過程中需要將微博文本分為5個域并分別進行語義擴展.ESAC與SCS-ES算法的搜索響應時間非常接近,說明SCS-ES在線搜索部分的效率與對比算法是同一量級的,沒有激增的現象.因此說明SCS-ES算法在注重搜索精度的前提下能夠保證搜索效率的穩定.
在微博短文本搜索中,由于文本描述的隨意性和不規范性,使得基于文本語義的搜索具有一定的挑戰性.本文提出了短文本的社交與概念化擴展搜索方法SCS-ES,利用概念詞語和關聯標簽豐富短文本語義進行擴展搜索,從而提高搜索質量.實驗結果表明本文提出的方法在微博短文本的搜索任務中表現的搜索性能優于其他語義分析及擴展搜索方法,對于P@K,NDCG和MAP指標有明顯的提升.下一步的工作將圍繞如何有效地在微博環境下利用標簽等社交屬性挖掘微博熱點話題,以及如何進一步提高微博事件挖掘和搜索的質量.

CuiWanqiu, born in 1990. PhD candidate. Her main research interests include social network analysis, machine learning and information retrieval.

DuJunping, born in 1963. Professor, PhD supervisor. Distinguished member of CCF. Her main research interests include artificial intelligence, data mining, social network analysis and search, computer applications.

KouFeifei, born in 1989. PhD candidate. Her main research interests include semantic learning and multimedia information retrieval and recommendation (koufeifei000@126.com).

LiZhijian, born in 1994. Master candidate. His current research interests include machine learning and cross-media search (114898070@qq.com).

LeeJangMyung, born in 1957. Research Group Leader for Logistics and IT. His current research interests include intelligent robotic systems, ubiquitous port, and intelligent sensors (jmlee@pusan.ac.kr).