李娜,范正潔,郝傳洲,王平輝,陶敬,林杰
(1.西安交通大學智能網(wǎng)絡與網(wǎng)絡安全教育部重點實驗室,710049,西安;2.中國移動通信有限公司研究院大數(shù)據(jù)與IT技術(shù)研究所,100053,北京)
隨著大數(shù)據(jù)技術(shù)的深入研究與應用,企業(yè)的專注點日益聚焦于怎樣利用大數(shù)據(jù)來為精準營銷服務,進而深入挖掘潛在的商業(yè)價值[1-4],于是用戶畫像的概念也就應運而生。所謂用戶畫像,即用戶信息的標簽化,利用標簽體系勾畫用戶的屬性特征[5]。精準、細粒度且結(jié)構(gòu)化的標簽體系是用戶畫像的基礎,其廣度和粒度對用戶畫像的精確性有較大影響,因此標簽體系的構(gòu)建具有一定的研究意義和應用價值。
早期比較流行的標簽體系構(gòu)建方法均基于Golder所提出的協(xié)同標簽體系[6];Yeung和Tahar等利用分眾分類法構(gòu)建標簽體系[7-8];Cai等先后提出利用協(xié)同標簽系統(tǒng)不同標簽權(quán)重的結(jié)構(gòu)化和非結(jié)構(gòu)化標簽來構(gòu)建標簽體系[9-10]。協(xié)同標簽體系描述眾多用戶以標簽形式向共享內(nèi)容添加元數(shù)據(jù)的過程,大多知名網(wǎng)站允許用戶公開標簽和共享內(nèi)容,用戶不僅可以為自己的信息分類,也可以瀏覽他人的分類信息,故協(xié)同標簽體系的構(gòu)建受到個人和公共兩方面因素的影響。由于個人背景知識以及描述文字的習慣不同,不同用戶對同一網(wǎng)頁可能添加不同的標簽,致使最終的標簽體系存在重復和結(jié)構(gòu)層次不明顯的問題。隨著本體的發(fā)展,利用本體構(gòu)建標簽體系的研究也逐漸增多,Skillen、Maleszka和Ferreira等利用現(xiàn)有本體框架人工或自動化地構(gòu)建本體以生成標簽體系[11-13],但目前基于本體所得到的標簽體系準確度低,存在冗余或者缺失以及結(jié)構(gòu)問題。此外,本體的構(gòu)建需要大量人工參與,成本較高。Farseev等基于主題模型[14-15]構(gòu)建標簽體系,但這種標簽體系粒度較粗,不利于精準畫像。
針對上述問題,本文基于主流網(wǎng)站的導航標簽,提出一種標簽體系融合方法以構(gòu)建細粒度結(jié)構(gòu)化的標簽體系。主流網(wǎng)站的導航標簽是經(jīng)過專家仔細分析,并結(jié)合廣大網(wǎng)民的用戶體驗進行優(yōu)化而得,故網(wǎng)站導航標簽能夠精準勾畫用戶的行為屬性,進而為用戶畫像打下基礎。
本文根據(jù)標簽文本特征、結(jié)構(gòu)特征以及標簽對應的網(wǎng)頁文本特征,提出一種基于語義特征分析的標簽融合方法(TMSFA)。該方法通過識別標簽間的等同和上下位這兩種映射關(guān)系,對主流網(wǎng)站的導航標簽進行融合,進而構(gòu)建出精準、細粒度且結(jié)構(gòu)化的標簽體系。
第一層級標簽稱作根標簽,每個根標簽及其所有子孫標簽稱作一個標簽樹。本文方法三階段流程如圖1所示,其基本思想是將標簽樹兩兩融合,將待融合標簽樹插入到基準標簽樹中,通過找到待融合標簽與基準標簽的等同映射關(guān)系和上下位映射關(guān)系,從而構(gòu)建出融合后的標簽體系。本文方法分為數(shù)據(jù)處理、標簽映射以及標簽融合3個階段。
在數(shù)據(jù)處理階段,首先從網(wǎng)站中獲取原始標簽體系,并基于爬蟲獲取標簽對應的網(wǎng)頁文本,以豐富標簽語義;其次根據(jù)標簽體系內(nèi)容并結(jié)合分組條件對標簽樹進行聚類分組,分組條件一是當兩個標簽樹的根標簽相同分為一組,分組條件二是當標簽樹的根標簽不同但子標簽內(nèi)容相似則分為一組;最后根據(jù)標簽樹的層數(shù)、葉子標簽及非葉子標簽的數(shù)量判斷融合順序,標簽樹層數(shù)越多則標簽的劃分結(jié)構(gòu)粒度越細,葉子標簽的數(shù)量越多則標簽樹描述的子領(lǐng)域越廣,非葉子標簽的數(shù)量越多則標簽的劃分粒度越細。
在標簽映射和標簽融合階段,基于標簽間的等同映射關(guān)系和上下位映射關(guān)系去除標簽體系中重復以及結(jié)構(gòu)相同的標簽,然后將待融合標簽樹插入到基準標簽樹中,進而構(gòu)建出融合后的標簽體系。
標簽間的等同關(guān)系是指兩個標簽語義相同,對應的網(wǎng)頁內(nèi)容相似。在識別標簽的等同關(guān)系時,主要存在以下兩個難點:一是不同原始標簽體系的標簽詞義表達方式不同,例如“釣魚用品”“垂釣用品”和“彩寶”“彩色寶石”等;二是上級標簽對下級標簽的語義具有約束力,例如標簽“洗發(fā)水”的上級標簽有“洗發(fā)護發(fā)”“男士洗護”兩種,此時標簽的語義截然不同。
本文基于標簽體系的語義和結(jié)構(gòu)提出兩種方法以解決上述難點,一是通過判斷標簽對應網(wǎng)頁內(nèi)容是否相似;二是同時分析標簽及其上級標簽的語義信息,基于這兩種方法可得到眾多等同關(guān)系標簽對,本文取這些等同關(guān)系標簽對的并集作為最終識別的等同關(guān)系標簽對。
四級標簽體系樹狀圖如圖2所示,其中一級標簽指所有標簽樹的第1級根標簽,如標簽a1~a2;二級標簽指所有標簽樹的第2層級標簽,如標簽b1~b4;三級標簽指所有標簽樹的第3層級標簽,如標簽c1~c8;四級標簽指所有標簽樹的第4層級標簽,如標簽d1~d4。
基于標簽語義比較待融合標簽與基準標簽是否“相同”,若“相同”則將待融合標簽和基準標簽的父標簽及祖父標簽進行兩兩比較,存在一對“相同”則說明待融合標簽與基準標簽具有等同關(guān)系。
待融合標簽A和基準標簽B分別由n和m個字組成,表示為A1,A2,…,An和B1,B2,…,Bm,其中Ai(i=1,2,…,n)、Bj(j=1,2,…,m)分別表示組成標簽A和B的字。逐個比較標簽A和B的字,假設標簽A和B中重復的字的個數(shù)為h,則標簽A和B的相似度為h/n,若相似度大于基于統(tǒng)計分析設定的閾值,則說明這兩個標簽是“相同”的。
基于標簽對應的網(wǎng)頁文本內(nèi)容的相似性來判斷標簽的等同關(guān)系?;诰W(wǎng)頁文本語義獲得標簽的向量表示,輸入為每個標簽對應的k個網(wǎng)頁標題,通過句子向量表示模型(Sentence2Vec)[16]。獲得每個標題的句子向量表示為s1,s2,…,sn,則標簽表示為
(1)
待融合標簽A與基準標簽B的向量表示分別為SA和SB,其余弦相似度為
(2)
當余弦相似度大于基于統(tǒng)計分析設定的閾值時,說明待融合標簽A與基準標簽B具有等同關(guān)系。
上下位關(guān)系是指兩個標簽的語義之間存在包含與被包含的關(guān)系,下位詞是上位詞的一個特殊實例或者一個子類。如圖3所示,待融合標簽“鮮花餅”的上級標簽為“休閑食品”,標簽“鮮花餅”會跟隨其上級標簽“休閑食品”融合到“鮮花餅1”的位置,但是“餅干糕點”是“鮮花餅”更為準確的上位詞,故標簽“鮮花餅”應融合到“鮮花餅2”的位置。
基于標簽對應的網(wǎng)頁文本內(nèi)容提出兩種上下位標簽映射方法:一是通過判斷待融合標簽對應的網(wǎng)頁標題中包含基準標簽的比例來判斷上下位關(guān)系;二是通過判斷待融合標簽與基準標簽的子標簽的相關(guān)性來判斷上下位關(guān)系。

圖3 基于上下位關(guān)系的標簽融合示意圖
標簽對應的網(wǎng)頁標題通常會包含其上級標簽,利用這個特點判斷兩個標簽是否存在上下位關(guān)系。待融合標簽A的對應的網(wǎng)頁標題個數(shù)為p,若網(wǎng)頁標題中有q個標題包含基準標簽B,則包含比例為
(3)
當包含比例大于基于統(tǒng)計分析設定的閾值時,則說明待融合標簽A與基準標簽B具有上下位關(guān)系。
如圖2所示,“鮮花餅”與“餅干糕點”的子標簽“曲奇餅干”和“沙琪瑪”有一定的相關(guān)性,也就是子標簽間存在著一定的相關(guān)性,據(jù)此判斷兩個標簽是否存在上下位關(guān)系。計算待融合標簽與所有包含子標簽的基準標簽的相關(guān)性,當最大相關(guān)性大于基于統(tǒng)計分析設定的閾值時,則說明待融合標簽A與基準標簽B具有上下位關(guān)系?;谧訕撕灥南蛄勘硎痉謩e計算標簽A與標簽B以及子標簽的余弦相似度C(SA,SB),C(SA,SB1),…,C(SA,SBn),則標簽A和B的相關(guān)性為
(4)
目前用戶訪問的網(wǎng)站類型主要包括門戶、金融、電商3類,故從這3類網(wǎng)站中分別選擇兩個主流網(wǎng)站導航作為原始標簽體系進行融合,其中門戶網(wǎng)站選擇新浪網(wǎng)和搜狐網(wǎng),金融網(wǎng)站選擇中金在線和東方財富網(wǎng),電商網(wǎng)站選擇天貓和蘇寧易購,詳情見表1。

表1 三類網(wǎng)站標簽體系中各級標簽分布
為了測試融合方法得到的標簽體系的準確性,本文提出標簽重合度和上下位關(guān)系重合度兩個指標來驗證融合方法的效果。
所謂標簽重合度指標,即通過計算融合后標簽體系與測試標簽體系的標簽重合比例來說明兩個標簽體系的內(nèi)容差異,它是一種標簽內(nèi)容相似的度量。融合標簽體系和測試標簽體系中標簽的個數(shù)分別為NL、NT,相同的標簽個數(shù)為Nsame,則標簽重合度為
(5)
所謂上下位關(guān)系重合度指標,即通過計算融合后標簽體系與測試標簽體系的上下位關(guān)系相同比例來說明兩個標簽體系的結(jié)構(gòu)差異,它是一種標簽上下位關(guān)系的度量。融合標簽體系和測試標簽體系中樹枝個數(shù)分別為ML、MT,測試標簽體系中與融合標簽體系中相同的樹枝的個數(shù)為Msame,則上下位關(guān)系重合度為
(6)
測試標簽體系是從上述原始標簽體系中隨機抽取若干個標簽進行分組,在20多位老師和同學的幫助下人工融合標簽并校正,得到最終的測試標簽體系。
對于電商網(wǎng)站,本文將“家居家紡”“母嬰玩具”和“個護化妝”3個分組的原始標簽人工融合得到電商測試標簽體系;對于金融網(wǎng)站,將“理財中心”和“股票中心”兩個分組的原始標簽人工融合得到金融測試標簽體系;對于門戶網(wǎng)站,將“頻道”分組中的“新聞”“體育”“娛樂”“科技”“女人”“健康”“房產(chǎn)”“星座”和“旅游”這些小組的原始標簽人工融合得到門戶測試標簽體系。三類網(wǎng)站標簽體系中原始及測試標簽數(shù)的統(tǒng)計情況見表2,以電商為例,電商網(wǎng)站原始標簽體系共有6 039個標簽,抽取其中1 265個標簽進行融合,得到的測試標簽體系共有934個標簽。

表2 三類網(wǎng)站標簽體系中原始及測試標簽數(shù)
為了進一步說明本文方法的優(yōu)越性,采用基于同義詞林的融合方法(TMC)與之進行對比。TMC方法基于同義詞林和標簽文本層面的相似性來判斷標簽映射關(guān)系,進而融合標簽體系。
在同一臺計算機上使用相同數(shù)據(jù)對本文方法和TMC方法進行對比,首先基于這兩種方法分別將門戶、金融、電商網(wǎng)站的原始標簽體系進行融合,然后將融合后的標簽體系分別與測試標簽體系進行比對,最后計算出標簽重合度和上下位關(guān)系重合度,對比結(jié)果及時間頻度見表3、表4。

表3 本文和TMC方法在評價指標上的比較

表4 本文與TMC方法的時間頻度對比
針對電商類網(wǎng)站,基于本文方法融合天貓和蘇寧的標簽體系得到1 041個標簽,并與測試標簽體系進行對比,標簽重合度和上下位關(guān)系重合度分別為89.4%、88.4%,而TMC方法的結(jié)果是79.8%和80.9%。電商類網(wǎng)站的標簽體系結(jié)構(gòu)復雜,經(jīng)常會出現(xiàn)待融合標簽所在的結(jié)構(gòu)粒度粗而相應所屬基準標簽粒度細的情況,這就需要拆分待融合標簽子樹并將其映射到基準標簽體系中,但難點在于如何判斷待融合標簽與基準標簽的映射關(guān)系,故造成上下位關(guān)系重合度相對標簽重合度較低。針對金融類網(wǎng)站,基于本文方法將東方財富和中金在線的標簽體系進行融合得到504個標簽,并與測試標簽樹進行對比,標簽重合度和上下位關(guān)系重合度分別為85.5%,90.2%,而TMC方法的結(jié)果是76.7%和88.4%。針對門戶類網(wǎng)站,基于本文方法將新浪和搜狐的標簽體系進行融合,得到232個標簽,并與測試標簽體系進行對比,標簽重合度和上下位關(guān)系重合度分別為90.0%、95.3%,而TMC方法的結(jié)果是80.1%和90.3%。由于詞語描述差異比較大,門戶類網(wǎng)站和金融類網(wǎng)站難以精準判斷標簽之間是否存在等同關(guān)系,故上下位關(guān)系重合度相比于標簽重合度較高。
在時間復雜度方面,本文方法和TMC方法的時間復雜度均為O(n2)。從表4可以看出,兩種方法的時間頻度相差無幾,但從表3可以看出,與TMC方法相比,本文方法的效果有較大的提升,并且本文方法得到的融合后標簽體系相對于TMC方法的標簽體系的標簽數(shù)量較少,說明識別的融合標簽對數(shù)更多。無論從等同關(guān)系識別還是上下位關(guān)系識別,本文方法都有一定的提升且具備一定的準確性,而且相對已有構(gòu)建標簽體系方法得到的標簽體系而言更為全面、結(jié)構(gòu)化。
本文方法將不同網(wǎng)站的導航標簽體系進行融合得到統(tǒng)一且結(jié)構(gòu)化的標簽體系,為精準用戶畫像打下基礎。本文方法基于標簽間的等同關(guān)系和上下位關(guān)系來判斷標簽的融合位置,由于標簽本身詞語短小且包含的語義信息較少,本文不僅分析標簽本身的語義信息,還結(jié)合其對應網(wǎng)頁文本的語義信息及標簽上下級結(jié)構(gòu)關(guān)系信息以豐富標簽語義,進而判斷標簽間的映射關(guān)系。本文提出標簽重合度和上下位關(guān)系重合度兩個指標以評估本文方法的優(yōu)越性,與現(xiàn)有方法相比,本文方法的這兩個指標至少提升5%,證明了方法的有效性。采用本文方法可以構(gòu)建出精準有效且適應不同領(lǐng)域的標簽體系。