李艾鮮,喬少杰,韓 楠,元昌安,黃 萍,彭 京,周 凱
1.成都信息工程大學 網絡空間安全學院,成都 610225
2.成都信息工程大學 軟件工程學院,成都 610225
3.成都信息工程大學 軟件自動生成與智能服務四川省重點實驗室,成都 610225
4.成都信息工程大學 管理學院,成都 610103
5.南寧師范大學,南寧 530001
6.四川省公安廳,成都 610014
識別競爭對手、量化競爭關系是幫助企業、商家保持核心競爭力的重要方法[1]。現有研究通過專利挖掘[2-3]、用戶評論[4-5]挖掘等方法識別競爭對手,鮮有競爭關系量化研究。翟東偉[6]構建主題-機構模型對專利機構的主題和競爭關系進行分析。Rodriguez 等人[7]提出了一種基于圖形核的度量方法識別競爭對手。陳元等人[8]從Web 用戶評論中構建企業競爭情報挖掘模型獲取企業產品競爭情報。聶卉等人[9]通過Word2Vec 結合依存語法分析在線評論進行領域特征詞典構建和用戶觀點抽取。上述工作僅實現了競爭情報的挖掘和競爭對手的識別,不能反映出實體間競爭關系的強弱。Yang 等人[10]提出主題因子圖模型來量化推斷企業間的競爭關系,但采用半監督學習方法,其實用性有限。上述研究均未考慮地理位置對競爭關系的影響,顯然存在局限。
研究動機:口碑傳播已被證明對消費者的購買決策起著重要的作用[11]。通過融合消費者口碑與地理位置信息進一步改進現有競爭關系挖掘方法,提升模型的實用性、客觀性和準確性。電商企業可以將本文提出的新方法應用于評論特征抽取、評論內容中的企業競爭對手識別,將競爭關系發現與量化輸出相結合,克服傳統的競爭關系挖掘方法不考慮地理位置信息影響的缺點。融合消費者口碑和實體空間位置兩大因素,科學地量化實體間競爭關系。
本文中定義的實體包括但不限于企業、商店、餐廳等。首先給出競爭關系網絡的定義。
定義1(競爭關系網絡)網絡G=(V,E,S,L),V是實體的集合,E?V×V表示實體間的關系,S表示該實體所有消費者的評論,L代表實體的地理位置。
定義2(實體主題模型)實體的全部消費者評論集合θd的主題模型是單詞{P(w|θd)}的多項分布。一個餐廳ei的所有消費者評論是從餐廳的主題模型θd中抽樣形成的。
定義3(困惑度[12])用來度量一個概率分布或概率模型預測結果的好壞程度,定義如下所示:

其中,p(w)表示LDA(latent Dirichlet allocation)模型中任意一個詞w的概率,定義為:

式(2)中,w代表詞,z代表主題,d代表文檔,N表示測試集中出現的所有詞的數量(不排重)。p(z|d)表示從文檔d抽取主題z的概率值,p(w|z)表示從主題z中抽取詞w的概率值。因為LDA 是詞袋模型,困惑度是語料庫的極大似然估計,即所有詞的概率乘積,因此對于未知分布的數據集,其困惑度的值越小,說明主題模型越好,記錄該條件下LDA 主題模型取得的主題數量為K(K為最優值)。
定義4(空間相鄰關系)當兩個實體在地理空間中的最短路徑小于或等于給定閾值ξ時,稱兩個實體空間相鄰,用neighbor表示,定義如下:

當空間中兩個實體滿足式(3)時,說明空間中的實體對象ei和ej相鄰。
本文基于消費者口碑(用戶評論)和地理位置信息設計了LTM(location &topical model)模型,量化實體間競爭關系,輔助實體進行商業決策。
消費者口碑是由消費者評論文本構成的文檔數據,LDA 模型將主題視為詞匯的概率分布,文檔是主題的隨機混合[13]。本文通過LDA 主題模型提取實體消費者評論的主題與主題詞。根據主題模型提出的主題和主題詞分布,綜合咨詢專家意見和評價,建立“主題-特征”規則。依次對所有口碑評論進行規則匹配,統計規則匹配頻率計算口碑相似度。
本文把實體i記為ei,其對應的所有消費者口碑評論視為一篇文檔。假設有n個實體,那么對應n篇文檔。假設有K個主題,則實體i的文本中的第j個詞匯wij可以表示為:

式中,d為n篇文檔的集合,zi是潛在變量,代表第j個詞匯標簽wij取自該主題,p(wij|zi)是詞匯wij屬于主題zi的概率,p(zi|d)表示給定主題zi屬于當前文本的概率。
主題提取先統計d中出現過的詞匯(不計重)W,制作詞匯表,現假設K個主題形成D個文本,以W個唯一性詞匯表示,記φk=p(wij|zi=k)為主題zi下W個詞匯的多項分布,其中wij是W個唯一性詞匯表中的詞匯。記θn=p(zi|d)為文檔d在K個主題上的多項分布。于是,文檔d中詞匯w的概率可表示為:

LDA 模型在上作Dirichlet(α)的先驗概率假設,在上同樣作Dirichlet(β)的先驗假設,得到LDA 模型各層參數之間依賴關系的數學表述[14]如下:

LDA 主題提取模型需要給定數據集和主題的數量K,根據定義3 采用困惑度來確定K的取值。
在消費者口碑中,競爭關系越大的實體,其消費者的評論相似度越高。某商店消費者評論出現頻率最高的詞匯是“好喝”“干凈”“服務”,其中“好喝”是針對奶茶口味,“干凈”是針對設備,“服務”是針對店鋪環境的。相似評論說明:在A 商店消費的消費者,有很大可能會在與A 相似度高的B 商店消費。因此需要對消費者口碑進行相似度量化。
根據主題模型建立“主題-特征”規則。依次對n篇文檔利用式(6)進行規則匹配。

“主題-特征”在本文檔中出現則為匹配成功,否則為失敗。以某一餐廳的評論為例,存在規則“foodnice”,則在該餐廳的所有用戶口碑評論中搜索“foodnice”是否同時存在,若存在則匹配成功,score=1;反之失敗,score=0 。為了得每個實體的規則匹配分數,設計打分函數Sei:

式(7)為統計匹配成功的頻率,式中ei代表第i個實體用戶評論數據,作為函數的輸入;R代表規則數量;D代表規則數量;ni表示ei中詞的數量;scored代表第i個實體匹配規則r后得到的分數。匹配完D個規則后,實體i獲得一個分數score。

式(8)用于計算用戶評論相似度。simij表示實體i與j的相似度。sim值越小,說明實體相似度越大。
算法1消費者口碑量化算法

算法1 的基本思想為:LDA 主題提取過程(第1行~第10 行),從參數為α的Dirichlet 分布中抽樣生成第i個文檔ni的主題分布θn;從參數為β的Dirichlet 分布中抽樣生成第k個主題的詞分布φk;對于每一個詞wij及其所屬主題zi,首先從多項式分布θn中抽樣得到zi=p(zi|θn),然后從多項式分布φk中抽樣得到wij=p(wij|zi,φk);求口碑相似度(第11 行~第15 行)。算法中的采樣方法為Gibbs 采樣[15]。參數說明如表1 所示。

Table 1 Parameters and description of algorithm 1表1 算法1 參數及說明
時間復雜性分析:算法1時間復雜度為O(K×N),其中K表示主題數量,N表示文檔的總數。
本節設計了符合地理位置屬性在實際生活中對競爭關系影響特點的相似度量化函數。dis是距離矩陣,disij表示餐廳i與餐廳j之間的距離。算法的核心是將具有相似距離關系的餐廳聚集到一起,并賦予它們相同的影響因子α,最終由實體距離影響力量化函數M(disij)輸出實體距離影響力量化結果。
根據定義4,以存在相鄰關系的實體i、j的相鄰關系neighbor(ei,ej)作為聚類的初始值,使用KNN(Knearest neighbor)算法對實體的經度緯度進行聚類得到n個簇,記為C,C={C1,C2,…,Cn}。實際生活中,距離的遠近將影響實競爭關系的強弱。把地理位置具有相似的點聚集到一起,同一個簇內,在地理位置屬性上存在相似關系。不同的簇則相似性較弱。在互聯網中,相距較遠的實體也可能存在競爭關系。以美團為例,理發店A 和理發店B 相距5 km,但其主營業務一樣,任然存在競爭關系。單純地考慮距離來評價競爭關系會夸大距離對結果的影響,這顯然是不合理的,因此本文引入地理位置屬性影響因子α={α1,α2,…,αn},定義如下:

式中,Ci為簇i內點的數量,n表示簇的數量。α的作用包括:(1)調整距離對競爭關系的影響,強化簇內競爭關系,弱化簇間競爭關系;(2)給相似點賦相同的權重值,簡化參數。
由實體距離影響力量化函數:

輸出實體距離影響力量化結果,式(10)中disij表示一個二維矩陣,矩陣的行代表實體ei,矩陣的列代表實體ej,矩陣第i行第j列存放ei到ej的距離。M(disij)值越小,說明競爭關系越強。
在圖G=(V,E,S,L)中,矩陣E中的值表示競爭關系的強弱。本文提出競爭關系量化函數φij,融合3.1節及3.2 節消費者口碑量化結果simij、實體地理位置屬性影響力量化結果M(disij),其公式為:

Eij表示實體i與實體j競爭關系歸一化結果:

競爭關系量化算法參數說明如表2 所示。

Table 2 Parameters and description of algorithm 2表2 算法2 參數及說明
算法2競爭關系量化算法

算法2 工作原理:計算競爭關系量化值φij(第1行~第5 行);查找φij中的最大值(第6 行),查找φij中的最小值(第7 行);對競爭關系量化結果進行歸一化處理(第8 行~第12 行)。
時間復雜性分析:通過分析算法2,可知其時間復雜度為O(N2),N表示實體數量。
實驗使用的數據為美國肯塔基州北部的城市Louisville地區Yelp網站上的餐廳數據,包含2 375個餐廳ID 及其地理位置屬性和66 156 條用戶評論。實驗硬件平臺為:Intel?CoreTMi5-4200M CPU 2.50 GHz,操作系統平臺為Windows 10。
在主題提取階段,通過多次迭代得到困惑度變化曲線,并確定最佳主題數。實驗中發現輸入相同主題數,困惑度會有細微的波動。因此同一主題數采用多次實驗取均值得到一條穩定的困惑度曲線。
如圖1 所示,當主題數量為60 時,困惑度曲線穩定收斂,說明該條件下模型對于實驗數據集中的有效信息擬合較好,因此最佳的主題數取值為60。

Fig.1 Curve of perplexity圖1 困惑度曲線
根據主題提取結果,經過咨詢領域專家,合并相似主題后,得到如表3 所示的規則。

Table 3 Rules table of“Topic-Feature”表3“主題-特征”規則表
通過3.2 節的方法對數據集中的2 375 個餐廳進行打分,本文以其中5 家餐廳為例,結果如表4 所示。根據式(8)計算餐廳之間的相似度,矩陣的行數表示i實體,列數表示j實體,simij表示餐廳i和餐廳j的消費者口碑相似度。
以表4 所述餐廳為例根據定義4 計算餐廳i與餐廳j之間的距離,實驗將閾值θ設置為1 000 m,則數據中具有neighbor關系的點有20 個。實驗中采用KNN 聚類算法,使用歐氏距離作為度量函數,把地理位置屬性相似的餐廳聚為一類,重復20 次,選聚類結果和neighbor關系點重合度最高的結果作為實驗的聚類結果。根據聚類結果,由式(9)計算得到α值,其值是簇內的餐廳距離計算的權重,實驗中簇與簇之間的α取0.02。

Table 4 Rating score of rules matching表4 規則匹配評分表
根據式(10)計算餐廳競爭關系地理位置屬性影響力量化結果M(disij)。根據3.4 節所提方法,得到最終的餐廳間競爭關系量化結果。可視化數據集中前5 個餐廳之間的競爭關系,如圖2 所示。

Fig.2 Visualized results of competitive relationship圖2 競爭關系量化結果
使用僅考慮口碑對競爭關系影響的TM(topical model)模型進行對比實驗,其結果如圖3 所示。

Fig.3 Comparison results of TM and LTM models圖3 TM 與LTM 模型對比實驗結果
圖3 橫軸Rij代表餐廳i與餐廳j進行比較,縱軸Eij代表餐廳i與餐廳j的競爭關系量化結果,由于篇幅限制圖3 僅給出實驗的前10 個量化結果。通過圖3 可以發現:(1)TM 模型曲線波動很大,說明僅僅靠用戶口碑評論量化競爭關系容易會出現極端情況;(2)以第5 個點和第6 個點為例,餐廳之間的競爭關系幾乎為0,這顯然不符合日常規律。因此僅僅靠口碑量化競爭關系是不準確的,因為同類餐廳的用戶評論用詞的重合度容易出現極端情況,不能很好地描述餐廳實際的競爭關系。圖3 中LTM 模型在考慮地理位置屬性后,對競爭關系的刻畫符合實際情況。以Yelp 網站而言,不論餐廳在城市的哪個角度,都不應該出現競爭關系為0 的情況,因為消費者完全可以驅車前往,即使是相距很遠的餐廳也應該存在競爭關系。綜上,LTM 模型能較好地刻畫餐廳之間的競爭關系。
本文考慮消費者口碑和實體地理位置屬性,提出LTM 模型,量化表達消費者口碑和地理位置屬性對實體競爭關系的影響。未來的研究工作包括:(1)進一步挖掘實體競爭關系影響因素,例如時間屬性對競爭關系的影響;(2)現有競爭關系量化算法存在大量重復計算,設計新的算法降低時間復雜度,提升時間效率。