999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于標簽聚類的電子商務網站分類目錄改善研究

2012-04-29 00:44:03張紅甘利人薛春香
現代情報 2012年1期

張紅 甘利人 薛春香

〔摘 要〕本研究針對電子商務網站用戶對商品概念認知與網站實際分類目錄不匹配,導致檢索效率低下的問題,提出了基于用戶標簽的電子商務網站分類目錄改善方案,即將用戶標簽進行多層聚類,將聚類結果以層級結構的形式展示,并實現標簽聚類結果和網站分類目錄的映射,從而提高電子商務網站的分類檢索效率和分類導航性能。

〔關鍵詞〕網站分類目錄;用戶標簽;標簽聚類;標簽映射

DOI:10.3969/j.issn.1008-0821.2012.01.001

〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2012)01-0003-05

Research on the Improvement to Categories of

E-commerce Sites Based on Tag ClusteringZhang Hong Gan Liren Xue Chunxiang

(School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094,China)

〔Abstract〕The study proposed a method to improve the categories of e-commerce site which based on tags to solve the problem of users concept does not match the actual categories.The method is that making the user tags clustered,then making the clustering results in the form of hierarchy,and mapping it to web site categories to improve e-commerce sites categories search efficiency and category navigation performance.

〔Key words〕web site categories;user tags;tag clustering;tag mapping

南京理工大學信息管理系用戶行為課題組2009年曾做過一項調查發現:在電子商務網站中,有近80%的用戶傾向使用網站分類目錄來查找商品,但有部分用戶通過網站分類目錄查找不到指定的商品或用時過長(超過3分鐘)。由此可見,當前電子商務網站的商品分類目錄面臨著一個突出問題,即用戶對商品的概念認知與網站實際分類架構組織體系的不匹配。其實質是一種用戶心智模型與網站分類架構師心智模型差異的體現[1],這種差異無疑會在很大程度上增加用戶對網站分類的認知負荷,從而降低網站信息傳遞效率。因此基于用戶認知來探索網站分類目錄改善的可能途徑就變得十分有意義。

目前基于用戶認知的網站分類目錄改善思路主要有以下兩個方向:一是依據用戶認知改善并調整網站現有分類目錄,比如對產品進行多重歸屬。但是用戶需求總是處在不斷變化中,直接依據用戶需求調整網站分類目錄會為網站后臺分類目錄動態調整帶來很大的壓力和工作量。因此,有學者提出第二條思路,即直接按照用戶認知來構建“商品分類目錄”。用戶標簽就是當下在網絡環境中用戶認知和用戶參與的一個重要體現,這也是本研究采用的主要思路。

1 研究背景

1.1 相關概念

早在1998年美國人約舒亞?沙科特(Joshua Schachter)就提出了用戶標簽(Tag)這一概念。為方便檢索和信息管理,由網絡信息的提供者或者用戶自發為某類信息賦予一定數量的標識,這種標識就稱為用戶標簽[2]。它顯著的特點就是用戶可根據自己的認知、理解與想法,以自由詞匯作為標簽對資源進行組織和利用[3]。

伴隨用戶標簽發展的是一種新型的網站信息組織方式——folksonomy(公眾分類法)。它的基本思想是:根據標簽被使用的頻次,選用高頻標簽作為該類信息類名的一種網絡信息分類方法。與一般分類方法不同的是,它向社群參與者提供一種協同構建與共享各自網絡資源標簽的開放式平臺,通過用戶自身制定分類標準和提交標簽來實現[4]。但由于標簽是由不同用戶根據自己的理解提出的,因此隨意性大,與網站一般分類目錄相比科學性明顯不足。所以用戶標簽與網站一般分類目錄的關系不應該是相互替代或是并行,在后期探討網站分類目錄改善方案中,可以在充分考慮用戶心智模型的基礎上兼顧網站建設的科學性,將兩者予以整合。

1.2 基于用戶標簽的電子商務網站分類改善研究現狀

目前,一些電子商務網站開始采用公眾分類法為用戶提供標簽服務。本研究在對著名電子商務網站——亞馬遜和淘寶網的考察中發現:用戶標簽在電子商務網站中的主要功能是通過標簽云圖的形式為用戶提供商品推薦,同時方便用戶查找其他具有相同特性的商品,并對自己感興趣的商品進行組織。在這些網站中,標簽云圖與網站一般分類目錄形成了兩大并行體系,其目的都是為了方便用戶檢索相關產品。

可以說與電子商務網站一般分類目錄相比,網站使用標簽云圖為用戶展示熱門商品已經完全考慮到了用戶的心智模型,且標簽管理也已相當成熟,但是當下的標簽云圖仍存在很多的問題:(1)用戶標簽所組成的類目是非等級平面結構,難以揭示信息之間復雜的關系。(2)缺乏對語義尤其是同義詞的控制。(3)通過標簽云圖檢索到的產品不是五花八門就是不夠全面。

對此,國內外學者提出了一些改進措施,試圖改善電子商務網站中標簽云圖存在的不足。Heymann P等人提出將大量的標簽轉化為可導航的層次結構的分類目。將標簽按其所標注的資源的次數表示成向量的形式,同時用余弦相似性計算得到標簽的相似圖,最后得到潛在層級的分類法[5]。國內也有學者提出可以通過標簽聚類技術,將標簽進行層級處理。西安電子科技大學的竇永香等利用著名的Porter算法對英文標簽進行詞根提取,然后根據用戶的精確度要求對相關標簽進行聚類[6]。廣東商學院的王翠英在對標簽進行共現分析的基礎上,提出基于共現信息的標簽聚類算法[7]。此外,武漢大學的曹高輝等提出通過凝聚式層次聚類算法,利用相關標簽的權重,計算標簽之間的相關度,從而實現標簽聚類[8]。

對于目前基于用戶標簽的電子商務網站改善方案,研究大多集中在標簽聚類的問題上,由于在實際復雜的電子商務網站中,無論是用戶、標簽還是資源都是海量的,這導致了用戶標簽的隨意性和不科學性,也給基于用戶標簽的電子商務網站分類目錄改善從理論走向實際應用帶來了許多困難。此外,對于用戶而言僅依靠用戶標簽和標簽云圖是無法滿足網站分類搜索這一需求的,而當前的改善思路很少考慮到將網站一般分類目錄與標簽云圖整合起來研究。

本研究嘗試利用網站現有分類目錄的科學性,同時考慮用戶的心智模型,在用戶標簽聚類的基礎上,將網站一般分類目錄與用戶標簽系統兩者進行有機結合,從而改善電子商務網站分類目錄的現狀。

2 基于用戶標簽的電子商務網站分類目錄改善方案設計

本研究擬采用如下方法來改善電子商務網站分類目錄:對基于用戶認知所提出的標簽進行聚類,形成具有層級關系可導航的標簽云圖,同時在網站現有分類目錄與具有層級關系的標簽云圖之間建立映射,使用戶可以直接依據用戶標簽云圖實現商品的分類搜索。整個系統實現思路包括:標簽預處理、標簽聚類、標簽與網站分類映射3個部分,如圖1所示。

2.1 標簽預處理

主要目的是通過構建同義詞表來達到同義詞控制。

2.2 標簽聚類

通過對用戶標簽同義詞的控制,我們提出了對用戶標簽進行層級聚類的構想。標簽聚類基本思想是通過對用戶標簽數據的詞頻統計以及共現分析(與tag璱共現次數最多的tag璲被認為與tag璱強相關),將用戶標簽聚類成一個符合用戶個人認知習慣的商品分類體系。根據該思想,標簽的聚類過程如圖2所示:

圖2 標簽聚類流程圖

2.3 標簽映射

主要目的是將用戶標簽聚類結果與網站現有分類目錄之間建立映射關系,通過點擊標簽云圖上的用戶標簽能夠迅速定位到網站現有分類目錄相應類別上。具體用戶標簽映射實現思路如圖3所示。

圖3 用戶標簽映射網站分類目錄算法

3 實驗驗證與系統實現

在上文論述的基于用戶標簽電子商務網站分類改善總體方案設計的基礎上,本研究還模擬了實際用戶對商品添加標簽的情景,進行實驗探索。

3.1 實驗設計

由于不同用戶背景、知識、經驗各不相同,導致添加標簽的結果存在一定差異。因此本研究選取了經管院和計算機院大三和大四2個年級共188名學生參與我們的實驗。由被試對本實驗中提出的4種商品(本實驗主要指定了電子詞典和U盤類目下的4種具體產品,分別是“諾亞舟NH6080電子詞典”、“名人牛津搜索王”、“金士頓U盤”、“憶捷優盤U5”)進行標注,分別提交3個標簽。

實驗共回收有效問卷185份,涉及到的標簽概念355個。將用戶提交的標簽輸入到專門為本實驗模擬建立的電子商務網站用戶標簽平臺上。如圖4所示:

圖4 電子商務網站用戶標簽添加實驗平臺

3.2 用戶標簽預處理實驗探索

本研究從實驗標簽集合中隨機抽取142個概念作為建立同義詞表的數據集。按照一定的同義詞表構建依據,手工構建同義詞表,并選用同義詞組中使用頻次較高的詞作為標準詞。然后通過設計計算機程序利用字面匹配和字面相似度計算的方法,將用戶標簽與同義詞表中的詞進行匹配,并用標準詞對該標簽進行表征。

3.3 用戶標簽聚類實驗探索

在用戶標簽預處理的基礎上,本研究通過計算機編程嘗試實現用戶標簽的層級聚類。具體標簽聚類步驟如下:

3.3.1 將每個商品下的標簽進行聚類,取出使用頻次最高的標簽作為初始的聚類中心

例如產品“名人牛津搜索王”的所有標簽中,“名人”的使用頻次最高,“名人”就是該商品的聚類中心。

3.3.2 將從屬于每個聚類中心點的最底層標簽進行兩兩相似度判斷

相似度判斷依據有兩點:首先,根據兩聚類中心的最底層標簽的字面匹配度來確定聚類中心是否相似。其次,根據最底層相似的個數,如果兩聚類中心下相似標簽的個數達到一定的閾值,那么這兩聚類中心所代表的商品即為同類商品,它們會有一個共同的上層目錄(父目錄)。

3.3.3 上層目錄(父目錄)的確定

我們結合兩個方面來確定上層目錄:該標簽在同類商品中出現的概率,以及在每個商品中出現的頻次。對于同類商品,標簽A都被標注或標注的概率很大,且出現的頻次非常高,通過權重計算,我們可以判定A是該同類商品的上層目錄。例如,對于“諾亞舟NH6080電子詞典”以及它的同類商品“商品A“商品B”“商品C”……來說,標簽“電子產品”“電子詞典”在上述4中產品中出現的頻率非常高(分別為75%、100%),且使用頻次也比較大(分別為65次、70次)。經過權重計算,最終結果是電子詞典>電子產品,那么電子詞典就是該同類商品的共同上層目錄。按該方法繼續由下往上聚類,即可形成多層類目體系。

按照上述算法步驟,最終程序實現聚類效果如圖5所示。圖5 用戶標簽聚類結果界面

3.4 用戶標簽映射實驗探索

按照上節標簽映射的基本思想,我們按照一定的映射規則將用戶標簽聚類結果與網站現有分類目錄之間建立了映射關系。實驗中具體實現步驟是:

3.4.1 建立標簽樹

根據網站自身分類目錄和標簽聚類結果分別建立網站分類目錄樹(如圖6)和聚類標簽樹(如圖7)。其中聚類結果將以具有層級結構樹狀結構(僅顯示兩層結構)在云圖中展現。

電腦產品電子詞典存儲產品諾亞舟名 人金士頓憶 捷圖6 網站分類目錄樹樣圖

子電子詞典存儲設備諾亞舟名 人金士頓憶 捷圖7 聚類結果標簽樹樣圖

3.4.2 建立映射規則

我們將兩個樹中的每一個目錄標簽作為一個實體,建立了4條映射規則。①如果描述兩個數據項語義的語義樹(就是它所處的目錄列別的層級以及其子孫節點,兄弟節點,父親節點)完全相同,則兩個數據項語義相等,可直接映射,即實體間的一對一映射(如我們實驗網站用戶標簽層級結構下的“電子詞典”到網站分類目錄下“電子詞典”的映射)。②標簽通常被人們用來作為實體的惟一標識(名字),因此若待比較的兩個實體的標簽相等,則認為兩實體相等。③同樣地,若兩個待比較實體擁有相同的URI(即層級目錄中所指的相對應的商品展示頁面相同),則認為兩實體相等。④擁有相同實例的兩個實體,被認為相等。

3.4.3 標簽映射

在聚類效果達到比較好的基礎上,參照上述映射規則,我們分別采用字面匹配的方法計算兩棵樹中的各節點(父節點、子孫節點)的相似程度,相似度最大的作為其在另一棵樹中的映射節點,例如:當用戶在用戶標簽分類目錄中選擇“U盤”這一標簽時,系統通過對標簽分類體系中“U盤”目錄的父節點和子孫節點標簽所對應的具體商品進行統計,發現這些商品在網站傳統分類目錄中屬于“電腦產品”目錄下的“存儲產品”目錄,那么就可將用戶標簽分類目錄中“U盤”與網站分類體系中“存儲產品”目錄相映射。當用戶點擊標簽“U盤”時,其返回的結果為網站分類體系中“存儲產品”目錄下的產品。

本研究最終希望達到的效果是:實驗建立一個電子商務用戶標簽平臺,實現標注功能,標簽聚類結果以層級結構(兩層)的形式作為用戶構建的“商品目錄”展示在標簽云圖上,并實現標簽聚類結果和網站一般分類目錄的映射,從而改善電子商務網站檢索效果。最終程序實現映射效果如圖8:圖8 用戶標簽與網站分類目錄映射效果圖

4 結 語

本研究提出了一種基于用戶標簽聚類的電子商務網站分類目錄改善方案,并通過實驗驗證了在電子商務平臺上該方案的可行性。但是由于時間和人力有限,本研究在實驗驗證中只選取了4種產品、3個層級、2類產品,這與電子商務網站實際情況還存在很大差距。尤其是在真實情境下,面對大規模用戶標簽以及成千上萬種商品時用戶標簽如何進行更好的語義控制、產品邊界概念如何界定、標簽云圖展示哪些標簽及如何合理的分布等問題還有待進一步研究。

參考文獻

[1]朱晶晶.電子商務網站分類體系理解的用戶心智模型研究[D].南京理工大學,2010.

[2]Thomas Vander Wal.Folksonomy Explanations[EB/OL].http:∥www.vanderwal.Net/random/entrysel.php?blog=1622,2006-11-02.

[3]樂慶玲.基于協同機制的Tag資源自動分類研究[J].現代圖書情報技術,2007,155(9):58-61.

[4]周榮庭,鄭彬.公眾分類:網絡時代的新型信息分類方法[J].現代圖書情報技術,2006,(3):72-75.

[5]Heymann P,Garcia-MolinayH.Collaborative creation of communal hierarchical taxonomies in social Tagging systems[R].Technical Report Info-Lab.Department of Computer Science,Stanford:StanfordUniversity,2006.

[6]竇永香,蘇山佳,趙捧未.基于Porter算法的英文標簽聚類方法研究[J].現代圖書情報技術,2009,(9):40-44.

[7]王翠英(編譯).標簽的聚類分析研究[J].現代圖書情報技術,2008,(5):67-71.

[8]曹高輝,焦玉英,成全.基于凝聚式層次聚類算法的標簽聚類研究[J].現代圖書情報技術,2008,(4):67-71.

主站蜘蛛池模板: 久久精品国产在热久久2019| 国产欧美日韩91| 成人福利在线看| 人妻一本久道久久综合久久鬼色| 粉嫩国产白浆在线观看| 亚洲成人在线免费观看| 国内老司机精品视频在线播出| 国产在线观看91精品| 日韩精品一区二区三区大桥未久| 91区国产福利在线观看午夜| 亚洲色图欧美| 免费看美女自慰的网站| 欧美中文一区| 午夜性刺激在线观看免费| 欧美成人影院亚洲综合图| 真实国产乱子伦视频| 国产精品无码久久久久AV| 久久婷婷国产综合尤物精品| 国产精品福利尤物youwu| 在线观看亚洲国产| 亚洲免费毛片| 婷婷激情亚洲| 奇米影视狠狠精品7777| 日韩精品无码一级毛片免费| 亚洲国产天堂久久综合226114| 国产精品网曝门免费视频| 欧美日韩成人| 97久久精品人人做人人爽| 丁香婷婷在线视频| 99在线视频免费| 91视频精品| 欧洲在线免费视频| 综合社区亚洲熟妇p| 亚洲一区二区在线无码| 国产精品亚洲日韩AⅤ在线观看| 日韩成人高清无码| 日韩国产欧美精品在线| 福利在线一区| 欧美日韩精品综合在线一区| 亚洲香蕉久久| 2021精品国产自在现线看| 国产好痛疼轻点好爽的视频| 亚洲综合色区在线播放2019 | 国产午夜一级毛片| 超清无码一区二区三区| 成人中文在线| 91视频免费观看网站| 青草精品视频| 美女毛片在线| 久久性妇女精品免费| 日本免费高清一区| 日本亚洲欧美在线| 亚洲综合国产一区二区三区| 99久久99这里只有免费的精品| 精品国产电影久久九九| 亚洲伊人天堂| 波多野结衣无码AV在线| 丁香综合在线| 国产免费羞羞视频| 亚洲人成在线精品| 三上悠亚一区二区| 99久久精品免费观看国产| 亚洲v日韩v欧美在线观看| 激情無極限的亚洲一区免费| 国产探花在线视频| 色爽网免费视频| 露脸国产精品自产在线播| 国产福利一区二区在线观看| 亚洲av无码片一区二区三区| julia中文字幕久久亚洲| 99久久精品国产精品亚洲| 亚洲视频在线青青| 国产超碰在线观看| 国产福利小视频高清在线观看| 欧美区一区| 日本在线国产| 极品性荡少妇一区二区色欲| 日本人真淫视频一区二区三区 | 久久无码高潮喷水| 亚洲天堂精品视频| 午夜精品国产自在| 2021天堂在线亚洲精品专区|