[摘要]對Folksonomy網格架構和互聯關系進行了剖析,利用基于互聯關系的共現分析的原理,探討了其信息自組化管理的基本功能模式,以期有助于Folksonomy的深度開發和應用。
〔關鍵詞〕Folksonomy;網絡結構;網絡性質
DOI:10.3969/j.issn.1008-0821.2011.03.037
〔中圖分類號〕G250.17 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)03-0151-03
Study on the Basic Structure and Functional Models of FolksonomyLiu Fengjuan
(Library,China Agricultural University,Beijing 100193,China)
〔Abstract〕By analyzing the architecture of Folksonomy,and based on the principle of collaborative analysis,discussed basic framework and functional models of organization and management of information in Folksonomy.
〔Keywords〕Folksonomy;network structure;network properties
步入互聯網web2.0時代,為滿足用戶在網際環境下參與自我信息管理的需求,應對日益復雜的、海量的和指數增長的信息所帶來的挑戰,在基于本體論的語義自組網格因技術的巨大復雜性尚在探索的時候,另一種網絡信息的組織方式,Folksonomy及其應用網站開始興起并得以迅速發展。Folksonomy是基于用戶參與和信息共享原則下的,通過用戶用自然語言作為標簽對資源進行標引,由用戶、標簽和資源三元組間的關連而形成的信息網格系統,利用系統三元組間的關連關系,采用基于共現分析所產生的分類、聚類、排隊和推介軟件技術支撐,對散布于網格節點的信息進行描述、組織、瀏覽、檢索等網絡自組型管理的模式。為了充分地挖掘用戶、標簽和資源間的關系,完善管理軟件,拓展應用空間,有必要對Folksonomy的基本架構及其功能模式進行深入研究,該文作為這種研究的一種探索,以期與學術同仁交流。
1 Folksonomy的網格結構
在Folksonomy系統,注冊用戶為了方便其個人資源的管理和檢索,對上傳或需要備檔的資源,基于用戶對資源的理解,用自由語言作為標簽,對資源進行標注,并由Folksonomy收藏保存,加入系統供其他用戶共享。標引過程涉及用戶,標簽和資源三元組要素。三元組元素間因多向連接而形成為一個復雜的交互作用的信息網格:用戶在共享相同的標簽和/或資源中與其他人產生間接的聯系;標簽因標記同一資源對象而發生關聯;資源因同一標簽標注而被聚類。隨著協同標引過程的進行,系統不斷生成并擴大,產生出一個開放的、動態變化的、復雜的三元網格,稱之為三元超圖。根據圖論,Folksonomy可以如下定義:
定義1 Folksonomy是一三元網格超圖GF=(V,E),其中:(1)圖的結點集合V為用戶集合U、標簽集合T和資源集合R的不相交并集V∶=U∪T∪R;(2)用戶和標簽、標簽和資源、用戶和資源的所有共現成為各個節點的無向加權邊E∶={{u,t}r∈R∶(u,t,r)∈Y}∪{{t,r}u∈U∶(u,t,r)∈Y∪{{u,r}t∈T∶(u,t,r)∈Y},或表示成E={{u,t},{t,r},{u,r}(u,t,r)∈Y}。邊{u,t}由{r∈R∶(u,t,r)∈Y}加權,{t,r}由{u∈U∶(u,t,r)∈Y}加權,{u,r}由{t∈T∶(u,t,r)∈Y}加權。
在集合論中,Folksonomy網格超圖可以形式化的如下表示:
定義2 Folksonomy是一個元組F∶=(U,T,R,Y),U、T和R是有限集,它們的元素分別被稱為用戶、標簽和資源,Y是它們之間的三重關系,也就是YU×T×R。
等價上,為方便應用,也可以用三維矢基的張量描述Folksonomy:
定義3 Folksonomy可三位矢基上的三維張量描述,即F∶=(U,T,R,A),其中,U={ui},i=1,……I;T={tj},j=1,……J;R={rk}=1,……K,分別為用戶、標簽和資源矢基,而A為三維張量,A∈RI×J×K布爾值。張量A表示標記信息:如果一個用戶uj用標簽ti標記資源rk,那么Aijk=1,否則Aijk=0。通常張量A是稀疏的。
2 Folksonomy的關聯關系
對Folksonomy上三元關系,關聯規則不能對其進行直接挖掘,必須定義某種三元關聯規則,或者將三元的Folksonomy轉化成二元關系。采用后一種方式,可將Folksonomy的任何兩元結合,而與另一元建立關聯。諸如關聯分析中,用戶—資源的結合是事務,標簽是項目,或標簽——用戶的結合是事務,資源是項目;或標簽——資源的結合是事務,用戶是項目,以形成兩元集間的語境。相應有:K1∶=(U×R,T,I1),I1∶={((u,r),t)(u,t,r)∈Y};K2∶=(T×U,R,I2),I2∶={(t,u),r)(u,t,r)∈Y}和K3∶=(T×R,U,I3),I1∶={((t,r),u)(u,t,r)∈Y}。兩元集上的關系,可以用矩陣表示,如K1=(Tur),其中的元素Tur為關聯該兩元的另一元的事件個數。
或利用上述定義3,將Folksonomy上的三維張量A∈RI×J×K,通過對設定的某一維求和,轉化成二維張量B。假如設定的是標簽U,則有B(J×K)∈RJ×K,B(J×K)=∑iAijk(J×K)。矩陣B(J×K)的行對應標簽,矩陣的列對應標記的資源,矩陣的元素bjk表示用標簽j標引資源k的累加用戶數。
2011年3月第31卷第3期關于Folksonomy的基本架構及其功能模式的研究Mar.,2011Vol.31 No.33 Folksonomy的功能模式
Folksonomy的功能模式是:基于網格自身結構特點,由信息結點相互關聯所隱含并可以挖掘的信息組織和發現機制及其管理模式。諸如排隊、聚類和推介功能等。
3.1 排 隊
排隊是對信息進行序列化的過程,指把信息按照某種重要性度量由大到小排列的過程。根據上節,由Folksonomy上的三維張量A∈RI×J×K,經轉化獲得的二維張量B,有如下類型:
3.1.1 標簽——資源矩陣
B(J×K)=∑iAijk(J×K),該矩陣的行為標簽,列為資源。可按行對某一標簽所標引的所有資源列以用戶標引次數進行排序,以表明某一標簽經常標引的資源,或者按列對資源所使用的標簽按使用頻次排序,以表明某一資源經常使用的標簽。
3.1.2 用戶——資源矩陣
B(I×K)=∑jAijk(I×K),該矩陣的行為用戶,列為資源。利用該數據矩陣,可以對每一行的特定用戶最感興趣的資源進行排序,或對每一列特定資源下匯集的資深用戶進行排序。
3.1.3 用戶——標簽矩陣
B(I×J)=∑kAijk(I×J),該矩陣的行為用戶,列為標簽。利用該數據矩陣,可以對每一行的特定用戶最常用的標簽進行排序,或對每一列特定標簽的最常用用戶進行排序。
3.2 關 聯
Folksonomy中的各元集結構是沒有等級和先驗邏輯的偏平面化結構,對各元集進行關聯分析,就是基于該元集與另一元集二維張量矩陣,依據某種相異性或相似性度量,如歐幾里得距離或余弦相似度,構造元集數據項間的相鄰關系矩陣,在此基礎上可進一步進行聚類和推薦等數據挖掘過程。
諸如,由標簽——資源矩陣B(J×K)的行相似性比較,基于資源關聯導出標簽間的相似性矩陣W(J×J);由B(I×J)的列的行相似性比較,或其轉置矩陣的行相似性比較,標簽關聯導出資源的相似性矩陣W(K×K)。同樣,由用戶——資源矩陣B(I×K),基于資源關聯導出的用戶相似性矩陣W(I×I)。
以標簽間的相似性矩陣W(J×J)為例,采用歐幾里得距離度量,具體映射過程的計數如下:
聚類是對體系對象進行系統分組的過程。其目標是,組內對象間相似,而組間不相似,且組內越相似,而組間越不相似越好。聚類是是一種基于上述相似矩陣的非監督分類過程,各種算法已經非常成熟,對資源進行層次聚類,有助于使資源的知識化組織管理;對標簽進行層次聚類,有助于建立標簽間的語義關系體系;而對用戶的劃分聚類,有利于社團和友鄰凝聚。
3.4 推 薦
推薦是通過對關聯對象通過共現分析,產生相應關聯規則的過程。推薦在Folksonomy協同互動中具有重要作用。
在關聯規則發現過程中,若令I={i1,i2,…,id}是事務中所有項的集合,而T={t1,t2,…,tn}是所有事務的集合。每事務ti包含的項集都是I的子集,即tiI。如果一個項集包含k個項,則稱為k-項集。項集的一個重要性質是它的支持度計數,即包含特定項集的事務個數,表示為:
σ(X)={tiXti,ti∈T}
定義4 關聯規則是形如X→Y的蘊含表達式,其中X和Y為不相交項集,即X∩Y=。規則的關聯強度可用它的支持度(s)和置信度(c)度量。關聯規則發現是找出支持度大于等于閾值minsup并且置信度大于等于閾值minconf的所有規則。支持度和置信度的形式定義如下:
根據關聯關系定義2,對于二元組K1∶=(U×R,T,I1),I1∶={((u,r),t)(u,t,r)∈Y},在標簽項集上,用戶——資源結合是事務,推薦規則X→Y表明,用戶使用X中的標簽,則也常使Y中的標簽;對于K2∶=(T×U,R,I2),I2∶={(t,u),r)(u,t,r)∈Y},在資源集上,用戶——標簽結合是事務,推薦規則X→Y表明,用戶需要X的資源,則也常需要Y中的資源。
Folksonomy是一個三元結點的復雜超鏈接網格,深入剖析其網格架構和互聯關系,建立基于互聯關系的信息過程的功能模式,將有助于Folksonomy的深度開發和應用,推動web2.0時代社會化大眾網絡的發展。
參考文獻
[1]Scott A Golder,Bernardo A Huberman.The Structure of Collaborative Tagging Systems[EB/OL].http:∥arxiv.org/ftp/cs/papers/0508/0508082.pdf,2008-03-21.
[2]Christoph Schmitz,Miranda Grahl,Andreas Hotho,GerdStumme,Ciro Cattuto,Andrea Baldassarri,Vittorio Loreto,VitoD1P1Servedio.Network Properties of Folksonomies[EB].http:∥www2007.org/workshops/paper-13.pdf,2007-08-20.
[3]Christoph Schmitz,Andreas Hotho,Robert Jaschke,GerdStumme.Mining Association Rules in Folksonomies[EB].http:∥www.kde.cs.uni-kassel.de/hotho/pub/2006/schmitz2006asso-ifcs.pdf,2007-08-20.
[4]Mika,P.Ontologies are us:A unified model of social networks and semantics Proc[C].ISWC,2005.
[5]Mathes Adam.Folksonomies-cooperative classification and communication through shared metadata[EB/OL].http:∥www.adammathes.com/academic/computermediatedcommunication/folksonomies.html,2008-03-21.