面向空間信息智能分發(fā)的動態(tài)化用戶偏好模型研究

2011-01-31 08:22:16李新廣范明虎

測繪學(xué)報 2011年5期

關(guān)鍵詞：用戶模型

李新廣,范明虎,杜武

武漢大學(xué)測繪遙感信息工程國家重點實驗室,湖北武漢430079

1 引言

空間信息智能分發(fā)是主動空間信息服務(wù)技術(shù)的重要組成部分[1],近年來得到了廣泛關(guān)注。20世紀(jì)90年代以來,以美國為代表的西方國家就開始研發(fā)空間信息智能分發(fā)系統(tǒng)。1996年,美國開始研發(fā)戰(zhàn)場警覺及數(shù)據(jù)分發(fā)系統(tǒng)[2-3],1999年開始實施全球信息柵格項目[4]。2001年美國提出“智能節(jié)點”的概念,并于2003年結(jié)合“網(wǎng)絡(luò)中心戰(zhàn)”的思想開始在軍事決策系統(tǒng)中投入使用[5-7]。2004年,美國啟動戰(zhàn)術(shù)級作戰(zhàn)人員信息網(wǎng)項目[8]。在國內(nèi),近幾年也出現(xiàn)了一些相關(guān)研究,但主要集中在分發(fā)系統(tǒng)架構(gòu)層面,且多是對國外相關(guān)研究的一些介紹[9-11]。總體而言,由于空間信息的獨特性及復(fù)雜性,用戶偏好模型的構(gòu)建及其效用度評估算法一直是制約空間信息智能分發(fā)研究取得進展的關(guān)鍵瓶頸。

夏宇針對遙感數(shù)據(jù)的分發(fā),探索性地采用區(qū)間數(shù)表達具有區(qū)間范圍特征的經(jīng)度、緯度、時間、頻譜和空間分辨率等指標(biāo)的用戶檢索特征[12],并通過對TOPSIS方法加以擴展進而構(gòu)建用戶偏好模型[13],較好地解決空間數(shù)據(jù)各屬性特征的表達問題,不過該方法仍存在空間范圍定位不夠準(zhǔn)確、效用度估計存在偏差、特征值分布過于集中、模型缺少完整的動態(tài)化機制等不足[9-11]。為此,本文作出以下擴展:①為便于存儲和計算,將不規(guī)則子區(qū)間進一步分割為基本區(qū)間單元,用于記錄頻譜、空間分辨率和時間偏好特征;②引入?yún)^(qū)域數(shù)以準(zhǔn)確表達空間范圍,將最小區(qū)域范圍分割為基本區(qū)域單元,用于記錄空間范圍偏好特征;③將三元組模型擴展為四元組模型,用以完整記錄用戶偏好;④引入興趣度密度、興趣度的概念和相應(yīng)算法,以便均衡、合理地反映目標(biāo)區(qū)間(區(qū)域)范圍內(nèi)用戶各次檢索的貢獻;⑤增加用戶信息反饋、基于權(quán)值衰減函數(shù)的權(quán)值衰減因子等動態(tài)化機制,使模型完全動態(tài)化。試驗表明,本文的模型能夠隨著用戶興趣的轉(zhuǎn)移更為及時、準(zhǔn)確地自行調(diào)整。

2 模型動態(tài)化概述

目前,一些非空間信息智能分發(fā)系統(tǒng)已經(jīng)考慮到模型的動態(tài)化因素,其原理是通過引入權(quán)值衰減函數(shù),使不同時段的訪問信息在表達用戶偏好的過程中被賦予不同的權(quán)重[14-15]。斯坦福大學(xué)的FAB自適應(yīng)文檔推薦系統(tǒng)是非空間信息智能分發(fā)系統(tǒng)的典型代表,它通過引入一個簡單的權(quán)值衰減函數(shù) h(t)=0.97t對不同時段用戶的信息獲取進行加權(quán),即系統(tǒng)每天晚上均將用戶全部特征乘以一個衰減系數(shù)0.97,從而實現(xiàn)“古老”信息與“最新”信息相比權(quán)重較低[16]。

模型的動態(tài)化因素沒有得到充分考慮是當(dāng)前空間信息智能分發(fā)研究共有的局限。現(xiàn)有的智能分發(fā)系統(tǒng)主要通過不斷更新用戶檢索記錄,以建立和修正用戶偏好模型的方式使模型動態(tài)化。由于用戶檢索記錄的時間跨度往往較大,同時用戶的偏好特征也會隨著時間和需要的變化出現(xiàn)一定波動,因而,即便對于同一用戶,他在不同時段的檢索記錄對于其偏好特征的表達也會有不同貢獻,應(yīng)賦予不同權(quán)值。另外,模型缺少完善的用戶信息反饋機制也是現(xiàn)有模型動態(tài)化的薄弱環(huán)節(jié)。僅根據(jù)用戶的檢索記錄生成的偏好模型雖然能在一定程度上反映用戶的偏好特征,但這種偏好模型卻難以及時反映用戶偏好特征的變化。引入用戶信息反饋機制能夠彌補這一缺陷。由于用戶在獲得分發(fā)結(jié)果之后,會根據(jù)自己的判斷選擇一些較理想的結(jié)果,打開或者下載其中的數(shù)據(jù),而這一行為反映了用戶的興趣偏好[17]。

綜上所述,空間信息智能分發(fā)的動態(tài)化模型主要包括三個方面的動態(tài)化分量:①通過隱式或顯式地獲取用戶檢索記錄,不斷地對用戶模型進行修正,這是現(xiàn)有模型都已實現(xiàn)的模型動態(tài)化分量;②是通過引入權(quán)值衰減函數(shù),對不同時段的用戶行為進行加權(quán)求和的模型動態(tài)化分量;③通過用戶信息反饋引入的模型動態(tài)化分量。第一種分量已蘊含在用戶的每一次檢索記錄中,本文重點討論后兩種情況。為便于討論,①中所建模型稱為靜態(tài)模型,考慮②、③因素的模型稱為動態(tài)模型。

3 用戶偏好模型框架

3.1 模型結(jié)構(gòu)

用戶模型采用四元組形式

式中,X={x1,…,xi,…,xs};W={w1,…,wi,…,ws};R={R1,…,Ri,…,Rs};V={V1,…,Vi,…,Vs}。xi依次為空間范圍、頻譜范圍、時間范圍、空間分辨率范圍等元素項,s為元素項個數(shù)(注:僅考慮具有連續(xù)變化范圍的元素項,傳統(tǒng)類型的解決方案見文獻[9—11]),wi為xi的權(quán)值。Ri為xi的分布范圍和步長,分兩種情況:對空間范圍,Ri=[XminXmaxXstepYminYmaxYstep],i= 1,其中,Xmin、Xmax、Xstep、Ymin、Ymax、Ystep分別為檢索區(qū)域經(jīng)緯度分量的分布范圍的最小值、最大值、步長;②對頻譜范圍、時間范圍、空間分辨率范圍等區(qū)間類型,Ri=[XminXmaxXstep],i=2,3,4,其中,Xmin、Xmax、Xstep分別為分布范圍的最小值、最大值、步長。Vi為反映xi分布特征的數(shù)值矩陣或向量,分三種情況:①對于空間范圍,Vi={ρg,k| g=1,2,…,m,k=1,2,…,t},i=1,是數(shù)值矩陣, ρg,k為空間范圍內(nèi)對應(yīng)基本區(qū)域單元上的分布密度值,m、t分別為經(jīng)、緯度方向基本區(qū)域單元的個數(shù);②對于頻譜范圍i=2是數(shù)值向量,ρg為頻譜范圍內(nèi)對應(yīng)基本區(qū)間單元上的分布密度值,m為頻譜范圍內(nèi)的基本區(qū)間單元個數(shù);③對于時間和空間分辨率,Vi=是數(shù)值向量,νi,g為時間、空間分辨率分布范圍內(nèi)對應(yīng)基本區(qū)間單元上出現(xiàn)的頻率值,mi為相應(yīng)元素項分布范圍內(nèi)基本區(qū)間單元的個數(shù)。

3.2 權(quán)值衰減函數(shù)

用戶對空間信息的獲取通常在一段時期內(nèi)反復(fù)進行,其信息的獲取記錄是時間的函數(shù)。假定用戶的偏好特征在一定時間內(nèi)相對穩(wěn)定,且隨著時間的推移小幅波動,則有理由認(rèn)為,對于一組不同時間內(nèi)獲取的數(shù)據(jù),獲取的時間距現(xiàn)在愈近,愈能反映用戶當(dāng)前的需要,反之,亦然。也就是說,用戶檢索記錄的權(quán)值是時間的函數(shù),時間距現(xiàn)在愈久,權(quán)值愈小,反之,則愈大。若將以后的檢索記錄也包括在內(nèi),則權(quán)值衰減函數(shù)的曲線類似于圖1。圖中,權(quán)值曲線 h(t)是一支在當(dāng)前時間(t=tn)取最大值,在tn兩側(cè)逐漸遞減的單峰值曲線,h(t)=0及 h(t)=h(tn)是其漸近線。假設(shè)以后(t>tn)的檢索記錄存在,則可以認(rèn)為,包括過去和將來的所有檢索記錄的全體整體上反映了用戶目前的偏好特征。事實上,只能得到以前(t≤tn)的記錄,因而,權(quán)值曲線應(yīng)該取 t≤tn時的左半支,即認(rèn)為到目前為止的所有檢索記錄的全體整體上反映用戶的偏好特征(圖2)。

圖1 權(quán)值衰減函數(shù)曲線特征Fig.1 Characteristic of weight attenuation function curve

圖2 權(quán)值衰減函數(shù)曲線Fig.2 Weight attenuation function curve

正態(tài)分布的密度函數(shù)較好地符合了圖1所示的權(quán)值曲線的特征。據(jù)此,本文對其概念加以拓展,用以定量描述用戶檢索記錄的權(quán)值。如下式

式中,tn代表當(dāng)前時間;σ為衡量用戶檢索記錄貢獻的時間均方差。假設(shè)對于某一用戶,時間段Δt以前的檢索記錄對現(xiàn)在的偏好建模沒有貢獻,根據(jù)h(t)函數(shù)的特點,可以取σ=Δt/3,這是因為[tn-3σ,tn]區(qū)間內(nèi)的權(quán)值積累達到了總權(quán)值的99.74%,此時可以忽略 t

3.3 權(quán)值向量

權(quán)值向量的確定采用文獻[9—11]的方法,但考慮模型動態(tài)化的影響,步驟如下:

(1)各元素項檢索和反饋的頻率統(tǒng)計

式中,di表示第i個元素項各檢索和反饋記錄的權(quán)值之和;dt表示全部檢索和反饋記錄的權(quán)值之和;s為元素項的個數(shù);pi表示第i個元素項基于權(quán)值衰減函數(shù)的檢索和反饋頻率。

(2)檢索和反饋頻率歸一化

式中,p′i表示第i個元素項的基于權(quán)值衰減函數(shù)的歸一化的檢索和反饋頻率。

(3)權(quán)值為歸一化的檢索和反饋頻率

由于空間范圍包含經(jīng)、緯度兩個數(shù)據(jù)項的信息,故步驟(2)中計算空間范圍的歸一化的檢索和反饋頻率時,pi應(yīng)取經(jīng)、緯度頻率之和,使計算出的空間范圍的權(quán)值為經(jīng)緯度權(quán)值之和。

3.4 基本區(qū)域(區(qū)間)單元

3.4.1 區(qū)域數(shù)

對區(qū)間數(shù)的概念加以拓展,引入?yún)^(qū)域數(shù)用以表達空間范圍這一二維區(qū)間,它表示一片沿 X、Y軸均有一定連續(xù)范圍的矩形區(qū)域。形式如下: [[a,b],[c,d]]表示分別沿 X、Y軸方向的區(qū)間[a,b]和[c,d]圍成的矩形區(qū)域;[[a,b),[c,d)]表示分別沿 X、Y軸方向的區(qū)間[a,b)和[c,d)圍成的矩形區(qū)域;[(a,b),(c,d)]表示分別沿 X、Y軸方向的區(qū)間(a,b)和(c,d)圍成的矩形區(qū)域。其他情況依此類推。

3.4.2 基本區(qū)域單元

式中,m、t分別為D沿X、Y方向分割的區(qū)域單元的個數(shù)。則以下條件恒成立:① Xmin+m× Xstep=Xmax,Ymin+t×Ystep=Ymax;②對于任一樣本值 Zk的經(jīng)度的上下限ξg、緯度的上下限ηk,均存在唯一的 i、j,滿足 Xmin+i×Xstep=ξg,Ymin+ j×Ystep=ηk。則當(dāng) Xstep、Ystep均取最大值時,稱Ui,j為空間范圍D上的基本區(qū)域單元。

3.4.3 基本區(qū)間單元

式中,m為I分割為區(qū)間單元的個數(shù)。則以下條件恒成立:①Xmin+m×Xstep=Xmax;②對于任一樣本值 Zk的上下限ξg,均存在唯一的i,滿足 Xmin+i×Xstep=ξg。則當(dāng) Xstep取最大值時,稱 Ii為區(qū)間范圍I上的基本區(qū)間單元。

4 基于權(quán)值衰減函數(shù)的模型動態(tài)化

4.1 頻譜范圍元素項的分布特征

頻譜范圍元素項用區(qū)間數(shù)表達,采用文獻[9, 18—19]的符號數(shù)據(jù)分析法,用戶的每一個檢索樣本都代表了用戶在tk時刻的一次檢索意圖,相對于當(dāng)前時刻tn而言,可以認(rèn)為這些樣本的權(quán)值為 h(tk)。樣本區(qū)間長度愈短,用戶的檢索目標(biāo)愈集中,單位區(qū)間長度上凝聚用戶愈多的檢索意圖;反之,亦然。因此,若令代表所有頻譜范圍樣本的權(quán)值之和,則元素項的分布特征可由經(jīng)驗密度函數(shù)式(10)表達。其中,對應(yīng)每一個ξi的函數(shù)值都代表區(qū)間[ξi,ξi+Δ ξ],Δ ξ→+0上用戶對相應(yīng)信息的關(guān)注程度

式中,Ik(·)是示性函數(shù),表示ξ是否存在于 Zk中,ξ為頻譜值;‖·‖表示區(qū)間寬度。式(11)表達用戶對區(qū)間 Ix上信息的關(guān)注程度

據(jù)此,引入興趣度、興趣度密度的概念,用于所述關(guān)注程度的數(shù)學(xué)表達,定義如下。

興趣度:根據(jù)興趣度密度式(10)的定義,由式(11)定義的函數(shù)即為興趣度函數(shù),在某一給定區(qū)間 Ix上,由該函數(shù)求得的函數(shù)值即表達了用戶對相應(yīng)區(qū)間信息的偏好程度,定義為興趣度。

4.2 空間范圍元素項的分布特征

4.2.1 分布特征

空間范圍元素項用區(qū)域數(shù)表示,用戶的每一個空間范圍檢索樣本都代表了用戶的一次檢索意圖,相對于當(dāng)前時刻tn而言,可以認(rèn)為這些樣本值的權(quán)值為 h(tk)。樣本區(qū)域面積愈小時,用戶的檢索目標(biāo)愈集中,單位區(qū)域面積上凝聚用戶愈多的檢索意圖;反之,亦然。因此,若令 h=代表所有空間范圍樣本觀測值的權(quán)值之和,則元素項的分布特征可由經(jīng)驗密度函數(shù)式(12)表達。其中,對應(yīng)每一個(ξi,ηj)的函數(shù)值ρz(ξi,ηj),都代表區(qū)域[[ξi,ξi+Δ ξ],[ηi,ηi+Δ η]], Δ ξ→+0,Δ η→+0上用戶對相應(yīng)信息的關(guān)注程度

式中,Ik(·)是示性函數(shù),表示(ξ,η)是否存在于Zk中,(ξ,η)為空間范圍中的某一點;‖·‖表示區(qū)域面積。式(13)表達用戶對區(qū)域Dx,y上信息的關(guān)注程度

則表達相應(yīng)關(guān)注程度的興趣度、興趣度密度定義如下。

興趣度:根據(jù)興趣度密度式(12)的定義,由式(13)定義的函數(shù)即為興趣度函數(shù),在某一給定區(qū)域Dx,y上,由該函數(shù)求得的函數(shù)值即表達了用戶對相應(yīng)區(qū)域信息的偏好程度,定義為興趣度。

4.2.2 興趣度的分解

由式(13)計算的興趣度包含了經(jīng)、緯度兩個元數(shù)據(jù)項的信息,需將其沿經(jīng)、緯度方向進行分解。興趣度的取值同時受用戶偏好模型和待分發(fā)數(shù)據(jù)空間范圍的影響,情況較為復(fù)雜,很難精確量化,但可以基于以下假設(shè)求其近似值:①通常在檢索次數(shù)足夠多的情況下,偏好模型的空間范圍因素在經(jīng)、緯度方向的分量分布特征應(yīng)相對穩(wěn)定,興趣度基本上反映目標(biāo)區(qū)間上的用戶偏好程度;②若將空間范圍分解為兩個獨立的沿經(jīng)、緯度方向的區(qū)間變量,則借鑒4.1節(jié)式(10)、式(11)的方法,可以計算經(jīng)、緯度區(qū)間變量上的興趣度,由于本模型中此處經(jīng)緯度的興趣度通過對目標(biāo)區(qū)間內(nèi)的興趣度密度積分求得,它反映用戶偏好的分布特征,故可近似反映空間范圍內(nèi)經(jīng)、緯度方向興趣度分量的相對關(guān)系;③空間范圍的興趣度沿 X、Y方向的分量之間的比值可近似由之間的比值表達。據(jù)此,空間范圍的興趣度在經(jīng)、緯度方向的分量近似為

4.3 時間、空間分辨率元素項的分布特征

和頻譜范圍一樣,在根據(jù)時間和空間分辨率進行數(shù)據(jù)檢索的過程中,用戶也常用區(qū)間數(shù)來表達需求范圍,但元數(shù)據(jù)表達上有所不同:①時間元數(shù)據(jù)雖然也表現(xiàn)為一個區(qū)間范圍,但由于遙感成像幾乎是瞬時完成的,故在進行效用度計算時,時間更適合作為一個點來處理;②空間分辨率則直接表現(xiàn)為一個或幾個離散點。有些遙感數(shù)據(jù)一景影像中的各個波段空間分辨率是一致的,也有些波段較多的影像中,一景影像存在著幾個不同的分辨率。據(jù)此,在建立偏好模型時,可用區(qū)間數(shù)來表達用戶檢索中時間和空間分辨率的偏好情況,而在進行效用度估計時,則應(yīng)當(dāng)作為一個或幾個離散點來處理。

對于時間和空間分辨率,采用文獻[9, 18—19]的符號數(shù)據(jù)分析法。用戶的每一個檢索樣本值都代表了用戶在tk時刻的一次檢索意圖,相對于當(dāng)前時刻 tn而言,可以認(rèn)為這些樣本值的權(quán)值為h(tk)。若令代表所有時間范圍或空間分辨率范圍樣本觀測值的權(quán)值之和,并采用νg(各基本區(qū)間單元的基于權(quán)值衰減函數(shù)的加權(quán)頻率)表達各基本區(qū)間單元的分布情況,以此表達用戶的偏好特征,則對于給定遙感數(shù)據(jù)的元數(shù)據(jù)項,其成像時間和空間分辨率所對應(yīng)的用戶偏好模型中相應(yīng)元素項的值,客觀上反映了用戶對相應(yīng)數(shù)據(jù)的關(guān)注程度,即興趣度。則興趣度函數(shù)為

式中,x為時間或空間分辨率元素項的屬性值,且x在基本區(qū)間單元 Ig上。對于一景影像存在數(shù)個空間分辨率的情況取分辨率對應(yīng)的最大頻率值。

5 空間信息的分發(fā)決策

5.1 構(gòu)造決策矩陣

采用文獻[9—11]的方法,從決策理論角度出發(fā),將待分發(fā)信息集作為方案集,其決策矩陣如表1。

表1 決策矩陣Tab.1 Decision matrix

其中,Sj為備選方案;xi為元素項;γji為Sj相應(yīng)于 xi的屬性值。對于空間范圍,γji為區(qū)域數(shù)其中為備選方案的經(jīng)度下、上限為緯度下、上限。對于頻譜范圍,γji為區(qū)間數(shù)對于時間或單一空間分辨率,γji為一數(shù)值,對多分辨率數(shù)據(jù), γji為空間分辨率的集合。

5.2 計算備選方案的效用度

根據(jù)式(11)、(14)、(15)和(16),分別計算頻譜范圍、空間范圍、時間和空間分辨率的興趣度。

備選方案Sj的效用度μj為各個元素項的興趣度的加權(quán)和,由下式計算

式中,wi為元素項xi的權(quán)值;ψi為xi的興趣度。

5.3 備選方案的分發(fā)

在獲取效用度之后,便可以根據(jù)效用度的大小對信息進行分發(fā)。具體操作上分推送模式和拉取模式兩種情況,其思路略有不同[16]。

(1)推送模式。可以根據(jù)用戶設(shè)定的閾值 Tr進行分發(fā),即當(dāng)μj≥Tr時,將數(shù)據(jù)分發(fā)給相應(yīng)的用戶,否則不分發(fā)。或者,首先對最近的某一個時期內(nèi)用戶檢索的數(shù)據(jù)進行效用度計算,找出其中最小的效用度,以此作為默認(rèn)閾值,決定是否分發(fā)。

(2)拉取模式。首先,根據(jù)用戶的檢索條件,獲取滿足要求的方案集。比如,對于區(qū)間數(shù)或區(qū)域數(shù)類型的元素項,可以檢索與用戶輸入的區(qū)間數(shù)或區(qū)域數(shù)相交的備選方案,而對于點(或點集)類型的元素項,可以檢索出落入檢索區(qū)間內(nèi)的備選方案。然后,計算上一步結(jié)果集各方案的效用度,根據(jù)效用度大小排序,并以此作為數(shù)據(jù)推薦的優(yōu)先次序。

6 用戶反饋引入的模型動態(tài)化

檢索記錄并不能完整地反映用戶的真實需求,同時由于檢索記錄相對較少,這導(dǎo)致所生成的用戶模型較為粗糙和相對滯后,難以準(zhǔn)確、及時地反映用戶的偏好特征及其變化。通過收集用戶的信息反饋能夠彌補這一不足。本文通過記錄用戶打開、下載的數(shù)據(jù)的特征,并據(jù)此對原有模型進行修正,從而使模型能夠根據(jù)用戶興趣的轉(zhuǎn)移及時做出調(diào)整。鑒于用戶檢索和信息反饋是一種反復(fù)迭代的動態(tài)過程,對兩者一并考慮,算法如下:

(1)在信息分發(fā)過程中,記錄用戶每次打開、下載數(shù)據(jù)的各元素項的值。

(2)將每次的記錄結(jié)果反饋給系統(tǒng),修正原有模型,步驟如下。

對于空間范圍。首先,根據(jù)式(12)計算用戶檢索數(shù)據(jù)的偏好模型。然后,根據(jù)式(12)并結(jié)合上一步的計算結(jié)果,計算用戶反饋數(shù)據(jù)的空間范圍對用戶偏好模型的貢獻(注:由于用戶反饋數(shù)據(jù)的空間范圍有可能不是規(guī)則的矩形,在此情況下,反饋數(shù)據(jù)的空間范圍并不參與基本區(qū)域單元的分割,而只參與計算偏好模型的興趣度密度值)。反饋數(shù)據(jù)的空間范圍和此前各次檢索的空間范圍的全體的興趣度密度函數(shù),作為空間范圍元素項修正后的用戶偏好模型。此時,興趣度密度公式為

式中,E′為用戶檢索記錄和反饋數(shù)據(jù)空間范圍樣本的集合;h′為 E′中各樣本時間權(quán)值之和;Z′k, k∈E′為檢索或反饋的空間范圍樣本;h′(tk)為 tk時刻樣本的權(quán)值;I′k(·)為示性函數(shù),表示是否在Z′k中,(ξ,η)為空間范圍中的某一點,‖·‖表示區(qū)域面積。考慮用戶反饋后的興趣度計算方法類似于式(13),其原理為對給定的空間范圍目標(biāo)區(qū)域內(nèi)的興趣度密度(見式(18))進行積分求和。興趣度沿 X、Y方向的分量類似于式(14)和式(15),分解原理同4.2節(jié)。

對于頻譜范圍。反饋的頻譜范圍采用與原模型用戶檢索的頻譜范圍相同的方式參與基本區(qū)間單元的分割和興趣度密度的計算。此時,興趣度密度公式為

式中,E′為用戶檢索記錄和反饋數(shù)據(jù)頻譜范圍樣本的集合;h′為E′中各樣本的權(quán)值之和;Z′k,k∈E′為檢索或反饋的頻譜范圍樣本;h′(tk)為 tk時刻樣本的權(quán)值;I′k(·)為示性函數(shù),表示ξ是否在Z′k中,ξ為頻譜值,‖·‖表示區(qū)間寬度。考慮用戶反饋后的興趣度計算方法類似于式(11),其原理為對給定的空間范圍目標(biāo)區(qū)間內(nèi)的興趣度密度(見式(19))進行積分求和。

對于時間。首先,根據(jù)式(16)計算用戶檢索數(shù)據(jù)的偏好模型。然后,根據(jù)式(20)計算用戶反饋數(shù)據(jù)的時間屬性對用戶偏好模型的貢獻(由于用戶反饋數(shù)據(jù)的時間屬性為點值,故反饋數(shù)據(jù)的時間值并不參與基本區(qū)間單元的分割,而只參與模型修正)。

式中,E′為用戶反饋的時間樣本集合;Ig是基本區(qū)間單元;h′為時間元素項的反饋數(shù)據(jù)和原模型中檢索記錄的權(quán)值之和;Tk,k∈E′,為第 k次反饋數(shù)據(jù)的生成時間;h′(tk)為 tk時刻樣本的權(quán)值; I′k(·)為示性函數(shù),表示 Tk是否在 Ig中。式(16)與式(20)之和即為修正后的時間元素項的偏好模型,如下

式中,h′為時間元素項的反饋數(shù)據(jù)和原模型中檢索記錄的權(quán)值之和,其他參數(shù)含義同上。取為考慮用戶反饋后的時間元素項的興趣度,它體現(xiàn)了用戶對目標(biāo)時間點的空間信息的關(guān)注程度。

對于空間分辨率。其偏好模型的計算方法類似于時間,區(qū)別在于若空間分辨率不唯一時,需要遍歷計算所有分辨率值的貢獻。

(3)根據(jù)修正后的模型,計算備選方案的效用度,根據(jù)效用度的大小對方案進行優(yōu)劣排序,并據(jù)此進行下一次的信息分發(fā)。

(4)重復(fù)執(zhí)行以上步驟。

7 實例分析

試驗數(shù)據(jù)源于文獻[9]:①根據(jù)文獻[9]中4.5.2.4節(jié)的用戶檢索數(shù)據(jù)生成用戶模型,為了生成動態(tài)模型,對原始數(shù)據(jù)增添了檢索時間;②選取文獻[9]中5.2.2.3節(jié)方案1～8的數(shù)據(jù)作為備選方案。

根據(jù)數(shù)據(jù)①,分別建立靜態(tài)用戶模型和動態(tài)用戶模型。兩種模型的元素項的權(quán)值見表2。根據(jù)兩種模型,分別計算②中備選方案的效用度:根據(jù)靜態(tài)模型算得的備選方案的效用度見表3;根據(jù)動態(tài)模型算得的備選方案的效用度見表4;文獻[9]中備選方案的效用度見表5。

表2 用戶偏好模型元素項的權(quán)值Tab.2 Element weights of user profile model

表3 基于靜態(tài)模型的待分發(fā)方案的效用度及各元素項的興趣度Tab.3 Utility degrees of items to be distributed and interest degrees of each element based on static model

表4 基于動態(tài)化模型的待分發(fā)方案的效用度及各元素項的興趣度Tab.4 Utility degrees of items to be distributed and interest degrees of each element based on dynamic model

表5 文獻[9]中方案的效用度Tab.5 Utility degrees of items in the literature[9]

表2顯示,兩種算法所生成的權(quán)值有一定的差異,這是由于權(quán)值衰減函數(shù)引入前后,模型的動態(tài)化因素對權(quán)值有著不同程度影響,后者中模型的時效性得到了進一步加強。顯然,相較于前者,動態(tài)模型更能反映用戶當(dāng)前的信息偏好。

表3和表5均基于靜態(tài)模型算得。對比兩表可以看出,兩種方法中效用度計算結(jié)果相差較大,但總體趨勢相近,原因如下三種:文獻[9]以特征值代替頻率值作為計算效用度的依據(jù),人為地增大了取值較小的各元素項的相似度值;文獻[9]以與頻譜范圍的目標(biāo)區(qū)間相交的各不規(guī)則子區(qū)間的特征值中的最大值作為相似度,而不考慮同時與其相交的其他子區(qū)間的影響,這也在一定程度上增大了效用度的取值;經(jīng)、緯度范圍在存在第二種誤差的同時,也存在一些不相關(guān)的緯、經(jīng)度樣本值的影響。因為,一些在二維空間上根本不相交的空間范圍,其在經(jīng)、緯度上的分量卻可能是相交的,這會對效用度的計算產(chǎn)生影響。從表3可以看出,空間范圍的興趣度普遍較小,這是因為這些待分發(fā)的數(shù)據(jù)在二維經(jīng)緯度空間上與用戶檢索頻繁的空間位置重疊較少。

對比表3、表4可以發(fā)現(xiàn),相較于前者,后者的興趣度和效用度值大多存在不同程度的變化,變化方向也不一致,這是由不同原因造成的。權(quán)值衰減函數(shù)的引入對發(fā)生在不同時段的用戶檢索和反饋信息的建模貢獻進行了不同程度的拉伸或抑制,因此,相對于文獻[9]和本文的靜態(tài)模型而言,引入了動態(tài)化因素的建模算法,使得模型更能體現(xiàn)用戶近期的行為特征。較于表3、表4中元素項的興趣度存在以下特征:①頻譜范圍興趣度均有一定程度的微幅減小,這主要是因為用于用戶偏好建模的頻譜范圍檢索行為主要集中在較早時段,而在近期較少發(fā)生(用戶檢索時該元素項缺省),這導(dǎo)致頻譜范圍元素項的興趣度密度經(jīng)驗函數(shù)取值整體偏低;②空間分辨率的興趣度則同時存在小幅度的增大和減小兩種情況,這是因為,相較于用戶檢索行為的發(fā)生時間而言,用于偏好建模的空間分辨率范圍檢索數(shù)據(jù)的各區(qū)間分布較為均勻,在根據(jù)權(quán)值衰減函數(shù)進行加權(quán)建模時,雖然部分檢索行為的建模貢獻被抑制,但另外一部分卻得到了拉伸,這使得在各備選方案的分布位置的興趣度經(jīng)驗密度值波動不大,但同時也存在一定的此消彼長;③時間元素項的興趣度同時存在增大、減小和不變?nèi)N情況,其中,方案1、2、3和5興趣度大小不變,這是因為這些方案的值均介于用戶檢索的時間范圍建模數(shù)據(jù)的分布區(qū)間之內(nèi),基于權(quán)值衰減函數(shù)的加權(quán)建模對興趣度取值無影響,方案4、6、7和8均位于建模數(shù)據(jù)分布區(qū)間兩端,且僅受部分檢索記錄不同程度、不同方向的影響,故同時存在增大和減小的情況;④空間范圍元素項中的經(jīng)度和緯度指標(biāo)的分布存在較多情況,方案7和8在表3和表4中均取值為0,這是因為兩方案的空間范圍取值與用戶所有的檢索建模數(shù)據(jù)分布范圍均不相交,這種情況在文獻[9—11]的算法中無法得到體現(xiàn)。方案1～6則均同時存在增大和減小的情況,原因類似于②和③中分析的情況,區(qū)別在于空間范圍的經(jīng)度和緯度之間存在著相關(guān)性,兩者是以區(qū)域數(shù)(基本區(qū)域單元)的形式作為整體參與運算的;⑤在①～④中各因素的綜合作用下,各方案的效用度均出現(xiàn)不同程度增減。

表3、表4的對比結(jié)果表明,各動態(tài)化因素對于各元素項的興趣度以及最終的效用度都有比較明顯的影響,該影響基本上能夠更為真實地反映用戶當(dāng)前的偏好特征。

8 結(jié)束語

現(xiàn)有的空間信息智能分發(fā)的理論研究和系統(tǒng)實現(xiàn)存在著空間范圍定位不夠準(zhǔn)確、效用度計算存在偏差等缺陷,且大多仍停留在非完全動態(tài)化的層面,它們往往只關(guān)注用戶的檢索行為對偏好建模的貢獻,很少注意到用戶反饋的作用,且均未考慮時間因素的影響,從而導(dǎo)致用戶偏好模型難以準(zhǔn)確、及時地反映用戶興趣特征的變化。鑒于此,本文對現(xiàn)有文獻的理論和算法進行擴展,通過引入?yún)^(qū)域數(shù)、興趣度、興趣度密度等概念和算法,并引入權(quán)值衰減函數(shù)和用戶信息反饋等動態(tài)化因素,對以上問題予以解決。

試驗表明,相較于靜態(tài)模型,本文模型能夠更為有效地反映用戶偏好特征的變化。本文算法為空間信息智能分發(fā)的用戶建模提供了一個可行的解決方案。

[1] WANG Zegen,HUA Yixin.Research on Technology of Active Spatial Information Service[J].Acta Geodaetica et Cartographica Sinica,2006,35(4):379-389.(王澤根,華一新.主動空間信息服務(wù)技術(shù)研究[J].測繪學(xué)報,2006, 35(4):379-389.)

[2] DOUGLASS R J,MORK J,SURESH R.Battlefield Awareness and Data Dissemination(BADD)for the Warfighter[C]∥Proceedings of Digitization of the Battlefield II.Orlando:SPIE,1997:18-24.

[3] STEPHENSON T P,DECLEENE B T,SPECKERT G,et al.BADD Phase II:DDS Information Management Architecture[C]∥Proceedings of Digitization of the Battlefield II.Orlando:SPIE,1997:49-58.

[4] WU Wei.Development Assumption on Chinese Army’s New Generation Communication Network[J].Journal of CAEIT,2007,2(5):445-449,463.(吳巍.我軍新一代通信網(wǎng)絡(luò)發(fā)展設(shè)想[J].中國電子科學(xué)研究院學(xué)報,2007, 2(5):445-449,463.)

[5] DAWIDOWICZ E.Performance Evaluation of Network Centric WarfareOriented IntelligentSystems[C]∥ Proceedings of the Second InternationalWorkshop on Performanceand Intelligence of Intelligent Systems. Mexico:NIST,2001:73-79.

[6] DAWIDOWICZ E,RODRIGU EZ A,LAN GSTON J. Intelligent Nodes in Knowledge Centric Warfare[C]∥Proceedings of the 7th International Command and Control Research and Technology Symposium.Monterey:[s. n.],2002.

[7] DAWIDOWICZ E,JACKSON V.The Right Information and Intelligent Nodes[C]∥Proceedings of 8th International Command and Control Research and T echnology Symposium. Washington:[s.n.],2003.

[8] GLOBALSECURITY.WIN-TCapabilities[EB/OL].[2011-6-18].http:∥www.globalsecurity.org/military/systems/ ground/win-t-cap.htm.

[9] XIA Yu.The User Profile Model for Intelligent Delivery of SpatialInformation[D]. Wuhan:Wuhan University, 2009.(夏宇.面向空間信息智能分發(fā)的用戶偏好模型研究[D].武漢:武漢大學(xué),2009.)

[10] XIA Yu,ZHU Xinyan,LI Deren,et al.A User Profile Model for Intelligent Delivery of Spatial Information[C]∥Proceedings of Geoinformatics 2008 and Joint Conference on GIS and Built Environment.Guangzhou:SPIE,2008. [11] XIA Yu,ZHU Xinyan,ZHANG Chunlin,et al.Towards IntelligentSpatialInformation Dissemination Based on User Profile Model[C] ∥Proceedings of International Conference on Earth Observation Data Processing and Analysis.Wuhan:SPIE,2008.

[12] MOORE R E.Methods and Applications of Interval Analysis[M].Philadelphia:Society for Industrial and Applied Mathematics,1979.

[13] HWANG C,YOON K.Multiple Attributes Decision Making:Methods and Applications[M].Berlin:Springer-Verlag,1981.

[14] ASNICAR F A,TASSO C.ifWeb:a Prototype of User Models Based Intelligent Agent for Document Filtering and Navigation in the World Wide Web[C]∥Proceedings of 6th International Conference on User Modeling,Sardinia: [s.n.],1997.

[15] ZHANGBingqi.The Representation,Acquisition and Inference of Personalized Requirements:A Case Study[D]. Beijing:Graduate University of Chinese Academy of Sciences,2005.(張丙奇.個性化需求的描述、獲取與推斷—案例研究[D].北京:中國科學(xué)院研究生院,2005.)

[16] YAN Duanwu,WANG Yuefen.Information Acquisition and User Service[M].Beijing:Science Press,2010.(顏端武,王曰芬.信息獲取與用戶服務(wù)[M].北京:科學(xué)出版社,2010.)

[17] ZANG Cheng.Research on Key Techniques of Privacy Preservation in Personalized Search[D]. Hangzhou: Zhejiang University,2008.(臧鋮.個性化搜索中隱私保護的關(guān)鍵問題研究[D].杭州:浙江大學(xué),2008.)

[18] BILLARD L,DIDAY E.Symbolic Data Analysis:Definitions and Examples[EB/OL].[2011-6-18].http:∥aaron. stat.uga.edu/people/faculty/BILLARD/tr_symbolic.pdf.

[19] BILLARD L.Symbolic Data Analysis,What is It?[C]∥Proceedings of Computational Statistics:17th Symposium. Rome:IASC,2006:261-269.