面向知識工作者的個人信息管理模型

2010-04-27 00:44:29陳明炫周明駿戴國忠

圖學(xué)學(xué)報 2010年3期

關(guān)鍵詞：用戶分析模型

陳明炫，周明駿，田豐，戴國忠

（中國科學(xué)院軟件研究所人機交互技術(shù)與智能信息處理實驗室，北京 100190）

面向知識工作者的個人信息管理模型

陳明炫，周明駿，田豐，戴國忠

（中國科學(xué)院軟件研究所人機交互技術(shù)與智能信息處理實驗室，北京 100190）

為滿足知識工作者對個人信息管理的靈活分類、時序管理和智能推薦的要求，提出一種個人信息管理系統(tǒng)模型。首先分析了知識工作者的個人信息管理特點，接著提出了模型的框架，描述了框架的層次結(jié)構(gòu)。然后介紹了基于標(biāo)簽的個人信息推薦算法。最后對原型系統(tǒng)進行了評估。評估結(jié)果表明，該模型能夠滿足知識工作者對個人信息管理的要求。

計算機應(yīng)用；個人信息管理模型；標(biāo)簽；知識工作者

個人信息管理（PIM）是對于日常信息的處理、分類、訪問。它主要研究人們每天對信息的獲取、組織、維護的活動[1]。Bush最早提出闡述PIM概念的Memex系統(tǒng)[2]：Memex是一種能夠記錄所有書籍、唱片、交流信息的設(shè)備，它能夠快速、自動、靈活的幫助人們找到所需要的信息。隨著信息技術(shù)的不斷發(fā)展，越來越多的人們參與PIM的研究，涉及的領(lǐng)域非常多，包括人工智能、數(shù)據(jù)庫技術(shù)、信息抽取、人機交互等，引起了廣泛的關(guān)注。

由于不同的人群對信息處理的要求不同，單一的信息處理方式已經(jīng)不能適應(yīng)不同人群的需要，根據(jù)Kidd的研究[3]，做日常信息處理的計算機用戶大體分為三類：知識工作者、交流工作者和文秘工作者，他們都要進行管理型活動和研究型活動，只是側(cè)重不同。管理型活動的特點在于重復(fù)性、結(jié)構(gòu)化的、文檔驅(qū)動的，而研究型活動特點在于靈活性、非結(jié)構(gòu)化和信息驅(qū)動的。知識工作者偏重于研究型活動，后兩者偏重于管理型活動。當(dāng)前大多數(shù)人使用的信息管理系統(tǒng)是基于傳統(tǒng)的WIMP界面，對文檔的管理采用樹狀的層次化管理結(jié)構(gòu)。當(dāng)前系統(tǒng)在支持交流工作者和文秘工作者的同時，卻不能很好的支持知識工作者，原因在于：

首先，知識工作者的工作具有創(chuàng)造性和隨意性，與其他用戶比較，更需要以人為中心的設(shè)計，要求系統(tǒng)在分類上符合人的心理模型：分類方式靈活、非結(jié)構(gòu)化、信息可重疊。而傳統(tǒng)的層次化組織方式具有結(jié)構(gòu)固定、層次單一和排它的特點，這顯然與用戶心理模型相矛盾[4]。

其次，知識工作者是信息驅(qū)動的工作方式，常常圍繞一個問題在一段時間內(nèi)進行思考，工作具有很強的持續(xù)性和專一性，要求系統(tǒng)能在管理上具有時間連續(xù)性，而傳統(tǒng)的信息管理方式?jīng)]有足夠地支持這一點。

最后，知識工作者的發(fā)散型思維常常需要獲取與當(dāng)前工作內(nèi)容相關(guān)的信息，這就要求系統(tǒng)能夠通過分析用戶的當(dāng)前活動，進行合理的推薦。這顯然是當(dāng)前的個人信息管理系統(tǒng)所不能滿足的。

針對這些問題，作者提出了面向知識工作者的PIM模型，能夠很好的解決上述存在的問題，為知識工作者提供完善的個人信息管理服務(wù)。

1 相關(guān)研究

計算機技術(shù)的發(fā)展使得人們對信息管理環(huán)境的要求越來越高。雖然當(dāng)前存在著一些個人信息管理系統(tǒng)，但是由于缺乏對知識工作者本身和其任務(wù)的分析建模，使得現(xiàn)有系統(tǒng)存在著設(shè)計上的缺陷。

William Jones考察了傳統(tǒng)信息管理系統(tǒng)的層次化的管理方法，發(fā)現(xiàn)當(dāng)人們管理某個項目文檔時，通常把文檔通過“文件夾-子文件夾”的方式一步步把文檔放入葉子結(jié)點，這樣做的同時伴隨著用戶對項目進展的理解，然而對于沒有上下級關(guān)系的文檔而言，很難通過這樣的手段來組織文檔，當(dāng)文檔涉及的方面橫跨了多個層級結(jié)構(gòu)時，更是如此[5]。

針對當(dāng)前層次化管理方式的不足，很多研究者提出了各種模型方法或者結(jié)論。Scott Fertig等人提出了時間流隱喻，把文檔按照使用時間進行排序，并開發(fā)了Lifestream系統(tǒng)[6-7]。類似Lifestream的系統(tǒng)還包括同時期的Lifelines[8]和后來的MyLifeBits[9]。時間流隱喻的好處在于用戶總是可以快速訪問到最近瀏覽過的文檔，但它存在的問題在于，分類方式單一不靈活，僅僅利用了文檔的使用時間屬性，對于其他描述文檔的屬性沒有充分利用起來。而且在用戶無法回憶起使用文檔的時間時，該隱喻不僅喪失了最大的優(yōu)點，而且無法為用戶查詢文檔提供更多的幫助。

Malone在1983年的研究中發(fā)現(xiàn)，人們對文檔的管理可以分為松散管理的Pile方式，和嚴(yán)密管理的File方式[10]。Richard Mander借鑒了Malone的Pile思想，提出Pile隱喻，即在桌面環(huán)境下對文檔進行松散管理[11]。Ravin等人實現(xiàn)了基于Pile隱喻的系統(tǒng)，并在交互上進行了完善[12]。Piling的好處在于文檔組織的隨意性，不受固定的層級結(jié)構(gòu)的影響，部分解決了層次化管理存在的不靈活的問題。然而Piling隱喻的最大問題在于文檔數(shù)量的無限性和桌面空間的有限性之間的矛盾。對于PIM而言，文檔的數(shù)量是驚人的，僅靠桌面管理是無能為力的。

Paul提出的基于屬性的文檔管理系統(tǒng)Presto，用戶可以給文檔指定任意數(shù)目的屬性，查詢時指定屬性值即可[13-14]。Wisam Dakka提出了從文檔內(nèi)容中自動提取關(guān)鍵詞對文檔進行描述[15]。兩者的相同點在于都對文檔進行了多方面描述，盡可能全面反映文檔特點；區(qū)別在于前者是用戶指定，后者是系統(tǒng)自動提取。多角度全方位描述文檔的思路是好的，但前者存在的問題在于，描述屬性的形式過于單一，只限于文本屬性，而且“Name=Value”的屬性定義形式必然要求用戶在描述時思考對Name的定義，無形中要求用戶對文檔進行分類，而根據(jù)Malone[10]的研究，用戶管理文檔的困難之一正在于分類對認(rèn)知負擔(dān)的加重。后者的缺點在于系統(tǒng)過度的智能化。Kidd[3]曾指出，對PIM的設(shè)計時要知道，只有用戶自己知道想要的是什么，不過度揣摩用戶的心思。自動提取文檔關(guān)鍵詞描述，往往會導(dǎo)致提取的關(guān)鍵詞并不是用戶想要的，因此用戶在使用中不能很好的掌握對文檔的描述。

綜合上面的前人研究工作可以看到，不論是時間流隱喻，還是pile隱喻，或者是基于屬性的管理方法，都是為了擺脫當(dāng)前文件層次化管理方式的限制。但他們在解決問題的同時也帶來了新的問題，共同的問題有：① 分類方式單一，有的靠時間屬性，有的靠自定義屬性；② 沒有對用戶的行為進行分析，并適當(dāng)推薦。這些顯然不能支持知識工作者的活動。

本文提出的面向知識工作者的PIM模型，以時間線為可視化手段，以標(biāo)簽的形式對文檔進行統(tǒng)一管理，建立了面向知識工作者個人信息管理模型的三層結(jié)構(gòu)。本文的貢獻在于：① 建立了面向知識工作者的個人信息管理模型；② 為知識工作者提供時間連續(xù)性的工作支持；③ 為知識工作者提供基于標(biāo)簽的靈活分類方法；④ 對用戶行為進行分析，并適當(dāng)推薦。

文章接下來的組織順序是，首先分析知識工作者的工作模型，其次闡述模型總體框架并詳細論述各組成部分，接著介紹原型系統(tǒng)，最后做出總結(jié)。

2 知識工作者活動模型分析

日常生活中，知識工作者在創(chuàng)造知識的時候往往是從思考的問題出發(fā)，一有想法就馬上記錄下來，放在桌子上不進行歸類，對問題的思考經(jīng)常要經(jīng)歷一段時間才會形成清晰的思路，這時候桌面上往往是許多草稿紙和便簽，這些都記錄了知識工作者工作時的靈感，對他們有提醒的輔助作用。當(dāng)他們需要查找以前寫過的東西時，往往直接想到要查找的文檔的特征，例如要查找ACM有關(guān)交互的文章，反映在他腦中的都是與ACM、交互、最近在哪里使用過該文檔等關(guān)鍵信息。知識工作者往往需要一目了然地看到自己想看到的東西，無論是經(jīng)常工作過的文檔，還是與該文檔有關(guān)，但好久不用的文檔，只要與該文檔有關(guān)，都希望馬上獲取到。作者把活動模型概括如圖1所示。

圖1 知識工作者活動模型

信息加工包括了知識工作者創(chuàng)造知識，整理知識。要求輸入自然方便。

信息查找是指用戶對創(chuàng)造過的知識進行查找，要求按照時間或者要獲取的知識來查找。

信息分類是指用戶把近期使用過的文檔進行piling似的松散分類，從時間看是近期使用的，從主題看，反映相似知識的文檔往往被分為一類。

以上是對知識工作者活動特點的描述，從中可以分析得出支持知識工作者的信息管理系統(tǒng)有以下幾個特征：

從底層數(shù)據(jù)組織來看，用戶需要自然靈活的信息組織方式。由于知識工作者工作中產(chǎn)生的文檔，如草圖等，他們之間的相互關(guān)系很難用層次化結(jié)構(gòu)來描述，而用戶需要松散的靈活分類，這就需要一個能提供靈活分類的非層次化信息管理系統(tǒng)。

從對數(shù)據(jù)的管理來看，用戶需要很好的歷史管理機制。由于知識工作者總圍繞一個中心問題進行思考，工作特點具有時間上的連續(xù)性，需要有很好的機制記錄用戶的交互歷史。

因為知識工作者是信息驅(qū)動的，他們往往因為思考一個主題，使用過的文檔具有很強的主題相關(guān)性，所以找到這種相關(guān)性并向用戶提醒和推薦，是面向知識工作者的個人信息管理系統(tǒng)應(yīng)具備的功能。

從用戶界面角度來看，用戶需要豐富的可視化形式，以方便自然地與系統(tǒng)進行交互。

根據(jù)以上分析，面向知識工作者的個人信息管理系統(tǒng)需要具備以下功能特征：系統(tǒng)包含的主要功能模塊應(yīng)該有信息組織模塊、可視化表現(xiàn)、歷史管理、知識管理。其中的信息組織模塊主要負責(zé)以靈活的方式組織用戶的數(shù)據(jù)；可視化表現(xiàn)部分主要以時間流界面為主，用于支持知識工作者工作的時間連續(xù)性；歷史管理模塊記錄用戶使用系統(tǒng)的歷史；知識管理主要結(jié)合歷史管理模塊，對用戶的行為進行智能分析，提取關(guān)于用戶行為特點的知識。如圖2所示。

圖2 支持知識工作者的系統(tǒng)功能性特征

3 面向知識工作者的 PIM 模型描述

根據(jù)上面對知識工作者工作需求的分析可以看出，知識工作者的個人信息管理模型需要方便自然的信息組織方式、強大的歷史管理、豐富的可視化表現(xiàn)和智能化的提醒推薦功能，傳統(tǒng)的層次化文件管理方式顯然不能滿足用戶的需要。為此，我們設(shè)計了基于標(biāo)簽的管理模型，以標(biāo)簽來組織數(shù)據(jù)，為用戶提供了靈活的文檔分類方法和充足的文檔使用歷史記錄，同時加入了智能處理模塊分析用戶的交互歷史，適時對用戶進行提醒和推薦，全面支持知識工作者的創(chuàng)造性活動。

3.1 模型框架

作者分析了知識工作者的工作模型特點，并考慮到個人信息管理是在用戶空間和數(shù)據(jù)空間之間建立映射關(guān)系，由此設(shè)計了面向知識工作者的三層個人信息管理模型。模型分為3個層次：數(shù)據(jù)層、任務(wù)層、交互層，如圖3所示。

圖3 面向知識工作者的個人信息管理模型

其中數(shù)據(jù)層存儲了文檔和標(biāo)簽的數(shù)據(jù)，以及他們之間的相互關(guān)系：一個文檔可以有若干個標(biāo)簽來描述，一個標(biāo)簽也可以描述若干個文檔。數(shù)據(jù)層僅僅存儲這些信息，而不對信息進行解釋和加工。任務(wù)層負責(zé)對這些數(shù)據(jù)進行處理。包含信息獲取、信息加工、信息提取、歷史管理、信息分析等模塊。任務(wù)層接受交互層的具體任務(wù)指令，根據(jù)不同的指令調(diào)用不同的處理模塊。交互層描述了用戶的輸入輸出行為，事件引擎解析用戶命令，向任務(wù)層發(fā)出交互指令，并從任務(wù)層得到可視化的效果，通過可視化模塊反映給用戶。下面詳細闡述模型的每一個層次。

3.1.1 面向知識工作者的模型數(shù)據(jù)層分析

數(shù)據(jù)層存儲了個人的所有信息，包括管理對象本身，即用戶的文檔，和輔助管理的數(shù)據(jù)即標(biāo)簽，還有兩者間的映射關(guān)系。

（1）標(biāo)簽的概念和使用

當(dāng)前的大多數(shù)系統(tǒng)使用樹狀結(jié)構(gòu)的層次化管理方法，如圖4所示。

圖4 層次化管理模型示意圖

論文1的位置描述為：論文-＞ACM-＞CHI-＞論文1。對于具有確定所屬關(guān)系的文檔，這樣的描述方式是合適的。然而現(xiàn)實生活中，很多文檔的分類雖然具備所屬關(guān)系，但關(guān)系不確定；很多文檔的分類則無法用所屬關(guān)系來描述。例如一份菜單，從口味上分，可以分為粵菜、川菜、杭幫菜等；從葷素上分，可以分為葷菜、素菜；從價格上又可以分為高中低檔，每一種分法都不能確定屬于另一種分法，因此用層次化的管理方式來分類是不科學(xué)的，一些情況下用戶無法接受。

貼標(biāo)簽是現(xiàn)實生活中描述事物的常用方法，原因在于事物本身有多個特點，看待這些特點是從多個角度出發(fā)的，用多個標(biāo)簽?zāi)茏畲蟪潭确磻?yīng)事物本質(zhì)。即可以把標(biāo)簽定義為：反映事物屬性的描述。如圖5所示，看待一篇論文，從類型上看，是pdf格式，從名稱上看是論文，從論文描述的方向看，是人機交互方面的文章，標(biāo)簽同時告訴人們它至少與ACM會議和張老師與李老師兩人有關(guān)。

圖5 文檔標(biāo)簽示意圖

對于標(biāo)簽的使用可以分為兩種，一種是基于標(biāo)簽的瀏覽，即瀏覽該標(biāo)簽標(biāo)注的所有文檔，另一種是基于標(biāo)簽的查詢，即輸入標(biāo)簽關(guān)鍵詞，系統(tǒng)查找到相應(yīng)的文檔。

（2）基于標(biāo)簽的數(shù)據(jù)組織

在計算機系統(tǒng)中，根據(jù)標(biāo)簽的生產(chǎn)者，把標(biāo)簽分為兩類：顯性標(biāo)簽和隱性標(biāo)簽，顯性標(biāo)簽由用戶主動輸入，隱性標(biāo)簽由系統(tǒng)生成，顯性標(biāo)簽又按照數(shù)據(jù)的類型分為文本標(biāo)簽和ink標(biāo)簽。隱性標(biāo)簽由文檔使用時間標(biāo)簽組成。在本系統(tǒng)中，同樣是對文檔的描述，標(biāo)簽與Paul提出的文檔屬性[13]的不同點在于，Paul的屬性是“Name=Value”的形式，即每個屬性要有屬性的名稱，有的需要用戶自定義。而本文提出的標(biāo)簽概念中，屬性名稱是系統(tǒng)已知的，即對文檔時間這樣的隱性標(biāo)簽，屬性名稱為 time_prop；對于用戶自己輸入的顯性標(biāo)簽，屬性名稱為discribe_prop，兩種情況下，用戶都只需要輸入屬性值描述，而不需要輸入屬性名稱，從用戶交互角度看，顯然與Paul的系統(tǒng)有不同，為與之區(qū)別，作者把它們統(tǒng)一叫做標(biāo)簽。之所以不要用戶定義屬性名稱，是因為對于名稱的定義就需要分類，然而分類對用戶來講往往是困難的[10]。

對一個文檔的描述，可以使用若干個標(biāo)簽：

＜document＞:=＜ID,Name,Path,Type,ID: 文檔的全局唯一標(biāo)識符，唯一標(biāo)識文檔的身份；Name：文本形式定義的文檔的名稱，可以由用戶指定；Type：以文本形式定義的文檔的類型；Path：當(dāng)前操作系統(tǒng)的文件系統(tǒng)里，文檔的具體位置；Tag：描述文檔特征的若干標(biāo)簽，可以是3個標(biāo)簽中的任意形式。

對一個文本標(biāo)簽的描述，可以這樣表示：

＜Tag_Text＞:=＜ID,discription＞

ID：文本標(biāo)簽的全局唯一標(biāo)識符；description：以文本形式對標(biāo)簽的描述。

對一個ink標(biāo)簽，可以用如下表示：

ID：ink標(biāo)簽的全局唯一標(biāo)識符；StrokeNumber：ink標(biāo)簽里，筆劃的個數(shù)；Stroke：ink標(biāo)簽里的每個筆劃；PtNumber：筆劃里點的個數(shù)；Pt：筆劃里的每個點；X：點的橫坐標(biāo)；Y：點的縱坐標(biāo)。

對文檔使用時間標(biāo)簽的描述如下：

＜Tag_Time＞:=＜ID,Time＞

ID：時間標(biāo)簽的全局唯一標(biāo)識符；Time：系統(tǒng)記錄的文檔使用時間。

顯然，標(biāo)簽來組織數(shù)據(jù)的本質(zhì)在于標(biāo)簽與文檔間多對多的映射關(guān)系，而傳統(tǒng)的樹狀結(jié)構(gòu)父結(jié)點和子結(jié)點是一對多的關(guān)系，這正是基于標(biāo)簽組織數(shù)據(jù)的靈活性所在。

3.1.2 面向知識工作者的模型任務(wù)層分析

作者分析了知識工作者的活動，總結(jié)了知識工作者在使用信息管理系統(tǒng)時主要完成的操作，如表1所示。

作者把這些操作根據(jù)操作對象的不同以及對底層數(shù)據(jù)的影響，抽象成3個任務(wù)：信息獲取、信息加工、信息抽取。這3個任務(wù)連同為智能化提供服務(wù)的歷史管理模塊和信息分析模塊一起，構(gòu)成了任務(wù)模型的5個主要部分。

信息獲取負責(zé)接受用戶的輸入，輸入分為文本形式和ink形式，前者是用戶以文本形式對文檔所做的描述，即文本標(biāo)簽，后者既包括用戶以ink形式對文檔做的描述，即ink標(biāo)簽，也包括用戶以ink形式勾畫的草圖。

表1 知識工作者對信息管理系統(tǒng)的主要操作

信息加工對新來數(shù)據(jù)進行加工，并維護已有數(shù)據(jù)。對新數(shù)據(jù)的加工體現(xiàn)在：① 建立新文檔；② 建立新標(biāo)簽；③ 建立新文檔與已有標(biāo)簽的關(guān)聯(lián)；④ 建立新標(biāo)簽與已有文檔的關(guān)聯(lián)。對已有數(shù)據(jù)的維護體現(xiàn)在：① 刪除指定文檔；② 刪除指定標(biāo)簽；③ 刪除指定文檔和標(biāo)簽間的關(guān)系；④更改已有文檔；⑤ 更改已有標(biāo)簽；⑥ 建立已有文檔與已有標(biāo)簽間的關(guān)系。

信息提取根據(jù)用戶的查詢條件，對文檔進行查詢，查詢方式根據(jù)標(biāo)簽不同分為：基于標(biāo)簽的瀏覽、基于關(guān)鍵詞的查找、基于時間的查找。前者查詢到指定標(biāo)簽下的所有文檔；中者根據(jù)用戶輸入的關(guān)鍵詞到數(shù)據(jù)空間進行查找，關(guān)鍵詞可以是文本形式，也可以是ink形式；后者根據(jù)文檔使用時間查找。

歷史管理負責(zé)記錄用戶和系統(tǒng)交互的歷史，為智能化的信息分析模塊提供服務(wù)。

信息分析負責(zé)對已有數(shù)據(jù)進行分析，已有數(shù)據(jù)包括文本標(biāo)簽、ink標(biāo)簽和文檔使用時間標(biāo)簽。分析任務(wù)包括：① 根據(jù)文檔使用的時間，分析文檔的使用周期；② 根據(jù)文檔使用的時間，分析與該文檔具有時間相關(guān)性的其他文檔有哪些；③ 根據(jù)文檔間標(biāo)簽的重疊性，對文檔進行聚類。對3個分析策略的描述在后面詳細展開。任務(wù)模型如圖6所示。

圖6 任務(wù)分析圖

3.1.3 面向知識工作者的模型交互層分析

交互層里主要包括事件引擎和可視化表達。

用戶對計算機的操作，連同交互歷史一起，通過事件引擎的解析，形成系統(tǒng)可以執(zhí)行的若干操作指令，發(fā)送給任務(wù)層進行任務(wù)的執(zhí)行。執(zhí)行后的結(jié)果，交給可視化模塊反映給用戶。

可視化模塊負責(zé)顯示管理層提交的可視化結(jié)果，根據(jù)不同的結(jié)果選擇不同的可視化策略。主界面是基于時間流隱喻的時間線界面，它的好處在于支持知識工作者工作的時間連續(xù)性特點，由于時間線隱喻屬性單一，本系統(tǒng)還增加了對文檔基于標(biāo)簽的查詢。根據(jù)上圖輸出結(jié)果，可視化部分選擇不同的可視化策略，如圖7所示。如果 ?t i ≤ ?Tmax ，? T max是系統(tǒng)定義的最大周期偏差，即可以認(rèn)為文檔在最近的N次使用中，存在周期性，并定義t為平均間隔時間

圖7 可視化策略

3.2 面向知識工作者的PIM模型的管理策略

由于知識工作者工作中具有創(chuàng)造性特點，他們在思考問題是信息為驅(qū)動的發(fā)散性思維，這就要求個人信息管理系統(tǒng)能夠充分分析用戶交互歷史的數(shù)據(jù)，從中提取到用戶的思維特點。作者用標(biāo)簽來全面描述了文檔，對標(biāo)簽進行分析，從中發(fā)現(xiàn)用戶行為的特點。

3.2.1 文檔時間關(guān)聯(lián)分析

（1）文檔周期性分析

文檔的周期性分析目的是找到文檔使用時間是否存在規(guī)律性，如果存在，則找到規(guī)律并且預(yù)測文檔下一次的使用時間，屆時進行文檔推薦。周期性分析使用了文檔使用時間標(biāo)簽。系統(tǒng)在文檔每一次使用的時候，記錄下使用的時間。

將文檔的使用時間序列用t來表示，定義N為用來進行分析的最近時間個數(shù)，比如，N=5即表示分析最近5次文檔使用時間。定義Nmax為文檔使用時間序列的個數(shù)。如果 N ＞Nmax，則不進行分析；如果N≤Nmax，則按時間從遠到近，對N個時間進行排序：t0…tN-1，計算N-1個時間間隔：Δt0…ΔtN-2，其中Δti=ti+1-ti(i=0…N-2)，對這 N-1個值，計算相鄰兩者的差的絕對值：在文檔最近使用時間的間隔后，進行系統(tǒng)推薦。如圖8所示。

圖8 文檔周期性分析流程圖

（2）文檔間時間關(guān)聯(lián)分析

文檔間時間關(guān)聯(lián)分析目的是找到所有與給定文檔有時間相關(guān)性的文檔。在給定文檔被激活時，系統(tǒng)找到與給定文檔具有時間相關(guān)性的文檔，進行推薦。時間管理性分析利用了文檔使用時間標(biāo)簽。

作者將給定文檔的使用時間用t0來表示，定義N為用來進行分析的最近時間個數(shù)，比如，N=5即表示分析最近 5次給定文檔使用時間。定義Nmax為文檔使用時間序列的個數(shù)。如果N ＞Nmax則不進行分析；如果N≤Nmax，則按時間從遠到近，對N個時間進行排序：t0…tN-1。對于每個ti(0≤i≤N-1)，計算ti附近的兩個時間ti1和ti2，其中ti1= ti-Δt，ti2= ti+Δt，Δt是系統(tǒng)給定的時間范圍正參數(shù)，并向文檔搜索引擎查詢使用時間為ti≤t≤t2的文檔集合Ci(0≤i≤N-1)。求文檔集合Ci(0≤i≤N-1)的交集則集合C即是與給定文檔具有相關(guān)性的文檔集合，如圖9所示。

圖9 文檔間關(guān)聯(lián)分析流程圖

3.2.2 文檔聚類分析

文檔聚類分析目的是找出與給定文檔具有標(biāo)簽相關(guān)性的文檔集合，在用戶激活給定文檔時，系統(tǒng)找到該集合，并進行推薦。文檔聚類分析使用了文檔的文本標(biāo)簽和ink標(biāo)簽。

作者將給定文檔的文本標(biāo)簽和ink標(biāo)簽統(tǒng)一用G表示。定義N為給定文檔的標(biāo)簽個數(shù)，比如N=5即表示該文檔有5個標(biāo)簽有待分析。對于每一個標(biāo)簽通過標(biāo)簽查詢引擎，查詢到擁有標(biāo)簽 Gi的文檔集合 Ci，對于出現(xiàn)在 Ci中的每一個文檔 Dj，記錄下他出現(xiàn)次數(shù)tj，如果 tj≥Tmin（Tmin系統(tǒng)定義的文檔出現(xiàn)最小次數(shù)）即可以認(rèn)為文檔Dj與給定文檔存在著標(biāo)簽相關(guān)性，并且根據(jù)標(biāo)簽 Gi，可以建立起以Gi為中心的相關(guān)集合。

4 原型系統(tǒng)和評估

系統(tǒng)主界面如圖10所示，共有8個區(qū)域。

圖10 系統(tǒng)主界面

（1）為時間線界面按時間由近及遠顯示出用戶用過的文檔。這里也按時間顯示查詢出的文檔。

（2）對時間線界面的瀏覽方式可以按天、周、月為時間段進行瀏覽。圖 10中例子是按天進行瀏覽。

（3）顯示文檔所標(biāo)注的標(biāo)簽當(dāng)選中一個文檔時，顯示該文檔所標(biāo)注的標(biāo)簽。圖 10中選中了“用戶建模.ppt”文檔，與它關(guān)聯(lián)的標(biāo)簽顯示在這里，有3個文本標(biāo)簽和一個ink標(biāo)簽。用戶可以在（5）中進行文檔和標(biāo)簽的關(guān)聯(lián)操作。

（4）對文檔進行基于標(biāo)簽的查詢可以按兩種情況進行文檔查詢：文本標(biāo)簽和ink標(biāo)簽，查詢后的結(jié)果按最后使用時間顯示在時間線界面（1）中。該區(qū)域進行一個標(biāo)簽的查詢，在（6）區(qū)域中，可以有多個標(biāo)簽的復(fù)雜查詢。

（5）對標(biāo)簽的操作對標(biāo)簽的操作包括：建立標(biāo)簽與文檔的關(guān)聯(lián)，刪除標(biāo)簽與文檔的關(guān)聯(lián)，標(biāo)簽庫的管理。

（6）用戶對文檔的主要操作對文檔主要操作包括：打開、新建、刪除、復(fù)制、粘貼、查詢。其中，查詢部分可以彈出新界面，對文檔進行多個標(biāo)簽的復(fù)雜查詢。

（7）系統(tǒng)對用戶進行的文檔推薦系統(tǒng)分析用戶所選的文檔，找到與該文檔具有時間相關(guān)性或標(biāo)簽相關(guān)性的文檔，在這里進行提醒和推薦。

（8）用戶自定義的置頂標(biāo)簽用戶感興趣的標(biāo)簽和最近工作常用到的標(biāo)簽，都可以由用戶放在該區(qū)域。當(dāng)用戶選擇一個標(biāo)簽時，（1）界面將按時間顯示具有該標(biāo)簽的所有文檔。

綜上所述，原型系統(tǒng)反應(yīng)了模型的諸多特點：支持知識工作者工作中時間連續(xù)性特點；支持知識工作者對文檔進行靈活分類；分析知識工作者使用過文檔的特點，對他們進行文檔推薦。

為了評估本原型系統(tǒng)設(shè)計，作者進行了定性的用戶研究。在實驗室范圍內(nèi)以自愿報名的方式選擇了8名被試（包括3名女性，5名男性，均有5年以上計算機使用經(jīng)驗）。每名被試用時40分鐘，其中包括3分鐘的簡單介紹和10分鐘的自由探索，在進一步講解用戶在自由探索階段未發(fā)現(xiàn)的功能之后，要求被試完成兩組共 12個任務(wù)，包括：① 基本操作，如新建，刪除，復(fù)制，粘貼等；② 高級操作，如編輯標(biāo)簽，查詢等。實驗完成之后，每名被試被要求完成一份5分量度的主觀滿意度調(diào)查問卷，問題范圍包括易學(xué)性、使用愉悅性、趣味性、能否完成任務(wù)以及使用效率。在試用本系統(tǒng)進行日常工作一周后，每名被試完成第二份調(diào)查問卷，第二份調(diào)查問卷除涵蓋第一份問卷中關(guān)于愉悅性，趣味性，效率3項內(nèi)容之外，還包括兩個針對特定功能的問題：① 標(biāo)簽策略對查詢是否有較好的輔助作用？②系統(tǒng)的文檔推薦是否準(zhǔn)確？

問卷結(jié)果分析顯示：本原型系統(tǒng)易于學(xué)習(xí)(4.5/5)，用戶能夠完成指定的任務(wù)(4.5/5)，用戶認(rèn)為使用過程較為愉悅，交互過程也比較有趣(4/5 4.1/5)，使用效率可以接受(3.9/5)，經(jīng)過一周的試用后，用戶的使用效率有明顯提高(4.4/5)，愉悅度也有一定提高(4.3/5)。另外，用戶普遍認(rèn)為標(biāo)簽策略對查詢有較好的輔助作用(4.1/5)，系統(tǒng)的文檔推薦較為準(zhǔn)確(4/5)。

5 結(jié) 束語

本文分析了知識工作者的活動模型，提出了面向知識工作者的個人信息管理系統(tǒng)應(yīng)具備的功能特點，建立了適合知識工作者的個人信息管理模型，在3個層次進行了闡述。建立的原型系統(tǒng)取得了不錯的效果。隨著普適計算技術(shù)的不斷發(fā)展，知識工作者為了更大地激活創(chuàng)造力，對計算機必定有更高的要求，希望為創(chuàng)造力的發(fā)揮有更好的支持，同時他們在使用日益完善的計算服務(wù)時，工作也必將具有新的特點。如何發(fā)現(xiàn)這些特點，如何針對這些特點滿足他們的需要，如何設(shè)計更好的智能化服務(wù)為用戶提供智能支持，將是今后的主要研究方向。

[1] William Jones, Harry Bruce. A report on the NSF sponsord, workshop on personal information management [EB/OL]. http://pim.ischool.washington. edu/final PIM report.pdf. 2005.

[2] Vannevar Bush. As we may think [J]. ACM Interactions Magazine, 1996, 3(2): 35-46.

[3] Alison Kidd. The marks are on the knowledge worker[C]//Proc. CHI 1994, ACM Press, 1994: 186-191.

[4] Eyal Oren. An overview of information management and knowledge work studies: Lessons for the semantic desktop[C]//Semantic Desktop Workshop at ISWC 2006, Athens, Georgia, 2006: 3-11.

[5] Jones W, Phuwanartnurak A J, Gill R, et al. Don’t take my folders away! organizing personal information to get things done[C]//Proc. CHI 2005, ACM press, 2005: 1505-1508.

[6] Fertig S, Freeman E, Gelernter D. Lifestreams: an alternative to the desktop metaphor[C]//Proc. CHI 1996, ACM Press, 1996: 410-411.

[7] Scott Fertig, Eric Freeman, David Gelernter. “Finding and reminding”reconsidered[C]//The SIGCHI Bulletin 1996, ACM Press, 1996: 66-69.

[8] Catherine Plaisant, Brett Milash, Anne Rose, et al. LifeLines: visualizing personal histories[C]//Proc. CHI, 1996: 221-227.

[9] Jim Gemmell, Gordon Bell, Roger Lueder, et al. MyLifeBits: fulfilling the memex vision[C]//Proc. of the tenth ACM International Conference on Multimedia, ACM Press, 2002: 235-238.

[10] Malone T W. How do people organize their desks:implications for the design of office information-systems [J]. ACM Transactions on Information Systems, 1983, 1(1): 99-112.

[11] Richard Mander, Gitta Salomon, Yin Yin Wong. A‘Pile’ metaphor for supporting casual organization of information[C]//Proc. CHI 1992, ACM Press, 1992: 627-634.

[12] Anand Agarawala, Ravin Balakrishnan. Keepin’ it real: pushing the desktop metaphor with physics, piles and the pen[C]// Proc. CHI 2006, ACM Press, 2006: 1283-1292.

[13] Paul Dourish, W. Keith Edwards, Anthony LaMarca, et al. Presto: an experimental architecture for fluid interactive document spaces[C]//ACM TOCHI, 1999: 133-161.

[14] Paul Dourish, W. Keith Edwards, Anthony LaMarca, et al. Using properties for uniform interaction in the presto document system[C]//Proc. of the 12th Annual ACM Symposium on User Interface Software and Technology, ACM Press, 1999: 55-64.

[15] Wisam Dakka, Panagiotis G Ipeirotis, Kenneth R Wood. Automatic construction of multifaceted browsing interfaces[C]//Proc. of the 14th ACM CIKM, ACM Press, 2005: 768-775.

[16] Ofer Bergman, Ruth Beyth-Marom, Rafi Nachmias. The project fragmentation problem in personal information management[C]//Proc. CHI 2006, ACM Press, 2006: 271-274.

[17] Boardman R, Sasse M A. "Stuff goes into the computer and doesn't come out" A cross-tool study of personal information management[C]//ACM SIGCHI Conference on Human Factors in Computing Systems (CHI 2004), 2004: 583-590.

[18] Edward Cutrell, Daniel C Robbins, Susan T Dumais, et al. Fast, flexible filtering with phlat[C]//Personal Search and Organization Made Easy, ACM CHI, 2006: 261-270.

[19] David K Gifford, Pierre Jouvelot, Mark A Sheldon, et al. Semantic file systems[C]//Proceedings of 13th ACM Symposium on Operating Systems Principles, Association for Computing Machinery SIGOPS, 1991: 16-25.

[20] Sarah Henderson. How do people organize their desktops?[C]//Proc. CHI 2004, ACM Press, 2004: 1047-1048.

[21] Jones W. et al. “It’s about the information stupid!”: why we need a separate field of human-information interaction[C]//Proc. CHI 2006, ACM Press, 2006: 65-68.

[22] Kaptelinin V UMEA. Translating interaction histories into project contexts[C]//Proc. CHI 2003, ACM Press, 2003: 353-360.

[23] Joseph Kaye, et al. To have and to hold: exploring the personal archive[C]//Proc. CHI 2006, ACM Press, 2006: 275-284.

[24] Nardi B, Barreau D. "Finding and reminding" revisited : appropriate metaphors for file organization at the desktop [J]. ACM SIGCHI Bulletin, 1997, 29(1): 76-78.

[25] Robertson G, Van Dantzich M, Czerwinski M, et al. The task gallery: a 3D window manager [C]//Turner T, Szwillus G. Proceedings of the CHI 2000 Conference on Human Factors in Computing Systems. New York, ACM Press, 2000: 494-501.

[26] Daniel E Rose, Richard Mander, Tim Oren, et al. Content awareness in a file system interface: implementing the “pile” metaphor for organizing information[C]//Proc. IR1993, ACM Press, 1993: 260-269.

Knowledge Worker Oriented Personal Information Management Model

CHEN Ming-xuan, ZHOU Ming-jun, TIAN Feng, DAI Guo-zhong
( Intelligence Engineering Lab, Institute of Software Chinese Academy of Sciences, Beijing 100190, China )

In order to allow knowledge workers to manage their personal information flexibly, sequentially and intelligently, a model for managing personal information model is proposed. First, the features of the knowledge workers for managing personal information are analyzed. Next, the architecture of the model is provided and the structure of it is described. Some tag-based, personal-information recommendation methods are introduced later. Finally, the evaluation results of the overall system show that the model could meet the knowledge workers’requirements for managing personal information.

computer application; personal information management model; tag; knowledge worker

TP 391

1003-0158(2010)03-0176-11

2008-08-16

國家自然科學(xué)基金資助項目（60503054）；（U0735004）；國家“863”高技術(shù)研究發(fā)展計劃項目基金（2007AA01Z158）

陳明炫（1982-），男，內(nèi)蒙古包頭人，博士研究生，主要研究方向為人機交互，筆式計算，個人信息管理。

面向知識工作者的個人信息管理模型

1 相關(guān)研究

2 知識工作者活動模型分析

3 面向知識工作者的 PIM 模型描述

4 原型系統(tǒng)和評估

5 結(jié) 束 語

5 結(jié) 束語