999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案用戶數(shù)據(jù)分析引擎建設(shè)研究

2015-01-22 21:04:39田偉韓海濤陳靜
檔案管理 2015年1期

田偉+韓海濤+陳靜

摘?要:本文提出了一個檔案用戶數(shù)據(jù)分析引擎的總體框架模型。在此基礎(chǔ)上,探討了實現(xiàn)與部署該模型應(yīng)進行的主要工作。集中對檔案用戶數(shù)據(jù)分析引擎的實現(xiàn)技術(shù)選擇以及典型功能的實現(xiàn)方案進行了論述,并對檔案用戶數(shù)據(jù)分析引擎的優(yōu)化問題及其配套制度建設(shè)進行了探討。

關(guān)鍵詞:檔案用戶;分析引擎;協(xié)同過濾;檔案模型;推薦系統(tǒng)

本文從分析用戶數(shù)據(jù)來提升檔案服務(wù)的目的出發(fā),立足于檔案館實踐需求和實際數(shù)據(jù)建設(shè)能力,提出一個檔案用戶數(shù)據(jù)分析引擎架構(gòu)模型方案。該方案的核心思想是,通過建立檔案館對用戶數(shù)據(jù)的分析機制,指導(dǎo)和促進自身服務(wù)的提升。

1??檔案用戶數(shù)據(jù)分析引擎模型

本文所稱的檔案用戶數(shù)據(jù),是指用戶在利用檔案過程中所形成的反映檔案利用行為、利用主體及客體特征的數(shù)據(jù)。要實現(xiàn)通過關(guān)注檔案用戶數(shù)據(jù)促進檔案服務(wù)的提升,就要建立對這部分?jǐn)?shù)據(jù)進行分析、知識抽取以及采取相應(yīng)行動的機制,這就是檔案用戶數(shù)據(jù)分析引擎。該分析引擎的意義在于,使得檔案部門可以利用對用戶行為數(shù)據(jù)分析的技術(shù)手段,將原本的“數(shù)據(jù)廢氣”[1]變廢為寶,為檔案部門的服務(wù)提升和管理進步提供了現(xiàn)實支持。

為此,我們提出一個檔案用戶數(shù)據(jù)分析引擎模型,如圖1所示:

圖1?檔案用戶數(shù)據(jù)分析引擎模型

該引擎總體上分為五個層次:存儲層、知識提取層、知識表示層、行為層和反饋層。其中存儲層主要負(fù)責(zé)實施對檔案用戶數(shù)據(jù)收集、存儲和向上層調(diào)用控制。該層次中的檔案用戶數(shù)據(jù)收集模塊負(fù)責(zé)對檔案用戶特征、檔案利用行為、用戶對檔案評價等數(shù)據(jù)的收集,數(shù)據(jù)整理清洗模塊負(fù)責(zé)規(guī)整收集到的數(shù)據(jù)、消除數(shù)據(jù)噪聲等。隨后將收集到的數(shù)據(jù)存儲至檔案用戶數(shù)據(jù)庫中。隱私保護和密級保護規(guī)則模塊,負(fù)責(zé)防止數(shù)據(jù)向上層調(diào)用時違反隱私和保密規(guī)則。

存儲層之上是知識提取層,其根據(jù)收集存儲的用戶利用數(shù)據(jù),運用數(shù)據(jù)挖掘工具提取出有用知識。主要包括以下的幾個功能單元:1.分類模型。對檔案用戶和所利用檔案數(shù)據(jù)資源進行分類和聚類,按照用戶以及利用檔案資源之間的相似度判定其各自的所屬類別,對用戶評價的原因進行分類。2.推薦引擎。主要根據(jù)檔案用戶的利用行為、身份屬性或檔案資源所獲得的評價,為用戶推薦檔案數(shù)據(jù)資源,提供檔案數(shù)據(jù)個性化推薦的系統(tǒng)服務(wù)。3.評價分析。對檔案數(shù)據(jù)資源所獲得的評價進行整理和統(tǒng)計分析,得出用戶對所利用的檔案資源、服務(wù)情況等方面的信息。4.關(guān)聯(lián)分析。對檔案用戶數(shù)據(jù)中所體現(xiàn)的規(guī)律和聯(lián)系進行分析,如用戶利用目的與利用檔案類型的關(guān)系,檔案數(shù)據(jù)信息之間在利用中的聯(lián)系,檔案利用行為與特定時間之間的關(guān)系,等等。5.異常檢測。識別檔案用戶數(shù)據(jù)中不常見的、反常的實例,包括異常的評價、利用行為、用戶屬性信息等,提供給分析引擎的上層進行鑒別與決策,判定這是新的檔案利用趨勢,還是需要特殊服務(wù)的用戶,或是對檔案利用數(shù)據(jù)的惡意干擾等。

知識提取層之上是知識表示層,其將知識提取層所抽取的知識,表達成為對于檔案服務(wù)提升、支持決策有用的、可理解的知識形態(tài)。主要包括:1.用戶特征表征。例如,對用戶的身份特征、利用目的等進行分析和展現(xiàn),表征檔案用戶可以分為哪些類型、用戶身份特征的變化情況等。2.檔案利用特征呈現(xiàn)。這一部分主要展現(xiàn)檔案數(shù)據(jù)資源獲得利用的情況、檔案資源所獲得的評價信息、用戶屬性與檔案利用項目和種類的關(guān)系等。3.趨勢變動及預(yù)估。主要表現(xiàn)隨時間變動的檔案資源所獲評價、用戶利用檔案以及評價檔案的時間特點、對用戶未來檔案利用行為的預(yù)計,等等。

知識表示層之上是行為層,是根據(jù)分析引擎所表示的知識規(guī)則,提示檔案館應(yīng)采取策略的功能層次。主要包括:1.服務(wù)提升。主要可包括:檔案資源個性化推薦、檔案數(shù)據(jù)智能檢索、檔案用戶間交流群建設(shè)及相應(yīng)好友推薦等內(nèi)容。2.資源建設(shè)。根據(jù)分析引擎提供的知識來改進檔案數(shù)據(jù)資源的收集與構(gòu)成,如進行以下工作:檔案資源評價分類、用戶差評分析、檔案數(shù)據(jù)資源利用關(guān)聯(lián)分析、用戶未能檢索到的檔案資源分析等。3.支持決策。應(yīng)用分析引擎提取的知識支持檔案館的管理決策,實現(xiàn)循數(shù)管理[2]的思想。如通過對檔案用戶進行分類與聚類、實現(xiàn)小眾化服務(wù);通過對檔案用戶數(shù)據(jù)中異常實例的感知和分析,確定檔案館應(yīng)采取的相應(yīng)措施;通過檔案項目所獲評價的趨勢分析,實施檔案開放以及利用工作的前瞻性安排等。

用戶滿意度是對分析引擎效能的最終極評價指標(biāo),用戶的反饋意見是引擎優(yōu)化的根本依據(jù)。因此本引擎在設(shè)計上設(shè)置了反饋層,用以收集檔案用戶對于引擎驅(qū)動的檔案服務(wù)提升的滿意度信息,根據(jù)用戶實際滿意度來調(diào)整和完善分析引擎的架構(gòu)與技術(shù)方案。

2??檔案用戶數(shù)據(jù)分析引擎的實施與部署

以上我們所提出的分析引擎,從概念模型的角度闡釋了引擎總體架構(gòu)和所包含的功能。下面,我們結(jié)合當(dāng)前檔案館的實際,探討一下對該引擎進行實施和部署應(yīng)采取的幾方面工作措施:

2.1??完善當(dāng)前檔案信息系統(tǒng)用戶數(shù)據(jù)采集功能。目前在開展了檔案信息化的檔案部門,一般均采用了基于數(shù)據(jù)庫系統(tǒng)加管理軟件的檔案信息系統(tǒng)(典型的如“南大之星”系統(tǒng)),大多數(shù)檔案部門所用到這類系統(tǒng)的主要功能是存儲和檢索檔案數(shù)據(jù)文件,而較少關(guān)注和利用這些信息系統(tǒng)所具有的用戶數(shù)據(jù)采集功能。而且在一些型號的檔案信息系統(tǒng)中,對該類別數(shù)據(jù)的采集功能支持度也不夠。所以,檔案部門應(yīng)當(dāng)從現(xiàn)在起,除了重視檔案數(shù)據(jù)本身,還要重視對檔案用戶數(shù)據(jù)的采集與存儲工作。要充分將自身已有的檔案信息系統(tǒng)用戶數(shù)據(jù)采集功能利用起來,或是依托相關(guān)技術(shù)力量來開發(fā)與完善此部分?jǐn)?shù)據(jù)的采集功能,為部署分析引擎提供必要的數(shù)據(jù)基礎(chǔ)。

2.2??選擇適用于檔案館自身的分析引擎實現(xiàn)技術(shù)。檔案館要充分考慮到自身的現(xiàn)實數(shù)據(jù)分析需求、技術(shù)力量和館藏資源特點,選擇恰當(dāng)?shù)男畔⒓夹g(shù)來實現(xiàn)分析引擎的主要功能。正如選擇軟件的一種原則一樣:功能強大的傻瓜軟件才是最好的。因此,檔案部門為了實際部署檔案用戶數(shù)據(jù)分析引擎,所選擇的具體數(shù)據(jù)技術(shù)應(yīng)當(dāng)是對于自身易于實現(xiàn)、功能較強,既符合檔案部門實際應(yīng)用需求又不超越自身的技術(shù)力量。這樣,使分析引擎既發(fā)揮積極作用,又不使檔案部門陷入“技術(shù)泥潭”。

2.3??結(jié)合自身情況實現(xiàn)分析引擎的具體功能。所提出的檔案用戶數(shù)據(jù)分析引擎所具有的實際功能包含很多種,每種功能面對檔案部門的實際環(huán)境也會具有不同的表現(xiàn)形式。因此,檔案部門可根據(jù)自身所面對的用戶群體與檔案資源狀況,應(yīng)用自身所選擇的引擎實現(xiàn)技術(shù),實現(xiàn)符合自身服務(wù)需要的分析引擎功能。例如,可以根據(jù)自身所面對用戶的身份特征信息,開展對檔案數(shù)據(jù)資源的個性化推薦;建立對檔案用戶屬性的多維分析資源庫;開發(fā)對檔案數(shù)據(jù)資源的輔助檢索系統(tǒng),應(yīng)對用戶檢索多樣化的應(yīng)用環(huán)境;為了防止檔案資源流失,通過異常檢測分析潛在的不守信用用戶并進行預(yù)警;通過趨勢變動及預(yù)估來感知用戶對檔案需求或反饋意見的變化趨勢等。從總體講,這些具體功能的根本目的,就是為了將用戶數(shù)據(jù)驅(qū)動服務(wù)提升與管理進步的宗旨落到實處。

2.4??建立與完善分析引擎的配套制度。對于檔案部門來說,信息技術(shù)要與配套制度相結(jié)合,才能實現(xiàn)檔案服務(wù)與管理的真正進步。用戶數(shù)據(jù)分析引擎在檔案館部署運行的過程中,檔案部門要制定有效的管理制度和使用規(guī)范,確保其發(fā)揮良好的作用。例如,應(yīng)研究建立檔案數(shù)據(jù)個性化推薦系統(tǒng)使用規(guī)則、用戶數(shù)據(jù)收集實施辦法、用戶數(shù)據(jù)安全性責(zé)任規(guī)范、用戶意見反饋收集實施辦法等。通過這一系列的工作制度和紀(jì)律規(guī)范,明確用戶數(shù)據(jù)分析引擎運行過程中檔案工作人員的任務(wù)職責(zé),以制度的形式確保分析引擎的良好運行以及對檔案部門進步的促進作用。

3??檔案用戶數(shù)據(jù)分析引擎實現(xiàn)技術(shù)選擇的探討

基于以上分析,我們以下探討對分析引擎實現(xiàn)技術(shù)的選擇問題。從總體上說,數(shù)據(jù)挖掘領(lǐng)域的關(guān)聯(lián)規(guī)則(Association?Rule)、協(xié)同過濾(Collaborative?Filter)、對項目的向量建模是與該分析引擎相關(guān)的幾項技術(shù)。其中,關(guān)聯(lián)規(guī)則技術(shù)的優(yōu)點是:對其的研究比較深入、技術(shù)較成熟,其實現(xiàn)的軟件產(chǎn)品與技術(shù)人員等也比較豐富。其缺點在于:1.在模型建立的階段計算量往往很大,難以實時完成。關(guān)聯(lián)規(guī)則的模型建立、存儲后,也一般不能做到經(jīng)常修改模型、進行關(guān)聯(lián)規(guī)則集的更新,應(yīng)變度不好。2.對于所產(chǎn)生的關(guān)聯(lián)規(guī)則的解釋和應(yīng)用,本身就是一個復(fù)雜的、在很大程度上具有超技術(shù)特征的哲學(xué)式任務(wù)。且誤導(dǎo)的關(guān)聯(lián)規(guī)則和負(fù)相關(guān)問題需要額外的處理關(guān)注。3.關(guān)聯(lián)規(guī)則對于用戶個性化特征體現(xiàn)和服務(wù)支持不足。關(guān)聯(lián)規(guī)則方法在于從整體上了解數(shù)據(jù)庫事務(wù)較為普遍的、宏觀的發(fā)生規(guī)律,是在考察整體,而非“關(guān)照個體”。例如,其應(yīng)用在資源個性化推薦的場景中,除非目標(biāo)用戶與大多數(shù)人行為模式相似,否則難以得到滿意的推薦。

協(xié)同過濾技術(shù)[3]的基本原理是基于最近鄰居的評分?jǐn)?shù)據(jù)對目標(biāo)用戶產(chǎn)生推薦。協(xié)同過濾技術(shù)的核心是用戶—評分矩陣,用來表示用戶對每個項目的評價。基本的推薦步驟是用戶評價、最近鄰查找、推薦結(jié)果生成。

項目的向量建模技術(shù)主要思想是,將目標(biāo)項目提取為特征向量,用于匹配計算等場景。這項技術(shù)的個性化程度較高,但其難點在于對推薦項目(如文檔)特征的提取,如文獻[4]中介紹了對于文本的特征提取公式等。而對于那些難以提取特征、準(zhǔn)確表達成向量形式的推薦項目(如音像檔案等)則較難應(yīng)用。

考慮到目前我國檔案館的現(xiàn)實數(shù)據(jù)分析需求、技術(shù)力量以及館藏資源特點,在此我們提出主要選擇協(xié)同過濾技術(shù)作為用戶分析引擎的實現(xiàn)技術(shù),并輔以向量建模技術(shù)以提高分析效果。

基于本節(jié)的分析,以下我們闡述幾種分析引擎典型功能的技術(shù)實現(xiàn)方案。

4???檔案用戶數(shù)據(jù)分析引擎若干典型功能技術(shù)方案

4.1??檔案數(shù)據(jù)資源個性化推薦。當(dāng)前用戶對檔案資源的需求主要屬于因辦理某事務(wù)而對檔案資料的剛性需求。所以在實際應(yīng)用場景中,用戶的檔案需求往往在檔案類別上有共性、在具體文件上有個性,因此,我們提出如下的推薦方案:

①對檔案用戶進行建模,采用向量形式描述用戶屬性集合。將檔案文件按照所屬全宗類別進行建模,每一類別作為協(xié)同過濾矩陣中的一個項目。

②根據(jù)檔案利用數(shù)據(jù),建立“用戶屬性-檔案文件類別”二值觀測值矩陣,其中以0、1數(shù)值的形式記錄具有某屬性的用戶利用過某類檔案文件的情況。

③當(dāng)目標(biāo)用戶在檔案利用中輸入自身屬性信息,分析引擎的推薦引擎模塊即根據(jù)其屬性信息在用戶向量模型空間中計算查找最相似用戶,然后檢索這些最相似用戶在“用戶屬性-檔案文件類別”矩陣中利用過什么類別的檔案文件。

④將檢索到的文件類別(并集)與目標(biāo)用戶自身屬性相結(jié)合,在檔案系統(tǒng)數(shù)據(jù)庫中檢索到具體的檔案數(shù)據(jù)文件推薦給用戶。

該方案實際上是對經(jīng)典協(xié)同過濾技術(shù)的一種變形,主要是將其“用戶-項目”矩陣變?yōu)椤坝脩魧傩?檔案文件類別”矩陣,并結(jié)合用戶屬性向量實施推薦。對于目標(biāo)用戶的最近鄰查找是在用戶屬性向量模型空間中完成的,而推薦結(jié)果的生成則劃分為兩步:一是在矩陣中直接讀取最近鄰用戶的檔案文件類別,二是結(jié)合目標(biāo)用戶自身屬性檢索具體檔案文件。這種策略大大緩解了傳統(tǒng)協(xié)同過濾的稀疏性與冷啟動問題。更為重要的是,其更加適用于檔案領(lǐng)域的實際場景。

4.2??檔案利用關(guān)聯(lián)分析。檔案利用關(guān)聯(lián)分析的目的是要揭示用戶屬性(如身份信息、利用目的等)與所利用檔案類別集合之間的關(guān)系。這種分析得出的結(jié)果主要有兩個方面的重要用途:一是為檔案館識別用戶、安排與優(yōu)化檔案資源提供決策依據(jù);二是為實現(xiàn)上述的檔案數(shù)據(jù)資源個性化提供建模支持。

基于4.1節(jié)中所提出的協(xié)同過濾矩陣,建立利用分析模型。重點是根據(jù)檔案館實際情況分別建立檔案用戶模型與檔案資源類別模型。其中用戶模型的建模目的是將檔案用戶映射為不同的特征向量。例如,在檔案資源個性化推薦中,使得目標(biāo)用戶能通過模型映射找到與其特征相似近鄰用戶;而對于檔案項目的建模,目標(biāo)是使資源模型可以準(zhǔn)確刻畫檔案數(shù)據(jù)文件從屬于何種類別,該類別的劃分有助于揭示此類文件的共性,且有助于其與用戶屬性結(jié)合后準(zhǔn)確地直接檢索到用戶所需的具體文件。

具體的建模策略實際可視為一個分類模型(classification?model)問題,即將“用戶屬性-檔案文件類別”二值觀測值矩陣中的每一行視為一個獨特狀態(tài)。檔案館通過分析總結(jié)檔案利用數(shù)據(jù)與館藏檔案類別,首先歸納得出若干不同的利用狀態(tài)(矩陣行),然后利用分類模型技術(shù),將檔案用戶身份屬性信息映射到各自唯一對應(yīng)的檔案利用狀態(tài)(也就是分類決策樹的葉節(jié)點)。如圖2所示:

圖2??用戶利用檔案類別分析模型

所建立的分類決策樹模型,每個葉節(jié)點應(yīng)對應(yīng)“用戶屬性-檔案文件類別”矩陣中的一行,決策樹中的每個非葉節(jié)點代表一個應(yīng)當(dāng)體現(xiàn)在用戶向量模型中的用戶屬性項目。從而以此指導(dǎo)建立檔案用戶向量模型。而之所以不將該決策樹直接用于推薦引擎,是因為決策樹模型往往存在誤差,且直接在樹上查詢至葉節(jié)點也往往存在效率上的問題。因此,以協(xié)同過濾技術(shù)實現(xiàn)推薦服務(wù)可具有更好的容錯性和運行效率。

在建立分類模型過程中,可以應(yīng)用諸如C4.5等[5]分類模型技術(shù),通過信息增益率來確定用戶屬性項目的價值(即屬性選擇度量),這對于完善檔案用戶向量模型是一種直接而有效的方法。而建立分類模型需要訓(xùn)練集(training?set)與檢驗集(test?set)。對此可以將檔案館人員分析得出的用戶屬性-利用檔案文件類別數(shù)據(jù)集,分為訓(xùn)練集與檢驗集兩部分,前者建立決策樹,后者進行模型的驗證和完善。而且,這個過程在實踐中可以通過新得出的數(shù)據(jù)定期進行,以完善和優(yōu)化所建立的分類模型。

4.3??檔案未命中檢索詞分析。用戶檢索檔案數(shù)據(jù)所使用的關(guān)鍵詞,體現(xiàn)出用戶對檔案資源的實際需求以及自身表達特點。若是用戶在檔案信息系統(tǒng)中經(jīng)過一系列嘗試后未檢索到所需的檔案文件,那么,檔案館應(yīng)該定期對這些“未命中檢索關(guān)鍵詞”進行分析(通過操作日志等),找出檢索未命中的原因。該原因一般可歸結(jié)為三類:資源不存在、檢索詞筆誤、資源命名不匹配。在經(jīng)過認(rèn)真分析確定原因后,檔案館應(yīng)分別采取如下的處理措施:對于資源不存在,應(yīng)在對檢索詞統(tǒng)計匯總后,研究加強今后的檔案資源建設(shè),調(diào)整所需檔案收集的項目,以使館藏檔案資源的擴充向用戶實際需求方向發(fā)展;對于檢索詞筆誤,可將用戶輸入有誤的檢索詞作為“規(guī)則”與其應(yīng)該命中的文件建立鏈接,今后系統(tǒng)再遇到該錯誤時,即可將正確的文件推送到用戶,增強檔案檢索系統(tǒng)的容錯性;對于資源命名不匹配問題,也可按照該方式,將用戶所用檢索詞與應(yīng)命中文件鏈接,增強檔案檢索系統(tǒng)的適應(yīng)性。在此提出的技術(shù)策略,實際上是通過倒排文件的思想,來提升檔案信息系統(tǒng)檢索的智能化水平。

5??檔案用戶數(shù)據(jù)分析引擎的優(yōu)化及制度建設(shè)

任何成功的制度設(shè)計,都應(yīng)具備有效的自我完善機制。因此,我們提出的檔案用戶數(shù)據(jù)分析引擎設(shè)置了反饋層,用以收集分析引擎運行后用戶對檔案服務(wù)的滿意度和反饋意見等信息。以此為依據(jù),對分析引擎的功能、實現(xiàn)機制、技術(shù)方案等做出優(yōu)化調(diào)整。

對于分析引擎在實踐中的優(yōu)化,一方面,需要根據(jù)實際運行中的用戶反饋對引擎進行改進,另一方面,也需要測試基準(zhǔn)(benchmark)對其進行有效驗證,這種測試基準(zhǔn)就是典型檔案用戶案例。建立這種用戶案例的主要考慮原則包括:1.代表性。典型檔案用戶案例主要特點在于“典型”,即用相對可行的用戶數(shù)量,全面反映各種類的檔案用戶特點。2.反饋性。組成典型檔案用戶案例的用戶應(yīng)與檔案館之間建立有充分的、及時的信息反饋機制,將檔案服務(wù)的實際質(zhì)量、存在的問題等及時、真實有效地反饋給檔案館。3.可控性。典型檔案用戶案例相對于檔案館應(yīng)是可控的,這意味著雙方彼此間應(yīng)建立良好的互信關(guān)系,對于檔案服務(wù)引擎可能存在的問題與不足進行友好的溝通與探討,而不致因某些不足造成不可控的影響。通過在典型用戶案例上的實際測試和完善,面向?qū)嶋H提高檔案用戶數(shù)據(jù)分析引擎的效能。

對于檔案數(shù)據(jù)分析引擎的配套制度建設(shè),目前我們應(yīng)該重點關(guān)注兩點:一是有效收集檔案用戶數(shù)據(jù)的問題,二是對系統(tǒng)中檔案用戶隱私保護問題。

對于有效收集檔案用戶數(shù)據(jù)的問題,檔案用戶數(shù)據(jù)的主要內(nèi)容包括對檔案利用行為的數(shù)據(jù)、檔案用戶自身屬性的數(shù)據(jù)、所利用檔案具有屬性的數(shù)據(jù)三個主要的部分。對于它們的收集要本著準(zhǔn)確、及時、全面的原則,因為它們是整個檔案用戶數(shù)據(jù)分析引擎運行的基石。對于檔案利用行為數(shù)據(jù),在數(shù)字化檔案館條件下,可基于檔案信息系統(tǒng)自動完成。檔案部門也可對以往檔案利用登記數(shù)據(jù)進行匯總,獲得更為全面的利用規(guī)律。對于檔案具有屬性的數(shù)據(jù),應(yīng)基于檔案元數(shù)據(jù)來獲得,這就要求檔案部門今后要更加重視檔案元數(shù)據(jù)的收集、存儲和利用。

對于檔案用戶自身屬性的數(shù)據(jù),相關(guān)研究中[6]亦稱為用戶人口統(tǒng)計信息(Demographic?Information)等。對于其的收集,檔案部門首先是調(diào)查搞清:哪些信息項目對于分析引擎的功能是需要的,要收集加以考慮,而哪些信息項目不重要,不可盲目收集。另外還要注意哪些是用戶“最不愿意填寫”的信息項目,這些項目用戶要么就不會提供、要么即使填寫也是不真實的信息,從而影響引擎的分析功能正常發(fā)揮。對此,檔案館要充分地向用戶宣傳與溝通,積極促進用戶提供自身真實有效的屬性信息。

例如,4.2節(jié)中所提出的分類模型,其在建模過程中就會逐步篩選出對于分析有意義的用戶屬性項目,因此在實踐中應(yīng)對用戶的這些屬性加以重點收集、確保其正確和真實,這就意味著檔案部門要通過有效的策略鼓勵用戶提供這些信息項目的真實信息。

對于分析引擎中用戶隱私保護問題,當(dāng)前相關(guān)研究中[7]提出了一系列的用戶隱私保護措施,如收集主體的合法性、隱私管理者的保密及忠實義務(wù)、貫徹落實相關(guān)的法律規(guī)定等,在分析引擎實際運行中可以參照這些措施對用戶的信息實施保護。這實際與有效收集用戶屬性信息問題是相輔相成的,只有用戶的信息受到良好的保護、進行正確的利用,才能促使用戶更加順暢地提供自身屬性數(shù)據(jù)供分析引擎正常運行,從而形成檔案用戶、檔案部門與分析引擎之間的良性互動。

6??總結(jié)

本文重點關(guān)注了如何通過對用戶數(shù)據(jù)的分析來驅(qū)動檔案服務(wù)提升的問題。提出了檔案用戶數(shù)據(jù)分析引擎的模型架構(gòu),并基于協(xié)同過濾和向量建模等技術(shù)提出了若干具體的功能實現(xiàn)策略。在設(shè)計和部署數(shù)字化以及智慧檔案館的信息系統(tǒng)時,可將本文提出的策略作為設(shè)計要求和實現(xiàn)說明,將對用戶數(shù)據(jù)的感知及分析功能融入檔案系統(tǒng)中加以實現(xiàn)。

*本文系2014年度國家檔案局科技項目“大數(shù)據(jù)時代檔案館服務(wù)創(chuàng)新與發(fā)展趨勢研究”(課題編號:2014-X-16)的階段性研究成果之一。

參考文獻:

[1]張倩.?高校檔案用戶行為大數(shù)據(jù)分析技術(shù)應(yīng)用研究[J].?檔案與建設(shè).2014(08):16~21.

[2]周楓.?資源.技術(shù).思維——大數(shù)據(jù)時代檔案館的三維詮釋[J].?檔案學(xué)研究.2013(06):61~64.

[3]孔維梁.?協(xié)同過濾推薦系統(tǒng)關(guān)鍵問題研究[D].博士學(xué)位論文.華中師范大學(xué).2013.

[4]林鴻飛,姚天順.基于示例的中文文本過濾模型[J].大連理工大學(xué)學(xué)報,2000,40(03):375~378.

[5]徐鵬,林森.?基于C4.5決策樹的流量分類方法[J].軟件學(xué)報,?2009,20(10):2692~2704.

[6]袁先虎.?基于混合用戶模型的協(xié)同過濾推薦算法研究[D].碩士學(xué)位論文.重慶大學(xué).2010.

[7]孫強.?檔案利用中的個人隱私保護問題探析[J].檔案學(xué)研究,2014,(04):40~43.

(作者單位:天津工業(yè)大學(xué)檔案館??來稿日期:2014-10-16)

主站蜘蛛池模板: 国产18在线播放| 夜精品a一区二区三区| 嫩草在线视频| 麻豆精选在线| 国产成人亚洲精品蜜芽影院| 精品国产网站| 久久综合九九亚洲一区| 97精品伊人久久大香线蕉| 人人91人人澡人人妻人人爽| 国产精品无码AⅤ在线观看播放| av在线5g无码天天| 久久免费精品琪琪| 天天躁夜夜躁狠狠躁图片| 亚洲欧美一区二区三区蜜芽| 久久国产精品77777| 欧美中文字幕一区| 久久www视频| 国内精自视频品线一二区| 欧美在线视频a| 久久人搡人人玩人妻精品一| 久久婷婷色综合老司机| 亚洲不卡网| 国产国产人成免费视频77777| 一级在线毛片| 国产成人AV男人的天堂| AV熟女乱| 亚洲国产系列| 婷婷六月在线| 99视频在线免费| 亚洲AV无码不卡无码| 中文精品久久久久国产网址| 日韩在线1| 91成人在线免费视频| 97国产在线观看| 91成人免费观看| 国产精品久久久精品三级| 波多野结衣无码中文字幕在线观看一区二区| 永久免费av网站可以直接看的| 爱爱影院18禁免费| 国产精品三级av及在线观看| 好吊色国产欧美日韩免费观看| 午夜一级做a爰片久久毛片| 伊人成人在线视频| 国产成人高精品免费视频| 伊人久久精品亚洲午夜| 亚洲AⅤ综合在线欧美一区| 日韩欧美国产综合| 无码一区18禁| 九九九精品成人免费视频7| 国产成人精品优优av| 人人看人人鲁狠狠高清| 99精品这里只有精品高清视频| 97se亚洲综合在线韩国专区福利| 永久成人无码激情视频免费| 亚洲精品欧美日本中文字幕| 成年人久久黄色网站| 久久久久人妻一区精品色奶水| 精品国产一区二区三区在线观看| 国产精品视频久| 国产人成乱码视频免费观看| 国产欧美日韩综合在线第一| 色婷婷色丁香| 日本免费高清一区| 精品国产自在在线在线观看| 97亚洲色综久久精品| 3D动漫精品啪啪一区二区下载| 国产主播喷水| 国产高清在线观看| 99免费在线观看视频| 亚洲综合一区国产精品| 婷婷激情亚洲| 国产综合网站| 毛片久久网站小视频| 综合久久五月天| 国产日韩欧美视频| 国产精品毛片一区视频播| 伊人久久婷婷| 最新亚洲人成网站在线观看| 波多野结衣视频网站| 免费一极毛片| 成人免费一区二区三区| 国产一区二区影院|