999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用數據挖掘技術 做好檔案編研選題

2008-12-31 00:00:00王立萍
北京檔案 2008年11期

隨著計算機技術和信息技術的發展,信息產生的渠道越來越多,信息更新的頻率日益加快,在“數據過剩”和“信息爆炸”的同時,人們正被信息淹沒,卻饑渴于有用信息的提取。面對浩渺無際的數據海洋,人們迫切需要一種能夠從海量的數據中提取有價值知識和信息的技術,基于人工智能的數據挖掘技術便應運而生,并被廣泛應用。

一、數據挖掘技術

1、數據挖掘

所謂數據挖掘(Data Mining,簡稱DM),是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。數據挖掘是數據庫知識發現(KnowledgeDicoveryinDtabases,簡稱KDD)中的重要技術,它通過對查詢內容進行模式的總結和內在規律的搜索,幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為,從而為決策行為提供有利的支持,很多人又將其稱為數據淘金。

數據挖掘是面向數值數據的挖掘,其功能主要有:(1)自動預測趨勢和行為。數據挖掘自動在大型數據中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。(2)關聯分析。數據關聯是數據庫中存在的一類重要的可被發現的知識,若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。(3)聚類。數據庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。(4)概念描述。概念描述就是對某對象的內涵進行描述,并概括這類對象的有關特征,分為特征性描述和區別性描述。(5)偏差檢測。數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,偏差檢測的基本方法是尋找觀測結果與參照值之間有意義的差別。

2、Web挖掘

Web挖掘是一項綜合技術,涉及Web、數據挖掘、計算機語言學、信息學等多個領域。Web挖掘就是從Web文檔、Web活動中抽取感興趣的、潛在的有用模式和隱藏信息。它反復使用多種數據挖掘算法,從觀測數據中確定模式或合理模型,也是將數據挖掘技術和理論應用于對Web資源進行挖掘的一個新興的研究領域。Web挖掘的處理流程為查找資源、信息選擇和預處理、模式發現、模式分析。

Web挖掘可以分為三類0:(1)Web內容挖掘。Web內容挖掘是從文檔內容或其描述中抽取知識的過程。Web內容挖掘有兩種策略:一種是直接挖掘文件的內容,另一種是在其他工具搜索的基礎上進行改進。(2)Web結構挖掘。Web結構挖掘是從Web的組織結構和鏈接關系中推導知識。由于文檔之間的互連Web能夠提供除文檔內容之外的有用信息,利用這些信息,可以對頁面進行排序發現重要頁面。(3)Web使用記錄的挖掘。Web使用挖掘就是對用戶訪問Web時在服務器留下的訪問記錄進行挖掘,其主要目標是從Web的訪問記錄中抽取感興趣的模式。Web中每個服務器保留了訪問日志,記錄關于用戶訪問和交互的信息。分析這些數據可以幫助理解用戶的行為從而改進站點的結構,或為用戶提供個性化的服務。

二、數據挖掘技術在檔案編研選題中的應用

選題是依據編纂的材料基礎和用戶的利用需求來確定編纂題目的工作。在數據挖掘技術出現之前,檔案編研部門要了解社會用戶對檔案文獻信息的現實的與潛在的需求,只有通過用戶抽樣調查或者借閱數據的抽樣統計來進行,既費時費力,也分析的不夠全面具體。有了數據挖掘技術以后,可以利用檔案館的信息管理系統中的用戶借閱數據進行分析統計,可以利用用戶經常訪問的網頁進行分析、挖掘,了解到用戶的興趣愛好、研究方向,預測用戶需求,從而確定檔案編研的選題。

1、用戶利用檔案的數據挖掘

檔案用戶需求調研是檔案編研選題成功與否的關鍵因素之一。它是指通過一定的方式與方法,在深入調查、掌握檔案用戶利用需求情況的基礎上,揭示各類用戶的需求特點與規律的一項業務活動。一般而言,檔案館在日常的檔案利用服務中所積累的利用統計數據,可比較準確地揭示某一時期社會檔案信息需求的動向。

檔案利用統計的具體指標主要包括檔案調卷數量、檔案利用次數、復制檔案數量、制發檔案證明數量等。數據挖掘自動在檔案館的信息數據庫中尋找用戶利用檔案的所有數據,對搜集到的數據進行聚類,利用聚類結果對不同的用戶賦以不同的類標記,然后利用分類功能,對用戶特征進行建模,挖掘出不同類的用戶的不同特征。檔案編研部門可以針對不同用戶提供個性化服務,按需確定不同類型的編研題目。只有這樣,檔案編研選題才能貼近社會、貼近公眾,編研產品才會被廣大用戶所認可和歡迎,檔案編研的效果與價值才能真正的以用戶利用的效益方式體現出來。

2、用戶訪問記錄的Web使用挖掘

由于網絡速度和計算機軟硬件處理能力的大大提高,使得服務器可以在檔案用戶訪問網站的同時記錄用戶訪問信息。具體做法是:在檔案館網頁設計時,對各鏈接對象進行設置,當用戶訪問該鏈接對象時,系統自動將用戶的信息和訪問對象的信息實時傳遞到服務器端的用戶訪問記錄文件中,然后結合歷史數據和客戶實時訪問的信息進行數據挖掘,采用分析網頁關鍵字、下載記錄、檢索詞、用戶對網頁利用時間和頻度等方式獲取用戶需求信息。

用戶使用記錄挖掘主要是對服務器日志、Cookie、用戶注冊數據、電子郵件查詢響應數據及Web購買數據的挖掘。目前,使用記錄挖掘可分為兩大類:訪問模式的追蹤和個性化使用記錄的追蹤。其中個性化的使用記錄追蹤傾向于分析個別用戶的偏好,其目的是根據不同用戶的訪問模式,提供相應的定制服務。檔案編研部門通過對用戶訪問記錄的挖掘,在數字對象和用戶、對象分類和主題之間進行模式匹配,采用不同挖掘技術如基于業務聚類、使用聚類和聯合規則來自動提取信息,通過數據分析,了解和掌握檔案用戶需求的特點,預測其未來趨向,結合社會熱點選定檔案編研題目。

3、建立檔案編研選題的用戶模型

(1)問題定義

問題定義是數據挖掘中的第一步,也是最重要的的一步,即對挖掘的目標作一個清楚的定義。具體來說,就是通過分析檔案館服務器的日志數據、用戶檢索結果等,來挖掘出檔案用戶的使用模式和興趣模式,從而使檔案編研部門可以利用這些搜集到的信息有針對性地、有目的性地組織選題,進行編研工作,推出用戶滿意的編研成果。這樣即可以有效地克服出版發行者的盲目性,改變目前存在的某種程度的供需失調的狀況,真正根據用戶的需求來出版檔案文獻編纂成果,從而避免了因為不了解社會的實際需要而造成的過量出版和需求短缺。

(2)建立挖掘數據庫

挖掘數據庫是一個儲存待挖掘數據的數據庫。檔案館的服務器日志數據和檔案用戶的注冊信息等,都是挖掘數據庫的數據源。在數據寫人挖掘數據庫前,要先對數據源的數據進行篩選和整合,包括修改錯誤的記錄、刪除不相關的記錄等;通過處理后的數據就成為挖掘的數據了。同時,數據庫的數據需要不斷地進行新增、修改和刪除,以求得到更好的數據效果。

(3)分析數據

在挖掘數據庫建立之后,就要對數據庫中的數據進行分析處理:首先根據檔案用戶ID劃分數據,找到每個用戶的訪問記錄集;然后將該用戶的訪問記錄集以一個固定的時間間隔進行分割,找到該用戶的每一次訪問記錄集(我們稱這個每一次訪問記錄集為一個“訪問事務”);最后,將所有的訪問事務按時間排序,構成進行挖掘的事務集。每一個訪問事務相當于訪問者對站點的一條訪問路徑。另外,還需把網頁中的文本、圖片及其他文件轉換成數據挖掘算法的可用形式。

(4)建立模型

建立模型之前需要進行數據準備工作,包括選擇預測變量、記錄,創建新變量和轉換變量。選擇適當的變量和記錄能大大提高模型的建立效率。在多數情況下,我們還需創建一些新的預測變量(比如一些比值),以增加預測模型的準確性;根據選擇的算法和工具需對變量進行轉換。在數據挖掘中采用比較多的算法主要有神經網絡和決策數算法。

建立模型是個反復尋求最佳模型的過程。我們把挖掘數據庫分成兩部分:一部分用來進行模型訓練,另一部分用來測試模型。我們首先利用訓練集建立一個用戶模型,然后用測試集對模型進行測試;根據測試結果,對訓練數據進行一些修改或新建預測變量,再生成新的用戶模型。建立新的用戶模型可以使用與上次一樣的算法,也可以取用其他算法建模。最后,從建立的幾個用戶模型中選擇一個最有效的模型。

(5)評價和解釋

檔案用戶模型建好后,需評價其實用性和有效性,解釋其價值。我們可從原始信息數據庫中拿出一定百分比的數據作為測試數據,對建立的模型進行測試。通過對模型給出的結果和原始數據信息進行比較,測量出模型的準確率。若準確率高于既定的標準,就認為這個模型是有效的;若低于既定標準,則需找出錯誤原因,并重新進行挖掘。

主站蜘蛛池模板: 日韩天堂视频| 四虎在线高清无码| 亚洲免费黄色网| 在线观看免费国产| 国产亚洲欧美日韩在线一区| 欧美精品亚洲精品日韩专区| 中文字幕人妻av一区二区| 91精品最新国内在线播放| 成人午夜免费观看| 亚洲 欧美 日韩综合一区| 亚洲成人黄色在线| 国产一区二区三区在线精品专区| 大学生久久香蕉国产线观看| 凹凸精品免费精品视频| 欧美精品aⅴ在线视频| 在线不卡免费视频| 欧美一级视频免费| 香蕉eeww99国产精选播放| 精品久久久久久成人AV| 香蕉蕉亚亚洲aav综合| 国产中文一区二区苍井空| 国产系列在线| aⅴ免费在线观看| 熟妇人妻无乱码中文字幕真矢织江 | 伊人色在线视频| 国产精品网拍在线| 久久青草视频| 亚洲无码久久久久| 久久久久亚洲av成人网人人软件| AV老司机AV天堂| 54pao国产成人免费视频| 麻豆国产在线观看一区二区| 日韩国产欧美精品在线| 日韩中文字幕免费在线观看| 国产精品七七在线播放| 在线观看无码a∨| 国产 在线视频无码| 日本91在线| 国产chinese男男gay视频网| 久久久91人妻无码精品蜜桃HD| 又黄又爽视频好爽视频| 精品無碼一區在線觀看 | 久久中文电影| 日韩国产综合精选| 国产福利大秀91| 国产精品播放| 国产精品护士| 91精品免费久久久| 91精品久久久无码中文字幕vr| 亚洲最新地址| 狠狠色综合久久狠狠色综合| 国产一区二区三区在线观看免费| 国产乱人伦偷精品视频AAA| 精品成人一区二区| 热热久久狠狠偷偷色男同| 国产日韩欧美一区二区三区在线 | 一级爆乳无码av| 九九热视频在线免费观看| a级毛片免费看| 亚州AV秘 一区二区三区| 亚洲毛片在线看| 免费女人18毛片a级毛片视频| 久久人午夜亚洲精品无码区| 国产成人夜色91| 亚洲成人黄色在线观看| 三上悠亚在线精品二区| 91精品国产麻豆国产自产在线 | 青草视频网站在线观看| 日本精品视频一区二区| 久久中文字幕2021精品| 日韩资源站| 性做久久久久久久免费看| 伊人色天堂| 国产女人18毛片水真多1| 国产无码高清视频不卡| 好紧好深好大乳无码中文字幕| 激情综合激情| 亚洲成年网站在线观看| 国产玖玖玖精品视频| 激情综合激情| 亚洲天堂日韩在线| 伊人成人在线|