999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據預處理:數字圖書館的“清洗機”

2013-09-12 04:12:36聶飛霞
圖書館界 2013年4期
關鍵詞:數據挖掘圖書館信息

聶飛霞,付 敏

(西北大學圖書館,陜西 西安 710127)

隨著網絡化的發展以及數字圖書館的崛起,圖書館也開始走入了數字化時代。圖書館現有的自動化管理系統中存儲著大量的書目數據、讀者流通借還數據、書目檢索記錄、Web訪問記錄等。但目前圖書館所應用的信息化管理系統只有簡單的統計分析功能,無法預測讀者的需求以及圖書的借閱趨勢。數據挖掘技術的應用,使圖書館自動化信息系統中的數據得到了整理與預測,使龐雜的數據成為有用的知識。而數據預處理技術是根據數據挖掘的需求,將現有的已知數據進行清洗轉換匯總等操作。由于數據源的龐大與雜亂,預處理前得數據常常被人稱為“臟數據”,這就使得數據預處理工作成為數據挖掘前期重要的步驟。只有對預處理過的數據進行數據挖掘,數據挖掘工作才會科學有效。

1 數據提取

數據預處理的前期工作是對所需要的數據進行提取。圖書館信息系統中存在著大量的讀者信息、圖書信息、讀者借還數據、圖書借還數據、讀者檢索數據等,因此數據提取工作也是相對較為繁瑣的。下面給出所提取數據的重要字段結構表(本文所提取的數據是西北大學圖書館ILAS系統中的部分數據)。

讀者信息表主要包括讀者姓名、讀者證號(區別讀者的唯一標志)、性別、院系、部門等。讀者信息表結構如表1所示。

表1 讀者信息表結構

圖書信息表記錄了館藏圖書的題名、分類號、索取號、ISBN號、條碼(區別圖書的唯一標志)等。圖書信息表結構如表2所示。

表2 圖書信息表結構

借還信息表主要記錄了借閱和歸還兩個過程的讀者以及圖書信息,包括讀者姓名、讀者證號、圖書題名、圖書條碼、還書時間等。借還信息表結構如表3所示。

表3 借還信息表結構

2 數據預處理

數據源的獲取、數據獲取和信息集成等相關研究為數據預處理提供了基礎。根據數據挖掘的需求,將相關的多源數據集成融合后,需要進行多種數據預處理操作。數據預處理的主要流程包括數據清理、數據集成和融合、數據變換、數據規約以及在數據挖掘結果的評價計劃基礎上進行的二次預處理的精煉。數據預處理的基本流程如圖1所示。

2.1 數據清理

數據清理工作是數據挖掘準備工作中最耗時耗力的工作,但也是最重要的工作。最初獲得的原始數據往往是夾雜著很多錯誤的、有噪聲的、空白的、缺失的或者冗余的數據。數據清理工作就是將這一部分數據加以處理。

圖1 數據預處理基本流程圖

在圖書館信息系統中獲得的數據源,主要需要做的工作是刪除錯誤值、補充空缺的信息以及修改部分不吻合的值。本次從圖書館信息系統中共獲得借閱數據6798條,圖書數據6704條,讀者數據621條。其中借閱數據中有借閱失敗的冗余數據以及與數據挖掘工作無關的屬性值,而讀者數據中有讀者名稱空缺專業名稱錯誤等信息都需要進行處理。表4是某一時間段西北大學圖書館圖書借閱原始信息表dbo.BorrowHistory中的數據。

表4 讀者原始借還信息表

如表4所示,該原始數據記錄了某一時間段讀者的借閱信息,其中szMemo屬性列記錄了借閱失敗的信息,我們可以通過編寫SQL語句對bResult屬性值為False的行進行刪除。同時,可以刪除我們數據挖掘工作不需要的屬性列,如對bBooking列與szRead列進行刪除。得到讀者借還信息表如表5所示。

表5 讀者借還信息表

2.2 數據融合與變換

本文所用到的讀者信息與讀者借還信息是分別處于兩個數據表中的單獨數據,我們需要利用SQL語言將這兩個表進行融合與變換。文中表5為數據清理后的讀者借還信息表,表6為數據清理后的讀者信息表,將讀者信息表中的讀者姓名即Reader-Name屬性列與讀者單位Company屬性列增加到讀者借還信息表中,得到加了 ReaderName屬性與Company屬性的讀者借還信息表,如表7所示。

表6 讀者信息表

表7 加了ReaderName屬性與Company屬性的讀者借還信息表

續表7

2.3 數據規約

一般數據庫中的數據表都很龐大,為了節約運算時間,我們需要對其進行規約。規約以后的數值將比原值小很多,但卻保持了原值的完整性。規約技術使得數據挖掘更加有效可行。利用圖書信息表、讀者信息表、借還信息表清理融合后得到表7所示的讀者借還信息表。該讀者借還信息表所記錄的讀者借閱記錄中,圖書的屬性有條碼號、書名以及索取號。其中條碼號為識別圖書的唯一標志,也就是說每本圖書的條碼號都是唯一的。而書名和索取號則可能相同,索取號由于記錄得比較詳細不利于數據挖掘的運算,我們把圖書的索取號即szBookIndex屬性進行規約。將圖書按中圖法的22個大類進行劃分,得到增加了新屬性szCategory的讀者借還信息表,如表8所示。

表8 規約后的讀者借還信息表

3 結語

數據挖掘技術近幾年已經開始應用于數字圖書館,利用數據挖掘方法中的聚類分析可以將讀者按閱讀興趣、借閱次數等進行分類。利用數據挖掘方法中的關聯規則可以為讀者提供個性化的推薦服務,如將讀者可能喜歡的圖書進行推薦,或者將可能流行的書推薦給采購人員。以上所說的數據挖掘技術的應用都離不開對數據的預處理。因此數據的預處理工作既是數據挖掘工作的基礎,也是數據挖掘工作中相對重要的步驟。數據預處理是數據挖掘工作科學有效的基礎。

[1]Han Jiawei,Kamber Micheline.數據挖掘:概念與技術[M].北京:高等教育出版社,2001.

[2]謝邦昌.數據挖掘Clementine應用實務[M].北京:機械工業出版社,2008.

[3]Tan Pang - Ning,Steinbach Michael,Kumar Vipin.數據挖掘導論:完整版[M].北京:人民郵電出版社,2011.

[4]高建煌.個性化推薦系統技術與應用[D].中國科學技術大學計算機應用技術,2010.

猜你喜歡
數據挖掘圖書館信息
探討人工智能與數據挖掘發展趨勢
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
飛躍圖書館
一種基于Hadoop的大數據挖掘云服務及應用
圖書館里的是是非非
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
去圖書館
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: av一区二区三区高清久久| 欧美亚洲国产精品久久蜜芽| 国内精品自在自线视频香蕉| 欧美日韩在线亚洲国产人| 成人无码一区二区三区视频在线观看 | 三区在线视频| 国产成人欧美| 久久精品这里只有国产中文精品| h视频在线播放| 国产一区二区免费播放| 狠狠做深爱婷婷久久一区| 露脸国产精品自产在线播| 国产成人亚洲精品色欲AV| 天天色综合4| 日韩视频精品在线| 久久99这里精品8国产| 久久精品国产精品国产一区| 午夜电影在线观看国产1区| 天堂在线亚洲| 久久99精品国产麻豆宅宅| 亚洲综合经典在线一区二区| 怡春院欧美一区二区三区免费| 精品第一国产综合精品Aⅴ| 欧美一级黄片一区2区| 国产成人精品优优av| 国产簧片免费在线播放| 人人91人人澡人人妻人人爽 | 国产精品所毛片视频| 91精品国产福利| 国内黄色精品| 免费国产无遮挡又黄又爽| 亚洲精品动漫在线观看| 福利姬国产精品一区在线| 欧美日韩在线观看一区二区三区| 毛片基地视频| 国产99免费视频| 超薄丝袜足j国产在线视频| 欧美、日韩、国产综合一区| 最近最新中文字幕免费的一页| 精品久久人人爽人人玩人人妻| 五月天久久综合国产一区二区| 国产97视频在线观看| 日韩精品免费在线视频| 狼友视频国产精品首页| 最新国产在线| 成人夜夜嗨| 97色伦色在线综合视频| 又粗又大又爽又紧免费视频| 中文字幕在线视频免费| 亚洲人在线| 激情六月丁香婷婷| 久久综合激情网| 成年片色大黄全免费网站久久| 亚洲va视频| 欧美成人午夜视频免看| 五月天在线网站| 国产精品成人观看视频国产 | 免费毛片网站在线观看| 亚洲精品成人片在线播放| 国产乱子伦无码精品小说| 十八禁美女裸体网站| 亚洲香蕉在线| 中国毛片网| 5388国产亚洲欧美在线观看| 九色91在线视频| 99视频全部免费| 乱人伦视频中文字幕在线| 国产第一页屁屁影院| 国产精欧美一区二区三区| 91www在线观看| 九九精品在线观看| 手机精品福利在线观看| 国产剧情无码视频在线观看| 制服丝袜国产精品| www.99在线观看| 热思思久久免费视频| 制服丝袜国产精品| 日韩国产精品无码一区二区三区| 亚洲欧洲日本在线| 99国产精品国产高清一区二区| 一区二区三区精品视频在线观看| 国产小视频网站|