王彩虹

[摘要]Web數據挖掘技術是實現個性化科研協同服務的關鍵技術。本文以學科館員協同高校科研教師完成重大科研項目為目標,以Web數據挖掘技術為基礎,綜述了Web數據挖掘的概念、研究方法、國內外研究現狀以及學科化科研協同服務的內涵。設計了科研協同服務平臺及其運行機制,力求為學科館員融入高校科研一線提供新的思路和決策。
[關鍵詞]Web數據挖掘;學科館員;科研協同服務
DOI:10.3969/J.issn.1008—0821.2012.05.013
[中圖分類號]G250.7
[文獻標識碼]A
[文章編號]1008—0821(2012)05—0051—04
隨著我國科技水平的不斷發展,高等學校生源和就業問題的加劇,高校生存和發展的競爭變得日益激烈。在全方位的競爭當中,教師的科研實力是衡量學校辦學水平的最重要砝碼,已經成為高校爭取排名的堅強武器。教師科研項目或課題的申報越來越需要強有力的論據材料和論證方法來支撐,其項目研究也不斷尖端化細致化。一些骨干教師在繁忙的教學工作中,擔負著國家級自然科學基金或社會科學基金等重大項目的研究任務。在其項目申報、項目研究、項目結題發布過程中,迫切希望高校圖書館的學科館員能為其項目研究提供合理的信息導航和信息過濾等服務工作。因此,研究如何在網絡環境下,以“用戶為中心”,采用恰當的Web數據挖掘技術,挖掘出科研教師用戶急需的信息資源,協助其解決科研過程中遇到的實際問題,是學科服務深層次化、個性化的一個新領域,具有獨特的研究優勢。
1 Web數據挖掘鮮活科研協同服務
1.1Web數據挖掘
1.1.1Web數據挖掘的概念及研究方法
Web數據挖掘(Web Data Mining),簡稱Web挖掘。是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的人們事先不知道但又是潛在有用的信息和知識過程。它是數據挖掘技術在Web環境下的應用,是從數據挖掘發展過來的集Web技術、數據挖掘、計算機技術、信息科學等多個領域的一項技術。Web數據挖掘可分為3類:Web內容挖掘(Web Content Mining)、Web結構挖掘(Web Structure Mining)和Web使用模式挖掘(Web Us-age Mining)。其主要研究方法包括訪問路徑分析、關聯規則發現、序列模式分析、分類規則發現、聚類分析等。其所處理的對象包括靜態網頁、Web數據庫、Web結構、用戶使用記錄信息等。
1.1.2國內外Web數據挖掘的研究現狀
20世紀90年代以來,數據挖掘技術已在國內外掀起了研究熱潮。國外的IBM、NEC等機構對Web數據挖掘進行了大量的研究,并取得了一定的成果。S.Charkrabarti對超文本數據挖掘進行了研究,并指出基于知識的算法將會在Web數據挖掘中扮演重要角色;加州理工學院噴氣推進實驗室與天文科學家開發的SKICAT系統,能夠幫助天文學家發現遙遠的類星體。而國內對數據挖掘技術研究雖然較遲,但依然持續升溫。有研究者將數據挖掘的因子分析法和聚類分析法相結合,分析我國各地區船舶工業發展的現狀,為決策者決策提供科學合理的依據,指導我國船舶工業經濟發展的規劃和戰略,縮小各地區我國船舶工業發展的差異。清華大學對科技文獻檢測算法進行大量研究,并開發了一套面向計算機領域的英文科技文獻監測系統——AmetMiner。該系統從公開的文獻數據庫(如:DBLP、Citeseer等)抓取相關的文獻數據,從Web上抽取研究者的Profile信息,然后將其集成在一起,并在此基礎上根據合作關系構建學術網絡,并進行深入挖掘,提供如權威專家/期刊/會議發現、關聯路徑發現等服務;中國人民大學開發的KBDL系統也是通過數據挖掘技術研制成功的僅供本館使用的個性化服務系統。
1.2協同理論與協同科研服務
協同理論一詞來自希臘語,意指關于“合作的科學”。創始人是前西德理論物理學家赫爾曼·哈肯。協同理論研究各種完全不同的系統在遠離平衡時通過子系統之間的協同合作,從無序態轉變為有序態的共同規律。其在自然科學和社會科學的各個領域都有廣泛的作用,強調人的合作能力和合作精神。而Web個性化服務實際上是指以用戶需求為中心的Web服務,圖書館利用現代技術、人工智能技術和專家系統等,主動獲取圖書館用戶個性化的特定信息需求,以及特定用戶群體的共同信息需求,針對用戶需求檢索網絡信息和館藏數字信息,并根據用戶要求把用戶所需信息推送給用戶的一種綜合服務機制。在網絡環境下,Web數據挖掘技術是實現個性化信息服務的關鍵技術,它將開創個性化協同服務的新局面。因此,我們認為,基于Web數據挖掘的科研協同服務是指為了提高學科化服務的質量和效率,學科館員與科研教師協同工作,以Web挖掘為基礎,以協助科研用戶圓滿完成研究項目為目標,根據科研教師在前期準備、研究過程和成果發布3個階段中所必須的關于Web數據挖掘方面的幫助,直接融入用戶并實際解決問題,挖掘具有前沿性和權威性的信息資源,提供有針對性的、符合其科研要求的個性化知識挖掘服務。
2 基于Web數據挖掘的科研協同服務平臺的構建
2.1科研協同服務平臺的設計
在協同服務平臺設計方面,我們以湖北師范學院教師申報的自然科學基金項目中個性化Web數據挖掘信息服務需求為中心;以提供專業化、智能化、深層次化的知識服務為原則;以實現用戶在科研過程中不同階段的隱性知識轉化為顯性知識為目標;分析用戶所提供的數據,創建符合用戶特性的訪問模式;結合用戶的特性,向用戶提供符合其特殊需求的信息服務為宗旨。在網絡環境下,構建科研協同服務平臺如圖1:
2.2平臺研發的原理
基于Web數據挖掘平臺研發的原理為:科研用戶通過身份驗證進入個性化信息服務系統,通過用戶接口模塊提出科研項目中自己需要定制的信息請求。學科館員收集信息請求,明確科研項目的主題和要求挖掘的目標,建立信息挖掘系統,確定Web數據挖掘的方法,并采用先進、合理的數據挖掘技術、計算機技術、數據分析技術等對收集的信息進行過濾、處理、集成。再把這些新獲取的信息集合到用戶信息庫中,最后推送給科研用戶,并得到用戶的反饋,以便改進和完善個性化、學科化信息服務工作,協助用戶進行科學研究。
3 基于Web數據挖掘的科研協同服務平臺的運行
3.1運用URL挖掘,集成科研用戶定制的特色信息源
統一資源定位符(URL,英語Uniform Resource Locator的縮寫),也被稱為網頁地址,是因特網上標準的資源地址。它最初是由蒂姆·伯納斯一李發明用來作為萬維網的地址。法國圖書館的“網絡文獻采集項目”BnF就利用了Web結構挖掘的發現功能。它首先利用Web挖掘技術,獲得包含相關主題的網絡資源的一系列網址,經過分析處理,BnF把這些網址發送給有關專家,以評估是否進行采集;國內清華大學計算機系智能技術與系統國家重點實驗室的馬亮等設計了智能Web中文主題信息收集系統IRobot,該系統在對已搜集頁面的主題相關度評價時綜合考慮了頁面的標題、段落標題、Anchor文本(所引用URL的說明文本)等對于頁面評價具有較高價值的特征區域,并賦予了相對較高的權重系數,以此期望提高評價的準確性。Web上信息量龐大,要想挖掘科研用戶定制的重要性較高的信息資源,學科館員在收集科研教師定制的信息請求后,必須利用Web結構挖掘(Web—Structure Mining)中的URL挖掘方法,通過加權的啟發式搜索算法來搜集對用戶有利用價值的URL,自己加工處理,盡量使用目錄短的、參數少的、關鍵詞靠前的、已經過濾的URL,這些UP&都和科研項目主題息息相關,以便用戶能快速地、有選擇性地搜集網絡空間,發現或下載與研究主題相關的信息,提高科研信息資源采集的速度。因此,根據實際,筆者所在的湖北師范學院教師在申報國家自然科學基金項目過程中,相應院系的學科館員除了在圖書館現有的外文資源EBSCOhost(全文/文摘)、WordSciNet電子期刊(全文)、SprringerLINK電子期刊(全文)等數據庫中找到與申報主題相關的文章或文摘的鏈接地址推薦給用戶外,還在運用URL挖掘過程中,主動預測可能有價值的URL來增加信息發現的主動性;在URL被加入自建數據庫時,結果插入進程調用過濾函數對URL進行過濾,同時也對IP地址進行過濾,避免重復的訪問和冗余的信息。
3.2使用超鏈接挖掘,獲取研究項目的發展新動態
Web上成千上萬的WWW服務器通過網頁之間的鏈接構成海量的信息。通常情況下,網頁抓取的步驟是:從任務池中取一個任務地址URL,通過DNS得到其IP地址,用該IP地址與Web服務器建立TCP/IP連接,發出HTTP請求,等待接收HTTP應答,關閉TCP/IP連接,分析收到的網頁,將其中包含的新鏈接加入到任務池中,將網頁存放到磁盤數據庫中。學科館員使用超鏈接挖掘的目的是找出與科研項目主題相關的中心頁面和權威頁面,減少用戶搜索網頁的時間,降低重要信息遺漏的幾率。因為從頁面的作用來看,中心頁面是相關信息的鏈接契合點,通過它很容易找到大批與科研項目相關的鏈接;權威頁面是科研過程中用戶必須了解的核心,通過權威頁面的瀏覽,用戶能夠了解自己所研究項目領域的最新動態、科研進展、成果和思想、發展趨勢等。為了協同科研教師了解其所申報主題的新穎性和發展的新動態,湖北師范學院的學科館員為每個科研用戶建立了個性化MyLibrary系統后,該系統采用的是目前主流的Web服務模式。用戶通過Cookie的瀏覽器登錄MyLibrary系統,設置賬號和密碼,并根據自己的知識結構、信息需求對館藏數字資源和其他網絡資源進行篩選、整理。用戶完成設置后,動態建立MyLibrary,進入中心頁面或權威頁面定制自己所需求的內容。定制的內容包括我的教育與研究資源、我的數據庫、我的圖書館鏈接、最新資源通報等。
3.3巧用Web日志挖掘,鼓勵科研用戶參與互動
Web日志挖掘過程可分為4個階段:①數據采集階段;②數據預處理階段;③模式發現階段;④知識獲取階段。Web日志挖掘的主要數據來源于服務器端日志,其中服務器日志尤為重要,是目前Web日志挖掘的主要研究對象。由于Web多級緩存機制導致服務器端無法記錄用戶的訪問行為,因此,學科館員對Web訪問日志進行分析和挖掘時,必須經過一系列的數據準備和建模工作。首先,學科館員應對代理端和客戶端的日志數據進行采集,獲取完整的科研用戶訪問信息,提高數據信息采集的完整性和全面性;然后把采集到的日志數據、內容和結構信息轉換成數據挖掘階段所需要的抽象數據;再對經過預處理的日志數據進行挖掘,獲取隱藏在這些數據之中的規律或模式;最后通過選擇和觀察把發現的規則、模式和統計值列舉出來,利用模式分析或模式轉換成對用戶有利用價值的知識,推薦給科研用戶并得到反饋。學科館員巧用Web日志挖掘技術,對擔任重大科研項目研究的用戶有兩個好處:第一,能根據用戶的需求對網頁的內容、結構、布局進行個性化的定制;對數據負荷進行有效管理,鼓勵用戶參與信息資源的選擇、評價,并允許用戶根據個人的需要對學科館員挖掘并推薦的信息資源進行注釋,使館員和用戶的互動性變強,方便館員對推薦的信息資源進行優化處理,協助教師獲取重要的研究資源,提高學科化主動服務的效率;第二,學科館員通過分析Web頁面的緩存模式和訪問流量特征,協同高校數字圖書館技術部,采用相應的策略,改善Web服務器的預讀機制和負載均衡機制及數據分析機制,從而優化網站服務器的性能,方便教師遠程校外訪問圖書館數字資源庫,提高用戶隨時訪問湖北師范學院數字圖書館的滿意度。
3.4選用多媒體挖掘,協助科研用戶發布成果
多媒體信息挖掘(Multimedia Mining)就是從大量多媒體數據集中,通過綜合分析視聽特性和語義,發現隱含的、有效的、有價值的、可理解的模式,得出事件的趨向和關聯,為用戶提供問題求解層次的決策支持能力。多媒體信息挖掘主要涉及數據挖掘和多媒體信息處理兩個研究領域。如何把數據挖掘的基本理論和方法與對多媒體特性的分析結合起來,從多媒體的內容著手,利用多媒體的時間、空間、視覺特性、視聽對象及運動特性,挖掘出有價值的隱含的信息線索和知識,已經在國內外多個領域得到應用和發展。如利用多媒體中數據描述與內容通過對相似數據的搜索在醫療診斷、氣象預報、TV制作及電子商務等領域得到廣泛的應用;多媒體數據的分類和預測分析常被應用于天文學、地震學、地理科學領域;多媒體關聯規則挖掘能從大量數據項集中發現有趣的關聯或相關聯系,從而在商務決策、行為分析、模式匹配等領域被廣泛應用。學科館員利用多媒體數據挖掘技術,結合信息過濾技術,從多媒體數據庫選擇恰當的文本、圖像、視頻、音頻等數據的目的是為了協同科研用戶完成重大項目成果的公開發布,使項目成果能生動形象地得以宣傳、演示和實施等,并希望得到合理的評估和獎勵。
4 結語
為了應對日益復雜的科學研究問題,科研用戶對學科化服務工作的要求越來越高。基于Web數據挖掘的科研協同服務不但使用戶在信息檢索、信息過濾、數據分析、成果發布等多方面的研究工作效率得以提高,而且使學科館員真正融入高校科研一線,成為學科服務工作的一個新亮點。但是,由于項目研究具有開創性和尖端性;Web數據挖掘工作具有復雜性和技術性。因此,學科館員在協同服務工作時應注意兩點:
(1)在整個科研項目研究中,由于協同服務工作中存在學科館員和科研用戶的互動比較密切和頻繁,因此,學科館員必須充分保護好用戶的隱私,避免用戶的研究信息外漏,保護好用戶的合法權益。
(2)學科館員在進行Web數據挖掘時,在進行數據處理、數據挖掘、模式分析等過程中會耗費很多時間和精力,同時也需要很好的耐心和溝通能力,協助科研用戶重大項目的研究。因此,學科館員必須擁有與時俱進、勤鉆苦研、吃苦耐勞的精神;更要有強烈的事業心和責任感。