袁雪 劉敏娟 劉洪冰 王新 趙婉婧 江浩
(1. 中國農業(yè)科學院農業(yè)信息研究所,北京 100081;2. 農業(yè)農村部農業(yè)大數據重點實驗室,北京 100081)
現今海量信息資源為用戶帶來豐富數據和信息的同時,也帶來了信息超載的困難,不利于信息的高效獲取與利用[1]。隨著信息組織技術的發(fā)展,用戶更多地希望幫助他們實現信息資源跨語種、跨載體、跨領域的有機關聯,按照特定需求從大量分散來源中獲取信息并以序化整合的方式提供一站式信息服務。為實現用戶快速、高效、多方位獲取有序的、成體系信息的意愿,交互式報告作為一種新型的信息服務方式應運而生,彌補了傳統編輯報告在時效性、便捷性、個性化等方面的不足。其實施過程中的PDF文檔碎片化,是指識別PDF文檔中章節(jié)、圖表、段落等細顆粒信息單元,提取文本閱讀順序并對文檔結構進行層次分析,將其分解成一個有層次、有邏輯的有機體,是實現細粒度信息單元重組和深度知識挖掘的基礎;繼而利用非傳統的編輯、加工與生成方式,融合PDF文檔碎片化技術與交互式操作,將相關領域橫縱向的專業(yè)信息資源,按照相應的知識資源體系進行規(guī)模化地獲取、遴選與匯聚,經細粒度加工、深層次揭示,實現動態(tài)重組與發(fā)布。實施效果表明:能顯著提升用戶信息輸入的效率,實現有針對性的、輕量化的閱讀;能夠一鍵生成定制化報告,支持多維度分面檢索,提高查找信息的效率。
Sandusky等[2]認為文獻資源包括兩種類型的結構,一種是如摘要、正文、圖表和參考文獻等的形式結構;……