□ 楊賀 楊奕虹 吳廣印 / 中國科學技術信息研究所 北京萬方數據股份有限公司 北京 100038林霄劍 / 北京萬方數據股份有限公司 北京 100038
用于海量文獻關鍵詞標引的計算機輔助加工系統構建實踐*
□ 楊賀 楊奕虹 吳廣印 / 中國科學技術信息研究所 北京萬方數據股份有限公司 北京 100038林霄劍 / 北京萬方數據股份有限公司 北京 100038
為緩解海量文獻關鍵詞標引的巨大壓力,文章構建了用于海量文獻關鍵詞標引的計算機輔助加工系統,對標引數據預處理規范、自動標引核心工作區和人工標引校對平臺進行了具體闡述。文章采用數據測試方法確定了自動標引軟件,在單一軟件不能滿足標引要求后探索了多種機標結果后處理方式提升機標質量,最終由人工標引校對平臺保證海量文獻關鍵詞標引質量的同時,將機標出現的問題和改進意見反饋給軟件設計和詞表維護,保證了計算機輔助加工系統的持續改進。
文獻加工,關鍵詞標引,自動標引,計算機輔助加工系統
標引是提高信息檢索查全率與查準率的重要方法,盡管現代技術已經可以實現全文檢索,但“其檢索過程是暗箱操作,局限性很大”[1],標引預先對文獻提取精華、過濾噪音,使檢索快速準確,知識挖掘程度深刻[2],也利于知識發現。然而科學技術的快速發展帶動了信息量的劇增,面對爆炸式增長的文獻數量,人工標引早已難堪重負。
從上世紀50年代以來,國內外學者研究開發了多……