□ 閆瑩瑩 許德山 張運良 李鵬 / 中國科學技術信息研究所 北京 100038
漢語科技詞系統在文獻自動賦詞標引中的應用研究*
□ 閆瑩瑩 許德山 張運良 李鵬 / 中國科學技術信息研究所 北京 100038
文章首先介紹了漢語科技詞系統的體系結構和功能,其次設計了自動賦詞標引研究的整體思路,完成了自動賦詞標引的系統功能實現,包括標引知識庫的格式轉換、算法實現和系統實現,并收集語料進行測試。最后對自動賦詞標引的結果進行了分析,并且總結了該自動賦詞標引研究的特點和不足,介紹了未來的工作設想。
自動標引,賦詞標引,漢語科技詞系統,標引知識庫,詞系統應用,D2RQ
《漢語科技詞系統》是中國科學技術信息研究所在“十一五”科技支撐計劃資金的支持下牽頭研發的領域詞系統。目前已建成包括新能源汽車、重大自然災害監測與防御、新一代工業生物技術、新能源、智能材料與智能結構五個不同領域的詞匯組織系統。建設初衷是希望能夠通過詞系統的相關建設支持我國在相關領域的自動信息分析處理,并進一步支持戰略決策、科研發展和科技創新。
本文在漢語科技詞系統的基礎上,研究中文自動賦詞標引系統。自動標引包括關鍵詞自動提取和自動賦詞標引兩種。自動賦詞標引是一種通過規范化的詞語來描述文獻主題的方法,特點是借助統一的詞表,對文本的主題加以限定,這種方法能使相同主題的各種異構文獻相對集中,從而對文本進行更加有序化和規律化的組織。……