陳 默
(機械工業(yè)信息研究院 北京100037)
科技檔案是指在自然科學研究、生產(chǎn)技術(shù)、基本建設(shè)等活動中形成的應(yīng)當歸檔保存的圖紙、圖表、文字材料、計算材料、照片、影片、錄像、錄音帶等科技文件材料。隨著信息網(wǎng)絡(luò)技術(shù)的發(fā)展,云科技、大數(shù)據(jù)時代的到來,數(shù)據(jù)信息呈現(xiàn)出爆炸式增長。在這種情況下,再采用人工手段來檢索情報信息已經(jīng)成為不可能完成的任務(wù)。
本文基于數(shù)字檔案平臺、科技報告系統(tǒng)等數(shù)據(jù)庫設(shè)計建立一套以人為主,數(shù)據(jù)、信息、知識和智慧綜合集成,高度智能化的人機結(jié)合智慧情報系統(tǒng)。從系統(tǒng)的物理構(gòu)成來看,包括3部分(見圖1)。
文章將主要運用信息智能檢索、數(shù)據(jù)統(tǒng)一結(jié)構(gòu)化、信息抽取、機器學習、自然語言理解等前沿數(shù)據(jù)挖掘分析技術(shù),對各數(shù)據(jù)庫的結(jié)構(gòu)化與非結(jié)構(gòu)化文本進行處理,實現(xiàn)對海量信息的數(shù)據(jù)挖掘,完成數(shù)據(jù)的關(guān)鍵詞輸入、引文爬取、數(shù)據(jù)解析分析、統(tǒng)計,最終形成關(guān)于學術(shù)專題情報報告的雛形。

圖1 基于綜合集成研討廳的人機結(jié)合智慧情報系統(tǒng)框架示意圖Fig.1 Schematic of human-machine integration smart intelligence system framework based on HWME
本系統(tǒng)需要在普通搜索引擎的基礎(chǔ)上通過重點、互動、專業(yè)垂直搜索,完成深入的、交互式的、專業(yè)的科技情報搜索。本部分的科技情報專用搜索工具是由元搜索系統(tǒng)、重點搜索系統(tǒng)、互動搜索系統(tǒng)、垂直搜索系統(tǒng)和深網(wǎng)接口系統(tǒng)封裝在一起構(gòu)成。本系統(tǒng)根據(jù)研究內(nèi)容設(shè)定采集數(shù)據(jù)的范圍,力爭把數(shù)以十萬計的海量信息壓縮到600條以內(nèi),同時保存足夠的核心信息,并采用人機結(jié)合的工作方式,提供專家判讀的界面,為數(shù)據(jù)篩選的準確性提供保障。
本系統(tǒng)根據(jù)關(guān)鍵詞并行進行科技報告系統(tǒng)網(wǎng)頁爬取與數(shù)字檔案館中的科技檔案爬取,獲取有效的網(wǎng)頁信息與檔案信息,去重、去噪后得到需要的網(wǎng)頁信息與檔案信息。具體流程如圖2所示。
按照檔案情報流程節(jié)點的不同,該學術(shù)專題情報快速輔助生成系統(tǒng)可以細分為幾個大模塊:搜索大模塊、控制大模塊、整理大模塊、分析大模塊及結(jié)論生成大模塊。大模塊下又可細分為幾個小模塊。學術(shù)專題情報快速輔助生成系統(tǒng)模塊劃分如圖3所示。

圖2 系統(tǒng)數(shù)據(jù)流程圖Fig.2 Flowchart of system data

圖3 系統(tǒng)功能模塊圖Fig.3 System functional modules
系統(tǒng)結(jié)構(gòu)共包括元搜索、多線程控制器、垂直搜索、數(shù)據(jù)存儲器、URL調(diào)度器、源碼解析器和數(shù)據(jù)分析等七大模塊。由于網(wǎng)頁數(shù)據(jù)與檔案庫的格式差異較大,故本系統(tǒng)開發(fā)兩個軟件分別對網(wǎng)頁數(shù)據(jù)和檔案數(shù)據(jù)進行處理。從系統(tǒng)結(jié)構(gòu)上說,除了信息采集模塊外,兩個軟件的結(jié)構(gòu)基本一致,都是通過上述模塊進行相互協(xié)調(diào)控制(見圖4)。

圖4 系統(tǒng)整體結(jié)構(gòu)圖Fig.4 Overall system structure
系統(tǒng)的基本流程:在傳統(tǒng)網(wǎng)絡(luò)爬蟲的基礎(chǔ)上進行改進,抽取各類網(wǎng)頁信息,將抽取下來的各類信息存儲于內(nèi)存之中,每次抽取與前一次鏈接相同,每當存儲的信息超過設(shè)定的閾值,信息存入本地文件。
抓取下的數(shù)據(jù)被分為互聯(lián)網(wǎng)數(shù)據(jù)與檔案庫數(shù)據(jù),檔案庫數(shù)據(jù)一般為標準結(jié)構(gòu)化數(shù)據(jù)(雙層 PDF等除外),重復(fù)率低,可直接使用系統(tǒng)對數(shù)據(jù)進行分析。
以人工智能領(lǐng)域為例,使用本系統(tǒng)進行實驗,驗證本系統(tǒng)的可行性和有效性。
①可以實現(xiàn)對檔案數(shù)據(jù)庫、科技報告數(shù)據(jù)庫的中文數(shù)據(jù)采集搜索,可以自動實現(xiàn)對檔案、科技報告相關(guān)詞庫的搜索,對相關(guān)文獻詳細信息(包標題、摘要、完成人、完成單位、完成時間、項目名稱等)進行搜索采集,對相關(guān)文獻內(nèi)高頻詞匯進行統(tǒng)計分析。系統(tǒng)檢索過程見圖5~7。

圖5 搜索工具Fig.5 Search tool

圖6 詞庫內(nèi)數(shù)據(jù)Fig.6 Data within the lexicon

圖7 詳細信息內(nèi)數(shù)據(jù)Fig.7 Data within the detailed information
②系統(tǒng)對采集到的數(shù)據(jù)進行歸類、去噪、去重處理,篩選出較具情報價值的信息,運用文獻計量學方法對篩選完的數(shù)據(jù)進行統(tǒng)計分析,形成清晰的檔案文獻相關(guān)信息統(tǒng)計分析表格。
③系統(tǒng)可以用來搜索某學術(shù)領(lǐng)域相關(guān)機構(gòu)、相關(guān)專家,還可以對機構(gòu)之間的合作關(guān)系、專家之間的合作關(guān)系、專家學術(shù)研究點之間的關(guān)系進行可視化展示。
科技情報是情報學的主要學科,檔案信息、科技報告是情報采集的重要來源,基于科技檔案的學術(shù)專題情報快速輔助生成系統(tǒng)可以有效提高情報機構(gòu)數(shù)據(jù)資源建設(shè)能力,對于打造情報機構(gòu)核心競爭力具有重要促進作用。
[1] 鄭彥寧,宋振峰. 我國科技情報行業(yè)現(xiàn)狀與發(fā)展對策分析[J]. 情報學報,2007,26(5):10-15.
[2] 賀德方. 我國科技情報行業(yè)發(fā)展方向的探討[J]. 情報學報,2007,26(4):23-29.
[3] 賀德方. 我國科技情報行業(yè)發(fā)展戰(zhàn)略與發(fā)展路徑的思考[J]. 情報學報,2007,26(4):54-61.
[4] 成帥. 文獻增長規(guī)律的研究[J]. 科技情報開發(fā)與經(jīng)濟,2005,15(22):13-20.