張舒逸
吉林省科學技術信息研究所 吉林 長春 130033
科技文獻信息資源庫管理系統即是對建設的數據庫進行使用管理、使用指導等,可在資源庫創建項目設定數據庫負責人和管理人員,數據庫負責人和管理人員就可以隨時對數據庫進行管理,包括任務管理及資源管理等,并提供了計算機輔助創新中的各種工具集,以及各種統計分析工具。
該模塊將平臺擁有的各類數字資源,建成一個統一整合和檢索的平臺,根據機構的實際資源特點,整合所有資源實現“一站式”檢索。可提供所有資源的統一檢索的入口,資源類型含期刊、學位論文、會議論文、報紙、專利、標準、成果、機構、政策法律、科技報告、OA資源等。資源范圍涵蓋中文、英文。中文元數據倉儲能覆蓋萬方、維普、知網、超星等主要中文電子文獻資源;外文元數據倉儲覆蓋Springer、wiley、
IEEE/IEE、LWW、OUP、BMJ、ACM、ACME、ASME 、IOP、ACS等數據庫。數據上線之前還要對數據進行清洗、查重處理。將異構、分布和海量的科技文獻信息重新組織,形成無重復且有序的元數據倉儲,通過預索引方式,為我省科研用戶提供簡單、快捷的數字資源發現、檢索服務[1]。
對平臺的數據庫資源進行整合,實現統一管理、統一搜索、統一登錄、結果排序、數據關聯分析等。
無論是整個平臺的數據更新還是各行業領域資源的更新,形成固定規則,按要求進行數據更新上線。
MongoDB是一個介于關系數據庫和非關系數據庫之間的產品,是非關系數據庫當中功能最豐富,最像關系數據庫的。它支持的數據結構非常松散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。Mongo最大的特點是它支持的查詢語言非常強大,其語法有點類似于面向對象的查詢語言,幾乎可以實現類似關系數據庫單表查詢的絕大部分功能,而且還支持對數據建立索引。
基于solr搭建核心文獻檢索服務,可輕松滿足目前500萬級搜索量級的要求。Solr還具備極強的擴展性,結合硬件的組配,可支撐更大規模的大數據集檢索,為本項目的未來發展和數據擴容提供了強有力的保障。
布爾邏輯檢索:支持非與或布爾邏輯檢索,系統默認邏輯運算符大寫,在輸入關鍵詞后,系統默認的關鍵詞是和的組配關系,也可通過檢索式的序號進行布爾邏輯檢索.
截詞檢索:檢索詞里加入適當代替符,提高檢索運輸成功率。
字段限定檢索:在檢索運算中,檢索詞過長或過短都會影響檢索效果,在檢索詞后加入字段標識,通過字段限定檢索可提高查準率[2]。
平臺元數據倉儲要包含圖書、期刊、學位論文、會議論文、標準、報紙、專利、科技報告、法律法規、學術視頻等資源。中文元數據倉儲能覆蓋萬方、維普、同方、超星等主要中文電子文獻資源;外文元數據倉儲覆蓋Springer、wiley 、IEEE/IEE、ASME 、IOP、ACS等數據庫。
數據上線之前還要對數據進行清洗、查重處理。將異構、分布和海量的科技文獻信息重新組織,形成無重復且有序的元數據倉儲,通過預索引方式,為我省科研用戶提供簡單、快捷的數字資源發現、檢索服務。
面對異構、海量的科技文獻,我們需要為用戶提供統一的檢索界面,統一的檢索語言。可以對圖書、期刊、學位論文、會議論文、報紙、視頻等文獻進行統一檢索,同時支持各文獻獨立檢索。對不同資源進行混合排序,支持按照學術性、相關性、館藏優先、出版時間升降序等多種排序方式。并且登錄打通,形成統一認證。
整合多類型資源內容,包括科技文獻(期刊、會議、報紙、學位論文等)、科技成果、科研項目、專利標準、專家人才等數據資源,基于目前的科技資源的共建、共享、共用現狀,針對分散/異構/異種科技資源,通過建設區域科技大數據資源池,實現科技信息資源、科技物質資源和科技業務服務的智能連接、快速匹配和有效結合[3]。
科技文獻資源庫管理系統將涵蓋國內4000多種期刊,其中核心期刊1500余種,預計全文文獻總量將達到1000多萬篇,收錄專題按學科分120多個,內容將逐年累增細化。數據庫中還會收錄1000多種重要報紙,內容每日累增。另外還包括1600多種國內的科學與工程核心期刊的論文將會在數據庫中體現,其中會議論文400多家。本系統涉及研究機構達到3萬多家,關鍵詞信息達到6萬余條,包含300多個學科層級分類。如此多的數據在管理系統完成后將實現一站式檢索資訊統計服務。
數據庫管理系統提供各種評價元素影響力指標分析及重要文獻資源鏈接。科技資源庫也將涵蓋國內3000余種核心與專業特色期刊、博碩論文、報紙、行業標準、法律法規、行業經濟數據統計、行業深度研究報告、技術發展動態、國外經濟發展動態等信息,涵蓋企業技術創新、經營決策、企業管理、行業動態等專業資料信息。檢索方式有分類檢索、初級檢索、高級檢索和專業檢索四種方式。在每種方式的檢索結果(包括二次檢索的檢索結果)里都可以進行二次檢索,可以無數次的進行,逐步縮小檢索范圍,直至檢索結果為零。
基于整個系統的目標定位和特點,開發時必須滿足系統的先進性、可擴展性、兼容性、實用易用、可維護性、穩定性等原則。系統使用分布式部署,有效地平衡各服務器的壓力,可以保證系統的穩定性。