

【摘要】在當前條件下,我們應該運用知識管理的各種工具和技術,借助信息網絡,結合我省企業(yè)發(fā)展和高校教學科研的實際需要,分專題建設具有地方特色的區(qū)域創(chuàng)新型數據庫,區(qū)域創(chuàng)新型數據庫是我省中小企業(yè)和高等院校突破自身資源基礎薄弱、資金緊缺等制約因素,為我省經濟和文化發(fā)展的重要途徑之一。
【關鍵詞】區(qū)域 創(chuàng)新 數據庫 研究
一、研究背景和意義
區(qū)域創(chuàng)新特色數據庫是以地理區(qū)域為中心特征的創(chuàng)新型信息和知識的載體,是該地區(qū)發(fā)展軌跡的客觀縮影與文化底蘊的智慧結晶,是了解和研究某一特定地區(qū)政治、經濟、科學、文化等各方面歷史和現狀的主要情報來源。區(qū)域創(chuàng)新特色數據庫建設,對于加快推進“一帶一路”建設和東北老工業(yè)基地振興,意義重大。特色數據庫,可以對科技改革進行創(chuàng)新,對省內的國企改革創(chuàng)新提供理論和數據支撐,真正做到體制機制、思維思想解放。
二、研究內容
通過相關數據挖掘等技術,把吉林省的優(yōu)勢項目與吉林省科學技術信息研究所信息服務平臺進行聯合數據庫聯網,確保我們的特色數據庫可以準確全面的囊括吉林省區(qū)域創(chuàng)新相關數據,我們根據商務部對吉林省特色產業(yè)和優(yōu)勢項目的定位,我們可以確定吉林省的3大支柱產業(yè)和優(yōu)勢項目,支柱產業(yè)定義為汽車產業(yè)、農產品加工業(yè)、石化產業(yè),優(yōu)勢項目包括了醫(yī)藥、汽車、農產品深加工、石化,我們針對這三大產業(yè)和優(yōu)勢項目進行數據獲取,這些數據將構成吉林省區(qū)域創(chuàng)新特色數據庫建設的重要內容。因此,我們再收集整理數據時要確保收集信息的完整性和權威性,我們主要從以下幾方面來進行數據搜集:
一是確定合理的收集范圍,包括支柱產業(yè)的時限范圍、地域范圍、文種范圍等。
二是確定支柱產業(yè)的信息源的種類,這些信息源主要有圖書、期刊、會議錄、論文集、專利文獻、產品說明、科技報告及網上信息等;
三是確定收錄信息的形式,包括文字、表格、圖片、動畫、音樂及多媒體信息。
三、特色數據庫建設的關鍵技術
第一,元數據的獲取與數據挖掘,特色庫的創(chuàng)建需要大量的元數據,可以從數據服務商處購買、通過軟件從互聯網上抓取、通過工作人員從互聯網上摘取、掃描機構內部收藏的紙質資源;服務商購買的基礎數據包括維普、CNKI等本地購買的第三方商業(yè)基礎數據庫,數據獲取后通過整合進行分類,整合集成的數據類型:期刊文章、學位論文、會議論文、專利、標準、專著、科技成果、政策法規(guī)、產品樣本、科技報告。軟件平臺需要能夠連接掃描儀,加工紙質文獻功能。
在通過多種方式進行元數據獲取后我們需要在我們的平臺上進行數據整合和分類,來進一步對數據庫的功能和內容進行完善(圖1)。平臺為吉林省科學技術信息研究所的吉林省科技文獻信息服務平臺(www.jlstis.com)。
第二,多媒體技術,利用多媒體可以將很多信息直接、可視化地用圖形、圖像、語音等表現出來,使人們對信息的感悟倍增。充分利用圖形、語音等融為一體的多媒體技術,將設計出友好、直觀、方便的用戶界面,并具有自然、和諧的人性化特點,使用戶用起來得心應手。
第三,人工智能技術,自建特色數據庫就用目前已行之有效的精準推送技術,進一步實現基于內容的資源組織,對多維信息的資源內容進行正確、高效的索引,然后針對用戶的背景、興趣、意圖等特性進行個性化的主動服務。無論是中文搜索、圖像搜索,還是語音搜索、智能搜索,其中涉及大量人工智能技術的支持,是一個長期的研究問題。新一代的特色數據庫的服務需要實現人人合作、人機合作和機機合作。
四、產業(yè)應用前景和社會、生態(tài)效益
第一,特色數據庫的產業(yè)應用前景廣闊,它將為我省經濟發(fā)展提供強勁動力,其中實時數據庫系統(tǒng)是數據庫理論在新領域的擴展,在我省的汽車、化工、醫(yī)療、農產品深加工等領域有著非常廣闊的應用前景。它可以為企業(yè)提供高速、及時的實時數據服務,能夠對快速變化的實時數據進行長期高效的歷史存儲,同時也是企業(yè)宏觀發(fā)展的數據平臺。
第二,特色數據庫效益包含了兩個方面,即社會效益和生態(tài)效益。特色數據庫的社會效益是指整個特色數據庫或某一具體特色數據庫內容活動給社會帶來的影響和效果,主要表現為促進精神文明建設,促進社會政治、文化、教育和科學等發(fā)展的程度。特色數據庫的生態(tài)效益是指特色數據庫事業(yè)或特色數據庫活動中投入、產出的比例。
五、數據構成及應用
(一)數據庫構成(圖2)
(二)數據搜集
數據庫平臺的數據整合可以整合各種格式的數據,各種格式的文件,并能夠保證穩(wěn)定運行。通過購買、下載、規(guī)模采集等方式獲取具有吉林省區(qū)域創(chuàng)新特色的數據庫所需要的數據,應該與數據庫廠商及吉林省各大高校展開合作,獲取與區(qū)域創(chuàng)新有關的數據,來建設數據庫,特色數據庫中還會包含很多與地方經濟文化發(fā)展息息相關的數據資源,需要開發(fā)者用更新更快捷的方式去獲取,以便使用者可以時時獲取最新的關于吉林省區(qū)域創(chuàng)新內容的數據。區(qū)域創(chuàng)新特色數據庫中主要有:
基礎數據:維普、CNKI等本地購買的第三方基礎數據庫。
行業(yè)數據:《國研報告數據庫》、《宏觀經濟報告數據庫》、《金融中國報告數據庫》、《行業(yè)經濟報告數據庫》、中國經濟信息網行業(yè)報告、600多種報紙信息、個性化的定向數據采集(競爭對手、行業(yè)網站)。
子機構數據:圍繞吉林省地區(qū)的子機構知識數據統(tǒng)一加工、清洗。
整合集成的數據類型:期刊文章、學位論文、會議論文、專利、標準、專著、科技成果、政策法規(guī)、產品樣本、科技報告。
(三)檢索方式
數據庫的多功能檢索功能可以多種檢索方式,如標題、全文、摘要、跨庫等等檢索。對特色庫的海量資源以及用戶使用數據進行數據挖掘,實現高級信息檢索、知識發(fā)現、精準數據展示等等一些高級功能。
(四)數據庫開發(fā)
把準備好的海量數據按照編寫腳本的要求在SQL2008中組織成模塊,采用ASP、JAVAScript等技術實現網頁中的動態(tài)交互。該過程可按不同的內容分塊實現,各模塊做好后進行測試。
六、結束語
對特色庫的海量資源以及用戶使用數據進行數據挖掘,實現高級信息檢索、知識發(fā)現、精準數據展示等等一些高級功能。并且可以將不同類型的數據庫中的數據進行整合加工完善檢索。特色庫為推進“一帶一路”建設等老工業(yè)基地振興的重要舉措,促進區(qū)域經濟結構調整轉型,為地區(qū)未來發(fā)展打下基礎。
作者簡介:付強(1984-),男,滿族,吉林長春人,碩士研究生,研究實習員,研究方向:大數據、計算機平臺建設。