[摘要]大數(shù)據(jù)時代的到來,給情報研究帶來了機遇和挑戰(zhàn)。本文分析了大數(shù)據(jù)對情報工作的影響,然后討論了在此環(huán)境下情報研究的新變化,在此基礎(chǔ)上探討了幾種可用于情報方法研究的大數(shù)據(jù)分析技術(shù)。
[關(guān)鍵詞]大數(shù)據(jù)環(huán)境;科技信息;情報服務
當數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟資產(chǎn),當科研處于以數(shù)據(jù)為基礎(chǔ)進行科學發(fā)現(xiàn)的第四范式,當數(shù)據(jù)開始變革教育,這些無不宣告著我們已經(jīng)進入了大數(shù)據(jù)時代。不同的學科領(lǐng)域,正在不同的層面上廣泛地關(guān)注著大數(shù)據(jù)對自己的研究和實踐帶來的深刻影響,情報研究領(lǐng)域也不例外。
1、情報研究邁入大數(shù)據(jù)時代
大數(shù)據(jù)又稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。研究機構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的特點是數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價值密度低、高速變化實時處理。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。對于在數(shù)據(jù)分析領(lǐng)域扮演重要角色的情報研究工作而言,大數(shù)據(jù)的理念和技術(shù)既帶來了機遇,也帶來了挑戰(zhàn)。一方面,在大數(shù)據(jù)時代,情報研究工作正在得到空前的重視,大數(shù)據(jù)為情報研究的新發(fā)展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術(shù)新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數(shù)據(jù)時代本身也要求各行各業(yè)重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領(lǐng)域的情報研究之中,并將其作為本學科的重要組成部分加以建設(shè)。現(xiàn)代情報研究已經(jīng)邁入了大數(shù)據(jù)時代。
2、大數(shù)據(jù)對情報工作的影響
2.1研究領(lǐng)域全域擴展
各領(lǐng)域中的情報研究從視角、方法上的相互借鑒,社交網(wǎng)絡分析方法、空間信息分析等其他學科的分析方法正廣泛應用于軍事情報、科技情報等領(lǐng)域,心理學等領(lǐng)域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發(fā),情報學中的引文分析等文獻計量方法被借鑒用于網(wǎng)站影響力評估。可視化、數(shù)據(jù)挖掘等計算機領(lǐng)域的技術(shù),為情報研究提供了有力的技術(shù)視角,情報研究獲得的知識反過來又給予其他技術(shù)領(lǐng)域的發(fā)展以引導。在情報研究過程中,不僅僅局限于就本領(lǐng)域問題的分析而分析,而將所分析的內(nèi)容置于一個更大的情景下做通盤考慮,從而得到更為嚴謹?shù)慕Y(jié)論。
2.2多數(shù)據(jù)源綜合利用
在大數(shù)據(jù)環(huán)境下,情報不在局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,也更為細化。這導致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類型的信息源相互補充。不同信息源可以從不同角度揭示問題,可以較為直觀地反映研究者對某種科技問題的理解與描述。現(xiàn)實中通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代。
2.3情報研究嚴謹智能
在大數(shù)據(jù)環(huán)境下,利用情報分析技術(shù)在一定程度上避免人的主觀性,通過多種技術(shù)手段或采用不同的算法避免由技術(shù)產(chǎn)生的偏見。情報研究由定性化分析轉(zhuǎn)變?yōu)槎炕治觯瑢⒏鞣N信息資源轉(zhuǎn)化為計算機可理解、處理的形式,采用同級、數(shù)據(jù)挖掘等方法加以計算,獲取隱含的知識。
3、大數(shù)據(jù)環(huán)境下的科技信息技術(shù)
3.1語義處理技術(shù)
語義技術(shù)提供了機器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎(chǔ)設(shè)施,整合了Web技術(shù)、人工智能、自然語言處理、信息抽取、數(shù)據(jù)庫技術(shù)、通信理論等技術(shù)方法,旨在讓計算機更好地支持處理、整合、重用結(jié)構(gòu)化和非結(jié)構(gòu)化信息。核心語義技術(shù)包括語義標注、知識抽取、檢索、建模、推理等。語義技術(shù)可以為信息的深層挖掘打好基礎(chǔ),即通過對各類信息的語義處理。在獲取的富有語義的結(jié)構(gòu)化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的潛在模式。
3.2可視化分析技術(shù)
可視化分析是通過交互式可視化界面促進分析推理的一項技術(shù),它涉及多學科的領(lǐng)域,一是分析推理技術(shù),使用戶獲得直接支持評價、計劃和決策行為的見解;二是可視化表示和交互技術(shù),利用人眼的視覺能力觀察、瀏覽和理解大量的信息;三是數(shù)據(jù)表示和交換,支持以可視化和分析的方式轉(zhuǎn)換各種類型的異構(gòu)動態(tài)數(shù)據(jù);四是支持分析結(jié)果的產(chǎn)生、演示和傳播的技術(shù),能與各種用戶交流有適當背景資料的信息。可視化分析的核心是推理過程,它從各種假設(shè)和證據(jù)的混合信息中利用人的判斷得到結(jié)論。第一建立推理、意會、認知和感知的理論基礎(chǔ),創(chuàng)建視覺激活的工具用來分析推理復雜動態(tài)數(shù)據(jù)。第二建立基于認知和感知原理的可視化表示原理,有助于利用可重復使用的組件,可視化表示原理必須能處理各種數(shù)據(jù)、各種尺度和復雜度的信息,通過信息融合實現(xiàn)知識挖掘,推進分析推理,提供從低級交互到復雜交互的技術(shù)來處理不同的顯示環(huán)境和任務。第三開發(fā)一種將數(shù)據(jù)轉(zhuǎn)換到新的可擴展表示的理論和實踐方法,能忠實地表示原來的數(shù)據(jù)信息,把各種類型與各種來源的數(shù)據(jù)信息合成一個統(tǒng)一的數(shù)據(jù),并能對數(shù)據(jù)的質(zhì)量、可靠性和確定性進行度量。第四開發(fā)獲得響應行為、分析評估和決策建議的方法和工具,通過使用合適的可視化形式和可接受的推理和圖表示原則和用戶進行交流,同時考慮安全和隱私問題。第五使用基于組件的軟件開發(fā)方法來進行可視化分析軟件的開發(fā),并開發(fā)新的可視化分析技術(shù)的評估方法。
3.3數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是從存儲于數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市或者其他非結(jié)構(gòu)化的信息倉庫的大量數(shù)據(jù)中挖掘出有用知識的過程。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等多個領(lǐng)域的理論技術(shù),是利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,使用這些模型和關(guān)系可以進行預測,幫助決策者尋找數(shù)據(jù)間的潛在關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素。數(shù)據(jù)挖掘技術(shù)同當前傳統(tǒng)的情報方法比較,情報獲取方式由人工搜取擴展到機器自動抓取;情報分析上升為多維分析,目前采用基于數(shù)據(jù)挖掘技術(shù)工具軟件對多種資源進行自動采集、自動分類和去重等處理,從海量信息中及時準確地篩選關(guān)鍵情報信息,通過系統(tǒng)自動化與人工干預相結(jié)合的方式,經(jīng)過可定義的處理流程,作為了解各類信息的重要渠道和決策輔助支持的工具,從而提高快速反應能力,無論從體系結(jié)構(gòu)上還是從具體方法上,數(shù)據(jù)挖掘算法都能夠很好地融合到情報系統(tǒng)中去。
4、結(jié)束語
大數(shù)據(jù)的理念和技術(shù)為情報研究的理論和實踐帶來了機遇,也帶來了挑戰(zhàn)。本文分析了大數(shù)據(jù)環(huán)境下情報研究的若干變化,討論了情報研究中值得關(guān)注的技術(shù)問題,以期能為促進情報研究的理論和實踐的發(fā)展添磚加瓦。
參考文獻
[1]謝新洲.發(fā)展情報方法研究對大數(shù)據(jù)挑戰(zhàn)[J].圖書情報工作,2014
[2]李廣建,楊林.大數(shù)據(jù)視角下的情報研究與情報研究技術(shù)[J].圖書與情報,2013