李廣建 楊林
摘要:大數據時代的到來,給情報研究帶來了機遇和挑戰。文章在現有研究和實踐基礎上,總結了在此背景下情報研究的發展趨勢和相關技術問題,將發展趨勢概括為單一領域情報研究轉向全領域情報研究、綜合利用多種數據源、注重新型信息資源的分析、強調情報研究的嚴謹性和情報研究的智能化五個方面,并探討了可視化分析、數據挖掘、語義處理三方面的技術問題。
關鍵字:大數據情報研究情報研究技術
中圖分類號:G250.2 文獻標識碼:A 文章編號:1003-6938(2012)06-0001-08
1引言
當數據和黃金一樣,成為一種新的經濟資產[1],當科研處于以數據為基礎進行科學發現的第四范式[2],當數據開始變革教育[3],這些無不宣告著我們已經進入了大數據(bigdata)時代。不同的學科領域,正在不同的層面上廣泛地關注著大數據對自己的研究和實踐帶來的深刻影響,情報研究領域也不例外。
大數據,顧名思義是大規模的數據集,但它又不僅僅是一個簡單的數量的概念,IBM公司指出,大數據的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現的數據和內容中洞悉事物的機會,使業務更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數據是大容量、高速和多樣化的信息資產,它們需要新的處理方式,以提高決策能力、洞察力和流程優化[5]。
由此可見,大數據強調的不單純只是數據量多少的問題,其背后隱藏了更為復雜和深刻的理念,這些理念包括:①將對數據和信息的分析提升到了前所未有的高度。這里的分析不是一般的統計計算,而是深層的挖掘。大數據時代,如何充分利用好積累的數據和信息,以創造出更多的價值,已經成為企業管理者、政府機構以及科研工作者首要關注的問題。“業務就是數據”、“數據就是業務”、“從大數據中發掘大洞察”等意味著對數據分析提出了新的、更高的要求。可以這么說,大數據時代就是數據分析的時代。②多種數據的整合和融合利用。大數據時代,數據的多樣性是一種真實的存在,數據既包括結構化的數據,也包括非結構化的數據,表現方式可以是數據庫、數據表格、文本、傳感數據、音頻、視頻等多種形式。同一個事實或規律可以同時隱藏在不同的數據形式中,也可能是每一種數據形式分別支持了同一個事實或規律的某一個或幾個側面,這既為數據和信息分析的結論的交叉驗證提供了契機,也要求分析者在分析研究過程中有意識地融集各種類型的數據,從多種信息源中發現潛在知識。只有如此,才能真正地提高數據分析的科學性和準確性。③更加廣泛地應用新技術和適用技術。數據量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數據的突出特點,這必然會帶來數據獲取、整合、存儲、分析等方面的新發展,產生相應的新技術或者將已有的技術創新地應用于大數據的管理與分析。同時,大數據的這些特點也決定了傳統的、以人工分析為主的工作模式將遇到瓶頸,計算機輔助分析或基于計算機的智能化分析,將成為大數據時代數據與信息分析的主流模式。
對于在數據分析領域扮演重要角色的情報研究工作而言,大數據的理念和技術既帶來了機遇,也帶來了挑戰。一方面,在大數據時代,情報研究工作正在得到空前的重視,大數據為情報研究的新發展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數據時代本身也要求各行各業重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領域的情報研究之中,并將其作為本學科的重要組成部分加以建設。文獻分析(本質是文本分析)不再為情報研究所獨占,以往情報研究領域積累的相關理論和方法很有可能優勢不再。因此,如何把握住自身的優勢,并抓住機會有所拓展,是情報學在大數據時代需要思考的問題。
2大數據環境下情報研究的發展趨勢
大數據帶來的新觀念,正在引發情報研究的新發展,而且,研究人員也在不斷地從情報研究的實踐中總結經驗教訓,引導情報研究的未來走向。英國萊斯特大學的MarkPhythian教授在2008年10月作了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關重要的。忽略戰略環境、領導風格和心理因素等更為廣泛的問題,將導致情報研究的失誤;②要加強信息之間的關聯。美國政府部門內部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導致情報研究中的預測失敗;③要汲取更多外界的專業知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數據背景的要求和以往情報研究的經驗教訓,結合國內外同行的研究成果,本文將情報研究的發展趨勢總結為以下五個方面:單一領域情報研究轉向全領域情報研究;綜合利用多種數據源;注重新型信息資源的分析;強調情報研究的嚴謹性;情報研究的智能化。
2.1單一領域情報研究轉向全領域情報研究
隨著學科的深入交叉融合及社會發展、經濟發展與科技發展一體化程度的增強,情報研究正從單一領域分析向全領域分析的方向發展。
首先,表現在各領域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發。同時,情報學中的引文分析等文獻計量方法也被借鑒用于網站影響力評估。從技術上看,可視化、數據挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發展以引導。可見,無論從思想上、方法上、技術上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現在意識更強、手段更為綜合。
其次是分析內容的擴展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領域問題的分析而分析,而將所分析的內容置于一個更大的情景下做通盤考慮,從而得出更為嚴謹的結論。聯合國的創新倡議項目GlobalPulse在其白皮書“BigDataforDevelopment:Opportunities&Challenges”[7]中指出,情境是關鍵,基于沒有代表性樣本而獲得的結論是缺乏外部合法性的,即不能反映真實的世界。在情報研究領域,一些數據往往因為一些不可抗力的原因而不完整,如早期的科技數據,可能由于國際形勢等外部因素,導致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數據論數據,無疑是會得“正確”的錯誤結論,這時應針對這樣的異常情況,將研究問題放置在當時的時代背景下,揭示背后的原因,從其他方面收集信息來補充,才能得出符合實際的結論。也就是說,必須要考察不同時間戳下的相關信息,再對分析內容加以擴充,這實質是一種基于時間軸的擴展。另外,將內容擴展至本領域的上下游則是一種更為重要的擴展。例如,考察某項技術的發展前景,如果僅就該技術本身來討論,可能會得出正面的結論,但如果結合特定地區人們對該技術的態度、當地的技術水平、物理條件、發展定位等,卻可能會得出相反的結論。這就說明,在很多領域中,環境不同,發展程度不同,要解決的問題也就不同。一些地區當前關注的問題不一定就是其他地區要關注的問題,某些欠發達地區當前不一定就必須照搬另一些所謂發達地區的當前做法。這需要通盤考察,分析相關思想、觀點和方法產生的土壤、使用的條件,結合當前環境再做出判斷,否則可能會對決策者產生誤導。
2.2綜合利用多種數據源
綜合利用多種信息源已經成為情報研究的另一大發展趨勢。ThomasFingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進行全資源分析(all-sourceanalysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發展、發現新知識或解決政策難題。科技情報界也是如此,如利用科技論文和專利,發現科技之間的轉換關系、預測技術發展方向,綜合利用政府統計數據、高校網站、期刊、報紙、圖書等來評估大學等科研機構。可見,綜合利用多種信息源是從問題出發,系統化地整合所有相關信息資源來支持情報研究,信息源可以是學術論文、專利等不同類型的文獻集合、文本和數據的集合也可以是正式出版物與非正式出版物的集合等。
這一發展趨勢是由幾大因素決定的。一是情報研究問題的復雜性。在大數據背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細化。這導致單一數據源不能滿足分析的要求,需要不同類型的信息源相互補充。例如要分析科技之間的轉換關系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調查等,可以反映出社會對該科技的觀點、認知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補充。此外,從現實角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實踐角度說明了綜合利用多種信息源的必要性。三是分析結果的重要性。以評估大學為例,評估的結果會引導各學校在比較中發現自身優勢和差距,指導未來發展定位,同時也為廣大學生報考提供參考。可見,研究結果對社會的影響是廣泛而深遠的,要做到分析結果的可靠性、科學性,必然先要從源頭上,即分析數據上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現的,不同信息源相互之間的關系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當問題含糊不清時,可能需要不斷地調整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結果,特別是當結論有所沖突的時候,識別不當結果、保證分析結果的正確性是很重要的。
2.3注重新型信息資源的分析
隨著網絡應用的深入,出現了許多新型的媒體形式。AndreasM.Kaplan等人將構建于Web2.0技術和思想基礎上,允許用戶創建交換信息內容的基于網絡的應用定義為社會化媒體(SocialMedia),包括合作項目(如維基百科)、博客、內容社區(如YouTube)、社交網站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網絡技術,以用戶為中心來組織、傳播信息,信息可以是用戶創造性的言論或觀點,可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點,它們正迅速地改變著社會的公共話語環境,并引導著技術、娛樂、政治等諸多主題的發展[11]。這些通過龐大的用戶社區來傳播的高度多樣化的信息及其網絡結構,為洞悉公眾對某一主題的觀點、研究信息擴散等社會現象[12]、預測未來發展方向[11]等提供了機會,有助于發現有共同興趣的社群、領域專家、熱點話題[13]等,帶來了網絡輿情分析等研究內容。此外,這類信息結合其他類型的數據,產生了新的情報研究領域。例如,智能手機的普及和GPS的廣泛應用,使得可以從社交網絡和網絡交互數據、移動傳感數據和設備傳感數據中獲取社會和社區情報(socialandcommunityintelligence,SCI),揭示人類行為模式和社群動態[14]。
此外,機構知識庫等作為一種反映組織或群體知識成果的智力資源,也正引發情報界的重視。網絡信息聯盟的執行董事CliffordA.Lynch[15]從大學的角度指出,成熟完整的機構知識庫應包含機構和學生的智力成果(包括科研材料和教學材料)以及記錄機構自身各項事件和正在進行的科研活動的文檔。這暗示著學術界從過去只關心科研成果正逐步轉向關注科研過程。從機構知識庫中,可以發現隱藏其中的科研模式、揭示目前科研狀況的不足,引導機構未來科研的發展走向等。但現有的機構知識庫工具還缺乏幫助人們理解和分析這些資源的機制[16],在大數據環境下,加強這方面的研究也是必然趨勢。可以預見,隨著科技的發展和應用的深入,還會不斷的有新型資源出現,并不斷促進情報研究的發展。
2.4強調情報研究的嚴謹性
情報研究活動在宏觀層面上是一種意義構建(sensemaking)[17],依賴于分析人員根據已有知識構建認知框架(frame),通過對認知框架的不斷修正來達到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴謹,減少情報分析的不確定、提升情報成果的質量,正成為學術界當前普遍關注的問題。情報研究嚴謹性(rigor)不等同于分析結果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細考慮或調查,應用精確和嚴格的標準,從而更好地理解和得出結論”[19]。美國俄亥俄州立大學的DenielZelik[20][21]從評估角度,給出了8個指標來衡量分析過程的嚴謹性:假設探索、信息檢索、信息驗證、立場分析、敏感度分析、專家協作、信息融合和解釋評價。從這幾項指標看,信息檢索和融合是從分析信息源上消除不全面性;假設探索是要使用多種視角來揭示數據和信息;信息驗證側重于數據的溯源、佐證和交叉驗證;立場分析強調分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協作是防止分析結果受分析人員自身的學科背景或經驗帶來的偏差;解釋評價是要正確對待分析結論。可見,情報研究的嚴謹性意在消除人的主觀偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強烈的主觀色彩,那么走向嚴謹性的情報研究活動正逐步轉變為一門科學。
在大數據背景下,情報分析的嚴謹性,不僅體現在理念上,還暗含了對技術的要求。面對海量數據,自動化的技術手段必不可少。當信息的檢索更多的是借助檢索系統,而不是人工的收集,信息融合更多依賴數據倉庫等技術手段,如何在這樣的分析環境中將情報研究的科學性落到實處,是需要關注的問題。可以看到,利用技術本身已經在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術手段,也可能產生不同的結果,如何避免由技術產生的偏見,也許通過多種技術手段或采用不同的算法,全方位地展示信息內容及其之間的關系,從而避免產生信息的誤讀,是一個解決方案。可見,在大數據時代,情報研究需要多種手段來加強其分析過程的科學性,而這又需要多種技術方法加以支持。
2.5情報研究的智能化
大數據背景下的情報研究,對技術提出了更高的要求。正如美國國家科學基金會(NSF)發布的報告[22]所說,美國在科學和工程領域的領先地位將越來越取決于利用數字化科學數據以及借助復雜的數據挖掘、集成、分析與可視化工具將其轉換為信息和知識的能力。對于情報研究來說,應用智能化技術能自動進行高級、復雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環境瞬息萬變的今天,及時收集信息分析并反饋已經變得非常重要,這都需要智能化技術加以支撐。從信息源來講,情報研究對象得以擴展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結構或半結構化數據的涌入,必然需要技術將這些數據轉化為結構化數據,以供后續分析。同時,多元化的信息,需要根據分析需求加以融合,這可能需要語義層面上的技術支持。從分析需求來講,簡單的統計分析已不能滿足現在社會的決策需求,需要從大量信息中發現潛在模式,指導未來的發展,這就涉及數據挖掘、機器學習等技術。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術來支撐。可見,這一發展趨勢是大數據時代下的必然。而各國在積極建設的數字化基礎設施,也在推動著情報研究的智能化,如歐洲網格基礎設施(EuropeanGridInfrastructure,EGI)[23]項目就致力于為歐洲各領域研究人員提供集成計算資源,從而推動創新。
目前,對情報研究中的智能化技術沒有統一的界定,但概觀之,可以將情報研究智能化的本質概括為定量化、可計算、可重復。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數據,根據研究人員的經驗等給出粗略的結論,如果說這是一種定性化分析,現在更多地依賴通過計算機自動化處理原始材料并獲得潛在數據,并在此基礎上輔以人的判斷,可以說是一種定量化的分析。可計算是指將各種信息資源轉化為計算機可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實體,再基于這些結構化的、富有語義的信息,采用統計、數據挖掘等方法加以計算,獲取隱含的知識。可重復是指自動化分析技術消除了許多主觀因素,從理論上講,如果分析數據等條件一致,分析結論也應該是一致的,這也體現了智能化技術為情報研究帶來客觀性的一面。
3情報研究中的技術問題
情報研究的上述發展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統計替代情報研究中的計算技術,由此對情報研究技術提出了新的要求。美國McKinseyGlobalInstitute在2011年5月發布了研究報告“大數據:創新、競爭和生產力的下一個前沿領域”(Bigdata:Thenextfrontierforinnovation,competition,andproductivity)[24]。報告分六個部分,其中第二部分討論了大數據技術,并圍繞大數據分析技術、大數據技術和可視化三方面進行了闡述。在大數據分析技術中,列舉了26項適用于眾多行業的分析技術,包括A/B測試、關聯規則學習、分類、聚類分析、眾包(Crowdsourcing)、數據融合和數據集成、數據挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經網絡、網絡分析、優化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統計、監督學習、模擬、時間序列分析、無監督學習和可視化。這些技術絕大部分是已有的技術,也有部分是隨著互聯網的發展以及對大規模數據挖掘的需求,在原有技術的角度發展起來的,如眾包就是隨著Web2.0而產生的技術。
根據我們的理解,這些技術大致可以劃分為可視化分析、數據挖掘以及語義處理三大類。這三大類技術也是當前情報分析領域應予以關注和深入研究的技術。
3.1可視化分析
可視化分析(VisualAnalytics)是一門通過交互的可視化界面來便利分析推理的科學[25],是自動分析技術與交互技術相結合的產物,目的是幫助用戶在大規模及復雜數據內容的基礎上進行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關注計算機自動生成信息的交互式圖形表示,關注這些圖形表示的設計、開發及其應用[27],而可視化分析在此基礎上加入了知識發現過程,關注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當的可視化技術相結合,以達到輔助決策的目的。
目前的情報分析系統,雖然也提供了多種視圖來揭示信息,但更多的是一種分析結果的呈現,系統內部分析、處理的機制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結果的局限性或者有效性,這無疑不符合情報研究嚴謹性這一發展要求。同時,現有的分析工具需要分析人員輸入各種繁雜的參數,又缺乏對情報分析認知過程的支持,這就對使用人員的專業化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領域包括采用信息分析、地理空間分析、科學分析領域的分析方法,應用數據管理和知識表示、統計分析、知識發現領域的成果進行自動分析,融入交互、認知等人的因素來協調人與機器之間的溝通,從而更好地呈現、理解、傳播分析結果[28]。佐治亞理工學院的JohnStasko等人應用Pirolli等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統[30],并將其應用于學術研究領域(涉及期刊和會議論文)以及研究網絡文章(如網絡新聞報道或專題博客)領域,也說明了將可視化分析技術應用于情報研究的可行性。
將可視化分析技術應用于情報研究領域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?DanielA.Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結合的問題,第二類是應用自動化分析潛力有限的問題,第三類是應用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎上,DanielA.Keim等人指出,應分析如何通過考慮用戶、任務和數據集特點,來確定可視化和自動分析方法的優化組合,從而達到最佳的效果[31]。可見,要將可視化分析技術應用于情報研究領域,需要明確每類問題適用哪種組合方式。其次,情報研究領域適合使用哪些可視化交互手段?這可能包括原始分析數據、析取出的關系數據、深層挖掘的模式數據等的可視化手段,分析人員與系統交互的方式,分析過程的可視化展示等。第三,情報研究領域中的認知過程是什么樣的,關注哪些問題,涉及哪些實體,在大數據環境下面臨哪些認知困難,需要在哪些環節加以支持,這些困難能否通過技術來解決。此外,從現有的可視化分析技術來看,主要是將各個相關領域的技術以優化的方式整合起來,但在將來會產生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術需要關注的。
3.2數據挖掘
廣義的數據挖掘指整個知識發現的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數據分析和知識發現的任務,從數據特征化與區分到關聯和相關性分析、分類、回歸、聚類、離群點分析、序列分析、趨勢和演變分析等,吸納了統計學、機器學習、模式識別、算法、高性能計算、可視化、數據庫和數據倉庫等領域的技術,并可以用于任何類型的數據,包括數據庫數據、數據倉庫等基本形式,也包括數據流、序列數據、文本數據、Web數據、圖數據等其他類型的數據[33]。
從數據挖掘的涵義看,它與情報研究有著天然的聯系;從數據挖掘的方法看,有其特定的含義和實現過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關聯規則發現的成功案例——超市的“啤酒+尿布”,嘗試用關聯規劃來分析研究主題的相關性,從科技論文與專利的關聯中發現科技的轉換關系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統計、共詞計算層次上,在知識發現的過程中,這些工作僅僅是數據挖掘的數據準備,還有待于更為深入的發掘。可見,數據挖掘能夠也應該應用于情報研究領域,這不僅是數據挖掘應用擴展的結果,也是情報研究自身發展的需求。此外,由于較少有專門針對情報研究領域研發的挖掘工具,現有情報分析通常借助于其他工具,不同工具的功能不同,這就導致常常同時使用好幾個分析工具,如在使用SPSS進行聚類分析的同時,還使用Ucinet分析社會網絡。這帶來的問題是,分析缺乏完整性,可能社會網絡和其他信息之間有關聯,因為工具的分割性,就導致潛在模式的丟失。由此,研發適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數據的挑戰,智能化地輔助分析人員,減少認知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報分析任務,分析哪些問題是可以使用數據挖掘技術來支持的,這類問題有哪些共同點、特殊性,能否對未來可能的情報分析問題進行擴展,哪些問題不適用于數據挖掘技術,原因是什么等。其次,對于某類或某個分析問題,使用哪種數據挖掘技術或幾種技術的組合才能有效地解決,涉及的算法是否需要針對該問題進行適應性改造,如何評價挖掘的結果等。第三,數據挖掘出現了交互挖掘這一發展趨勢,即構建靈活的用戶界面和探索式挖掘環境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發展,尋找情報分析的新模式,值得我們關注。
3.3語義處理
語義是關于意義(meaning)的科學,語義技術提供了機器可理解或是更好處理的數據描述、程序和基礎設施[34],整合了Web技術、人工智能、自然語言處理、信息抽取、數據庫技術、通信理論等技術方法,旨在讓計算機更好地支持處理、整合、重用結構化和非結構化信息[35]。核心語義技術包括語義標注、知識抽取、檢索、建模、推理等[34]。語義技術可以為信息的深層挖掘打好基礎,即通過對各類信息的語義處理,在獲取的富有語義的結構化數據上使用各種數據挖掘算法來發現其中的潛在模式。數據的語義性支持了機器學習等技術的內在功能[36]。
從現有的情報研究實踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內容主題時,需要從摘要等自由文本中提取出主題信息,在數據處理時,常常無法識別同義詞、近義詞等,需要人工干預。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結果上,缺乏有效的主題說明,自動形成的主題標簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數據集環境下,還可以接受,當面對大數據的沖擊,這種半自動化的處理方法無疑是耗時又費力的。此外,對于新型情報研究對象,如網絡新聞、博客等,已有如動態監測科研機構等的系統工具,但總體來說還處于起步狀態,目前較多的還是依賴人工篩選出所需信息,并整理成結構化的數據,同樣也不利于大規模的數據分析。這些問題的存在,使得消除語義鴻溝(semanticgap)[37],應用語義技術成為廣泛需求及必然。
將語義技術應用于情報分析,需要關注以下幾方面的內容。首先,分析情報研究任務的特點,了解它的語義需求,是否存在規律性的準則以供指導分析工具的研發,這既需要原則性和方向性的準則,也需要為針對多維度劃分出的各類任務給出詳細的規范,例如,對微博等社會化媒體,其中既存在高質量的信息,也存在辱罵等低質量的信息,區分這些信息并篩選出高質量信息,就成為在分析社會化媒體中的語義任務之一。其次,語義資源建設問題,即在情報分析領域中,要實現語義層面上的理解,是否需要建設語義資源,如果不需要,哪些技術手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構建,并且這種語義資源應該如何構建,如何使用才能有效地服務于情報研究工作。第三,信息抽取問題。科技信息涉及眾多學科的專業術語、各種科研機構、組織等,如何使用語義技術將這些信息準確地提取出來并加以標注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術,把不同來源的數據對象及其互動關系進行融合、重組,重新結合為一個新的具有更高效率和更好性能的具有語義關聯的有機整體,以便后續分析。
4結語
正如本文引言中所談到的那樣,大數據的理念和技術為情報學領域中情報研究的理論和實踐帶來了機遇,也帶來了挑戰。機遇巨大,挑戰更大,需要我們對此有清醒的認識。本文分析了大數據背景下情報研究的若干發展趨勢,總結了情報研究中值得關注的技術問題,以期能為促進情報研究的理論和實踐的發展添磚加瓦。
參考文獻:
[1]BigData,BigImpact[EB/OL].[2012-09-06].http://www
3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Br
iefing_2012.pdf.
[2]eScience——ATransformedScientificMethod[EB/OL].[2012-09-06].http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.
[3]AdvancedPersonalizedEducation[EB/OL].[2012-09-06].http://www.cra.org/ccc/docs/web_learning_spring.pdf.
[4]Whatisbigdata?[EB/OL].[2012-09-06].http://www-01.ibm.com/software/data/bigdata/.
[5]BigdatainlittleNewZealand[EB/OL].[2012-09-06].http://www.techday.co.nz/itbrief/news/big-data-in-little-new-zealand/24518/.
[6]IntelligenceAnalysisTodayandTomorrow[J].SecurityChallenges,2009,5(1):67-83.
[7]BigDataforDevelopment:Opportunities&Challenges[EB/OL].[2012-09-06].http://www.unglobalpulse.org/si
tes/default/files/BigDataforDevelopment-UNGlobalPulseJune2012.pdf.
[8]ThomasFingar.AGuidetoAll-SourceAnalysis[EB/OL].[2012-09-07].http://www.afio.com/publications/Fingar_
All_Source_Analysis_in_AFIO_INTEL_WinterSprg2012.pdf.
[9]AlanL.Porter,ScottW.Cunninghan.TechMiningExploitingNewTechnologiesforCompetitiveAdvantage[M].JohnWiley&Sons,2005.
[10]AndreasM.Kaplan,MichaelHaenlein.Usersoftheworld,unite!ThechallengesandopportunitiesofSocialMedia[J].BusinessHorizons,2010,53(1):59-68.
[11]SitaramAsur,BernardoA.Huberman.PredictingtheFutureWithSocialMedia[EB/OL].[2012-09-08].http:
//www.hpl.hp.com/research/scl/papers/socialmedia/socialmedia.pdf.
[12]MunmunDeChoudhury.HowDoestheDataSamplingStrategyImpacttheDiscoveryofInformationDiffusioninSocialMedia?[EB/OL].[2012-09-08].http://research.microsoft.com/en-us/um/people/munmund/pubs/icwsm_10.pdf.
[13]SitaramAsur,etal.TrendsinSocialMedia:PersistenceandDecay[EB/OL].[2012-09-10].http://www.hpl.hp.com/research/scl/papers/trends/trends_web.pdf.
[14]DaqingZhang,BinGuo,ZhiwenYu.TheEmergenceofSocialandCommunityIntelligence[J].Computer.2011,
44(7):21-28.
[15]CliffordA.Lynch.InstitutionalRepositories:EssentialInfrastructureforScholarshipintheDigitalAge[EB/OL].[2012-09-12].http://scholarship.utm.edu/21/1/Ly
nch,_IRs.pdf.
[16]Nichols,D.M.,etal.Experiencesindeployingmetadataanalysistoolsforinstitutionalrepositories[J].Cataloging&ClassificationQuarterly,2009,47(3/4):229-248.
[17]GaryKlein,etal.MakingSenseofSensemaking1:AlternativePerspectives[J].IntelligentSystems,2006,21(4):70-73.
[18]GaryKlein,etal.MakingSenseofSensemaking2:AMacrocongnitiveMode[J].IntelligentSystems,2006,21(5):88-92.
[19]TheHumanandSocialElementinMilitaryExperimentation[EB/OL].[2012-09-15].http://www.mors.org/Use
rFiles/file/meetings/06bar/holloman.pdf.
[20]DenielZelik,EmilyS.Patterson.UnderstandingRigorinInformationAnalysis[C].ProceedingsoftheEighthInternationalNDMConference,PacificGrove,CA,2007.
[21]DenielJ.Zelik,EmilyS.Patterson,DavidD.Woods.MeasuringAttributesofRigorinInformationAnalysis[EB/OL].[2012-09-15].http://csel.eng.ohio-state.edu/zelik/research/Rigor_files/ZelikPattersonWoods_Measuri
ngRigor_1.pdf.
[22]NSFsCyberinfrastructureVisionfor21stCenturyDiscovery[EB/OL].[2012-09-16].http://www.nsf.gov/od/oci/ci_v5.pdf.
[23]EGIEuropeanGridInfrastructure[EB/OL].[2012-09-16].
http://www.egi.eu/.
[24]Bigdata:Thenextfrontierforinnovation,competition,andproductivity[EB/OL].[2012-09-15].http://www.mckinsey.com/insights/mgi/research/technology_an
d_innovation/big_data_the_next_frontier_for_innovation.
[25]Thomas,J.J.andCook,K.A.IlluminatingthePath:TheResearchandDevelopmentAgendaforVisualAnalytics[M].IEEEComputerSocietyPress,2005.
[26]DAKeim,etal.VisualAnalytics:Definition,Process,andChallenges[EB/OL].[2012-09-06].www.http:www.ll.gatech.edu/atasko/7450/sy//abus.html.
[27]ChaomeiChen.Informationvisualization[J].WileyInterdisciplinaryReviews:ComputationalStatistics,2010,
2(4):387-403.
[28]DanielA.Keim,etal.ChallengesinVisualDataAnalysis[C].InformationVisualization,2006:9-16.
[29]P.Pirolli.TheSensemakingProcessandLeveragePointsforAnalystTechnologyasIdentifiedThroughCognitiveTaskAnalysis[EB/OL].[2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]JohnStasko,etal.Jigsaw:supportinginvestigativeanalysisthroughinteractivevisualization[EB/OL].[2012
-09-16].http://www.elementsofparametricdesign.com/fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]DanielA.Keim,FlorianM.,andJimThomas.VisualAnalytics:HowMuchVisualizationandHowMuchAnalytics?[J].ACMSIGKDDExplorationsNewsletter,2009,11(2):5-8.
[32]Aigner,etal.VisualMethodsforAnalyzingTime-OrientedData[J].TransactionsonVisualizationandComputerGraphics,2008,14(1):47-60.
[33]JiaweiHan,MichelineKamber,JianPei.DataMiningconceptsandtechniquesthirdedition[M].MorganKaufmann,2011.
[34]JohnDomingue,etal.HandbookofSemanticWebTechnologies[M].SpringerPublishingCompany,2011.
[35]DieterFensel,etal.CommonValueManagement-basedonEffectiveandEfficientOn-lineCommunication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]BettinaBerendt,AndreasHotho,GerdStumme.IntroductiontotheSpecialIssueoftheJournalofWebSemantics:BridgingtheGap-DataMiningandSocialNetworkAnalysisforIntegratingSemanticWebandWeb2.0[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb,2010,8(2-3):95-96.
[37]RongZhao,etal.NarrowingtheSemanticGap—ImprovedText-BasedWebDocumentRetrievalUsingVisualFeatures[J].Multimedia,2002,4(2):189-200.
作者簡介:李廣建(1963-),男,博士,北京大學信息管理系教授,博士生導師,研究方向:信息資源管理與網絡信息系統研究;楊林(1984-),女,中國科學院國家科學圖書館、中國科學院大學博士研究生,研究方向:信息資源管理與網絡信息系統研究。