劉 如,吳 瓊,蔚曉川,劉彥君
(北京市科學技術情報研究所 北京 100120)
在大數據時代,科研人員進行學術搜索的過程就是利用各種信息技術手段對大量原始、雜亂無章的數據進行歸類,抽取有核心價值的內容,整理成能清晰表達一定含義的信息。目前,絕大多數的學術搜索引擎都是對搜索結果進行簡單的邏輯排列。為了更直觀地展示這些搜索結果中隱藏在背后的變化趨勢和數據背后之間的相互關系,使研究人員更好地掌握和利用搜索出來的信息價值,就需要學術搜索引擎繼續對搜索的結果自動抓取、自動分類,并將有價值的元素關系及變化趨勢以可視化的形式展示出來。微軟學術搜索的可視化應用就是一個成功的典范,為研究人員提供了一種全新的用戶體驗,同時也為我國建設和完善自己的學術搜索引擎提供了借鑒。
微軟學術搜索(Microsoft Academic Search)是近幾年發展起來的一個強大的免費學術搜索引擎,自2009年正式推出使用,為研究員、學生、圖書館館員和其他用戶查找學術論文、國際會議、權威期刊、作者和研究領域等提供了一個智能、新穎的搜索平臺。該平臺應用了諸如對象級別垂直搜索、命名實體的提取和消歧、數據可視化等許多研究思路,與傳統的學術搜索引擎相比,可以提供更多有價值的學術信息。
微軟學術搜索引擎與大多數學術搜索引擎的首頁不同,前者在主界面上列出了 15個大類的學科目錄,對每一個學科都提供該學科領域各種信息(作者、出版物、期刊、關鍵詞、組織機構)的排序表,可以使用戶輕松獲得有影響力的論文、作者、期刊、機構和關鍵詞等信息。
與傳統的學術搜索引擎相比,微軟學術搜索采用的是基于對象的垂直搜索技術。使用該搜索引擎時,搜索的結果是最終對象的集合,而不是雜亂的網頁列表。
與研究領域使用最頻繁的谷歌(Google)學術搜索相比,谷歌學術搜索更偏向對目標主題的搜索,搜索結果簡潔,功能相對較少;而微軟學術的重點是深網的數據挖掘,并對挖掘后的數據進行自定義分析,最大的亮點是將目標論文橫向和縱向的有價值信息以可視化形式展示。
在微軟學術搜索中,搜索結果的排序基于以下兩個因素:搜索詞的相關度和搜索對象在世界范圍內的影響力。搜索詞的相關度分數通過其屬性計算得出;搜索對象在世界范圍內的影響力分數則通過它與其他對象之間的關系計算得出。其最終的結果顯示頁面與 Science Direct、IEEE的顯示形式差不多,可獲得相關論文的排名列表。在隨后更深入的查詢過程中,微軟學術搜索平臺以可視化的形式展示了很多隱藏在搜索結果背后的具有價值的信息。
當點擊進入一篇論文的詳細頁面后,可以看到該論文的介紹、可供瀏覽或下載的原始鏈接以及相關的參考文獻。在頁面中間(見圖 1),以曲線圖的方式直接展示了在一定時間范圍內該論文被引用的趨勢。

圖1 文章被引用的曲線圖Fig.1 Curve graph of cited articles
這里的關系網可視化功能分為3個部分:合作者關系圖(Co-author Graph)、合作者路徑圖(Co-author Path)、引用關系圖(Citation Graph)。
3.2.1 合作關系圖(Co-author Graph)
合作關系圖(見圖 2)可以更清晰地了解共同作者的關系,其中,作者的節點越大,意味著該作者的著作越多。而節點之間的線越短,意味著兩個作者之間的合作數量越多。點擊這條連接線,就可以看到他們合作的文章數量。

圖2 作者的合作關系圖Fig.2 Co-author Graph
3.2.2 合作者路徑圖(Co-author Path)
合作者路徑圖(見圖 3)展示了兩名作者之間的合作路徑,路徑中每一個節點代表作者間的合作關系。該圖以樹狀的可視化形式呈現導師、學生關系。

圖3 合作者路徑圖Fig.3 Co-author Path
3.2.3 引用關系圖(Citation Graph)

圖4 作者被引用的關系圖Fig.4 Citations graph
學術研究領域動態圖直觀地顯示了計算機科學領域的出版物動態。領域動態(Domain Trend)主要是分析計算機科學的研究動態,并采用疊加分布圖進行直觀顯示。這個可視化展示功能可以提供一個清晰的圖示,即每個領域如何隨時間變化。
發表物數量的趨勢圖如圖 5所示,在 Domain Trend中選擇學科領域為視頻科學,時間選擇2005—2010年,從學術趨勢圖可以直觀看到食品科學在2005—2010年的學術發表有著非常明顯的增長之勢。

圖5 食品科學領域的發表量趨勢動態圖Fig.5 Domain trend of quantity of published papers in food science area
發表物比例的趨勢圖如圖 6所示,同樣選擇2005—2010年,從圖中可以直觀地看到食品科學在農業科學領域中所占的比例。

圖6 食品科學領域的發表物比例的趨勢動態圖Fig.6 Domain trend of proportion of published papers in food science area

圖7 食品科學領域組織機構的研究趨勢動態圖Fig.7 Domain trend of researches on organizations in food science area
組織機構的研究趨勢圖如圖7所示,在選定組織機構后,可以看到這個組織單位的主要研究領域隨時間不斷變化,從而發現該組織的研究優勢領域和發展趨勢。
學術分布圖的展示主要分為學術的組織分布和研究人員分布兩個方面。
學術的組織分布(見圖 8)可以看到在選定的學科領域內,主要的研究力量分布在哪個國家、哪個地區等信息。

圖8 學術的組織分布圖Fig.8 Distribution of academic organizations
研究人員分布如圖9所示,選擇計算機科學的研究領域后,點擊中國地圖,不斷放大到北京地圖,可看到北京郵電大學的圓圖最大,繼續點擊后,就呈現出下圖中的人物分布圖,最后可鏈接至該作者的詳細介紹頁面。

圖9 學術的研究人員分布圖Fig.9 Distribution of academic researchers
微軟學術搜索的可視化應用研究不僅對大數據環境下完善我國學術搜索服務的發展方向具有指導意義,而且彌補了我國數據信息可視化研究不足的現狀,為大數據時代下我國各領域的發展提供了可供參考和選擇的戰略思路及方案建議。學術搜索數據的可視化是學術搜索領域發展的必然趨勢。■
[1] 微軟學術搜索[EB/OL]. http://academic.research.microsoft.com/. 2013-07-01.
[2] 許劍穎. 微軟學術搜索初探[J]. 情報探索,2012(12):96-100.