基于微信公眾平臺的文獻定制服務
單光宇,盧一鳴*,屈武斌,張成崗*
(軍事醫學科學院放射與輻射醫學研究所,蛋白質組學國家重點實驗室,全軍軍事認知與心理衛生研究中心,北京100850)
摘要:文獻學習是科研人員跟蹤領域進展,思考課題發展的必要途徑。為了解決移動端跟蹤文獻的繁瑣問題,本文借助移動互聯網即時性、便捷性、個性化等特性,開發了基于微信公眾平臺的文獻定制服務。該服務通過解析用戶輸入,動態匹配自構建的期刊名表,索引PubMed數據庫,實現期刊個性化訂閱、文獻查詢、影響因子查詢等便捷功能。對于提高科研人員的文獻學習效率,降低追蹤文獻的時間成本具有較大的價值。
關鍵詞:微信公眾平臺;影響因子查詢;文本挖掘;期刊定制;文獻查詢
A customized literature service based on WeChat public platform
SHAN Guangyu, LU Yiming*, QU Wubin, ZHANG Chenggang*
(InstituteofRadiationMedicine,AcademyofMilitaryMedicalSciences;StateKeyLaboratoryofProteomics;
KeyLaboratoryofMilitaryCognitionandMentalHygiene,PLA;Beijing100850,China)
Abstract:Literature study is a necessary way for tracking progress in a certain research field and conceiving the project development. In order to solve the onerous literature-tracking problem in a mobile terminal, we developed a PubMed Customized Retrieving system (PCR) on WeChat Public Platform with the features of immediacy, convenience and personalization of the mobile internet. The service provides several convenient features such as literature customization, literature querying and Impact Factor (IF) Querying by parsing input, matching built-in journals name table dynamically and retrieving PubMed database. This work helps to improve the literature learning efficiency and reduce the time cost for researchers.
Keywords:WeChat Public Platform; IF Search; Text Mining; Journal Customization; Literature Querying
文獻學習是貫穿科學研究工作的重要過程,對本學科領域的各類文獻進行全面、系統的追蹤對于培養科研嗅覺,了解領域進展起到了重大的作用。文獻追蹤的效率直接影響到科研效率,據National Science Foundation (NSF)統計,一個科研人員花費在查找和消化科技資料的時間需占全部科研時間的51%[1]。因此,提高文獻追蹤的效率便成為一項重要工作。
隨著科技的發展,文獻追蹤從過去的圖書館查閱到今日的網絡檢索,科研人員的科研效率大幅提高[2]。
近幾年,隨著移動互聯網浪潮的到來,智能手機已經成為了人們獲取信息的主要渠道[3],截至2015年2月,國內移動互聯網總數已達8.83億戶[4],而微信在中國大陸的市場滲透率已達93%[5]。毫不夸張地說,微信已經走進每個人的生活。工欲善其事,必先利其器,微信的普及為再次提高科研效率提供了良好契機。
微信公眾平臺是基于微信的服務平臺,它的可二次開發性使得更加高效的文獻追蹤成為可能。隨著期刊數量的增加,如何高效便捷的獲取文獻便成為了重要的課題。當前科研人員使用的文獻服務例如PubMed[6]、MEDLINE[7]、Google Scholar[8]雖然能夠在服務類目上提供一定程度的適用性,但存在操作過程繁瑣、條目過多、移動端體驗不友好等特點,難以滿足高節奏的科研需要。因此,本研究著重于文獻追蹤的友好性與高效性,開發了基于微信公眾平臺的文獻定制服務PubMed Customized Retrieving (PCR) System。該服務能夠自動識別用戶輸入、利用文本挖掘技術匹配自構建的關鍵詞和期刊名表進行PubMed數據庫索引,并且定時推送新增文章到用戶微信號中。除此之外,考慮到科研人員即時查詢的需要以及對期刊影響因子的關注,我們繼續開發了文獻實時查詢以及期刊影響因子即時查詢等模塊,較好的提高了本服務平臺的立體性。
1平臺功能介紹
本平臺基于Python語言,引入了廣泛使用的PubMed數據庫以及文本挖掘技術為研究人員提供便捷的文獻定制服務。該服務主要包括三個主要功能模塊:(1)期刊文獻訂閱(支持關鍵詞+雜志);(2)文獻實時查詢;(3)期刊影響因子實時查詢。
基本工作流見圖1,用戶可以通過如下方法關注使用:(1)使用手機掃描二維碼(見圖2);(2)進入微信,添加公眾平臺,輸入PCR,進行關注。

圖1 公眾平臺基本工作流程圖

圖2 平臺二維碼
1.1PubMed文獻個性定制
關鍵詞對于持續追蹤領域內文獻,顯得尤為重要。此外,每個領域都有特定的優秀期刊。為提高個性定制的友好性,本平臺極大簡化了用戶的輸入負擔。用戶只需在對話框中鍵入關鍵詞及雜志名稱,后臺能夠利用文本挖掘技術自動匹配關鍵詞與期刊名并索引PubMed數據庫,將文章數量、文章題目、摘要等關鍵信息存入目前廣泛采用的非結構化數據庫MongoDB中。一旦新增文章,便能夠定時為用戶推送,保證用戶能夠及時得到關注領域的最新文章,較好地提高了科研人員的文獻追蹤效率(見圖3)。
中圖分類號:TH133; TP183文獻標志碼:A
收稿日期:2015-01-06;修回日期:2015-03-18.
作者簡介:閆妍,女,碩士研究生,研究方向:生物信息學;E-mail:yanyan0108@163.com.
doi:10.3969/j.issn.1672-5565.2015.02.09

圖3 使用關鍵詞與期刊名的訂閱功能
1.2文獻實時查詢
定制好用戶的搜索模式后,針對科研人員的需求特性,我們繼續開發了文獻實時查詢模塊,可以直接通過本微信公眾平臺實現文獻查詢。用戶只需要簡單輸入想要追蹤的關鍵詞及期刊名稱,平臺通過索引利用文本挖掘技術建立的關鍵詞-雜志名稱映射表自動對其識別并調用PubMed數據庫查詢(見圖4)。

圖4 目的關鍵詞的文獻查詢
為了進一步增強平臺的友好性,方便用戶操作,本平臺還對部分展示系統進行優化,包括:(1)建立人性化引導機制,簡化用戶操作難度;(2)使用正則表達式,對輸出結果進行部分限定和過濾;(3)提供二次追蹤服務,用戶可以針對感興趣的文章查看摘要內容(見圖5)。

圖5 目的文章的摘要信息查詢
1.3期刊影響因子查詢
在建立起文獻個性定制以及實時查詢兩個功能模塊后,我們了解到研究人員對便捷查詢期刊影響因子的需求,于是開發了期刊影響因子查詢模塊。期刊影響因子是研究人員選擇投稿期刊的一項主要參考指標,了解目的期刊歷年來的影響因子變化趨勢也有助于輔助研究人員進行決策[9]。為此,我們收集了2009~2014年Journal of Citation Reports(JCR)[10]的所有影響因子數據,構建起了影響因子數據庫?;谠摂祿?,我們針對用戶的查詢期刊,繪制六年影響因子趨勢變化圖即時返回給用戶,較好的提升了用戶體驗。
另外,為了增強移動端的友好性,我們還在后臺進行相似度計算,尤其是在用戶不明確知道期刊名時,利用全局數據庫比對,動態推薦雜志(見圖6)。為了方便用戶查看,對檢索結果建立二次鏈接,只需點擊圖片便可以得到該雜志的六年影響因子趨勢變化圖,十分便捷(見圖7),對于幫助科研人員了解領域熱點,理解領域的前景與深度具有重要意義[11]。
為估計推薦算法的用戶滿意度,我們檢測了20位用戶的二次操作查找率(即按照推薦雜志進行查找的操作)。評估原則為:(1)不進行任何干預,輸錯雜志名的用戶自動入實驗組,記錄前20個用戶信息;(2)結果表明,17/20的用戶在二次操作中查找推薦雜志,我們認為推薦算法具有較好的可靠性,即推薦的雜志基本滿足用戶的心理預期。
2討論
隨著文獻數量的急劇增長、科研節奏也在逐漸加快,如何高效率的獲取文獻,追蹤領域進展成為科研人員亟待解決的問題。為此,本文設計開發了本公眾平臺,較好的完善了科研人員移動端追蹤文獻的需求。
值得一提的是,除了開發功能模塊,我們還對服務器進行了較為完備的壓力測試,保障其可以承受高并發的用戶需求,并且對計算出的雜志影響因子趨勢圖進行了CDN (Content Delivery Network)加速,在用戶查詢時,輸出圖片可以動態切換到離用戶速度最快的網絡節點進行傳輸,保障了查詢的穩定性、時效性,平均反應時可達到0.2秒,基本達到即輸即現,極大地提升了用戶體驗。
然而,正反共存,優缺同在。作為依托微信的服務,既享受到其提供的便捷服務,還受到諸多限制,例如發送消息的長度、發送圖片的規格、消息展示的風格等等。因此,下一步將繼續針對微信公眾平臺的優勢與不足,找到一個平衡點,以期在接受限制的情況下開發更多便捷高效的服務,例如出具統計報告。對用戶操作進行適當的群體行為分析,出具統計報告有益于用戶了解查詢群體的興趣點所在,對于規劃研究方向,了解研究熱點能夠起到一定的輔助作用,這也是下一步的工作重點所在。
參考文獻(References)
[1]郭棟. ISI Web of Knowledge在科研中的作用與價值[EB/OL]. http://lib.utsz.edu.cn/ekcms/UploadFile/2008-10-25/20081025045124433.ppt, 2011, 8.
GUO Dong. The value and effects of ISI Web of Knowledge inresearch[EB/OL]. http://lib.utsz.edu.cn/ekcms/UploadFile/2008-10-25/20081025045124433.ppt, 2011, 8.
[2]LAGEMANN E C. An elusive science: The troubling history of education research[M]. USA:University of Chicago Press, 2002.
[3]ZHOU Y, ZHANG X, JIANG X, et al. Taming information-stealing smartphone applications (on android)[M]//Trust and Trustworthy Computing. Springer Berlin Heidelberg, 2011. 93-107.
[4]工信部. 2015年2月份通信業經濟運行情況[EB/OL]. http://www.miit.gov.cn/n11293472/n11293832/n11294132/n12858447/16505685.html, 2015, 2.
China′s ministry of industry and information technology. Economic operation status of telecommunications in February, 2015[EB/OL].http://www.miit.gov.cn/n11293472/n11293832/n11294132/n12858447/16505685.html, 2015, 2.
[5]MEEKER M. Internet trends 2014-code conference[J]. Retrieved May, 2014, 28: 10-23.
[6]FALAGAS M E, PITSOUNI E I, MALIETZIS G A, et al. Comparison of PubMed, Scopus, web of science, and Google scholar: strengths and weaknesses[J]. The FASEB Journal, 2008, 22(2): 338-342.
[7]DICKERSIN K, HEWITT P, MUTCH L, et al. Perusing the literature: comparison of MEDLINE searching with a perinatal trials database[J]. Controlled Clinical Trials, 1985, 6(4): 306-317.
[9]THOMPSON P J. How to choose the right journal for your manuscript[J]. CHEST Journal, 2007, 132(3): 1073-1076.
[10]閔波, 屈武斌, 盧一鳴, 等. 影響因子 (IF) 即輸即現快速查詢的實現[J]. 生物信息學, 2013,11(1): 29-32.
MIN Bo, QU Wubin, LU Yiming, et al. A web application for fast impact factor search in an input-as-a-show way[J]. Chinese Journal of Bioinformatics, 2013,11(1): 29-32.
[11]KARAGEORGOPOULOS D E, LAMNATOU V, SARDI T A, et al. Temporal trends in the impact factor of european versus USA biomedical journals[J]. PloS One, 2011, 6(2): 1-4.
*通信作者:萬平,男,博士,研究方向:生物信息學;E-mail:wanp_cnu@163.com.