,
知識經濟時代,越來越多的企業都希望從專利分析和挖掘中得到相關技術知識,促進企業的研發和專利戰略的構建。如何快速識別醫學研究前沿并預測其發展趨勢,以避免技術突襲,為相關機構科技政策和決策的制定提供參考,值得我們深入思考。
近年來,國家重點建設以居民電子健康檔案(electronic health record,EHR)為核心的區域衛生信息平臺和以電子病歷為基礎的醫院信息平臺。無論是貫徹惠及全民的醫改精神,還是醫療衛生機構自身信息化深入發展的要求,電子健康檔案是未來的工作重點。電子健康檔案可以改善醫患之間的信息不對稱,逐步建立以用戶需求為導向的衛生服務機制。我國的EHR正處于起步階段,需要對 EHR 以及相關領域開展大量的探索研究,逐步與國際接軌,不斷提高我國衛生信息化建設水平,促進衛生事業的不斷發展。因此,探測電子健康檔案領域的技術前沿,能夠為科研學者指明有價值的研究方向。
在探測電子健康檔案領域技術前沿方面,1959年美國的林茨首先提出了技術預測的概念[1]。致力于發現新興技術的研發管理者和政策制定者,需要理解科學與技術是怎樣相聯系的。雖然知識的轉移是非線性的[2],但技術發明和科研產出依然有著強烈的聯系[3]。Mansfield 認為10%的新產品如果近期沒有學術研究的過程是不能被研發的[4]。此外,隨著創新圈的縮短,技術和基礎科學的聯系也在增加[5-6]。近年來國內外學者通過科技文獻與專利的對比分析探索了科學與技術間的關聯,但對技術前沿的探測較少。
1985年,美國的專利分析家Narin等人分別以美國生物醫藥雜志及美國專利數據庫中的論文與專利為研究對象,分析論文與專利間的引用關系,試圖揭示生物科學領域中的科學與技術的關聯[7]。Meyer[8]和Glanzel[9]等人分別于2001年和2003年從不同角度探索了科學文獻與專利技術二者間的關聯,并指出可利用兩種數據源進行深入的分析與研究。2007年荷蘭阿姆斯特丹大學的Leydesdorff利用學術論文數據、專利數據與企業分類數據作為測度指標,提出了企業-大學-政府之間的三螺旋關系,即“產學官三螺旋管理”理論,指出了科學與技術之間存在著密不可分的內在聯系,在科技創新的動態進程中不斷重組、轉型和流動[10]。2011年,Shibata通過專利與科學文獻的對比探測了太陽能電池領域的技術前沿[11]。
國內學者近幾年也試圖通過對比科技論文與專利數據來探索科學研究與技術創新間的互動規律。2009年,卞志昕[12]進行了專利情報與學術文獻的對比分析研究,發現產業界公司與學術界研究機構在研究方向上存在共通性與差異性 。2011年,殷媛媛[13]等人利用文本挖掘軟件,從時間趨勢、競爭趨勢和技術趨勢3個角度探索了科學研究與技術創新的互動規律及其發展趨勢。
2010年,日本東京大學Shibata基于學術論文和專利提出用4種類型代表科學和技術的關系[14]。如圖1所示,X區域是指文獻和專利都涉及的領域,文獻和專利之間相互影響,其整合強度取決于其關聯程度,該區域代表的是較成熟的技術領域;Y區域有文獻卻沒有專利,說明該區域目前正處于基礎研究階段,是未來的技術發展趨勢;Z區域與Y區域相反,無科技文獻而有專利,反映出技術過度應用的領域,缺乏相應的研究基礎;W區域沒有文獻和專利說明,該區域是科學家還沒有關注的領域。在(b)部分中,上層為專利層,下層為文獻層,研究內容相近的主題以虛線相連。其中Y區域有對應的文獻存在而沒有相應的專利成果,Z區域有專利卻沒有相應的研究基礎。因此,探索科技文獻和專利之間的相關關系,對于探測技術的研究趨勢有著重要的指示作用。

圖1 文獻與專利關系圖
本文通過文獻與專利的對比探測電子健康檔案領域的技術前沿。首先選取中國知網作為數據源,獲取文獻和專利數據;其次提取文獻關鍵詞作為文獻標識,通過對專利標題進行分詞處理,以標題詞作為專利標識,并對文獻關鍵詞與專利標題詞進行聚類分析;最后對比文獻與專利聚類得到的類簇,分析電子健康檔案領域的技術前沿。
2015年11月20日以中國知網核心期刊數據庫為數據源,檢索時間段為2000年以后,以“電子病歷”或“電子健康檔案”為主題詞進行檢索,共獲得文獻774篇;以中國知網中國專利全文數據庫為數據源,在標題、關鍵詞和摘要中檢索“電子病歷”或“電子健康檔案”,獲得380條數據。
2000年后文獻量呈逐年上升的趨勢(圖2),并在2012年達到高峰;專利則從2002年開始出現,并在2011年明顯增加,在2013年和2014年達到高峰。由此可見,專利與文獻的數量趨勢大致相同,但專利較文獻滯后大約2、3年,說明文獻對于專利技術的發展方向具有一定的指示作用。

圖2 文獻和專利發表的時間分布
分別對2000年后發表的電子健康檔案領域的中文文獻與專利進行聚類分析,其類簇成員數與主題內容詳見表1。表1中“Z”字頭是專利類簇,“W”字頭為文獻類簇。

表1 專利與文獻類簇信息
Z2與W3、W8為醫院信息化管理、醫院信息管理系統方向的研究,文獻與專利方面均有涉及,是較為成熟的研究方向。Z3與W1、W2是電子病歷管理、電子病歷系統技術研究,現有專利主要是針對電子病歷錄入技術。W4、W5、W6、W7并沒有與之對應的專利研究,說明其很有可能是新興的技術前沿。
W4與W6是社區衛生服務與社區健康管理。基于健康檔案的社區衛生信息平臺是在整合醫療衛生業務應用系統的基礎上,形成互聯互通的醫療衛生業務協作網絡。社區電子健康檔案并不是簡單地將居民健康信息呈現于電腦上,而是更注重于信息的可傳輸性、時效性、安全性、共享性和便捷性。利用信息化手段能使居民及時獲得良好的健康服務,提高社區衛生服務水平。目前健康檔案普遍存在著內容不一致、結構不合理、指標不規范、格式不一致等問題,而居民流動導致各個社區衛生服務中心之間的信息無法實現共享,造成信息資源的浪費。要實現信息共享,首先必須建立和制定社區衛生信息系統中數據采集、傳輸、利用、反饋和分析等一系列技術標準和規范,其次,要建設社區衛生信息數據集標準和功能規范,才能保證健康檔案信息的內容完整、格式規范、功能全面、傳輸流暢、反饋及時。
W5是遠程醫療。提高基層醫療水平是國家建設衛生信息化管理的重要目標,遠程醫療將成為技術推手。部屬醫院及各省三甲醫院應通過信息技術開展遠程醫療,為醫療條件相對較差的地區服務。遠程醫療的互聯技術與執行標準是專利技術的研究趨勢。
W7是HL7、XML。HL7標準是專門用于醫療衛生機構及醫用儀器、設備數據信息傳輸的標準[15]。HL7最新的版本是3.0,在國際上還有很多爭論,一方面是因為新版本的應用還需要一段適應期,另一方面是因為3.0版本緊跟IT技術發展的結構本身在標準中沒有完整的介紹。然而3.0版本作為一個面向未來的版本,融合了當前許多流行的概念和技術,具有很強的生命力和研究價值,是今后發展的方向。擴展修飾語言(extensible markup language,XML)是一種簡單的數據存儲語言,可以定義描述對象結構的元語言,使系統之間交互的數據信息可以相互理解。基于XML電子病歷的存儲是整個電子病歷系統的基礎。
圖3、圖4為專利共詞網絡圖和文獻共詞網絡圖。圖中節點是文獻的關鍵詞或專利標題的切詞,代表某個研究方向,節點間的聯系代表他們之間存在共同研究,節點的大小取決于研究數量的多少。電子健康檔案領域的文獻研究明顯較專利研究豐富,且研究節點的內容更加具體,更能夠代表某個研究方向。相比之下,專利共詞網絡中多個節點才能表示出一個研究方向。原因在于文獻網絡中的節點是關鍵詞,專利網絡中的節點是標題詞切詞。對于專業詞匯的分詞,現有的分詞軟件切詞效果并不理想,因此本文采用人工分詞的方法。

圖3 專利共詞網絡圖

圖4 文獻共詞網絡圖
當前,建設共享的電子健康檔案工作已成為我國醫療領域的首要任務。本文通過分析電子健康病歷領域的文獻與專利情況,以期發現該領域的技術前沿。
Shibata提出基于學術論文和專利用4種類型代表科學和技術的關系,認為Y區域有論文卻沒有專利出現,說明該區域為基礎研究,是未來新興的技術趨勢。因此,借鑒其研究方法,對電子健康檔案領域的科技文獻和專利進行對比分析,可以探測該領域的研究前沿。
本文選取中國知網核心期刊數據庫和中國知網中國專利全文數據庫收錄的文獻與專利,通過對文獻關鍵詞與專利標題切詞分別進行共詞聚類分析,對比類簇結果,挖掘有文獻研究卻少有專利存在的研究方向,并以此確定電子健康檔案領域的研究前沿。經分析發現,社區衛生服務與社區健康管理、遠程醫療實現技術、HL7、XML是較有前景的電子健康檔案技術方向。
在社區衛生服務與健康管理方面,制定社區衛生信息系統中數據采集、傳輸、利用、反饋和分析等一系列技術標準和規范,建設社區衛生信息數據集標準和功能規范各個環節都需要技術支持。
遠程醫療的互聯技術與執行標準是專利技術的研究趨勢。HL7融合了當前流行的概念和技術,具有很強的生命力和研究價值。基于XML電子病歷的存儲是整個電子病歷系統的基礎。
本文在數據采集方面僅選取中國知網的數據,并且通過主題、標題、關鍵詞、摘要方式進行搜索,不能保證數據的查全率。
在文獻與專利的聚類分析過程中,選擇關鍵詞及標題切詞代替文獻或專利的研究方向,存在一定的偏差。在以后的研究中,我們將豐富數據來源,并采取更全面的數據抽取方法表示文獻與專利的研究主題,以期達到更好的挖掘效果。