朱江 張蒂 劉春江 周奇









摘要:[目的/意義]利用ISLI標準建立專利與專利參考文獻的關聯數據集,促進文獻計量研究和科學、技術的關聯研究。[方法/過程]在解析專利與專利參考文獻的關聯方案、分析目標文獻唯一標識符及其獲取方法的基礎上,探討利用ISLI標準進行專利與專利參考文獻關聯數據集建設的方法。[結果/結論]專利與專利參考文獻關聯數據集可用來豐富和完善現有的引文體系,打通專利和非專利文獻兩大體系,更加準確地計量專利、非專利文獻的被引次數和影響力。
關鍵詞:國際標準關聯標識符 ? ?專利 ? ?非專利參考文獻 ? ?關聯數據集 ? ?ISLI
分類號:G251
引用格式:朱江, 張蒂, 劉春江, 等. 基于ISLI標準的專利和專利參考文獻關聯數據集研究[J/OL]. 知識管理論壇, 2022, 7(2): 209-217[引用日期]. http://www.kmf.ac.cn/p/287/.
1 ?引言
專利是集技術、經濟、法律信息為一體的[1]信息資源,是知識產權的重要形式之一。國內外比較著名的商業性專利數據庫有智慧芽(PatSnap)、incoPat、DII、DI、Innography、Orbit等,非商業性專利數據庫有歐洲專利局專利文獻數據庫(esp@cenet)等,其中大部分專利數據庫的專利文獻收錄量都超過了1.2億條。而非專利文獻的數量則更為龐大,Summon、EDS等發現系統可提供的各類元數據都是數十億條。
非專利文獻、專利文獻分別代表了科學研究、技術開發的成果,兩者之間存在著密切的關聯。這種關聯不僅體現在機構、人員可能是相同的,也體現在研究主題、技術方案可能存在傳承、相關,更體現在參考文獻存在相互引證等多個方面。
專利參考文獻是指在專利文件中列出的與本專利申請相關的其他文獻,第一類是專利類參考文獻,第二類是科技期刊論文、著作、會議論文等非專利參考文獻[2](Non-Patent References, NPR)。
很多學者將非專利文獻和專利文獻分別視作科學和技術的代表,通過專利和非專利文獻中機構、人員、主題和參考文獻等的關聯來探索科學和技術的關聯[3-4]、演化[5]和趨勢[6]等。因而,如能在專利數據庫中對每件專利引證的專利類和非專利參考文獻實現準確的標注,并提供全文鏈接,將大大方便用戶閱讀專利說明書、理解專利的新穎性和創造性,也更有利于學者通過全文分析提升科學、技術的關聯研究。
2 ?專利與專利參考文獻的關聯現狀
2.1 ?現狀分析
由于專利和非專利文獻存在密切的關系,科技工作者非常希望實現專利和非專利文獻的整合。目前,比較有認知度的專利和非專利文獻整合系統包括Web of Knowledge、InnovationQ Plus等。
Web of Knowledge平臺上的DII數據庫收錄專利文獻數據約1.2億條, 而Web of Science僅收錄頂尖的非專利文獻,其中SCIE收錄科技類期刊9 000多種,科技會議錄引文索引每年收錄會議約3 000個,規模、數量偏小。Web of Knowledge平臺雖然實現了專利和非專利文獻的統一檢索,但檢索結果集中的專利和非專利文獻之間缺乏關聯。
InnovationQ Plus號稱“專利與非專利文獻統一檢索系統”,但主要為電子、通信領域等學科服務,并非科學技術全學科。
其他眾多的專利數據庫雖然收錄了專利參考文獻,除了專利類參考文獻可以通過專利號、申請號十分方便地鏈接外,非專利參考文獻很難直接鏈接題錄摘要信息,更不用說全文了。這一缺陷給用戶查閱、鏈接非專利參考文獻帶來了諸多不便。因而有必要開展專利與非專利參考文獻關聯的研究,幫助用戶快速、準確地定位、鏈接到專利引證的非專利文獻的題錄摘要信息,甚至全文,用戶如有訪問和使用權,則可直接訪問和下載全文。
2.2 ?專利參考文獻的類型
如上所述,專利參考文獻包括專利和非專利兩大類,以歐洲專利局的docdb數據為例,其非專利參考文獻包括論文、圖書、化學摘要、數據庫、生物摘要、期刊和Web網站等多種類型,表1展示了歐洲專利局docdb數據中的非專利參考文獻的代碼、類型和示例。
其中,代碼為A(abstract citation of no specific kind)的非專利參考文獻所占比例最多,包括期刊論文、學位論文和技術報告等。以美國專利US9622820B2為例,表2展示了該專利的基本信息和部分非專利參考文獻信息。
3 ?基于ISLI標準的專利與專利參考文獻關聯數據集設計
如上所述,專利與專利參考文獻的關聯,本質上就是兩種文獻的關聯,要建立專利與專利參考文獻的關聯數據集并實現共享,可以采用多種方法,其中一種方法是利用我國主導制定、2015年正式發布的《ISO 17316:2015信息與文獻——國際標準關聯標識符(ISLI)》[7]來建立。
ISLI是一項全新理念的標識符,并不標識一個單一的實體對象,而是標識兩個實體之間的關聯關系[8],其功能就是在具有特定標識符的“源”和“目標”兩個實體之間建立起關聯,而且這兩個實體的粒度可以相同,也可以不同。ISLI的這種特點,為不同類型實體的關聯提供了解決方案[9]。
3.1 ?ISLI關聯編碼方案
利用ISLI關聯編碼,可以將帶有專利參考文獻的一件專利作為“源”,將其引用的每篇參考文獻作為“目標”,并賦予一個ISLI編碼,就可建立起一條ISLI關聯記錄,其中“源”可用公開(公告)號作為標識符,“目標”可能是期刊(會議)論文、學位論文、專著、專利等多種類型,因而可用DOI、handle、ISBN-A、URN和公開(公告)號作為標識符(見圖1)。
由于ISLI標志碼由十進制數字構成,分為服務字段、關聯字段和校驗字段3個部分[10],一件專利與專利參考文獻關聯的ISLI標志碼可以按如下方式設計(見圖2)。
第一部分為服務字段,編碼一般為6位,由ISLI注冊中心(ISLI RA)分配。
第二部分為關聯字段,編碼長度可變,且一般可細分為前置編碼和后置編碼兩部分。根據目前全球專利量和今后的增長趨勢,可將前置編碼設為10位,在不擴容的情況下,可對100億條專利進行關聯編碼;后置編碼設為5位,除00000編碼指向本專利的詳細記錄外,其余00001-99999編碼可為每件專利設置99 999個專利參考文獻或其它屬性的關聯。
第三部分校驗字段的數值(校驗碼)由ISLI系統依據規則自動計算。
3.2 ?專利參考文獻標識符的獲取
3.2.1 ?專利類參考文獻標識符的獲取
在一個專利數據庫系統里,專利類參考文獻可以通過公開(公告)號或專利號、申請號等號碼很方便地定位、鏈接,甚至通過一定的轉換規則,可直接鏈接到歐洲專利局等專利網站上查閱該專利的詳細記錄和專利說明書全文。這種關聯是兩件專利或專利申請之間的關聯,將兩件專利的公開(公告)號作為標識符,兩件專利就可以直接關聯了,相對簡單。
3.2.2 ?非專利參考文獻標識符的獲取
由于非專利文獻類型多樣,要實現專利與非專利參考文獻關聯則復雜很多。通過分析發現,在所有的非專利參考文獻中,期刊論文是最主要的非專利文獻,因此筆者以期刊論文為例,詳細說明非專利參考文獻標識符的獲取方法。
期刊論文是非專利參考文獻的主體,且出版規范,普遍實現了數字化,在網絡上幾乎都可查到其電子版,對于開放獲取出版的期刊論文,其全文可被直接獲取,對于商業出版的期刊論文,如訂購了使用權,用戶可在授權范圍IP內或通過用戶名密碼登錄后直接查看全文,如未訂購使用權,一般可免費查看摘要。
以表2中的期刊論文“Ye X, Liu H, Chen L, et al. Reverse innovative design—an integrated product design methodology. Computer-aided design, 2008, 40(7): 812-827.”為例,首先登錄http://www.crossref.org/guestquery/,輸入期刊論文第一責任者的姓氏和論文題名,可查詢到該文的永久鏈接(Persistent Link)——http://dx.doi.org/10.1016/j.cad.2007.07.006,并可獲取該論文的DOI號(見圖3),直接將該永久鏈接和DOI號寫入數據庫。點擊該永久鏈接,即可跳轉到出版商網站上的該篇論文(見圖4),直接查看摘要等詳細信息,擁有訪問權的用戶還可下載查看全文。DOI號則可用來標識該篇論文。
如無法通過上述方法獲取期刊論文的永久鏈接和DOI號,可以利用資源發現系統來查詢,下面以EDS發現系統為例進行說明。
EDS發現系統提供基于RESTful API技術的數據檢索接口,返回XML/JSON格式檢索結果數據,在數據加工和系統實時運行過程中可利用EDSAPI接口,通過輸入“論文題名+刊名+日期”等復合條件,從EDS龐大的元數據倉儲中獲得該論文的詳細信息。
以期刊論文Land use change moritoring in nature reserves base on GF-1/GF-2為例,EDS返回的JSON數據經解析后(見圖5)可獲得該論文的URL和其它元數據,其中系統存取號(AN)可作為該論文的標識符。
學位論文、圖書專著等類型的非專利參考文獻可通過類似方法獲取其handle、ISBN-A、URN或EDS發現系統的AN號,并將其作為標識符。有了標識符后,非專利參考文獻就可與專利通過國際標準關聯標識符進行關聯。
3.3 ?元數據集擴展
除了ISLI標準規定的基本元數據集,為準確表示專利參考文獻的文獻類型和標識符類型,需要設計和建立專利和專利參考文獻關聯數據集的擴展元數據集,對“目標”文獻的文獻類型、文獻標識符類型以及關聯方式進行代碼化標識,部分擴展元數據可自動生成,無法自動生成的擴展元數據可通過多種途徑或利用EDSAPI從EDS發現系統中獲取并填充。
4 ?基于ISLI標準的專利與專利參考文獻關聯數據集的建設
4.1 ?專利大數據服務平臺的開發
中國科學院成都文獻情報中心利用歐洲專利局(EPO)XML格式的專利裸數據,自建了專利數據服務平臺(http://tmcloud.casip.ac.cn/pbsp/)(見圖6),收錄了100多個國家、地區和組織的1.2億條專利題錄數據和法律狀態數據,并通過大數據分析引擎構建,重點實現了智能檢索、專業分析、知識發現和數據下載四大功能。其中在智能檢索功能上,一方面結合多樣化的檢索策略和語義檢索技術實現專利檢索的智能化,另一方面結合多角度的數據分面實現豐富友好的檢索結果瀏覽模式;在專業分析功能上,結合多維度分析指標實現功能強大的分析效果;在知識發現功能上,結合大數據知識計算實現關鍵技術挖掘與預見;在數據下載功能上,結合自定義用戶需求實現個性化下載。
4.2 ?資源發現系統的建設
中國科學院成都文獻情報中心引進EDS發現系統(見圖7),對成都文獻情報中心訂購、鏈接的100多個商業、開放數據庫的文獻資源實現了一站式發現。
圖6 ?中國科學院成都文獻情報中心自建專利數據服務平臺主頁
圖7 ?EDS資源發現系統檢索結果頁面
以上兩類系統分別是專利和非專利兩大類型文獻的集成系統,但彼此之間缺乏關聯。
4.3 ?專利類參考文獻關聯的實現
在專利數據服務平臺上,已通過公開(公告)號實現了專利與專利類參考文獻的關聯,點擊專利參考文獻列表中的專利類參考文獻,可直接跳轉到該專利的詳細頁面,查看該專利的詳細信息。
4.4 ?非專利參考文獻關聯的實現
針對專利參考文獻列表中的非專利參考文獻,開發專門程序,獲取期刊類參考文獻的永久鏈接和DOI號,寫入專利數據庫并展示在參考文獻列表中,用戶點擊該永久鏈接即可跳轉到出版商或服務商平臺上查看該期刊論文的摘要,擁有全文訪問權的用戶還可直接下載、查看全文;查不到永久鏈接或沒有永久鏈接的期刊類參考文獻則調用EDSAPI接口,獲取EDS發現系統的AN號、全文鏈接地址和其它元數據信息,一并寫入專利數據庫,并將全文鏈接地址展示在參考文獻列表中,用戶可以點擊該全文鏈接地址實現跳轉。
4.5 ?專利與專利參考文獻關聯數據集的生成
利用ISLI標準生成專利與專利參考文獻關聯數據集,需為每一件專利申請一個ISLI基本標識碼(如ISLI 012345-012345678900000-8)及其附帶的99 999個標識碼(后置編碼為“00001”-“99999”)。ISLI基本標識碼的“源”和“目標”都標記為該專利的公開(公告)號,再依次為每篇參考文獻的關聯分配一個ISLI標識碼,“源”均標記為該專利的公開(公告)號,“目標”則依次標記為每篇參考文獻的公開(公告)號、DOI、handle、ISBN-A、URN、EDS發現系統的AN號等標識符,再將每個ISLI標識碼關聯的文獻類型、參考文獻的標識符類型、從多種途徑補充的元數據等寫入元數據集。
目前,中國ISLI RA尚未全面開通ISLI服務代碼的申報和解析服務,各種ISLI標準應用系統可自建模擬服務器對ISLI標識碼進行申領、編碼和解析,待ISLI服務代碼申報開放后再將自編的模擬ISLI標識碼批量轉換為正式的ISLI標識碼并上傳ISLI RA。
按照此方法建立的專利與專利參考文獻關聯數據集不僅可以共享復用,還可以用來計量不同國家(地區、組織)、不同部類(來源地、機構、發明人)專利參考文獻的總量、平均量和極值,從而分析、掌握其差異和特征。同時,還可將該數據集中的“源”和“目標”翻轉,建立專利參考文獻與專利“鏡像”關聯數據集,找到不同學科領域被專利引用次數最多的期刊論文、學位論文、會議論文、專著等,在現有的期刊論文、會議論文、圖書、科學數據等引文數據庫基礎上新增專利引文數據庫。同時,也可在非專利文獻平臺(如EDS發現系統)直接調用該“鏡像”關聯數據集,提供非專利文獻被專利引用的數據(見圖8),供讀者查詢、參考。
圖8 ?EDS資源發現系統中的專利引用鏈接
5 ?結論
眾所周知,以Web of Science和CNKI為代表的引文數據庫系統目前還沒有收錄期刊論文、會議論文、專著被專利引用的數據,利用該專利參考文獻數據集可十分方便地增加這些引文數據庫中的收錄文獻被專利引用的數據,從而進一步豐富和完善現有的引文體系,更加準確地計量收錄文獻的被引次數和學術影響力,并為基礎研究成果和技術創新成果的演化、推進研究提供引文數據支撐。但由于很多早期的非專利文獻目前還缺乏DOI這樣規范、統一的標識符,目前只能暫時借用EDS發現系統的AN號來標識這些早期的非專利文獻,由于非EDS發現系統用戶無法解析這些AN號并鏈接到EDS發現系統的相關記錄,導致專利與專利參考文獻關聯數據集的可用性有所降低。隨著DOI等權威標識符的不斷回溯,使用EDS發現系統AN號作為標識的比例將會逐漸減少,專利與專利參考文獻關聯數據集的可用性將會得到逐步提升。
參考文獻:
陳凱, 徐峰, 程如煙.非專利引文分析研究進展[J].圖書情報工作, 2015, 59(5): 137-144.
李時玉, 郭建偉, 孫沫卿.專利檢索技巧與方法之引證檢索:以奧凱知識產權數據資源為例[J].河南科技, 2018(6): 59-61.
NARIN F, NOMA E. Is technology becoming science?[J].Scientometrics, 1985, 7(3-6): 369-381.
GUAN J, HE Y. Patent-bibliometric analysis on the Chinese science-technology linkages[J].Scientometrics, 2007, 72(3): 403-425.
韓芳.基于專利引文的“科學—技術關系”及技術演化軌跡研究[D].北京:北京郵電大學, 2017.
MEYER M S. Patent citation analysis in a novel field of technology: an exploration of nano-science and nano-technology[J].Scientometrics, 2001, 51(1): 163-183.
ISO 17316: 2015 Information and documentation—International standard link identifier (ISLI)[EB/OL].[2021-09-16].https://www.iso.org/standard/59560.html.
蔡遜.關聯:ISLI國際標準的理念與價值[J].出版發行研究, 2015(7): 39-41.
朱江, 李欣怡, 任曉亞, 等.國際標準關聯標識符及其在圖書館的應用研究[J].圖書館建設, 2020(2): 56-61, 69.
ISLI應用指引(信息內容產業)[EB/OL]. [2021-09-16].https://www.isli-international.org/download/Guide_for_using_ISLI.pdf.
作者貢獻說明:
朱 ?江:提出研究思路,撰寫論文;
張 ?蒂:論文修改和補充;
劉春江:專利大數據服務平臺開發,專利參考文獻類型和實例總結;
周 ?奇:資源發現系統關聯方案設計實例的實現。
Study on Linkage Data-Sets of Patents and Patent References Based on ISLI Standard
Zhu Jiang1,2 ?Zhang Di1,2 ?Liu Chunjiang1,2 ?Zhou Qi3
1Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041
2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190
3EBSCO International, Inc., Beijing 100026
Abstract: [Purpose/Significance] This paper aims at establishing the linkage data-sets of patents and patent references based on ISLI standard, and promoting bibliometric research and science and technology linkage research. [Method/Process] On the basis of analyzing the linkage schemes of patents and patent references, analyzing the unique identifiers of target documents and their acquisition methods, the method of constructing the linkage data-sets of patents and patent references by using ISLI standard was discussed. [Result/Conclusion] The linkage data-sets of patents and patent references can be used to enrich and improve the existing citation systems, break through the two systems of patents and non-patent literatures, and measure the number of citations and influence of patents and non-patent literatures more accurately.
Keywords: international standard link identifier ? ?patent ? ?non-patent references ? ?linkage data-set ? ?ISLI
基金項目:本文系中國科學院文獻情報能力建設專項“知識資源中心體系建設”(項目編碼:292020000220)和科技部國家重點研發計劃重點專項“專業內容知識服務眾智平臺與應用示范”(項目編號:2017YFB1402400)研究成果之一。
作者簡介:朱江,研究館員,碩士,碩士生導師,E-mail: zhuj@clas.ac.cn;張蒂,碩士研究生;劉春江,副研究館員,博士研究生;周奇,工程師,博士。
收稿日期:2022-01-26 ? ? ? ?發表日期:2022-04-07 ? ? ? ?本文責任編輯:劉遠穎