國家知識產權文獻數據庫系統設計方案與思路

2013-01-01 00:00:00仇壯麗

現代情報 2013年2期

〔摘要〕總結了目前國內知識產權文獻數據庫的不足，提出了國家知識產權文獻數據庫系統設計的目標、數據庫構成及概念結構。為了實現“快速、全面、準確”的檢索目標，需要建立元數據實現數據庫的標準化，采用科學的分類體系實現族性檢索，開發知識產權領域本體擴展用戶檢索入口詞匯，通過搜索引擎實現全文檢索。最后提出了系統的實現方式。

〔關鍵詞〕知識產權；文獻數據庫；本體；分類體系；眾包

〔中圖分類號〕G250.74〔文獻標識碼〕A〔文章編號〕1008-0821（2013）02-0052-04

知識產權文獻數據庫的建設已經影響到企業、國家的發展戰略。以專利文獻為例，歐洲專利局（EPO）每年要駁回50%的專利申請；美國專利商標局（USPTO）每年要駁回54%的申請；日本專利局（JPO）每年要駁回62.5%的專利申請；工業領域每年約有60億美元浪費在專利法律和申請費用上[1]。專利被駁回說明相關的技術已經發明出來了，由于在研究之前未能檢索出相關文獻，導致重復研究開發，造成大量的資源浪費。要全面、準確地檢索相關知識產權文獻，需要建立高質量的國家知識產權文獻數據庫系統。這既是強化政府在科技、商業等領域的公共管理與服務職能的重要體現，也是企事業單位、公民個人進行科技、商業領域的創新與發展的重要保障。

1國內現有知識產權文獻數據庫的不足

1.1數據庫內容建設的不足

國內現有知識產權文獻數據庫內容的不足之處體現在以下兩個方面：第一，數據收錄不全。以專利文獻為例，國內大多數的專利數據庫的回溯年限都是1985年。知識產權法律法規文獻的信息也不完整，例如全國人大法律法規數據庫、國務院法制辦公室數據庫等專門的法律數據庫以及知識產權相關行政機關的政策信息只公布法律或者政策文本，對知識產權相關法律的釋義和法律問答，以及所涵蓋的法律條文解讀非常有限，導致對執法過程準確解釋或者適用法律指導意義不強。第二，數據內容分散。知識產權文獻信息分散在不同主管部門所建立的數據庫中。其中國家知識產權局與國家工商行政管理總局分別建立了專利與商標文獻數據庫，信息相對豐富的國家立法與政策文獻及信息資料庫則由第三方構建。這些分散的數據，給用戶的集中檢索帶來了不便。

1.2檢索方法的不足

國內很多知識產權文獻檢索系統，往往是從數據庫本身的特點出發，將數據庫中的主題詞、發明名稱、公開號、主分類號、代理人等作為檢索入口。這種基于關鍵詞或者分類號的檢索方式有很大的局限。以專利為例，專利文獻是技術文件和法律文件的結合物，需要按照專利法的有關規定撰寫，內容會顯得重復、繁瑣。而且申請人為了獲得盡可能大的保護范圍，往往會采用概括性很大的術語，如把鋼筆概括為書寫工具，把梯子概括為攀登工具，把篩子叫做分離裝置[2]；除此以外，漢語本身一詞多義，多詞同義的特點，進一步影響了關鍵詞檢索的效率。從分類號檢索來看，雖然國際專利分類法（IPC）在各個國家都有使用，但是同一專利、相近的技術主題在不同的國家的專利分類體系下存在一定的差異。而且不同體系的專利分類詳略不同，IPC有631個子類，7 392個主組，62 493個分組。美國專利分類體系已（US-IPC）發展到450多個大類，15萬多個小類。有人做過調查，18.7%以上的美國專利分類號和歐洲專利分類號在部的分類上就存在差異。而且專利分類體系在不斷修訂，每一次分類都會導致分類技術主題詞與分類號的變化，例如修訂后12%的US-IPC號發生了變化，4%的EP-IPC分類號變化[3]。

現有知識產權文獻數據庫大多缺乏深度標引和加工，信息挖掘程度偏低，質量有待提高。例如現有的專題專利數據庫對同族專利、法律狀態和引證專利等特定信息的揭示遠遠不夠，只有69%的包含有法律狀態信息，49%的包含有同族專利信息，僅有18%的包含有引證專利信息，還有28%的沒有提供以上任何一種信息[4]。目前國內只有中國藥物專利數據庫進行了深度加工標引，加工內容包括：專利發明主題標引、醫療應用標引、范疇分類、文摘重新撰寫、化學物質信息標引、中藥方劑信息標引，并同時建成了中藥材名稱數據庫，化學物質登記文檔數據庫等兩個輔助數據庫系統[5]。以專利文摘為例，201110060757號專利申請書中的摘要只有150字左右，在網站檢索到的摘要內容擴大了1倍，達到300多字（見表1）。通過重寫摘要，加入專利中使用的每一種藥材、化學成分等具有檢索意義的內容，大大提高了檢全率和檢準率。

表1中國藥物專利數據庫的數據加工實例

原始摘要1111改寫后的摘要本發明屬于醫藥或保健食品領域，本發明公開了一種具有提高免疫力的藥物組合物，其特征在于藥物組合物包括發酵蟲草菌粉、維生素和礦物質或藥物組合物包括蟲草多糖、維生素和礦物質，其中發酵蟲草菌粉或蟲草多糖0.1～1重量份，維生素0.005～3重量份，礦物質0.05～3重量份。藥理實驗表明，本發明藥物組合物具有很好的提高免疫力的作用。11〖〗一種藥物或保健食品組合物。它是由中藥發酵蟲草菌粉或蟲草多糖、維生素、礦物質，及其番茄紅素、低聚果糖組成，并按常規方法制得的飲料、奶粉或乳粉；其中維生素是由維生素A、維生素B1、維生素B2、維生素B6、維生素C、維生素E、葉酸、維生素B12、維生素D、維生素K、維生素H、維生素P、維生素PP、維生素M、維生素T、維生素U、生物素、水溶性維生素、煙酰胺、泛酸中的一種或幾種組成；礦物質是由鈣、鐵、鋅、硒、磷、鉀、氯、鎂、銅、錳、碘、鉻、鉬、鎳、錫、硅、釩、鈷、硫、鈉、氟、鍶中的一種或幾種組成；中藥還包括杜仲、枸杞（枸杞子）、麥冬、川貝母、枇杷葉、西洋參、雪蓮花、靈芝和花粉中的一種或幾種。該組合物具有提高免疫力的作用。

1.4數據庫共建共享的不足

知識產權管理機構和信息服務機構之間缺乏有效合作機制，不能優勢互補。沒有把資源優勢、人才優勢、技術優勢結合起來，造成國內已建的知識產權文獻數據庫有的收錄數據不全面，有的服務內容與功能單一，缺乏既具有權威數據、又具有強大功能的實用性知識產權文獻數據庫，難以滿足用戶的創新需求。反觀國外的經驗，一般由專業領域的數據提供商、科技信息服務提供商和知識產權信息服務機構進行互補性合作，采用多元化的運作模式，提供專利信息、商標信息、科技信息、市場信息等綜合服務，服務內容涉及數據加工、數據提供、專利分析、軟件開發、咨詢服務等方面，例如國際三大聯機檢索系統都集專利與科技信息、行業信息、法律法規、市場商情信息服務于一體，提供全方位、一站式的綜合服務[4]。

2國家知識產權文獻數據庫系統設計

2.1系統目標

企事業單位、公民個人利用知識產權文獻進行研究開發、專利分析、加強知識產權的管理，都要以快速、全面、準確的數據庫訪問為基礎，這也是本系統設計的目標。

“快速”有兩個方面的要求：一是最新的信息能檢索出來，這需要及時更新數據庫來實現，即數據庫系統應該提供方便的數據更新機制。二是查詢信息的響應時間比較短，這與系統的檢索性能、ISP的服務能力等因素有關系。

“全面”一方面要求搜集的信息要全。根據項目計劃，數據庫會收錄知識產權政策文獻資料、專利文獻信息資料、知識產權行政確權和執法文獻資料、知識產權司法判決文獻、相關網絡資源、知識產權名人與大事等資料。與現有的知識產權數據庫相比，本項目的內容是最全的。另一方面要求系統的“檢全率”達到要求，能把跟檢索需求相關的所有信息檢索出來。檢全率除了要有收錄齊全的原始數據支持之外，然后還要求系統提供合理的檢索策略和手段，例如提供全文檢索功能等。

“準確”主要是指檢準率。即從數據庫中檢索出來的文獻，應該與檢索要求密切相關。這主要取決于數據庫的數據質量。數據質量不高，會導致檢索結果不準，從而造成重復研究與開發。根據歐洲專利局的信息，2008年僅在歐洲就有200億歐元浪費在已授權專利的產品研究與開發中，由此引發的專利訴訟也會浪費大量的時間和金錢。其中Eolas起訴微軟的瀏覽器侵權，花了8年時間才結束，賠償5.21億美元[6]。

2.2數據庫設計

根據項目研究內容結合用戶需求分析，從內容上來看，本系統共包括知識產權研究資料庫、知識產權網絡資源庫、知識產權法律法規文獻庫、知識產權確權與登記資料庫、知識產權司法與執法資料庫、知識產權機構與人物、知識產權大事記等七大數據庫。為了實現“快速、全面、準確”的檢索要求，提供專利分析、引文分析等增值服務，每個資料庫需要有目錄數據庫、全文數據庫、引文數據庫、分類表、主題詞表、關聯詞表的支持。其結構如圖1所示：

11圖1國家知識產權文獻數據庫結構11

2.3系統的概念結構

國家知識產權文獻數據庫系統需要提供元數據管理、分類體系維護、知識產權本體管理以及全文搜索等功能，其概念結構如圖2所示。

其中，元數據用于指導數據庫的標準化建設，元數據

11圖2國家知識產權文獻數據庫系統的概念結構11

標準的建立，可以保證整個項目七大數據庫的統一、規范。分類體系用于實現知識產權文獻的族性檢索。領域專家在本體開發工具的支持下構建的知識產權領域本體，可以用于構建關聯詞表，擴展用戶提出的檢索入口詞匯，最終實現基于語義的檢索功能。搜索引擎實現知識產權文獻的全文檢索。

3國家知識產權文獻數據庫系統的實現思路

3.1開發方式

系統開發的方式一般有4種：自主開發，合作開發、外包和眾包。自主開發是指由項目組自行開發所有的數據庫和相關軟件。合作開發是指由項目組、相關的主管部門、企事業單位合作開發。外包是指將項目中部分功能模塊的開發委托給相關專業機構，例如國外很多軟件公司就把很多需要大量人力的開發任務外包給人力成本低廉的中國和印度。眾包是美國《連線》雜志記者杰夫·豪在2006年提出來的概念，指企事業單位、機構乃至個人把過去由員工執行的工作任務，以自由自愿的形式外包給非特定的社會大眾群體解決或承擔的做法[7]。網上很多項目都采用眾包的開發形式，例如維基百科、百度百科，把一個項目分成很多小任務，通過志愿者的努力實現。

鑒于本項目需要整合大量的數據資源，因此，可以采用自主開發、合作開發與眾包相結合的方式。項目組的大部分成員是知識產權領域的核心專家，可以承擔知識產權領域本體開發和分類體系的維護工作；對于商標、專利等知識產權數據庫的建設，可以與相關的主管部門和知識產權信息服務機構合作開發；全文搜索引擎的開發，可以借鑒百度與中國專利信息中心合作的經驗，將其外包給專業的搜索服務機構，減少開發成本，提高開發效率；對于法律信息以及判決案例、知識產權名人與大事、知識產權網絡信息等數據，則可以采用面向信息內容的眾包模式，由用戶在使用過程中不斷補充。

3.2開發步驟

系統開發能不能一次實現“快速、全面、準確”檢索的目標呢？筆者認為系統開發需要分步驟、分階段實現這些目標。國外很多數據庫系統的開發也是分階段逐步完善的。如德溫特世界專利索引數據庫（WPI），截止到2010年10月，已經收錄了1 975萬條記錄。德溫特公司對所收集的數據進行了嚴格的規范整理和深度的綜合加工，這些加工過程分為5個階段：1966-1970年的標題字段只包括主標題，1971-1984年錄入了副標題，1985-1995年在文摘中加入了用途/優點（USE/ADVANTAGE）部分，1996-1998年對摘要中的用途（USE）和優點（ADVANTAGE）進行了分開撰寫，1999-2010年在摘要中分別列出新穎性（NOVELTY）、用途（USE）和優點（ADVANTAGE）等部分，增加了單獨的附圖部件和標號之間的關系說明[8]。

通過借鑒國外的成功經驗，中國國家知識產權文獻數據庫的開發，可以先實現收集齊全的目標，將知識產權文獻的覆蓋范圍擴大到新中國成立后所有的知識產權文獻，同時對文獻內容進行全面標引。例如專利文獻要對申請號、公開號、申請人、發明人、專利分類號、發明名稱、文摘、申請日、公開日等所有的特征項目進行標引，商標文獻要對分類號、申請者、注冊日期、權利人、形式（文字、顏色、字母、形狀等）等進行全面揭示。然后實現檢索準確的目標。主要任務是建立著錄標引的規范，開發知識產權領域的本體，建立同義詞表、關聯詞表等等。最后實現快速檢索的目標。主要任務是優化搜索引擎，提高檢索的響應速度。每一個分目標，也可以分階段實現。例如數據收錄全面的目標，由于本項目的目標非常宏大，在短短的幾年時間采集齊全所有的數據有很大的難度，可以根據用戶的信息需求，先重點收集、再全面收集，最終實現收錄范圍的全面覆蓋。

參考文獻

[1]Pantros IP Patent Analytics and Strategic Patent Portfolio Management Solutions for Enterprise[EB/OL].http：∥www.pantrosip.com，2012-05-01.

[2]江鎮華.怎樣檢索中外專利信息[M].北京：知識產權出版社，2007：333.

[3]左晶.IPC和USC分類體系下專利檢索的對比分析[J].現代情報，130-132.

[4]孫旭華，揭玉斌，王武，等.關于我國專題專利數據庫的思考[J].創新科技，2010，（11）：26-27.

[5]魯程.三大中文專利全文數據庫的比較研究[J].農業圖書情報學刊，2006，（11）：109-111.

[6]Brünger-Weilandt S，Gei D，Herlan G，et al.Quality-Key factor for high value in professional patent，technical and scientific information[J].World Patent Information，2011，33（3）：230-234.

[7]魏拴成，鄔適融.眾包的產生、發展以及構建眾包商業模式應遵循的路徑[J].上海管理科學，2010，（1）：55-58.

[8]許敏，黃非，王銳.利用WPI數據庫提高專利文獻檢索效率[J].中國發明與專利，2011，（6）：72-75.

（本文責任編輯：王涓）

現代情報2013年2期

現代情報的其它文章: 基于文本空間表示模型的文本相似度計算研究; 省級公共圖書館合作式數字參考咨詢服務調查分析; 學科館員專業能力及培養途徑探析; 高校圖書館中文圖書征訂書目分析與館藏建設; 北京工業大學圖書館專利信息服務調查與分析; 數字化時代經典閱讀的思維導圖推廣策略