郭世杰,陳芳,韓濤,王學昭,王燕鵬,呂璐成,董璐
(1.中國科學院大學經濟與管理學院圖書情報與檔案管理系,北京 100049;2.中國科學院文獻情報中心,北京 100190)
“努力實現關鍵核心技術自主可控,把創新主動權、發展主動權牢牢掌握在自己手中。”這是習近平總書記在2018年5月召開的兩院院士大會上向我國科技工作者提出的要求[1]。在中美貿易戰的背景下,我國由于技術發展不平衡而面臨的一系列外部技術威脅日漸凸顯,已對我國經濟、軍事、政治等各領域產生了前所未有的影響和挑戰。一方面,美國等發達國家以立法形式限制關鍵核心技術向我國出口,并出臺了一系列規章文件[2-5],其中包含了大量限制對中國出口的技術、設備和產品;另一方面,中國某些高端技術產品市場嚴重依賴外國產品,甚至被外國壟斷,例如,截至2018年,中國約1800臺磁共振波譜儀中僅有50臺屬于國產產品,另有1400多臺全部來自一家國外供應商[6]。因此,如何快速、準確地把握我國目前亟待突破的關鍵核心技術種類布局、與國外技術的差距、研判可能對我國經濟社會產生影響的技術威脅,是當前從決策者到產業界和科研領域共同關心的問題。
外國對我國禁止出口的技術往往就是我國亟待突破、需要重點關注的關鍵核心技術,與我國所面臨的技術威脅擁有明顯的相關性,因此,各國相關政策、法規中包含大量值得分析和挖掘的信息,而且這類文獻具有非結構化、文本數據量大、更新頻率高以及人工閱讀難度大的特點。針對上述政策、法規對我國的影響,王斌[7]從博弈論分析的角度,研究了軍品技術管制出口的國際環境和我國的出口戰略;鄒霞[8]研究了美國出口法律體系的域外效力和對國際貿易的影響;葛曉峰[9]對美國兩用物項出口管制法律制度的結構和內容進行了定性介紹。但是,這些研究和很多其他已有研究均只采用了經濟學或政治學的研究手段,沒有深入到被管制的技術細節上,無法判斷對我國而言相關技術產品的不可替代性如何、技術優勢多大,我國在相關研究領域的基礎怎樣、是否存在繞過出口封鎖的途徑(自研或尋找其他進口途徑),等等。此外,各國技術出口管制清單均屬于十分冗長的文檔,此類文件還經常更新調整[10],因此,如果想從中準確、高效地識別受管制的技術產品的性能參數水平,并將其關聯到我國面臨的國內外技術差距、技術布局差異上,就必須綜合自然語言處理、文獻計量和學科領域知識,設計出更加聚焦和有效的情報分析方法。
國內已有許多學者應用多種情報分析方法,針對美國相關政策和法規文本進行了定量研究。陸天馳等[11]從競爭情報的視角出發,通過對關鍵詞詞頻統計、高頻關鍵詞共詞網絡分析等方法,對相關文件中涉及人工智能領域的內容進行了分析,凝練出“設備、系統、計算機”等高頻關鍵詞,以及“集成電路、材料化學、組織加工方式”等關鍵詞詞群,揭示了美國對該技術領域的管制重點。2019年,魏簡康凱等[12]采用時間演變分析的視角,針對美國出口管制制度的歷史變化開展了競爭情報分析,識別出2018年美國出口管制法規中增設的“新興和基礎技術管制”“建立跨部門審查機制”等新內容。楊宇田等[13]對受到美國出口管制限制的實體(包括企業、研究機構、個人等)進行了國別統計,并分析了中國受限實體的機構類型、受限時間、行業分類等,揭示了美國對中國實體限制力度不斷加強的趨勢。祝捷頻等[14]首先根據美國出口管制法規中關于“數控系統”的文本內容,歸納出該領域的關鍵技術和專利檢索詞,然后對比分析了中美兩國在該技術領域的專利數量、專利強度、專利引用情況等,對中國在該領域的技術競爭力進行了討論。上述研究均從不同的分析維度(國別、時間等),在不同的文本層次(關鍵詞、章節、技術領域等)上針對相關政策和法規進行了有意義的研究,但是并未針對此類文件中涉及的技術性能參數指標進行定量分析。
本文采用文獻檢索與歸納方法、基于自然語言處理的信息抽取方法等針對美國相關規章文件進行挖掘分析。整體分析流程:首先,從文件中抽取目標技術領域的“技術名稱”和“技術性能參數”;其次,根據“技術名稱”構建檢索策略,查詢中國相關技術水平進展文獻,并結合中國現有技術分類標準文獻,針對中美兩國技術性能水平和布局情況進行對比,如圖1所示。

圖1 基于美國相關規章文件挖掘的中美技術差距分析流程
技術差距體現在兩方面:①“人有我無”,即在某技術領域,競爭對手具備某一類技術裝備、器件、方法、工藝,而我國不具備,這體現為“技術空白”;②“人強我弱”,即競爭對手和我國都擁有某種技術裝備等,但是在裝備的性能水平上,我國落后于對手,這體現為“技術水平差距”。除此之外,若我國與競爭對手在某些技術領域采用了不同的技術路線,但實現了在相同應用場景下同樣的性能,則可以理解為“技術布局差異”。因此,本文將基于美國相關規章文件挖掘的中美技術對比結果分為4種類型,如表1所示。
美國相關規章文件中包含了許多技術裝備、器件、工藝方法及其對應的性能參數,如熱學性能、力學性能、光學性能、聲學性能、電學性能等。利用這些性能參數可以進行定量對比,評估國內技術是屬于“跟跑”“并跑”還是“領先”。為了進行國內外技術性能參數的對比,研究者必須收集我國的技術本底信息,可從兩個方面入手:一是針對需要進行水平評價、成果鑒定的中國特定技術成果,通過檢索的方式獲得該技術的性能參數和要素信息;二是從公開的國家標準、制度、分類體系上,獲得我國的技術布局信息。我國有些公開規章制度、國家標準中,盡管沒有詳細的性能參數水平,但可以清晰地展示我國現有公開的技術產品框架。例如,我國現行的國家標準《科技平臺大型科學儀器設備分類與代碼》(GB/T 32847-2016)[15]中,規定了18類通用大型科學儀器設備、13類專用大型科學儀器設備的代碼,內容涵蓋600余種科學裝備、儀器和實驗設備。
從表1中可以看出,為了對中美兩國技術差距進行識別,關鍵是要從美國相關規章文件中獲得“管制技術名稱”和“技術性能參數”兩類信息。為此,需要經過對美國相關規章文件的語義特征分析、文本切分和編目、信息抽取以及抽取結果同步匹配等過程,如圖2所示。

圖2 對美國相關規章文件清單進行語義特征分析、信息抽取和同步匹配的過程

表1 基于美國相關規章文件挖掘的中美技術對比4種類型
2.2.1 分析文件文本特征的方法
為了后續準確、高效的信息抽取,首先,應當分析美國相關規章文件的整體結構和技術學科分類特征。整體結構特征包括標題、目錄、摘要、分類、引言、縮略語表等;技術分類特征包括正文是否都由技術分類編碼引導,是否都包括核、生物、化學、電子、計算機、通信、信息安全、航空、激光、傳感器、軟件等分類,是否屬于多級樹狀結構分類等。其次,分析管制技術的要素特征,包括每項技術的名稱、性能參數、成本金額、時間、化學成分(化學式)、判別標準(數學公式)、禁運國家、禁運機構實體、管制原因、例外情況、技術體系層級等。在此基礎上,分析文件文本的特征指示詞和文本表達特征。根據齊普夫詞頻分布定律,綜合利用詞頻統計、TF-IDF(term frequency-inverse document frequency)等算法,對同一國家和機構發布的文件進行文本清洗、分詞、去除停用詞等步驟,得到對特定核心元素進行揭示的、語義上獨立、不依賴學科領域或發布時間的特征指示詞,并提取其共性特點。文本表達特征包括:各項技術是否都有項目符號/編號引導、技術要素是否位于大小標題、段首/段尾,字體是否加粗/傾斜,字號大小、數值、時間信息的特定格式,特定字體顏色和文本底色等。進一步地,專門針對某種重要的技術要素總結文本表達/語義特征,例如,表示“技術性能參數指標”的文本特征包括“數值+物理單位(+“×10”+上標/下標)+性能參數范圍特征指示詞”等。
最后,基于上述分析,構建文件內容要素和文本特征框架,如表2所示。

表2 文件內容要素和文本特征框架
2.2.2 基于規則匹配和詞性分析抽取文件信息的方法
首先,針對文件中文本特征和語義規律性較強的內容,包括時間詞、數值詞、性能參數范圍指示詞、物理單位、禁運國家、禁運機構實體等,可采用基于規則/信息匹配的信息抽取方法。利用詞性標注工具、Python語言編寫爬蟲程序,根據前期構建的特征指示詞列表、國家名稱列表、文本表達特征等,構建抽取信息的規則,利用正則表達式進行模式匹配,得到抽取內容。
其次,在某些文件中,以技術編號引出的段落中的名詞短語就是技術關鍵詞,因此可采用基于詞性標注的技術關鍵詞抽取方法。例如,美國某文件[2]中第6A001條技術編號引出的段落為“Acoustic systems,equipment and components,as follows(see List of Items Controlled)”,其中“Acoustic systems,equipment and components”是技術關鍵詞;該條目下斜體“a.”引出的段落文字“Depth sounders oper‐ating vertically below the apparatus,not including a scanning function exceeding±20°…”,則“Depth sounders”為技術關鍵詞。
2.2.3 對文件信息抽取結果進行同步匹配的方法
在表1中,為了進行有意義的對比分析,“技術名稱”和“技術性能參數”必須一一對應,這需要將上一步抽取出的各類信息進行有效的同步匹配。為了達到這一目的,首先將文件文本切分為不同層級,并對每個層級分別賦予唯一數字識別編碼(identity document,ID)。例如,可且分為“技術大類(按技術分類特征)、技術單項(按照文件中技術的末級編碼)、段落、句子”這4個層級。
類似地,利用模式匹配、LDA(latent Dirichlet allocation)主題模型等抽取得出的信息也應按照“ID-時間”“ID-數值”“ID-機構實體”等形式進行命名。完成各種內容的ID編制后,就可將ID作為信息同步匹配依據,對前面抽取出的信息進行同步匹配。此外,由于同一句話中可能包含多個時間詞、多個數值詞、多種技術關鍵詞等,所以還需要基于位置信息、文本格式、詞頻等制定更加詳細和復雜的匹配規則。例如,制定數值詞和物理單位詞的“就近匹配”規則;制定在段首、句首的技術關鍵詞權重最高的“句首優先”原則;制定某一“技術單項”的所有段落中詞頻最高的技術關鍵詞,作為該技術單項名稱的“詞頻優先”原則等。具體采用哪一種原,則需要依照匹配效果進行確定。
如果發現我國存在技術差距和空白的關鍵領域,那么可以通過文獻計量的方法進一步探索該技術領域的國際研究態勢,并探索縮小技術差距的線索。這需要利用從文件中抽取的技術關鍵詞構建檢索式,得到相關研究論文、專利數據集后,可分析以下幾點內容:①論文和專利數據總數以及變化趨勢。主要觀察該技術的各國研究數量、增長/減少的趨勢,并進行對比,從中大致了解國內研究規模。②論文和專利數量最多的大學/研究所/公司。對國內的機構,建議考慮加強支持;對俄羅斯、日本和歐洲其他國家等地的機構,建議考慮加強合作聯系;對美國的機構,建議考慮關注其技術發展脈絡,進行跟蹤學習。③各機構的獨有技術詞分析。對于無法全面布局研發的技術,可以考慮利用我國機構的特色技術,與外國進行合作或“交換”。例如,在高溫陶瓷研究方面,中國國防科技大學的獨有技術主題詞是“HAFNIUM(鉿)”,可能與高溫陶瓷的獨特配方有關;意大利Univ Naples Federico II的獨特技術主題詞是“EROSION(侵蝕)、NOZZLE(噴嘴)”,可能與高溫陶瓷的獨特技術有關;NASA(National Aeronautics and Space Administration)的獨特技術主題詞是“溫度”,有可能與NASA特別關注高溫陶瓷的溫度特性有關(詳見本文第4.2.5節)。
本文分析的美國相關規章文件是由美國商務部工業和安全局發布,數據匯編入美國eCFR法律匯編數據庫網站[16]。該網站由美國國家檔案和記錄管理局(National Archives and Records Administration,NARA)的聯邦紀事辦公室(Office of the Federal Register,OFR)以及美國政府出版局(U.S.Gov‐ernment Publishing Office,GPO)聯合管理。來自美國商務部工業和安全局的官方公告和變動,會發布在美國聯邦政府網站FederalRegister.gov上[17],并通過匯編更新的方式進入eCFR。分析利用的其他文獻和專利數據庫來自中國科學院文獻情報中心采購的網絡數據庫,包括Web of Science(WoS)文獻數據 庫、CNKI(China National Knowledge Infrastruc‐ture)中文數據庫、Derwent Innovation專利數據庫、Incopat專利數據庫等。
本節以空間領域為例,從美國新近發布的相關規章文件中挖掘空間科技領域產品,并將其作為線索,對中美技術差距進行分析討論。
根據美國2019年7月1日發布文件,限制出口的空間技術產品分布在多個技術領域。根據關鍵詞“衛星、火箭、航天器”等挖掘出產品類型及相關參數、限制明細,建立受管控的空間技術產品目錄。根據該目錄并結合我國情況,分析得出我國面臨的4種技術對比情況:技術能力無明顯差距、技術空白、技術差距、技術布局差異,如表3所示。

表3 基于美國相關規章文件的中美技術差距和差異分析
4.1.1 火箭推進和碳材料技術(無明顯差距)
美國管制的火箭“射程為300 km以上、載荷500 kg以上”,該限制標準非常寬泛。我國早已實現了能夠發射到深空的火箭技術,例如,發射嫦娥4號的火箭射程與地月平均距離(384000 km)同量級,而長征三號甲運載火箭(CZ-3A)早已能夠發射超過噸級的衛星。
美國管制的碳材料性能參數為“在15℃下測量的堆積密度為1.72 g/cm3或更大的細粒石墨,顆粒尺寸為100 μm或更小,可用于火箭噴嘴和再入飛行器機頭”,而根據“中國粉體網”2019年8月公布的情況,達到這一性能水平的石墨粉在我國都有公開銷售信息[18]。
4.1.2 3000℃高溫陶瓷材料(技術空白)
美國管制的高溫陶瓷材料性能參數,“熔點等于或高于3000℃,可用于導彈部件(如鼻尖),再入飛行器,飛機發動機葉片,控制面或火箭發動機喉部插入件”。經過檢索,尚未見到公開發表的中國高溫陶瓷(熔點大于3000℃)報道。另外,據國內多家媒體2016年報道,在可用于高超聲速飛行器的高溫陶瓷材料方面,“至少以2014年的專業論文中披露的情況看,國內目前普遍測試極限只能做到2500(攝氏)度,2700度和以上尚處于空白、組織力量攻關的階段。換句話說,目前英美最新一代的超高溫陶瓷材料即使是進入國內,國內都沒有足夠的能力手段對材料性能進行摸底”[19]。因此,高溫陶瓷可能是從文件中可以分析出的一項“卡脖子”技術。
4.1.3 陀螺儀技術(技術差距)
美國管制的陀螺儀范圍是,“所有可用于火箭、導彈或無人機的陀螺儀”,性能參數為“每小時額定漂移率或穩定性小于0.5度(1西格瑪或有效值),在1 g環境中”[2]。有國內媒體稱,“美國80年代研制的MX(和平保衛者)導彈上搭載的機電陀螺儀是世界上精度最高的機械式陀螺儀,每小時僅偏離1.5×10-5度”[20]。
綜合國內媒體報道,我國于2015年已實現0.0001度/小時以下的漂移量的激光陀螺儀,“精度媲美國際水平”[21]。在常規尺寸振動陀螺儀方面,2018年我國科學家研制成功的振動陀螺儀達到了1度/小時的漂移,“逼近精度排在前兩位的美國、法國的陀螺儀,名列世界第三”[22]。由此可見,我國的激光陀螺儀技術水平與美國差距不甚明顯,但是振動陀螺儀可能尚有約0.5度/小時的技術差距。
4.1.4 液體火箭發動機推進劑和航天器遙感波段(技術布局差異)
美國管制的火箭發動機推進劑/氧化劑包括:三氧化二氮、二氧化氮/四氧化二氮、五氧化二氮、混合氮氧化物、三氟化氯,這些化合物與我國所用種類不同。中國運載火箭技術研究院網站發文指出,“在我國現役中型運載火箭中,除長征三號甲系列火箭的三子級外,均采用四氧化二氮、偏二甲肼作為推進劑”[23]。在三氟化氯方面,中國科學院在紀念兩彈一星的網站上提到,“原子彈所需的純鈾產品,是由最初的鈾礦石經過粗選、浮選、精選提煉得到氧化鈾產品……有的工藝中還有三氟化氯……”[24],這顯示我國已掌握三氟化氯制備技術。
在對地光電及雷達遙感技術方面,美國管制的性能參數包括“具有光電遙感功能,口徑大于0.35 m,但小于或等于0.50 m”“具有中心頻率等于或大于1.0 GHz但小于10.0 GHz,并且帶寬等于或大于100 MHz但小于300 MHz的雷達遙感能力(如AE‐SA、SAR或ISAR)”[2]。而2016年我國的《國土資源遙感》期刊上發表的文獻[25]中提到,“國產衛星微波波段的設置明顯落后于國外水平,覆蓋度只達到8.76%,而國外衛星微波波段覆蓋度達到了24.52%,遠遠超過我國”;“國產民用衛星在波段設置方面有優勢,具有獨有波段,能夠填補國際遙感衛星波段設置方面的空白,例如紫外波段的0.16~0.25 μm,熱紅外波段的6.3~6.535 μm,微波波段的25~30 mm”。
從上述分析看出,中美兩國在火箭推進劑種類、空間遙感波段的設置上存在差異,并不能直接看出技術優劣,因此,這里將其歸為“技術布局差異”。
根據第4.1節的分析情況,構建專門面向航天用高溫陶瓷技術、陀螺儀的檢索策略,在WoS平臺、IncoPat平臺上檢索得出研究論文和專利,以分析國內外研究現狀。檢索策略如下:①航天用高溫陶瓷基礎研究論文:TS=("ceramic"and"High temper‐ature"and("satellite"or"rocket"or"Spacecraft"or"Aircraft"or"Hypersonic"));②專利:tiabc=("ceram‐ic"and"High temperature"and("satellite"or"rocket"or"Spacecraft"or"Aircraft"or"Hypersonic"));③航天用陀螺儀基礎研究論文:TS=(("Gyro"or"gyroscope")and("satellite"or"rocket"or"Spacecraft"or"Aircraft"or"Hypersonic"));④專利:tiabc=(("Gyro"or"gyro‐scope")and("satellite"or"rocket"or"Spacecraft"or"Aircraft"or"Hypersonic"))。
4.2.1 高溫陶瓷基礎研究能力分析
1988—2019 年,高溫陶瓷論文數量整體呈上升趨勢,世界前10位研究機構如表4所示,其中,意大利Univ Naples Federico II、俄羅斯Natl Res Univ是推薦合作機構。

表4 高溫陶瓷論文世界Top10研究機構
1988—2019 年排名前10位的國家發文情況如圖3所示,與美國相比,中國近幾年研究數量增速較快。

圖3 1988—2019年高溫陶瓷論文世界Top10研究機構分布情況
4.2.2 高溫陶瓷知識產權分析
從圖4可以看出,2000—2019年高溫陶瓷領域專利數量整體呈現上升趨勢。由于專利公開有18個月的滯后期,因此2018—2019年專利數量略有下降。

圖4 2000—2019年高溫陶瓷專利數量分布情況
從表5可以看出,專利申請最多的是北京航空航天大學(中國)、波音公司(美國)、通用電氣公司(美國)、中國運載火箭技術研究院、空中客車公司(歐洲)、航天特種材料及工藝技術研究所(中國)、KIDDE技術公司(俄羅斯)等。

表5 高溫陶瓷專利世界Top 15申請人
4.2.3 陀螺儀基礎研究能力分析
從各國歷年論文數量(圖5)看,2010年以前,美國在陀螺儀研究論文數量方面長期處于領先地位;中國的論文數量在2011年之后逐漸趕上和超過美國。

圖5 1963—2018年陀螺儀論文世界Top 10國家分布情況
從陀螺儀論文數量世界Top 10研究機構來看,全球領先的研究機構全部來自中國和美國(表6)。

表6 陀螺儀論文世界Top 10研究機構
4.2.4 陀螺儀知識產權分析
2000—2019 年,航天用陀螺儀的專利數量明顯呈現上升趨勢,如圖6所示。

圖6 2000—2019年陀螺儀專利分布情況
專利數量世界Top 15研究機構如表7所示,可見中國的北京航空航天大學、南京航空航天大學、北京控制工程研究所、哈爾濱工業大學、上海航天控制技術研究所等機構在航天用陀螺儀領域具有較好的研究基礎。

表7 陀螺儀專利世界Top 15申請人
4.2.5 航天用高溫陶瓷和陀螺儀研究機構的技術主題詞分析
表8和表9分別列出了航天用高溫陶瓷和航天用陀螺儀領域世界排名靠前的研究機構,以及其高頻技術主題詞、獨有技術主題詞。從這些主題詞中可以看出,各機構研究的熱點與特色,下文給出兩種示例。
從表8的分析結果可以看出,中國國防科技大學在航天用高溫陶瓷方面,具有獨有技術主題詞“HAFNIUM(鉿)”,高頻技術主題詞包括“OXI‐DATION(氧化)”“ZIRCONIUM(鋯)”“CAR‐BIDE(碳化物)”“COATINGS(涂層)”等;而重慶大學具有獨有技術主題詞“CARBIDE CERAM‐ICS(碳化物陶瓷)”。這可能反映了我國部分高校在研究高溫陶瓷時,采用了比較獨特的技術路線或配方、工藝等。

表8 航天用高溫陶瓷排名靠前機構的獨有技術主題詞
從表9的分析結果可以看出,中國北京航空航天大學的獨有技術主題詞包括“UNBALANCE COMPENSATION(失 衡 補 償)”“MANEUVER(機動)”“LOCAL-CONTROLLABILITY(局部可控性)”“UNDER ACTUATED SPACE CRAFT(欠驅動航天器)”等;而美國斯坦福大學的獨有技術主題詞包括“NOISE(噪音)”“SENSITIVITY(靈敏性)”等。這可能反映出北京航空航天大學的研究更關注利用陀螺儀對航天器的(機動)控制,而斯坦福大學則更關注陀螺儀本身的靈敏性能。

表9 航天用陀螺儀排名靠前機構的獨有技術主題詞
從空間領域的對比分析情況可以看出,美國相關規章文件中包含的技術產品范圍很大,有的技術性能參數限制非常寬泛,我國已經掌握相關技術,因此,不存在被“卡脖子”的風險;有的技術產品水平較我國略微領先,我國尚處在追趕階段;有的技術產品我國尚待突破,屬于值得我國特別關注的“技術空白”領域。從分析方法上看,以美國相關規章文件作為挖掘對象,分析國內外技術水平差距、對國內受到關鍵核心技術“卡脖子”風險進行預警的分析路線是可行的,能夠識別出一些關鍵技術/產品;但調查我國的技術水平現狀時,需要仔細的檢索分析工作,未來應當繼續研究如何借助自動化/智能化工具完成相關目標。本文僅分析了空間領域的技術出口管制情況,未來還可以繼續分析其他領域情況,如能源、海洋、納米、量子、半導體器件等。