保魯昆,孫玉明
(1. 中國鐵道科學研究院集團有限公司 運輸及經濟研究所,北京 100081;2. 中國鐵路總公司 科技與信息化部,北京 100844)
《鐵路技術管理規程》(簡稱《技規》)是國家鐵路技術管理的基本規章,對鐵路的基本建設、運輸生產和安全管理都起著重要作用,其內容包括高速鐵路和普速鐵路2部分[1]。目前,大多數學者對《技規》的研究和分析主要集中在具體條款的論證[2]、整體宏觀分析[3]和技術規章管理[4-5]等方面,缺少采用定量方法對《技規》文本內容進行的研究。近年來,隨著統計語言處理技術的快速發展,利用統計語言處理技術揭示文本內容中蘊藏的奧秘,可為重要文件內容的規范提供技術支撐。采用統計語言處理技術,對《技規》普速鐵路部分和高速鐵路部分文本內容進行定量分析,探究《技規》的語言特點和范式。此外,在對《技規》相關數據資源建立關聯的基礎上,實現對《技規》條款適應性的定量分析。
利用自然語言處理與信息檢索共享平臺(Natural Language Processing & Information Retrieval Sharing Platform,NLPIR)[6]對《技規》普速鐵路部分和高速鐵路部分分別進行詞頻統計和共詞分析。由于上述分析的基礎是中文分詞技術,分詞的準確性直接影響分析結果[7]。考慮到NLPIR平臺詞庫是中文通用詞庫,首先對《技規》進行新詞發現,把發現的新詞進一步編輯標注后,導入系統詞典中,從而提高對《技規》分詞的準確度。
通過統計分析,《技規》普速鐵路部分正文總字數103 775個,總詞數49 564個,去掉重復詞后總詞數4 166個;高速鐵路部分正文總字數106 122個,總詞數38 650個,去掉重復詞后總詞數4 114個,略低于普速鐵路部分。下面分別從崗位工種、移動裝備、固定設施、嚴格程度詞以及共詞現象等方面對《技規》進行對比統計分析。
對《技規》普速鐵路部分和高速鐵路部分中涉及崗位工種的詞語進行統計,主要崗位工種出現次數對比分析見表1。

表1 《技規》主要崗位工種出現次數對比分析
由表1可知,《技規》普速鐵路部分和高速鐵路部分排在前3位的崗位工種范圍一致,均為“司機”“車站值班員”和“列車調度員”,但普速鐵路部分“司機”和“車站值班員”排在第1、2位,而高速鐵路部分“列車調度員”和“司機”排在第1、2位,說明《技規》普速鐵路部分“司機”和“車站值班員”在行車工作中占主要地位,高速鐵路部分“列車調度員”和“司機”占據行車工作的主要地位。從崗位工種出現的次數看,《技規》高速鐵路部分前3位崗位工種出現的次數為1 021次,普速鐵路部分前3位崗位工種出現次數為357次,高速鐵路部分遠大于普速鐵路部分,說明高速鐵路部分條款編寫更詳細地明確了具體崗位職責流程,更有利于全路統一和現場執行。
對《技規》普速鐵路部分和高速鐵路部分中涉及移動裝備的詞語進行統計分析,主要移動裝備詞語出現次數對比分析見表2。

表2 《技規》主要移動裝備詞語出現次數對比分析
由表2可知,《技規》普速鐵路部分排在前3位的移動裝備分別為“機車”“車輛”和“動車組”,高速鐵路部分排在前3位的移動裝備分別為“動車組”“機車”和“車輛”。前3位范圍一致,但普速鐵路部分“機車”和“車輛”排在第1、2位,說明《技規》普速鐵路部分行車組織的主要移動裝備為“機車”和“車輛”;高速鐵路部分排在首位的是“動車組”,說明高速鐵路部分行車組織的主要移動裝備為“動車組”。
此外,《技規》高速鐵路部分中各編關于列車運行監控裝置的表述不一致,其中正文中單獨使用“LKJ”有89處,在三編中均有不同數量的出現;使用“列車運行監控裝置”有10處,主要出現在第二編;使用“列車運行監控裝置(LKJ)”有5處,主要出現在第一編,該表述有待進行規范統一。《技規》普速鐵路部分中關于旅客列車和貨物列車的表述不一致,其中使用“旅客列車”有73處,“客車”有65處;使用“貨物列車”有52處,“貨車”有35處,有待進行規范統一。
對《技規》普速鐵路部分和高速鐵路部分中涉及固定設施的詞語進行統計分析,主要固定設施詞語出現次數對比分析見表3。
由表3可知,《技規》普速鐵路部分和高速鐵路部分排在前3位的固定設施分別為“線路”“信號機”和“道岔”,并且出現次數相近,說明普速鐵路部分和高速鐵路部分在固定設施應用管理方面基本一致;除前3項以外的固定設施出現次數差異較大,如普速鐵路部分“接觸網”排在第6位、出現34次,而在高速鐵路部分排在第4位、出現70次。

表3 《技規》主要固定設施詞語出現次數對比分析
對《技規》普速鐵路部分和高速鐵路部分中表示嚴格程度的詞進行統計分析,主要嚴格程度詞出現次數對比分析見表4。

表4 《技規》主要嚴格程度詞出現次數對比分析
由表4可知,《技規》普速鐵路部分和高速鐵路部分中表示嚴格程度的詞語應用基本一致,在對相關條款要求的表述上使用最多的嚴格程度詞為“應”,占比分別為67%和68%。“應”表示正常情況下均這樣做,同時允許在經過相關流程審批后突破相關規定。此外,《技規》中表示嚴格程度的詞大多使用的是正面詞,如“應”“必須”“可”,而反面詞如“不得”“嚴禁”等使用相對較少。普速鐵路部分正面嚴格程度詞所占比例為91.3%,高速鐵路部分所占比例為93.5%。
共詞是文本中詞匯對或名詞短語的共現情況,用來反映關鍵詞之間的關聯強度,進而確定這些詞所代表的學科或領域的研究熱點、組成與范式,橫向和縱向分析學科領域的發展過程和結構演化[8]。將《技規》普速鐵路部分和高速鐵路部分作為1個整體進行共詞分析,部分結果見表5。

表5 《技規》共詞分析部分結果
由表5可知,“CTCS”在《技規》中共出現117次,其后出現“-”的概率為100%,“登記簿”“站細”后出現“》”符號的概率也是100%,說明這些詞語或符號在技術規章中必須同時出現,否則說明規章用語不規范。這些共詞的發現,揭示了鐵路技術規章用語的組成與范式。共詞分析結果可應用于編制或修訂技術規章時進行文本語言檢查,后續可在技術規章輔助審查系統[9]中增加語言的邏輯檢查功能。
《技規》條款內容的制定具有其時代背景,隨著鐵路技術設備升級、運輸組織優化、國家相關政策和標準的調整,《技規》在執行過程中經常會出現某些條款不適應運輸生產需要的情況,如某些條款無法執行、嚴重影響作業效率以及涉及某些條款的事故較多等現象。為實現《技規》條款的適應性評判,設計開發《技規》知識管理系統,利用條款適應性評判模型對《技規》條款進行自動評價。
從現有數據來看,《技規》條款是否適應現場實際主要表現在條款反饋的問題數量、因為本條款發生的事故數以及交流論壇討論熱度等。通過建立《技規》條款與《技規》問題庫、事故案例庫以及交流論壇的關聯關系,利用統計分析方法對《技規》條款的適應性進行評判。
《技規》條款適應性評判模型包括3個變量:第i條款在一定時期發生的事故數xi1、提出的問題數xi2和論壇討論該條款的主題數xi3,根據經驗對這3個變量分別設置不同的權重?1、?2和?3。為使變量具有可比性,采用消除量綱的方法,把變量參數調整至[0,1]區間,則《技規》第i條款的適應性為:

式中:yi為《技規》第i條款的適應性值;?1為事故數據權重,?2為問題數據權重,?3為交流論壇主題數權重,?1、?2、?3均介于 0~1 間,?1+?2+?3=1;m為所有條款中事故數量最大值;n為所有條款中問題數量最大值;z為所有條款中回帖數量最大值。
2.2.1 系統架構
采用B/S(Brower/Server)結構的開放式系統架構,以當前業界比較流行的開源框架平臺作為開發的規范依據,并按業務特點進行界面、業務和數據的分離,設計結構清晰,具有易用性、通用性和良好延展性的知識管理系統,并便于后期維護和功能擴展。知識管理系統包括表示層、控制層、業務邏輯層、數據持久層和基礎數據庫,各層通過Spring框架技術整合統籌管理。表示層提供工作界面,供用戶錄入和查詢業務數據,進行初步的數據檢驗,反饋操作結果,上傳和下載文檔;控制層采用目前流行的Spring MVC框架技術,實現表示層和業務邏輯層的關聯及跳轉;業務邏輯層接受表示層的請求,具體處理業務數據;數據持久層采用MyBatis、Spring DAO框架,調用數據庫接口存貯數據至基礎數據庫中。
2.2.2 系統原型開發
根據架構設計和《技規》條款適應性評判模型,開發《技規》知識管理系統[10],建立《技規》條文說明、問題庫、事故案例庫、培訓材料和交流論壇等相關數據與《技規》條款的關聯關系。系統首頁見圖1。

圖1 《技規》知識管理系統首頁
將中國鐵路總公司第1版《技規》及其條文說明數據上傳系統,隨著《技規》問題庫和事故案例的累積,《技規》條款適應性評判功能逐漸發揮作用。后續將根據適應性評判結果,通過機器學習和人工干預調整適應性評判模型的相關參數,逐步提高條款適應性評判的準確度,為《技規》學習、培訓以及制修訂提供輔助決策支持。
通過對中國鐵路總公司第1版《技規》進行定量分析,揭示《技規》的語言特點和范式,為今后《技規》的修訂和其他技術規章的制修訂與審查提供參考。后續將繼續擴大中國鐵路總公司技術規章研究樣本數量,挖掘技術規章文本與規章間更多的隱藏關系。《技規》知識管理系統的設計與開發為《技規》相關領域知識的搜集和管理提供了技術支持,經過一定時間的數據積累,通過大數據分析手段和技術,可提出《技規》宣貫、培訓及制修訂建議,進一步提高《技規》管理質量和水平。