楊 雪 傅 貴授
(1.挪威科技大學 海洋工程系,挪威 7491;2.中國礦業大學(北京)應急管理與安全工程學院,北京 100083)
現代工業即將面臨從自動化系統到自主系統的變革。我國國務院在《新一代人工智能發展規劃》[1]中指出,人機協同增強智能、群體集成智能、自主智能系統成為人工智能的發展重點。開發無人系統與智能自主系統的初衷是降低某些特殊工作環境和操作失誤給人類帶來的風險,如無人車、無人船以及無人飛行器等。但自主無人系統自身所帶來的風險問題,越發得到學術界與工業界的廣泛關注[2]。
由以往事故案例提煉出來的事故致因理論,旨在總結典型事故發生的機理,為未來風險分析提供科學的理論依據。事故致因理論多基于大量已發事故分析,用以累積先驗知識以預測與預防同類事故的發生。那么對于處在創新與探索階段的自主系統的安全事故防范,又有著哪些啟示呢?
本文對目前國際主流的事故致因理論進行了綜述,并對其如何應用到自主系統的開發與安全運行進行了探討。
近幾十年來,自動化系統的引入在很大程度上改變了人機交互的模式。但從根本上來講,意義構建(Sense-making)和決策(Decision-making)并沒有被集成到自動化系統中。如在自動駕駛領域中,自動化技術主要集中在執行提前設計的邏輯步驟, 整合多源傳感器信息,制導和導航技術,以及自動避撞技術。近年來,人工智能,機器學習技術的日趨成熟,以及芯片計算能力的大幅度提高,為自主技術的實現構建了新的平臺。當前,工業界與學術界并未對自主系統的定義和等級劃分達成共識。自主被定義為系統或子系統進行整合意義構建(Integrated Sensemaking)、認知(Perceiving)、分析(Analyzing)、溝通(Communicating)、計劃(Planning)、決策(Decision-making)以及行動 (Acting)的能力,通過人機交互界面來實現既定任務[3]。
在不同的應用領域里,自主系統等級分類各不相同。當前學術界、工業界對于分類標準尚未達成共識?;诓僮魅藛T的獨立性、任務的復雜性和環境的復雜性、自主性可以大體分為4個等級[3]。
(1)等級1:遠程遙控。操作人員可直接控制以完成任務。具有此等級自主性的系統通常是經行過預編程處理。
(2)等級2:經同意遠程管理。系統可自動為與任務相關的操作提出建議,并在重要時間點提醒操作人員以獲取信息與決策。此等級的系統可在操作人員授權下自動執行一部分的功能。
(3)等級3:半自主。操作人員只在異常時刻進行干涉。系統可自動執行任務,但操作人員可在定義的時間范圍內取消或修改某些操作。
(4)等級4:高度自主。此等級的系統是獨立的智能系統。系統能夠在蕪雜的環境中計劃并重新計劃以獨立完成任務。操作人員只具有知情權,但無法干涉系統為完成任務所作的決策。
和傳統自動化系統相比,自主系統有其自身特點,可歸納為:
(1)對可靠性有更高要求。自主系統對人的依賴性降低。這意味著系統的軟硬件的可靠性需達到甚至高出設計期望值。同時,系統對故障的快速診斷,容錯以及糾錯的能力至關重要。
(2)不確定性與不可預知性更強。某些自主系統被用于特殊工作環境中。人們對這種工作環境往往先驗知識不足,因此所能獲得的原始信息的不確定性很高,不可預知性更強。自主系統需探索環境,甄別信息,進行規劃,決策與控制。
(3)自主系統的研發是有階段性的。在相關法律與規范完善之前,等級1、2、3的自主系統將是主導。這樣一來,自主系統運行過程中,人的監管是必不可少的。
一直以來,事故致因理論是風險分析的基礎[4]。從不同角度出發的事故致因理論總結了事故發生的規律與致因因子,從而為定性與定量風險分析提供了依據,為事故預防奠定了基礎。
安全屏障理論(Energy-barrier Theory)(如圖1)是預防重大事故發生的主流致因理論,最早由Gibson(1961)[5]倡導,并被Haddon(1980)[6]廣泛推廣。Haddon圍繞著以下3大要素提出了事故預防的10大策略:

圖1 能量-安全屏障原理[5]Fig.1 Energy-barrier model[5]
(1)能量源:能量的釋放是傷害的源頭。避免事故的發生則意味著通過預防能量累積,減少能量含量,預防失控能量釋放,改變能量釋放率或分布,來避免失去對能量的控制。
(2)易受傷害財產:需保護對象,包括人的生命、健康,環境以及系統其他重要資產等。
(3)安全屏障:避免傷害的手段,包括使易受傷害者與危險能量源分離,對受害者的保護措施。安全屏障在安全管理系統中扮演重要的角色。
簡而言之,本理論的觀點是:重大事故發生的最終原因是危險能量失去控制,并且在能量源與需受保護的財產(包括人員)間沒有設置有效安全屏障,或安全屏障完全失效。
能量-安全屏障理論,尤其是縱深防御的策略(Defense-in-depth)在核工業,化工業以及石油天然氣行業進行了廣泛推廣。IAEA[7]對縱深防御進行了如下描述:縱深防御是以彌補潛人為操作失誤和機械故障為目的,以多層保護機制(其中包括防止放射性材料泄露到環境中的重疊安全屏障)為中心的概念。它的目的在于保證有事故風險的活動置于重疊措施的防御之下,即使有一種故障發生,也將有適當的措施進行探測、補償或糾正。
Reason[8]在瑞士奶酪模型(如圖2)中提出,操作人員的不安全行為,或設備的故障等顯性失效,與系統和組織活動中不同層面存在的隱性缺欠同時被激活,最終導致事故的發生。在整個系統設計、制造、安裝與運行過程中,由于各種決策失誤所導致的漏洞,可一直潛伏在系統中直到被激活。當操作失誤,同時各層面漏洞顯現,危險源就像一束光源,剛好能夠透過所有層面的漏洞。這時事故的發生不可避免。

圖2 瑞士奶酪模型[8]Fig.2 Swiss cheese model[8]
值得注意的是,為減少人因錯誤,操作規范與各種管理規則被引進到廣義安全屏障的定義中。安全屏障進而被定義為“以物質或非物質的方式,來預防、控制、緩和不希望發生的事件”[9]。
Turner[10]于1978年在分析了英國政府發布的84起事故報告后,提出人為災難理論(Man-made Disaster Theory)。他認為事故的發生是有相似性的,事故的預防不能僅僅依靠可靠性工程,還要通過系統性的分析和管理導致失效的軟致因因子。
Turner尤其強調了信息流缺失和對信息的誤解在事故發生中的重要性。他認為,事故的發生是由人因和組織安排相互作用所造成的。在事故發生前,可能導致事故的信息已經被某些人知曉,或是存儲在某些地方。而缺失信息流的原因可能為:
(1)故意拒絕或承認知道,甚至是在潛意識中。
(2)先前信息被注意到,但尚未被完全理解。
(3)先前信息未被正確搜集。
(4)相關信息存在,但當它與先前信息,規范或價值觀相沖突時,它便被忽略而不被討論。由于本體論或認識論的偏見,也有可能無法看到它們。
因此,此理論側重于有效收集已知的信息,并致力于在組織中達成共識:一些在運營中習以為常的偏差,往往很可能有最終導致重大事故的風險。而運營中不斷發生的一些小偏差,之所以能夠在事故的潛伏期累積起來,多是因為對危險信號的忽視,誤解,或者固執己見。
目標沖突理論(Con flicting Objective Theory)的代表Rasmussen[11]認為,威脅到生產安全的一些錯誤決策,多是組織內部對于生產壓力和工作負荷的妥協所造成的。圖3為系統運行安全性的遷移模型。

圖3 安全遷移模型[11]Fig.3 Safety migration model[11]
Rasmussen指出,提高安全性的兩種方法為:增加安全冗余和降低經濟效率梯度與勝利梯度,以避免迫減安全冗余。對于怎樣定義安全邊界并使其可見,是該理論用于實踐中的難點。Rasmussen還指出,風險管理的實質是在特定工作環境中,和生產壓力下對工作過程的控制問題。這種控制是從上而下的, 從政府、監管者,到公司管理層、 員工和實際工作現場。每一層都受到相應的環境壓力。這些在各個層面的壓力往往最終終威脅到實際生產安全的決策。在此基礎上,Rasmussen和Svedung總結了AcciMap事故分析模型[12]。AcciMap(如圖4)概述了在事故發展過程中,各個決策機構(決策者)如何相互作用繼而影響事故的發生。AcciMap的目的并非找到事故責任人,而是找出哪些決策可以提高風險管理的質量,最終保證生產安全。

圖4 AcciMap模型結構[12]Fig.4 AcciMap structure[12]
正常事故理論(Normal Accident Theory)的代表Perrow[13]持有相對悲觀的事故致因觀點,認為,對于高度交互并緊密耦合的復雜系統來說,重大事故的發生是不可避免的。此理論推動了對于復雜系統的安全極限的討論。Perrow對于交互復雜性和緊密關聯的定義如下:
交互復雜性:系統由子系統和零件組成。他們之間的交互作用往往會出現1+1>2的效應,但這種交互究竟會出現什么程度的效應,以什么形式出現并不能被設計者完全理解。高度交互的系統有時出現的失效會出乎設計者的意料。
緊密耦合性:緊密耦合意味著兩者之間沒有空隙或緩存。緊密耦合性適用于如計劃時間表,或者資源。耦合性越緊密,意味著因果效應在系統中發酵傳播的速度就越快。
該理論所面臨的質疑在于如何量化復雜性和緊密性。Hopkins[14]指出,近幾十年來的重大事故,仍然是由管理不善和成本壓力造成的,并不是不可避免的。盡管如此,該理論引起了學術界與工業界的興趣,并促進了高效組織理論的興起。
Leveson[15]支持Rasmussen的觀點,認為安全是一個控制的問題。她指出,多數的事故致因理論過于簡化事故發生的原因, 并提出基于系統理論與控制理論的系統理論事故模型與過程(System Theory Accident Model and Process,STAMP)事故致因模型。STAMP含有3個基本概念:系統分層控制結構、安全約束以及過程模型。STAMP用分層的控制結構來描述系統,從上而下包括政府、組織、工程活動以及物理組件等。安全約束是STAMP中最重要的一個概念。Leveson認為,導致事故的原因主要是在系統研發和運行過程中,安全約束沒有在各個分層間得到充分的實施。而過程模型所表征的是被控過程被認知的情況。Leveson將控制器分為操作員和系統控制器,從而將人員也納入了控制模型中。操作人員過程模型的偏差,以及環境的影響,往往是出現危險事故的原因之一。
基于STAMP,Leveson開發了系統理論過程分析(System-theory Process Analysis, STPA)方法,針對控制回路進行典型危險源識別,用以完善系統設計。基本控制回路包含4大組成部分:控制器、制動器、控制過程和傳感器。STPA的目標是識別不安全的控制動作(Unsafe Control Action,UCA)。UCA被定義為在某特殊狀態下和最壞條件下將導致危險的控制動作。在STPA最新發布的指南中[16],給出了如何確定識別UCA,確認導致不安全的控制動作,以及控制動作沒有被執行或錯誤執行所導致的事故場景,如圖5。

圖5 STPA考慮的兩類事故場景[16]Fig.5 Two types of accident scenarios considered by STPA[16]
其中,UCA發生的原因主要分為兩大類:
(1)控制器控制行為不當,導致原因如下:控制器失效(如硬件失效、電源失效等);控制算法不當(如控制算法執行缺陷、算法存在缺陷、算法未及時反應變更或系統老化);不安全輸入(如上層控制器/控制人員傳達信息錯誤);過程模型缺陷(控制器接收不正確信息反饋、控制器錯誤解析或忽略反饋信息、控制器未接收反饋信息或信息延遲)。
(2)反饋信息及其他輸入信息不當,導致原因如下:反饋或信息未被接收(如傳感器發出信息,但未被控制器接收;傳感器未發出信息;傳感器未接收信息,傳感器或反饋渠道不存在);不適當信息被接收(如傳感器未發出正確信息、信息未被恰當接收、傳感器設計缺陷未能提供反饋信息);而當控制動作正確,但沒有被正確執行或被錯誤執行所涉及的事故場景,則需要檢查控制路徑以及被控制過程相關的因子。舉例如下:
①控制器發出指令,但未被制動器接收,或制動器未響應。
②控制器發出指令,但制動器未充分響應。
③控制器未發出指令,但制動器錯誤響應。
④制動器充分響應,但未反應到被控制過程。
⑤控制過程接收到指令,但沒有響應或錯誤響應。
⑥控制過程響應未發生指令。
嚴格意義上來講,高可靠性組織(H igh Reliability Organization,HRO)韌性工程(Resilience Engineering,RE)兩個理論并不是致因理論。他們都是致力于探索如何通過改善組織形式和人員的可靠性來避免事故的發生,而非尋找導致事故的原因。HRO起源于尋找解決高復雜性、高耦合性的系統如何能夠安全運行的方案。該理論致力于研究零事故組織的生產過程與實踐操作。Weick和Sutcliffe[17]總結了HRO的5大基本原理:對小型失效保持警惕;拒絕過度簡化;保持對生產過程的敏感性;致力于彈性理念;尊重專家意見?;谶@5大基本原理,培養警覺型人才,從而建立警覺型組織。
近幾年來韌性工程得到了廣泛的關注。韌性是指系統內在的一種能力,使其能夠在意料中和意料外的條件下,在變化和擾動之前、之中、和之后都能夠保持系統成功運行[18]。韌性工程所強調的是以自適應調整機制來應對環境的變化與威脅,系統的故障。韌性工程的四大基本能力是:反應能力、監視能力、預料能力、與學習能力。
事故致因理論致力于探索事故發生原因、發展規律,研究事故始末過程,以揭示事故本質。各理論既有各自強調的致因要素,又有共通之處,對于自主系統的開發與安全運行,有著重大的借鑒意義。下面將針對自主系統的特點來討論如何使用事故致因理論來增強自主系統的安全性。
和依賴人做決策的控制系統相比,自主系統大大降低了對人的依賴,這樣一來,在安全方面主要依靠各種技術安全屏障,尤其是縱深防御的策略來降低事故風險。縱深防御的安全屏障可能對顯性失效(Active Failure)和設計過程中就存在的隱性缺欠 (Latent Error)給予充分重視。另外,傳統的安全屏障理論側重于降低危險能量釋放(如石油氣行業中的油氣泄露、船舶碰撞)帶來的后果。而危險事件的預防則主要依靠操作人員的經驗、警報以及操作規范以減少誤操作。在自主系統中,危險事件的預防完全依賴控制系統,有效安全屏障的設計則需要建立在充分識別可能存在的風險源以及相關事故場景的基礎上。
如圖6所示,風險源可有4種來源:外部風險源、自主系統的內部風險源、來自人機交互的內部風險源與監督人員的失誤。在多數情況下,自主系統所面臨的外部風險源和控制系統相同。但是,某些自主系統的工作環境特殊,設計人員對工作環境的先驗知識不足,導致某些決策場景設計空白,則必須完全依賴自主系統自行探索與自行決策。這意味著安全的設計既要為已知風險源(包含外部風險源和內部風險源)設計有效安全屏障以避免風險源發生或進一步傳播,又要考慮未知外部風險源以及安全屏障可能存在的漏洞所遺漏的風險。

圖6 事故致因理論如何應用于自主系統的風險管理Fig.6 How to apply major accident causation theories into risk management of autonomous systems
人為災難理論為如何提供更好的信息流提供了參考。自主系統通過感知模塊感知環境、系統本身狀態及目標,再通過信息處理與融合,進而將信息流進行整合轉化為知識流,送入系統健康管理模塊與規劃決策制定模塊。從等級1至等級3的自主系統中,操作人員仍是最終避免事故發生的主力。但是,在操作不同等級的自主系統時,操作人員需要充分理解信息流的不同含義。Endsley[19-20]指出,自主系統的等級越高越可靠,操作人員就越難意識到關鍵的信息,并且越難在需要介入時進行手動控制以避免事故的發生。在高等級(如等級3)自主系統使用中,操作人員面臨著技能退化失去參與度,某些情況下工作量激增以及缺乏對整體復雜性的理解與缺乏可預測性的問題。通常情況下,自主化系統會兼有低等自主化及高等自主化的功能。當自主化控制器突然將控制傳遞給可能未準備好接管的操作人員時,將很容易發生意外。Turner在人為災難理論中所強調的注重整合小偏差,減少對危險信號的忽視與誤解,以降低事故潛伏的可能性的觀點需得到重視。
STAMP以及其基礎上開發的STPA方法有助于確保自主系統的安全約束被有效的確認,以及在分層控制結構中充分執行。使用STPA對同一系統中的處于不同自主等級的模式進行分析,可細致找出導致控制失效的原因,并且促使操作人員熟悉在各個模式下的責任以及如何最有效快速反應緊急情況。另外,通過STPA方法識別的事故場景,可用于設計開發自主系統的測試案例。
目標沖突理論中有兩點是自主系統的開發和運營可借鑒的。第一,安全冗余的設計。第二,為維持自主系統的高可靠性、系統在運行中的維修作業,尤其是預防性與預測性維護至關重要。如何保證最優安全冗余,并且保證維修作業不被生產壓力和工作負荷壓迫導致安全模型遷移至危險階段,需要進行充分探討。
介于自主系統更強的不確定性與特殊工作環境的不可預知性,彈性工程中所強調的反應能力、監視能力、預料能力與學習能力更為重要。如無人駕駛車,當其遭遇陌生場景時,要能夠深入分析事實邏輯,得出理性決策并發出安全控制指令。
自主系統的開發處在創新與探索階段,如何在運行過程中保證其安全性,并將安全性反映到設計中是自主系統開發不可缺少的一環。事故致因理論總結了大量的事故預防經驗,對于從不同角度識別已知的風險源,提高對未知風險源的警惕性,描述事故場景,仍有著重要的借鑒意義?;谑鹿手乱蚶碚撍R別的事故場景,可用以輔助設計技術安全屏障與運行策略來提高自主系統的安全性。
此外,高等級的自主系統決策機制與傳統的自動化系統不同。自主系統開發的核心算法趨向于因果推理決策機制。但目前的事故致因理論所涉及到的腦科學和認知心理學相關的討論甚少。 隨著自主系統技術的成熟與產品應用的普及,事故致因理論隨之更新的可能性需做進一步研究與探討。