欒恩杰 /中國工程院院士、國際宇航科學院院士
隨著我國現代化進程的發展,重大工程和復雜工程系統的實施,特別是“十二五”之前的16 項重大科技專項、“十三五”的165 項重大工程項目的進行,使得工程系統與系統工程成為科技界、經濟界和社會學界廣泛關注的問題。2018年是錢學森院士的《組織管理的技術——系統工程》一文發表40 周年,所以在2018 年的“系統工程研討會”上,專家、學者們呼吁將“系統工程”設為一級學科。
“工程”這個詞最早出現在18 世紀的歐洲,是指作戰兵器的制造和執行服務于軍事目的的工作,即“制造兵器和服務軍事”2個內容。在我國,“工程”的說法可能更早,華夏先民給我們留下的四川都江堰、陜西鄭國渠和廣西桂林興安縣靈渠是世界上最完整、最精彩的古代大型水利工程,可以稱為古代科技工程的輝煌杰作。靈渠建于秦始皇33 年(公元前214 年),都江堰建于秦昭襄王51 年(公元前256 年),所以我國科技史的工程概念是在2000 多年前提出的。
錢學森院士對“工程”的定義是:“把服務于特定目的的各項工作的總體稱為工程。如水利工程、機械工程、土木工程、電力工程……”,那么這個特定系統的“組織建立或者是系統管理,就可以統統看成是系統工程”,而“國外所謂管理科學、系統分析、系統研究以及費效分析等工程內容之數學理論和算法可以統一看成是運籌學”。
在談到工程的系統性概念時,錢學森說:“我們把極其復雜的研究對象稱為‘系統’,即由相互作用和相互依賴的若干組成部分結合的具有特定功能的有機整體,而且這個‘系統’本身又是它所屬的一個更大系統的組成部分”,而“導彈武器系統是現代最復雜的工程系統之一”。錢老的這段論述包含有工程系統、系統工程和運籌學3 個概念。以航天而言,載人航天工程、探月工程、“兩彈一星”工程,這些復雜的工程都像導彈武器系統一樣是一個復雜的工程系統,而實現其工程目標的組織管理是與這個工程系統伴生的系統工程,所以錢學森說,“系統工程是組織管理系統的技術”。
“系統工程的概念并不神秘,這是人類自有生產活動以來,已經干了幾千年的事。”我國2000多年前的水利工程,“按今天系統工程的觀點是一項杰出的大型工程建設”,也是杰出的系統工程的實踐。
近代將系統工程概念提出并以相應的理論進行分析、規劃、決策和運行,以最佳路徑、最可靠保證和最小消耗達到工程系統所追求最優目標的首次實現,是在20 世紀60 年代末美國“阿波羅”登月計劃上體現的。我國開始研究系統工程,或集中力量建設研究隊伍是1979 年7 月中國自動化學會在蕪湖召開的“系統工程學術討論會”,同年10 月相關單位在北京舉辦“系統工程學術討論會”,提議成立中國系統工程學會,并在西安交通大學、清華大學、天津大學、哈爾濱工業大學、國防科技大學等高等院校成立系統工程研究室、研究所。“我國科技工作者已經認識到,系統工程同現代化建設各個領域的組織管理工作是緊密聯系在一起的”“系統工程師,它的理科是培養從事基礎理論研究工作的組織管理科學家”“我們需要的組織管理科學家和系統工程師,其數量和質量都絕不會少于或次于自然科學家和一般工程技術的工程師”。
任何一門學科的成熟性表達是其概念的描述和邏輯推理的數學形式,系統工程的數學支撐是運籌學,在現代數學理論和電子計算機技術的支持下,各種定量描述、模型方法、模擬實驗和優化設計,以及大數據和計算機能力的提高構成的人工智能正在促進現代系統工程的科學與技術基礎發展。經典的線性規劃、非線性規劃、博弈論、排隊論、搜索論、庫存論、決策論、可靠性以及大系統理論、算法論等都可以納入運籌學之中。

23 年前(1996 年),中國航天遇到新技術、新型號、新任務的挑戰,在市場、改革、隊伍建設等各種新環境下,航天工業遇到了從未有過的困難,導彈試驗、火箭發射相繼失利。黨中央、國務院、中央軍委領導十分關注,明確指示要抓質量、抓管理、保成功。
當時是“技術問題”與“管理問題”并存,細究起來很多技術問題并非只能到發射時間才出現,它是可以通過管理使薄弱環節得以早期暴露并得到解決的,所以技術問題的背后仍然存在管理問題。而管理正是系統工程的核心任務,所以必須從上到下,全面反思。從理性認識層面看,就是重塑中國航天的系統工程理論,重振中國航天傳統,續寫“兩彈一星”偉業。
根據出現問題的屬性及其被潛延至發射場的各路關口入手,中國航天提出了幾十項系統工程措施,最著名的是質量管理72條、28 條、“雙五條”(實際上是包含在72 條之內的)。但在故障出現后,徹底解決問題的“技術問題歸零”的五條準則是早于總綱性的72 條提出的。這五條準則是指對研制中出現問題時必須執行的處置程序及充分必要技術要求,所謂“歸零”就是“問題銷賬”,將問題解決到底,不留任何隱患。
第一條是定位問題。在故障出現后首先要分析清楚,從理性思考而言,任何一個問題的產生必有其原因,或者反過來講,有某個原因的存在必然會有產生某種問題的可能。在這樣的思考邏輯下,可以形成內含的原因集和外部的顯現集2 個集合,在分析故障原因的時候,大多是從獲取的現象(光側(含目視)、雷測)和數據(遙測)作為外面顯現集反推尋找內部原因。以(A B C,a b c)三元素的簡單例子說明其定位邏輯,A(a b)表示A 因可以引起(a b)兩種表現,B(a c)和C(b c)表示A因和B因的顯現,如圖1 所示。

圖1 原因集和顯現集邏輯映射關系
如果故障的“顯現集”出現(a b)則它必為A 因所為,如果出現(a c),則A、C 皆有可能是其“原因”。如果這個故障只是一個原因引起,則說明按目前獲取的“顯現集”尚不能準確定位,必然再構造出充分的顯現集。這就是“故障定位”工作,其要求是“定位準確”。原因集和顯現集的映射關系是可逆的,如果將顯現集作為原因,也能找到它內部的顯現。
第二條是機理問題。在準確定位之后,根據系統工程運行要求,要將這個部位產生問題的機理弄清楚,即以已經準確定位的事件為頂事件,產生這個頂事件的所有可能的事件作為底事件,將其故障的傳遞鏈梳理清楚,如圖2 所示。
這就是系統工程里的故障樹分析方法(FTA),這項工作的要求是弄清故障的傳遞關系。根據F1,F2,…,Fn 各個底事件實際存在的狀態,或根據充分的旁證將不可能項Fi 去掉,則可以獲得比較充分的故障傳遞過程和比較清楚的機理認識。
第三條是問題復現。上述2項工作完成后,要分析結果是否真實和驗證工作的準確性,在各種模擬、仿真狀態下對定位和機理的“復現”性進行檢驗。

圖2 故障樹分析方法
此處的復現不是讓這種“故障”在實際系統再進行一次“重復”,而是“問題”的復現,這個“復現”是從驗證定位和機理分析的準確性出發的(見圖3)。在五條準則貫徹之前,曾發生過一個型號因為同一個原因連續幾發相繼失利的案例,其教訓是十分沉痛的。就是因為缺少這個復現的環節,使有些故障并沒有徹底解決而反復出現。
這一步的要求是“問題得到復現”,得不到復現說明因果集缺項或故障樹不完整。

圖3 問題復現圖
第四條是措施有效。在定位準確、機理清楚、問題復現后,就可以提出針對問題的解決辦法。在措施方法的設計和實施中,必須按照工程設計程序的要求進行,需經過部分實物驗證、系統試驗驗證以及各環節的技術評審。
第五條是“舉一反三”。對已發生的故障,本系統、本型號要進行舉一反三思考,對類似環節、同批次產品(元器件)要進行相應的處置。其他型號也要以該故障為案例,完成相應的復查和復核,有些重大的典型案例舉一反三的范圍還要擴大。同時,對國外航天領域出現的故障也要進行舉一反三的思考,比如國外某型號的雙星發射軟件問題,其釋放程序是先釋放雙星中的甲星,并以甲星已發射為條件再釋放乙星。但在發射單星時,采用的軟件卻是雙星狀態,由于沒有甲星,以至始終建立不起來甲星已發射的條件,使得任務失利。對類似的問題也要像自己出現問題一樣進行舉一反三思考,全面檢查軟件版本與實際狀態的匹配性。“舉一反三”是將經驗和教訓逐步擴展的過程,是使多方受益、多領域提高的過程。
“定位準確、機理清楚、問題復現、措施有效、舉一反三”這五條準則的嚴格貫徹,在改變被動局面和保持高可靠發射中起到了重要作用。其解決故障問題的程序和要求全面、合理且具工程實踐性,已作為中國航天系統工程的重要成果被國際宇航界認可和采用,現在已成為“國際標準”(2015 年,ISO 18238《航天質量問題歸零管理》)。
需要特別說明的是,這五條準則是出現故障之后的技術處理的規定,而更重要的是在故障沒有發生前的工作,是從源頭處防止和杜絕問題的發生,這更是系統工程要研究的內容,這類前期性工作更值得深入思考和總結提煉。

系統工程的內容極其豐富,特別是航天系統工程包括從規劃—設計—制造—交付—服務—退役全生命周期的活動。在此,筆者僅就幾點不可缺少的系統工程要求進行介紹。
此處規劃應包括計劃和籌劃。而在英語語境下,規劃和計劃(plan)是同一個詞,這里的規劃則是廣義的。現代系統工程的起步是從需求分析開始,而且將工程系統立項前的論證工作納入到工程的前期準備。從系統的規模和學科形態而言,現代工程已不具備單一行業性質,它往往是跨行業、跨學科的工程行為,且其科學性、技術性、專業性交叉在一起;它已非某一專業人員的獨立行為,是一個大協同的系統性行為,這就使得系統的規劃成為系統工程的重要前提。
以工程立項為目標的工程規劃的內容要比工程設計所涉及的內容和領域更廣泛,需要相關的領域專家參與研究,甚至還需要社會科學領域的專家參加。做任何一件事,事先都要進行籌劃,從工程而言,則都屬于“規劃”的內容,從系統運行的可靠性和適應性而言,有些工程系統還設置有“任務規劃系統”,比如戰術導彈的最安全路徑或最短路徑、最快路徑、最經濟路徑選擇,則是這類系統要完成的工作。可以說,沒有規劃的研究是沒有站在全局的觀點分析工程系統的存在及運行,沒有規劃指導下的大力協同則不是系統工程。
我們用“系統工程”這一名詞來定義工程的實現與管理,它一定具有系統性。錢學森是這樣定義“系統”的:“所謂系統是指由一些相互關聯、相互作用、相互影響的組成部分構成并具有某些功能的整體”。
整體的運行必須是有序的,是不能隨機隨意、雜亂無章、各行其事的運行,它的互相關聯、作用和影響都要為實現某種功能而貢獻。“從20 世紀40 年代末形成控制論科學,50 年代誕生了工程控制論和生物控制論,60 年代現代控制論發展形成了大系統理論”以及當代的“人工智能控制”,都是人類按著他們的意圖創造的系統,它不是自然物,而是一個人造物,所以其系統實現的功能性、各分系統的支持性和整體的協同性就是這個人造物在自然物環境下運行的基本條件。
所以,程序化工作和程序性管理則是使系統工程得以運行的基本要求,上下環節的無縫連接、左右部分的匹配相容、各分系統子功能對系統總目標的貢獻是系統工程運行的核心任務。
導彈武器系統是現代最復雜的工程系統之一,實現這個武器系統功能的系統工程必須有極其嚴密、充分正確的程序保證。一個沒有程序設計的工程管理,不稱其為系統工程。而一個優秀的系統工程師,他的工程實現就像一個樂隊的指揮在演奏一曲優美的樂章一樣,節奏混亂將破壞動人的樂曲,而程序的混亂必定會造成一個工程系統的失敗,所以沒有“程序”設計就不是系統工程。
任何工程皆有風險,差異只是風險出現可能性的大小,風險引起的危害和損失的多少,風險規避的難易、程度之高低。根據這3 點的不同,一般要進行比較統一的風險分級管理,以避免不同組織、不同項目因自建格式標準而引起同行或異域的困惑和誤解。美國NASA 與其他政府組織、工業部門共同確定了廣泛應用的低、中、高3 級風險的定義。
其中,低風險是指不影響性能降低、進程中斷、費用增長的可控、可接受的風險;中等風險是可能引起性能降低、進程中斷、費用增長,需采取特殊行動的風險;高風險是指性能大幅降低、進程停止、費用極大超支,需采取重大的附加行動和優先管理的風險。
NASA 將這3 種風險表征在“風險矩陣”中,如圖4 所示。
該矩陣大多為5×5,是為了方便風險討論時使用,它兼具或然性和后果的定性、定量度量方法,它的不足是沒辦法處理聚集的風險(總風險),這個二維矩陣反映不出風險對工程環境的敏感性。風險與任務目標共生,所以風險是人造工程必然存在的;正因為是人造物,所以風險也是可以通過人們的努力去規避的。
系統工程對風險的處置主要體現在2 個方面:一個是風險的分析,即風險源的篩選,根據本系統的技術特點確定可能產生風險的源頭(或稱為“風險因素”),特別是對相似系統已經出現問題的先驗性經驗與教訓、歷史文獻和故障文檔的啟示和啟發。另一個是預案設計。預案設計的產生是設計者根據“系統各階段所經歷的過程和事件”中可能出現的非期望狀態及其后果;假定該狀態已經發生,為保證系統正常運行(或可接受的條件下運行)應采取的措施。這是在系統及相關環節設計時就進行的預先設計方案,所以稱為“預案”。這個概念和過程在各類系統運行中都是相同的,要把預案按其非期望狀態出現和應當采取的處置方案都納入到正常運行程序之中,不應把預案和正案分開單獨設置。所以“預案”就成為“根據運行狀態決定是否運行的正案”,預案設計程序如圖5 所示。

圖4 NASA“風險矩陣”圖
在預案設計中常用的方法是:“故障報告、分析和糾正措施系統(FRACA)”和“失效模式影響與危害性分析(FMECA)”。在1996年質量整頓中,將以上2 種技術和故障樹方法(FTA)統稱為“3F”,在航天系統進行普及和推廣,現已成中國航天的設計規范。
包括各階段、各類別的技術方案、實施方案、試驗驗證的結果、各階段向下一個階段的轉變、出廠與進場放行準則的實現等評審、鑒定和決策建議。近些年,人們對“成果評審”和“進級評審”都比較熟悉,這里重點強調的是系統工程運行中必不可少的非擁護性評審,由參與評審的專家從被評審對象的各角度、各切面去審視與分析,盡量挖掘出系統可能存在的問題和隱患。非擁護性評審是NASA 首先提出來的概念,在工程全生命周期內設置幾十個關口進行評審與評價,是航天高可靠性要求的具體實踐。實踐證明,在關鍵技術攻關、技術狀態控制等方面,嚴格的非擁護性評審是十分必要的。

圖5 預案設計程序
在評價過程中,可以提升認識問題的深度和分析問題的角度,如軟件復雜度問題,隨著需求的不斷增加,為了增加新的功能,軟件具有極大優勢,所以這種軟件快速增長的趨勢提出了一個新的課題。僅從飛行軟件而言,NASA 做過統計,結論是每隔10 年飛行軟件增加一個數量級,因此可以說飛行軟件就是航天器的一塊“復雜度海綿”,輕易吸納越來越多的內容。以空軍為例,軟件規模從F-4A 的1000 行增加到F-22 的170 萬行,而到最近的F-35 戰斗機軟件包含有570 萬行代碼。這為飛行系統提出一個新的課題,系統工程如何應對工程軟件的快速增長,以及由此引發的軟件復雜度和軟件風險問題。目前,一個完美的軟件開發流程的缺陷率為萬分之一(10000 行代碼一個缺陷),100 萬行代碼的系統可能存在100 個左右的缺陷。
從軟件架構(包括功能性和非功能性需求)而言,其復雜性、可維護性、可測性、可擴展性和可交互性這些軟件的質量特性都要得到很好的滿足,這就是中國航天已經實施了20 余年的“軟件工程化”工作,使軟件可測、可評、可知、可透明。NASA 為此提出建立“軟件架構評審委員會”和培養“軟件架構師”的要求,NASA 正在研究和開發“基于模型的軟件可簡化故障防護的工程實現、提高系統健壯性”。麻省理工學院(MIT)則開始重視“雙語人才”的培養,按MIT 校長拉斐爾·里夫所言,這個雙語是指“人類的專業性語言和現代計算機語言”,他說“為了培育雙語人士,我們必須創建一個新的架構”。簡而言之,在特定項目中“參考架構”是一個作為共同參考、可復用的架構,以使項目在一個較好的架構基礎上開展設計。
總之,沒有規劃性的籌劃就不是系統工程,沒有程序性的設計就不是系統工程,沒有風險分析和處置預案就不是系統工程,沒有各階段的評價(含非擁護性評審)就不是系統工程。