編者按
《從加速數字化轉型,到建設質量強國》一文為宗福季教授2022年5月至7月發表于香港科大內地辦“教授專欄”上的文章。經作者授權,本刊分三期刊載,本期為該文第三部分。
如今,不只是制造業,醫療保健、教育、零售、金融服務、銀行、保險、電信、公共服務行業,特別是醫療保健和教育行業在疫情期間都在加速數字化轉型。在這些行業中大數據也面臨著挑戰:以手機生產為例,從產品開發起,到物料進廠、單板加工、焊接插件、單板裝配、老化測試、整機裝配,到最后包裝發貨送到客戶手中,每道工序上的機器都能夠自動采集數據。將機器及采集到的數據與系統數據庫結合,就形成了工業大數據,不過到這一步也只是剛開始。對于大數據而言,我們需要明確目的,是預測、改善質量、做質量控制還是其他一些目的,并據此收集相關數據。此外,在建模中也存在著很多的挑戰。
這些挑戰雖然看起來在向實際應用靠攏,但其次并不限于應用學科。很多問題雖然目的明確且偏向于應用,但是他們的答案往往包含很多理論。具體來說,工業大數據在質量4.0中面對的挑戰如下。
數據完整性的挑戰:我們通常感覺數據很多很全,但實際上絕大多數數據是不完整的。每個產品都有很多工序,在每個環節收集數據的目的也各不相同,比如為了進行庫存管理進行的數據收集等。數據由于收集的目的不同,往往呈現零散的情況,并且不完整。實際生產過程并不是為了統計建模收集數據。因此,在大多數情況下,我們無法獲得所有的相關數據,而如何根據不完整的數據進行統計建模是一個挑戰。

數據質量的挑戰:有些數據收集會比較精確,但是多數時候數據的質量無法控制。這是由于在收集數據時,有時需要的數據比較粗略,只需要用低成本的方法采集,如手寫填表格、目測等方式。即便是最先進的工廠,收集到的數據質量也是有差別的。而不同質量的數據對統計建模造成的影響之一,是導致無法精確建模。數據質量的高低直接影響分析結果的有效性,如果用于企業決策的數據失真,將會導致企業決策與預期目標之間出現偏差。
數據場景的挑戰:數據收集的場景包括數據在何時采集、在哪一條生產線采集、采集人是誰、采集機器是哪種、采集狀態是什么等一系列問題。比如,星期一早上收集的數據與星期五下午收集的數據就可能有明顯差別。這是由于周一上班的人比較懶散、周五下班前的人想匆忙將事情做完導致的。就算是同一個工廠同一條生產線的兩臺一樣的機器,如果購買的時間不一樣,機器的關鍵參數也會有所不同。這些問題都會影響最終的數據判斷,進而影響決策判斷。在互聯網數據的分析框架下,數據場景也許不會分得這么細,但都有具體的質量問題需要解決。因此,數據場景非常重要,而在大部分數據庫中這些數據場景都是缺失的。
領域知識的挑戰:在長期發展中,各行各業的專業知識大量累積,如何將專業知識與數據建模相結合仍是一個亟待解決的難題。數據技術驅動著各領域專家同時扮演數據專家、算法專家及系統工程師的角色,不僅要熟悉本行業本專業的知識,還要掌握數據建模及分析能力。

數據隱私的挑戰:數據隱私對于工業大數據特別重要。通常工業大數據并不是某一個單獨公司的數據,包括了許許多多工序的數據。這些數據有些在供應商,有些在客戶方手中。但是由于數據涉及到企業機密,有些企業可能不會共享數據。企業數據具有資產性質,能夠帶來經濟價值,并且企業可以通過數據在市場中獲取利益。為了獲取競爭優勢,企業往往不愿意共享資源,但為了獲取更多資源又提倡其他主體共享數據。數據隱私不僅僅是道德問題,而且牽扯到其他主體是否愿意共享數據。比如華為手機的制造,涉及產業鏈上的很多企業,如果這些數據不聯合到一起,是很難將工業大數據做到極致的。
樣本稀缺的挑戰:樣本稀缺似乎和目前海量數據的情形相互矛盾。事實上,看起來海量的數據只是一個幻覺。在真正進行數據分析時,我們會發現數據量是不夠的。目前,大多數企業的生產線已經成熟,產品不良率極低,數據分布非常不均勻。以六西格瑪(6 Sigma)級別為例,在每百萬個產品中僅有3個次品。這導致收集的數據中,絕大多數是平穩合格的產品數據,能夠用于改善次品信息的不良產品數據量極少。而建模時針對的,恰恰是不良產品。因此,看似海量的數據中真正有效的數據其實極其稀缺。目前針對數據不均衡情況提出的一些解決方法中,有一些解決數據樣本比例為1∶9問題的方法,但在實際應用中對這種數據極度稀缺且數據維度很高的問題還沒有很好的解決方案。
以上問題可能有些瑣碎,但都是實際存在的挑戰,且這些挑戰對于產業、社會都具有很大影響。如何應對這些挑戰,是值得思考和研究的重點。
展望當今世界,質量大數據的思想已經遠遠超過了工業生產的范疇,在其他領域也得到了廣泛的拓展應用。下面介紹3個大數據應用實例,它們在不同程度上運用了質量4.0、質量大數據的思想,并且對實時數據的運用有較高要求,同時存在著部分尚待解決的挑戰。
實例A:地鐵客流及擁擠度監控
隨著智能城市的發展,公共交通服務如URT系統(城市軌道交通系統),在人們的日常通勤和出行中扮演著越來越重要的作用。例如,香港的地鐵每天承運超過五百萬名乘客。眾所周知,突發事件可能導致異常人員流動,最壞的情況還可能導致踩踏事件的發生。這些突發事件可能包括交通事故、交通管制、慶典活動、抗議活動甚至災難的發生。例如,2014年12月31日上海外灘跨年夜活動曾經發生一起踩踏事件。我們不希望有此類事件再次發生,就需要對人流量與擁擠度進行預測與監控。在這里,強調一定要進行預測,而不是等人流量已經到達警戒線之后再進行警告,那時往往已經太遲。因此,我們需要做到在人流量擁擠到警戒線之前進行預警。
擁擠度預測,對公共交通行業日益重要。我們需要根據乘客流量的數據(進站時間、出站時間、逗留時間等),預測站點發生擁擠的時刻,以便提前采取調流等措施減緩擁擠。在實例中部分站點涉及換乘問題,在建模時也應一并考慮。我們在該項目中獲得了人群進出地鐵口的數據,也就是說我們知道所有人在何時何地進入地鐵站,在何時何地從地鐵站走出來。理論上,我們可以知道人在地鐵站里如何通行,但由于隱私關系暫時沒有獲得這方面數據。我們當時獲得的數據是一個網狀的結構,可以分析在什么時間點、在哪個地鐵站可能造成擁擠。這個問題并不像很多人想象得那么簡單。數據是網狀結構,并不是在某一時間點進站的人多就會造成擁擠,其中包含了換乘乘客與出站乘客。因此,單看進站人數是不準確的,這是一個有趣的建模問題。在這個問題上還有很多內容可以做,比如如果提供了監視器的數據,可以結合不同的數據源對人流量進行預估建模。目前,我們所做的只是一個開端。
實例B:大數據驅動的客戶滿意度指數——在線數據與問卷數據融合
關于工業大數據框架下客戶滿意度的調查問題,起源于密歇根大學早年研發出的顧客滿意度指數模型。這一框架沿用至今已二十余年,廣泛應用于企業、國家層面的顧客滿意度指數調查。早期,該指數模型數據來源于調查問卷,而如今顧客滿意度不僅可以通過問卷獲得,還可以通過諸如社交網絡、網頁平臺等方式獲得。同時,對于企業產品不再局限于給出分數,還可以對其進行評論。這些數據是海量實時的,并且問題的數據輸入可以是問卷調查形式,也可以是在線評論。
目前存在的問題,是如何融合問卷數據與在線數據。數據融合的形式有多來源和多模態形式。多來源表示不同來源的數據形式,而多模態表示不同形態的數據形式。有些人認為可以不要問卷的數據,只用在線數據,這在目前是行不通的。這不僅因為多模態數據比單模態數據能更好地進行評論有用性預測,而且問卷獲得的數據與在線獲得的數據數據源是不一樣的,獲得的信息也不同,用在線數據完全取代問卷數據仍是不可行的。比如問卷調查能收集每個維度的數據,而在線數據只能收集部分維度的數據,有些維度的數據是缺失的。因此,如何進行數據融合仍充滿挑戰。


實例C:山體滑坡安全監測
該項目背景是統計過程監控觀念的延伸。統計過程控制以前只用于生產線的監控,隨著大數據技術的發展,現在可以用于更廣泛的產業。香港在斜坡管理方面做得比較好,設有斜坡管理署專門管理斜坡的安全,因此香港不少房子是修建在半山上的。但如果斜坡管理不好就可能因為土石流——大量巖石、泥土和碎石流下山坡,導致重大安全事故。
監測斜坡安全的傳統方法是定期(一季、一年)挖深洞,以采集土壤數據,研究土壤松弛程度。其缺點是,香港斜坡很多,該方法成本很昂貴,而且獲得的數據不是實時數據。我們提供的新方法是采用基于加速度計的傳感器系統來監測和預測滑坡。具體方法是在現場設置多個傳感器,收集傳感器數據,監測有無地面擾動異常,用于預測滑坡發生,以提前采取措施減少事故發生和人員傷亡。目前,我們收集過一些數據,在地震發生時斜坡監控數據有明顯不同。如何根據數據監控山體滑坡其實是一個很難的問題,因為它并不是純粹的數據監控,還涉及土木專業關于土壤建立的一些模型和一些既有指標。由于需要跟土木專業高度結合,所以數據也需要與相關人員協作探索,與土壤性質、山體性質等要素結合使用。雖然進行滑坡和斜坡監測與預測有不小的困難,但卻是非常有影響力的重要項目。
綜上所述,首先,大數據在工業領域被大量使用,并且其獲取幾乎是“免費”的、低成本的。但我們對這些數據僅僅做了部分淺層的探索,如何運用這些工業大數據是未來所面臨的挑戰之一。
其次,在數字化轉型范式下,質量和質量專業人員都面臨著巨大的機遇。我們可以進一步發掘方法從大數據中創造價值,如數據質量和安全保證、大數據驅動過程和產品質量監控、改進和優化、故障診斷和風險管理、多種非結構化數據源的融合、客戶滿意度管理、智能預測質量等。
第三,盡管工具在不斷發展,數據探索智能化不斷提升,但人的參與對充分挖掘工業大數據的潛力仍至關重要。在數據科學和數據分析領域,尤其是在統計建模和機器學習過程中,人扮演著重要角色。例如,數據可視化、建立決策推斷系統、將質量專家和高層管理人員的專業知識與實際數據相結合等,都對數據的充分挖掘起到了重要作用。
以上三點都非常重要,尤其是第三點。現在智能化是熱點,但在智能化過程中人在扮演什么角色呢?目前,雖然軟硬件不斷進步,但是人仍在兩個方面發揮著重要的功能:一是建立模型,尤其是統計建模、機器學習。如何建立模型、如何進行數據分析,至少在未來二十年之內仍然有很大前景,需要有數據科學專家、統計專家及行業專家將具體場景轉化為智能模型。二是如何將人的專業知識與模型結合起來。各行各業在過去累積了海量的專業知識,如何使用不同方法解決問題、如何將這些知識底蘊與現代數據科學相互結合、人的專業技能如何與人工智能強強互補等,都是需要深入探討的問題。
在質量4.0下,我們面臨的不僅僅是機遇,也有挑戰。工業大數據在質量4.0發展中的重要作用不可估量,而質量4.0又是建設質量強國路線圖上關鍵的一個階段。我們應大力發展質量4.0,通過充分利用工業大數據,發掘數據背后的價值,促進產業的數字化,為建設質量強國及轉型升級提供新動力。
(全文完)
(部分內容已刊登Tsung, F.,"The Application of Industrial Big Data in Quality Innovation in the Context of Digital Transformation",Journal of Macro-Quality Research,Vol. 9, No. 3, 2021.)