商允偉 梁娜
運用大數據理念,從質量狀況信息搜集、數據利用等角度是改進質量狀況分析的有效途徑。
產品質量狀況分析是質量安全監管的基礎,是對一定時期內一定范圍內的產品質量現狀、趨勢、特點等進行分析,以便有針對性地采取監管措施或提出消費建議等。本文運用大數據理念從質量狀況信息搜集、數據利用等角度探討了進一步改進質量狀況分析的途徑,并給出了有關建議。
我國采取分段與分類監管相結合的方式實施產品質量監管。各有關管理部門會定期對轄區內、管理范圍內的產品質量狀況進行分析,在此基礎上采取有針對性的管理措施。質監、工商、食藥監、出入境檢驗檢疫、農業、旅游等管理部門及有關的行業協會等都會定期組織開展相關的質量狀況分析并發布質量報告。
但是,我國企業數量眾多、產品類目廣。據不完全統計,全國有生產制造類企業七百多萬家。產品種類繁多,國家標準《全國主要產品分類與代碼:可運輸產品》(GB/T 7635.1-2002)列入產品類目約50000多條,其中列入產品品種或產品類的約40000多個。顯然,任何部門或機構所進行的產品質量狀況分析都不可能覆蓋某一區域的全部企業或者某一類目的全部產品。質量狀況分析一般都是基于一定時期內檢驗檢測、行政執法、統計調查數據進行的。從統計學角度看,如果在開展質量狀況分析時能夠獲取更多的相關信息并加以充分利用,則分析結果的深度、廣度都將有較大的改善,分析結果會更接近真實的狀況。
當前產品質量狀況分析的局限性及原因
雖然多個管理部門都定期開展質量狀況分析,但受客觀條件的限制,數據量和覆蓋面不夠寬,一般是針對一定區域、某些類目的產品抽樣檢驗結果的分析,缺乏較為全面的質量狀況分析、或某類產品的全景式狀況分析。究其原因,主要有以下幾個方面的因素。
信息來源少,未建立有效的信息共享方式。雖然近年來國家一直在推動政府信息公開和部門間信息共享,但由于對信息公開的數據格式、所包含的具體內容未做出明確要求,部門公開的信息都是統計分析結果,未公開原始數據,且大多是文本信息,這些數據對其他部門來說一般沒有再次深入分析的價值。
缺乏統一的技術標準。目前各部門監督抽查、行政執法等工作產生的產品質量相關數據,尚缺乏統一規范的數據標準。
數據管理和處理手段不足。信息技術在社會管理、公共服務等方面的應用尚處于實踐階段,除去行政管理上的因素外,信息結構化程度低、缺乏數據關聯分析比對分析、統計調查信息采集和挖掘分析技術手段不足是重要的制約因素。
缺乏頂層設計。近年來各地陸續制訂了政府數據資源共享管理辦法,但管理辦法中,原則性規定多,尚未明確部門間信息共享的范圍和使用方式。由于沒有建立部門數據資源清單和數據標準,無法實現數據資源的統一匯聚和集中分析。
產品質量監管的數據資源需求
從信息產生、所有權歸屬的角度看,產品質量所涉及的信息主要有:
政府部門。發改、工商、質檢、工信、統計、商務、食藥監、農業、衛生等部門通過行政許可、行政執法、監督檢查、調查、統計分析等積累了大量數據。其中既有結構化數據,也有非結構化數據,其特點是數據質量和可靠性高。
檢驗機構。各類檢驗機構中積累了大量的產品質量檢驗數據,其中包括各級政府部門委托的監督抽查、市場抽檢、質量狀況調查等檢驗數據,也包括企業委托檢驗數據、質量仲裁、司法鑒定等信息。
社會中介組織。各行業協會、研究機構通過調查、檢驗、搜集、分析得出的有關產品質量信息。
生產加工企業。生產加工企業內部積累了大量的產品質量檢驗信息、驗貨信息等。這類企業產品質量控制信息具有較強的私密性,企業缺乏共享這些信息的意向。
銷售企業。這些企業積累了大量的驗貨、消費者投訴信息。傳統銷售企業的這類信息比較分散,結構化程度低。近年來快速發展的電商積累了大量的信息。由于電商自身對此類信息的分析有明確的需求,實時性要求也高,此類信息較規范,易于統計分析。
消費者投訴舉報信息。消費者通過網站、媒體等關于產品質量的投訴舉報信息。這類數據的類型多,包括語音、視頻、圖像、文本等。由于來源雜,信息未經調查分析,信息的可用性、可靠性低。
上述信息中,信息來源、加工、歸屬不同,信息的質量、有效性、可信度不同。產品質量狀況分析的目的是通過對一定區域內某些類別的產品質量數據進行統計和分析,評估產品的質量狀況和發展趨勢,政府部門據此采取有針對性的監管措施,為制訂產業政策、規范產業發展提供科學依據。這與生產或銷售企業針對某一具體品牌型號的產品所做的質量分析不同,需要對一定區域、某一類別(或全部、某一具體產品)進行整體分析,以掌握整體質量狀況。由于是采用部分樣本分析整體質量狀況,在數據質量(可信度、準確性)一定的情況下,納入分析的有效數據量越大、信息的質量越高,分析結果越接近真實狀況,給出的結論才會更科學。因而盡可能搜集、使用可獲取的信息,將大數據分析技術應用于產品質量狀況分析,可提高統計分析的有效性。
產品質量狀況分析中大數據的應用方式
開發并應用統一的信息系統或對部門在用的信息系統按照統一的數據標準進行整合,可以較方便地實現信息資源共享和綜合利用。但這種方法的困難和問題也是顯而易見的:制訂并應用統一的數據標準并對在用信息系統進行改造或整合需要逐個部門實施,周期長,工作量大;如果整合各部門的需求再規劃統一的信息系統需要重新部署應用新系統,很難照顧到各部門自身的管理需求。這兩種方式都需要巨大的投入、較長的實施周期、強有力的行政推動力。本節探討在不進行新的信息系統開發、大的經費投入前提下,充分利用各類信息資源進行質量狀況分析的方式。
高效處理結構化和半結構化數據
前述的信息中,來源、準確度、可靠性、與質量分析的緊密度不盡相同。有效利用這些信息,必須將“大數據變小”,即通過抽樣、去重、過濾、篩選、壓縮、索引、提取元數據等數據變換方法,將其中有價值的信息提煉出來。
充分利用現有的結構化數據。業務信息系統中的數據一般是結構化、半結構化數據。應通過建立完善數據資源目錄體系和數據元標準,實現業務系統間的信息資源共享。
建立有效的數據表示方法。根據信息分析需求,通過抽樣、索引、提取元數據等方式建立半結構化、非結構化數據的有效表示方法,以便有效管理、利用這些數據。
在相關數據間建立固定的模式、因果聯系和關聯。不同來源的質量信息由于采用的產品編碼、檢驗標準、數據元標準不同,無法直接加以利用。必須在不同類型數據、不同來源數據間建立關聯關系,從而實現多來源數據的篩選、提取、歸類和統計分析。
推動數據標準化
統一的數據標準是信息共享的基礎,在信息系統開發和應用過程中,應著力加強建立產品分類代碼、檢驗檢測標準的標準化工作。
對于產品編碼來說,目前主流的幾種產品編碼體系均有廣泛應用,不可能在短期內合并為某一種標準編碼。就近期應用看,可以根據監管工作需要,分析日常監管、重點監管的產品在不同編碼體系中的編碼情況,通過索引表、關聯關系表等方式在不同編碼體系間建立關聯關系,從而使不同編碼體系下的產品質量檢驗檢測數據、質量信息等建立關聯。
對于不同的產品質量檢驗標準來說,可以首先對產品標準進行結構化解析,在此基礎上建立格式化的檢測數據管理方式。對于已有的產品質量檢驗報告可以通過格式化解析、檢驗項目關聯等方式,將非結構化、半結構化的產品質量檢驗報告轉化為結構化的檢測數據。
縱向共享利用優先
由于行政管理具有縱向上下對應的特點,因而業務信息也具有縱強橫弱的特點,即縱向信息流暢通,而橫向部門間信息交流少。根據這一特點,可以優先考慮綜合利用同一業務系統內部的信息,再推廣到其他部門。
就產品質量狀況分析而言,各級產品質量監管部門都安排了監督抽查工作,獲取了大量的監督抽查信息,但各部門在進行質量狀況分析時,一般僅就本部門安排的監督抽查獲得的質量狀況數據進行分析。如果產品質量監管部門在進行質量狀況分析時,統籌考慮本部門和下級部門掌握的質量信息,則分析所依據的樣本量、檢測數據量將有較大的提高,分析得出的數據更接近實際。同時,這種數據利用方式是在同一業務系統內部自上而下進行信息擴充,由于業務管理模式基本一致,其數據格式較為一致;另外,由于是在同一業務系統內部進行數據整合利用,所需的行政成本也較小。
依此類推,按照業務聯系緊密性,將信息共享范圍推廣到業務聯系較為緊密的出入境檢驗檢疫、工商等部門。對于質量狀況分析這種對于數據實時性要求不高的數據共享需求,通過離線數據交換即可滿足要求。
以社會化治理的視角開展質量狀況分析
質量安全是社會問題,不能僅靠某一個部門來完成。對于質量狀況分析這一具體工作,也必須跳出部門羈絆,以社會化治理的視角來梳理各有關部門的業務,統籌考慮各類信息和數據的采集、分析、共享。這就需要在各地域、各部門、協會和機構間共享信息,同時吸收全社會的參與。大數據再“大”,如果不能有效的分析利用也不能發揮作用。要以大數據的思維形成開放、協同、合作的工作機制。
加強基礎業務信息的搜集和管理,實現業務流與信息流的同步。創新業務管理,以數據為驅動,業務事項辦理過程中同步形成業務信息,積累可靠的數據。例如,有的單位在安排產品質量抽查任務時,僅僅要求檢驗機構提供分析報告,而忽視了基礎檢驗數據的搜集和匯總,非結構化的分析報告顯然不如顆粒化檢驗數據的價值大。
建立跨部門的信息共享機制。目前各級政府都在積極推動部門間信息資源共享,也制訂了相應的規章制度,但尚未建立完善的信息資源目錄和開放數據資源清單,未明確信息開放共享的范圍。在這些工作取得實質性進展前,可以借鑒政府信息公開條例的有關要求,凡是業務工作中產生的數據,除保密和不宜公開的信息外均應向同級的其他政府部門無條件開放(業務數據開放為慣例,不開放為特例),信息接受方在使用前明示信息用途,履行保密義務,以使寶貴的業務信息數據充分發揮作用。
建立高效的溝通協調機制。各級政府的綜合性管理部門,如政府辦公廳(室),牽頭建立跨部門信息共享協調機構,相關部門明確責任部門,負責協調部門間信息獲取、交換、使用中遇到的具體問題。定期通報各部門提供其他部門共享的信息情況,促進部門間業務信息的開放和跨部門信息共享。
關于跨部門信息利用可能產生的責任問題。大數據的4V特征之一即其價值總量高但價值密度低。由于不同來源的信息采集時間、方式、渠道、格式不同,信息提供方提供的信息不一定完全滿足使用單位的要求,部分信息也可能存在錯誤、過期等問題,因而需要使用方對信息進行交叉比對、校核。有的單位由于對自身掌握的信息準確性心存疑慮而不愿與外部門共享信息。在質量信息共享過程中不應將使用錯誤、過期數據可能帶來的風險回溯到信息提供單位,以推動部門間開放共享有關信息。
(作者單位:山東省質量技術監督局信息中心)