胡家明
(貴州高質云檢信息科技有限公司,貴州 貴陽550000)
目前檢驗檢測在全球范圍內已經建立了完整的產業鏈,以美國、歐洲、日本為代表的發達國家基本上主導了全球范圍內的檢測儀器設備與檢測服務認證相關業務,并在國際貿易中承擔著重要的第三方檢測服務角色。當前我國由高速發展向高質量發展過渡,在發展過程中檢驗檢測機構作為標尺的重要作用,但作為現階段的檢驗檢測行業,處于發展的瓶頸期,如何擺脫傳統技術束縛,成為了當下的熱點話題。本文設計采用大數據架構,結合互聯網、無線通信等技術將實驗儀器采集到的數據上傳至云平臺,保證了數據的準確性、實時性和可靠性,大大提高了檢測機構的辦公效率和公信力。
設計需要以檢測機構中實驗室檢測數據作為數據源,將海量數據提供給運營商實現應用系統功能開發。下面介紹實驗室檢測數據如何具體作為數據源提供給大數據平臺,實驗室儀器用于檢測分析送檢產品含量超標,將檢測的數據通過RS232 總線發送至PC 機上,PC 機應用軟件將生成的PDF 文檔數據提取出特征數據通過無線傳輸方式發送至前置機,而前置機一方面將數據發送至阿里云OSS 作為數據備份存儲,另一方面將數據發送至大數據平臺提供數據分析、數據接口、數據查詢和數據交換等服務,從而在應用層實現在線認定、在線檢測、在線報告等遠程服務(如圖1)。
在以往中的大數據架構中需要導入大量復雜數據,再借助kappa 架構或lambda 架構對數據進行建模分析、提取出有價值的數據,但對于檢驗檢測機構這是不適用的,不同檢測機構中的不同實驗室儀器生成的數據表格很難統一,存在很多差異,這對于在大數據平臺實現數據處理難度非常大,所以在檢驗檢測的大數據平臺搭建中數據處理在數據源就已經完成。各種儀器生成的PDF 文檔數據在PC 端就實現數據引入、處理和分析,然后發送至前置機再轉入云端實現流處理和批處理,通過數據作為平臺業務支撐引入其他服務。信息化平臺搭建需要的主要有數據源、數據存儲、實時信息引入、批處理和流處理下面逐一介紹模塊。

圖1 總體框架圖
數據是整個大數據平臺架構的基石,為信息化平臺提供各種服務支持,本次設計檢驗檢測信息化平臺的搭建使用的數據源以實驗室儀器檢測出的數據,數據源主要包括:報告時間、試樣ID、稀釋倍數、檢測含量以及相關性等。
檢驗檢測機構每天處理海量數據,將數據備份存儲,建立Web 服務器日志文件保證數據的可靠性、安全性便于后續查詢,設計將實驗室PC 機生成的PDF 文檔數據發送至前置機再轉發至阿里云OSS 服務器實現數據存儲隨時查看上傳數據是否失真。
實時性是大數據信息化平臺的一個重要標準,將數據放入緩存區,確保在規定的時間內發送。檢驗檢測機構每天都會生成大量的數據,利用Python 腳本實現PDF 文檔數據特征提取發送至前置機,通過前置機發送至數據分析平臺在提升數據的安全性上,保證了數據的實時性。
由于實驗室檢測數據集是海量的,因此大數據信息化平臺的解決方案通常必須使用長時間運行的批處理作業來處理數據文件。本次設計改進處理方式能夠保證在上傳文件不丟失的基礎上實現實時性,提升批處理文件效率。

圖2 大數據信息化平臺結構圖
實驗室儀器在PC 機上生成的PDF 文檔數據通過解析形成Json 格式的數據發送至前置機,再由前置機通過Http 協議的POST 請求發送實現數據的實時處理。
數據傳輸方式分為有線跟無線方式兩種,在實驗室采用無線通信方式。無線通信一方面減少實驗室網絡布線,保證原來實驗室儀器布局。另一方面降低了成本,每臺PC 機都連接上網線則需要在每一個實驗室安裝6 口或8 口網口交換機同時需要將網線鋪地或鋪過墻的方式需要大量的網線布置。本次設計采用無線通信方式實現數據發送,每個檢測機構通過配備的前置機與云端建立數據通信。

圖3 實驗室數據發送方式
WiFi 網絡通信:
實驗室PC 機與機房中的前置機通過無線傳輸方式實現數據通信,設計使用最常用且性價比較高的WiFi 傳輸方式。在傳輸方式上又分為兩種模式:AP、STA、AP 混合STA。AP 模式為無線接入點,以一個無線路由器作為網絡的中心,接入AP 模式下的設備能夠相互訪問連接,STA 模式由一個AP 和許多STA 組成,AP 作為無線網絡的中心完成STA 信息的轉發,STA 設置Client 實現com數據與WiFi 網絡數據的相互交換。本次設計采用STA 模式實現各個實驗室PC 機相互通信,通過在實驗室放置WiFi 路由器覆蓋整個檢測機構設置實驗室PC 機使之都在同一IPV4 頻段下,這樣做的目的是與機房中的前置機實現數據通信。

圖4 WiFi 網絡
傳統實驗室儀器采集的數據發送給PC 機生成PDF文檔數據,然后再根據手動方式輸入特征數據打印產品檢測報告,這樣顯然不能滿足現代化處理方式。通過使用OCR(Optical Character Recognition,光學字符識別)字符識別的手段翻譯成計算機文字。對于OCR 識別一般采用的識別軟件將圖片中的文字轉為文本格式。本次設計利用python 腳本語言使用pdfplumber 識別框架,該框架能夠對文字、表格、數據特征提取。同時使用pyQt5 設計界面,便于實驗室人員操作。
PDF 文件主要有四個部分:文件頭,對象集合,交叉引用表,文件尾。在解析的過程中先解析文件尾,得到交叉應用表以及根對象編號,將這些再逐層解析文檔內容。解析中需對文檔內容對象進行分析,如果是直接對象就直接存儲實際內容,間接對象通過指針尋址。
實驗室儀器采集數據發送PC 機會生成一個PDF 文檔,在PC 機上生成的PDF 文檔數據直接發送至大數據信息化平臺處理對云服務器和運行算法都很難實現,設計采用在本地完成數據采集、處理和發送減輕云服務器的運算負擔。通過python 腳本代碼使用pdfplumber 庫實現PDF 文檔轉為文本格式數據,再使用正則方法提取不同的數據內容。
對于實驗室人員需要使用人機操作界面完成一鍵操作。實現的需求有當點擊界面發送按鈕自動將指定路徑下的PDF 文檔數據完成解析,將解析過后的數據發送至另一個路徑完成保存,然后將解析后的數據進行特征數據提取詳情顯示,一般的顯示內容有進樣名稱,采集儀器、采集方法等,與此同時將特征數據與對應的文檔內容發送至前置機。設計加入容錯機制,使用線程方法不斷讀取路徑下文檔設計界面設置三個指示燈,默認為全黃色。當運行時,第一個指示燈綠色表示PDF 文檔解析成功,第二個指示燈變為綠色表示發送前置機成功,第三個指示燈變綠色表示數據發送云端成功。

圖5 PDF 基本組成

圖6 人機操作界面
基于pyQt5 設計的人機操作界面在上實驗室PC 機運行,操作步驟第一步將數據存儲在指定的文件夾路徑且名字不可設置與之前相同文件名,第二步雙擊生成好的exe 應用程序,第三步點擊開始解析。完成以上操作運行過程會根據指示燈顯示,指示燈全部為綠色表示成功入庫,同時在詳情中顯示提取PDF 文檔的特征數據(如圖7)。
搭建檢驗檢測信息化平臺依托大數據實現數據可視化,平臺上設計了多種多樣的功能幫助檢驗檢測人員簡化送檢流程提高工作效率,主要功能有日志管理、緩存監控、任務軌跡、流程管理、表單設計、表單管理等功能。下面對這些功能進行逐一介紹:

圖7 界面運行結果
(1)日志管理功能:對平臺采集過的數據進行云存儲,做到檢驗檢測進行的每一步都有跡可循、有據可依,存儲方式安全,數據不會遺失。
(2)緩存監控功能:對平臺采集的數據和實驗室環境進行實時監控,如果采集的數據或者是實驗室環境出現問題可以第一時間發現,極大的提高了采集數據的高效性和實驗室的安全性。
(3)任務軌跡功能:對已完成和正在進行的項目進行軌跡追蹤,方便工作人員通過數據可視化直觀的看到項目的進行情況。
(4)流程管理功能:對不同的檢測任務流程進行監控,可以實時的監控到不同任務的工作情況以及工作進度并且可以對正在進行項目流程進行調整,方便檢測人員管理項目。
(5)表單設計功能:根據需要,可以在線對采集的數據在線生成合適的表單,編輯方式靈活多變,可以滿足多種數據格式要求。
(6)表單管理功能:對已生成的表單進行大批量管理,可以對已有的表單進行刪除、提交和修改。
實現檢驗檢測機構資源整合,建立在線送檢,實現傳統檢測機構與互聯網結合,提高檢驗檢測機構的信息化水平和檢測服務能力,檢測過程信息化、檢測儀器物聯網化、檢測結果報告數字化,確保數據檢測的各環節全程可控制。促進大數據行業發展。檢驗檢測認證公共服務平臺的建設與大數據的發展緊密相連,平臺收集各個渠道的檢測業務數據,經過大數據分析,精準的為政府工作提供有效的決策,也更好的規范檢測業務行業。促進高新區業務發展。大數據信息化檢驗檢測、認證資源將通過平臺實現共享,為打造以省高新示范區企業產品研發、生產和使用提供檢驗檢測與認證的“一站式”服務。