潘軍明 陳小泉



摘? 要:數據分析對企業的生產運營具有至關重要的作用。該文以油氣田吊機設備數據為基礎,利用生產過程中所產生的各種歷史數據,采用多種分析模型,從不同角度有針對性地對數據進行分析,得到科學直觀的相關性分析結果,并對設備故障進行大概預測。基于這些分析預測結果,現場人員能夠及時制訂設備預防性維護計劃,降低設備的故障率,為生產決策提供數據支持。
關鍵詞:吊機? 相關性分析? Pandas? Sklearn? 故障預測
中圖分類號:TH215? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1672-3791(2019)04(c)-0051-03
隨著中海油信息化的不斷發展,已經建成了資產管理系統、采辦系統、設備運行管理系統、物流配送等系統,積累了數以千萬計的基礎數據和業務數據。而油氣田現場部署著各種各樣的設備,如何通過數據分析挖掘,給設備管理工作提供指導建議,降低維護成本,提高設備使用價值,已成為公司面臨的一個重大問題。
1? 問題與現狀
在石油勘探開發過程中需要使用到各種機電儀設備,這些設備如果發生故障,需要管理人員進行維護。目前現場只能根據設備的運行時長制訂維護計劃,不能很好的根據設備運行狀態、故障原因,故障次數,維修費用等情況綜合起來預測設備故障趨勢,以便在下一次故障出現前進行提前維護,減少設備關停的次數,增加設備持續運行時間。因此,該次研究有針對性的選擇了吊機為分析對象,梳理出與該設備相關的各類數據,結合實際業務建立數據模型,以大量各種相關數據為基礎,對該設備進行深入分析,驗證算法的有效性和準確性,從而確定設備的總體故障趨勢。
2? 分析過程描述
從工單、物料、服務接收單、運行管理、檢修工時、故障填報等基礎信息中提取5年以來的數據,并進行指標量化(故障次數、維修費用、檢修次數、檢修時長、運行時長)。
Pandas是一個開放源碼的Python庫,它使用強大的數據結構提供高性能的數據操作和分析工具。利用Pandas可以完成數據處理和分析的五個典型步驟,加載,準備,操作,模型和分析。利用pandas及作圖工具對故障次數與其他屬性(指標)進行探尋獲得如下圖形。
通過數據初探發現圖1~圖3與圖4(線形回歸)比較接近,尤其是故障次數/檢修次數與圖4(線形回歸)最擬合。
3? 分析與預測
3.1 相關分析
相關系數是用來刻畫二維隨機變量兩個分量間相互關聯程度。利用python 數據分析包pandas 中求相關系數方法Corr()進行分析。
通過相關分析得出如圖5所示結果,故障次數與自身相關系數為1,與隱患次數相關系為0.39,與檢查次數相關系為0.97,與檢查時長相關系0.81,與維修費用相關系數為:0.73。當得知各個屬性(指標)與故障次數的相關系數后,可通過關聯度較高的檢查次數、檢查時長、維修費用來側面觀察設備的故障發生次數。
3.2 預測分析
sklearn和pandas一樣是一個開放源碼的Python庫,支持回歸,分類、聚類等強大的機器學習庫。該次將利用sklearn內置的回歸模型進行吊機設備的分析和預測。
進行回歸分析(線形回歸),需要將數據劃分為兩份數據集,一份用于訓練,一份用于對訓練結果的檢測(測試數據),各自占數據總體比例分別為75%、25%,其數據集劃分如圖6所示。
從構造數據集和創建預測模型,輸出預測結果完整代碼如圖7所示。根據圖7輸出結果:預測故障次數為2,與實際故障次數3比較接近。
對于預測模型的好壞,以均方誤差作為評價標準:其值越接近0模型越優良。模型評測效果:如圖8 輸出的均方誤差1.733表示該模型很優秀。
4? 結語
通過吊機設備的分析后發現,故障次數和查次數、檢查時長、維修費相關性較強尤其是與檢修次數相關性較為接近,基本上都是線形相關。通過檢查次數和隱患次數可對故障次數進行線形回歸預測,其模型均方誤差值較小,預測的故障次數與實際故障次數比較接近,基本達到對吊機故障的分析預測。
參考文獻
[1] 萬倩,謝峰,趙明. 基于大數據的設備故障預測[J].廣播電視信息,2016(11):71-73.
[2] 續媛君,潘宏俠.設備故障趨勢預測的分析與應用[J]. 振動、測試與診斷,2006(4):305-308,333.
[3] 王致杰,王耀才,李冬.現代大型設備故障智能診斷技術的現狀與展望[J].煤礦機械,2003(7):102-104.
[4] 何春燕,王超宇.基于python+pandas的數據分析處理應用[J].數碼世界,2018(7):386.