辛金國,龔 愷
(浙江省信息化與經濟社會發展研究中心,杭州 310018)
物聯網作為一種新的信息獲取方式和信息處理模式,將邏輯上的信息世界與客觀上的物理世界聯系起來,改變了人類采集數據的方式,實現了物理世界、計算世界以及人類社會三種世界的連通,它將會對統計數據的采集帶來深遠影響。未來的統計數據采集如果能和物聯網相結合,為工業統計提供可靠的數據來源,將大大提升統計工作效率和數據質量。目前很多工業企業統計數據采集還是停留在采用傳統的方式收集,不僅很多數據無法通過人工采集得到,比如光、熱、電以及一些微量生產要素的投入量等數據,而且通過人工收集到的數據其時效性,完整性和準確性等方面都存在不足。而通過傳感器感知為基礎的物聯網技術能夠解決統計數據高效、準確、實時采集問題,以便讓政府相關部門根據感知信息精確快速地做出決策、采取行動,其實踐意義十分重大。
為了了解基于物聯網技術的企業統計數據采集的應用現狀,課題組成員對有關企業和地方政府統計局相關人員進行訪談和實地調查。走訪對象包括杭州娃哈哈,天津康師傅,寧波精華檢具等。現在企業生產過程中的有關物聯網數據采集技術主要有條形碼技術、磁技術和RFID技術。傳統的手工采集數據已無法適應工業信息化的腳步,而條碼符號制作容易,掃描操作簡單,信息采集速度快,設備結構簡單,成本低,在大型超市和物流系統中有著廣泛的運用。RFID技術相比條形碼技術,擁有諸多優點:可容納較多容量、通訊距離長、難以復制、對環境變化有較高的忍受能力。
一些大型工業企業開始有了自己的工業統計報表制作系統或者軟件,可以方便員工快速地錄入查詢和處理數據,加上傳感器技術的進步和RFID技術的標準化帶來的智能化數據采集,報表制作流程開始變得自動化和標準化起來。目前工業企業廣泛應用的是SCADA(數據采集與監控控制)系統,SCADA鏈接工廠車間每一個獨立運行的工具設備與工廠制造執行系統MES之間的通信,自動采集數據并實時反饋,為計劃控制和動態調度提供及時、準確的信息支持。
在國內外研究文獻的基礎上,結合訪談和調研實際情況,初步擬定影響因素。如圖1所示。

圖1 物聯網技術采集數據影響因素的關系模型
1.2.1 企業自身因素的影響
不同類型的企業在管理模式上有一定的差別,在進行物聯網應用過程中也會有所差異;信息化是物聯網技術用于數據采集的基礎,是物聯網技術在工業統計中應用的基礎性影響因素。單位領導對統計重視程度則體現在是否重視現代科學技術在統計工作中的應用以及統計工作經費投入的多少等,這在很大程度上影響企業實行物聯網技術數據采集的可能性。企業統計人員的工作能力、技術水平會影響物聯網數據采集技術的應用效果。
1.2.2 物聯網技術應用因素的影響
物聯網三層架構之間互相開放,協同工作,是物聯網運行的基礎。另外,物聯網覆蓋的技術領域非常廣泛,需要有一套統一的標準作為規范,我國物聯網正處于制定標準和建立平臺的初級階段,目前主要缺乏接口和數據模型的標準化,很大程度上影響了物聯網技術的應用發展。同時,傳感網的建設要求預先將射頻識別標簽嵌入相關的物品中,這可能導致企業或者個人的隱私權問題受到侵犯,如何確保標簽物的擁有者隱私不受侵犯便成為物聯網技術在統計數據采集中應用的關鍵問題。
1.2.3 外部環境因素的影響
(1)政府相關部門信息化程度
物聯網數據采集的一個優勢是促進政府各部門間資源共享、業務協同,分散應用的發展模式已經不能適應新形勢下物聯網技術應用的需求,唯有在高度信息化的公共構架下整體推進整合現有系統資源,才能真正實現物聯網技術在統計數據采集中的全面應用。
(2)政策法規保障體系
物聯網應用需要整合社會各方力量,共同支持。一項工作多部門同時管理,或者被切分為幾段分別管理,是物聯網建設推進的困難之一,需要有一套與物聯網應用相適應的政策法規保障體系,保障物聯網發展。觀念守舊、政策法規的不完善及網絡信息安全等種種問題,都將影響物聯網技術在統計數據采集中的應用。
問卷的設計主要是采用李克特五級量表法。通常五級量表的內部一致性較好,問項級別較多會使調查對象難以做出選擇,較少則會使得量表不夠精確。本研究的選項主要是“少”、“較少”、“一般”、“較多”、“多"或“無”、“較低”、“一般”、“較高”、“高”進行衡量,分別給 1~5 分的評價。
本次問卷發放的對象是工業企業中從事與統計、財務或者生產管理有關的工作人員,調查對象所在企業有哇哈哈、康師傅等大型企業,也有寧波精華檢具等中型企業,地域分布上有杭州、寧波、舟山、深圳、廣州、中山等城市,共發放正式問卷150份,回收問卷136份,經過預處理后,其中有效問卷124份。問卷回收率為90.7%,有效率為91.2%。
(1)兩步聚類算法:檢驗異常值。
(2)信效度分析:本研究采用Cronbach'sa系數測量量表總體信度和各分量表的信度。
(3)獨立樣本T檢驗:對受調查者所在企業的性質進行獨立樣本T檢驗以研究其是否對可行性有顯著影響。
(4)Multinomial logistic回歸分析:分析企業自身因素、物聯網數據采集技術及外部環境的影響程度。
2.3.1 異常值檢驗
首先采用兩步聚類算法對數據進行異常值檢測,通過Clementine12.0實現,閾值的選擇是基于最小異常指數水平為2,調整系數設置為6.0,噪聲水平和噪聲比率分別按照默認值,執行數據流后,結果如表1所示。

表1 兩步聚類算法異常值檢測情況
經過數據的預處理,對缺失數據的分析研究以及異常點檢驗分析,使得數據集變得更加完整,在此基礎上來討論物聯網技術采集數據的影響因素。
2.3.2 數據處理
(1)問卷信效度分析
通過對問卷的12個問題進行KMO及Bartlett球形檢驗,如下表2所示,KMO指數為0.822>0.7,且球形檢驗顯著,適合進行因素分析。通過主成分因子分析方法,提取了4個公因子,經過方差最大正交旋轉得到因子成分矩陣,與之前預調查時所提取的成分一致,進一步說明本問卷的結構效度良好。同時,通過對問卷信度的分析,可以看到,問卷總體的Cronbach's α系數為0.814,信度較高,各成分內部一致性信度也達到可接受范圍,因此,說明本問卷具有較好的內部一致性信度。

表2 效度檢測
(2)因素分析
①不同行業的企業對物聯網采集數據技術應用的影響。不同行業的企業在管理模式上有一定的差別,在進行應用過程中也會有所差異。表3是獨立樣本T檢驗的方法對不同行業的企業應用過程中的可操作性上的差異,可操作性是檢驗變量,是否為高新技術企業是分組變量。

表3 獨立樣本T檢驗
原假設為是否為高新技術企業對應用可操作性有顯著影響,這里Sig(雙側)值為0.16,大于0.05,檢驗結果為接受原假設,認為企業是否屬于高新技術對應用有顯著影響。而且均值差為-0.48顯著,高新技術企業在物聯網技術應用上的可操作性顯著高于非高新技術企業。
②企業領導重視程度對物聯網采集數據技術應用的影響。領導重視程度是進行物聯網采集技術應用的決策動力。選擇檢驗方法為雙向有序列聯表卡方檢驗,橫向為領導重視程度,縱向是可操作性。表4是雙向有序列聯表卡方檢驗結果。

表4 卡方檢驗
檢驗結果顯示,卡方、似然比的Sig值都大于0.05,接受原假設,認為企業領導重視程度與物聯網應用有顯著線性關系。
③物聯網采集數據技術應用影響因素的多項Logistic回歸分析。通過前文分析中得出的企業自身、物聯網數據采集技術應用的價值和政策制度這三方面的7個變量建立logistic回歸模型,本研究在處理過程中采用了進入回歸的方法,將操作性“高”設置為基準參照類別,通過clementine 12.0建立數據流。回歸模型結果如表5所示,根據物聯網采集數據技術應用的多項Logistic回歸分析結果,可以得知:
物聯網三層架構的開放性(F1)指標的Wald統計量分別在這三類可操作性上都呈0.05水平顯著,其中在“一般”與“較低”上呈0.01水平顯著,說明物聯網三層架構的開放性對有物聯網采集數據技術應用有顯著性影響,與可操作性“高”相比較,如果物聯網三層架構開放性越高,那么物聯網采集數據技術應用可操作性的傾向越高。
政府部門支持力度(F2)指標的Wald統計量分別在這三類可操作性上都呈0.05水平顯著,說明政府部門支持力度對物聯網采集數據技術應用有顯著性影響,與可操作性“高”相比較,如果政府部門支持力度越大,那么物聯網采集數據技術應用可操作性的傾向越高。
企業信息化程度(F3)指標的Wald統計量分別在這三類可操作性上都呈0.1水平顯著,說明物聯網采集系統網絡層關鍵技術完善程度對有物聯網采集數據技術應用有一定顯著性影響,但是不是特別顯著,與可操作性“高”相比較,如果企業信息化程度越高,那么物聯網采集數據技術應用可操作性的傾向越高。
物聯網標準化水平(F4)指標的Wald統計量分別在“較高”、“一般”可操作性上呈0.1、0.05水平顯著,說明物聯網標準化水平對有物聯網采集數據技術應用有一定顯著性影響,但是不是特別顯著。
企業領導重視程度(F5),企業統計人員素質(F6),物聯網安全(F7)指標的Wald統計量分別在這三類可操作性上都呈0.1水平不顯著,說明這三個指標對于物聯網采集數據技術應用沒有顯著性影響,影響較小。

表5 物聯網采集數據技術影響因素的多項Logistic回歸分析
本研究采用clementine 12.0進行建立數據流,同時得到物聯網采集數據技術影響因素的多項Logistic回歸分析的變量重要性結果,如圖2所示:

圖2 多項Logistic回歸分析的變量重要性
由圖2可知,對物聯網技術采集數據應用的影響因素中,重要性從大到小依次為物聯網三層架構的開放性,政策法規的健全,企業信息化程度,物聯網標準化水平,企業領導重視程度,企業統計人員素質,物聯網安全。
本文從企業自身因素、物聯網技術應用和外部因素三方面詳細分析了對統計數據采集的影響,實證結果表明物聯網三層架構的開放性、政策法規的完善、企業信息化程度、物聯網標準化水平和企業領導重視程度是物聯網技術采集數據應用的主要影響因素。根據模型分析結果,提出以下一些建議。
(1)企業應進一步提高信息化程度。企業應將前瞻性的統計管理思想與技術手段融入物聯網數據采集系統中,通過可配置的模塊化組合契合企業統計數據采集的需求,實現功能性與易用性同步,最終將物聯網數據采集系統建設落到實處,提高企業統計數據采集的質量。
(2)政府統計部門應及早統一規劃,推進物聯網技術在統計工作中的應用。基于物聯網技術的統計數據采集系統的核心就是三層架構的建設與管理,政府相關部門應該及早規劃,根據不同層面的要求,不斷完善技術,按照統計部門統計數據采集平臺的架構,引導企業搭建統一的統計數據采集平臺,便于政府統計部門的各類業務系統整合建設和利用。另外要制定物聯網技術的統一標準。
(3)加強物聯網技術在統計應用的相關法制建設。政府相關部門應完善相關法律法規,建立物聯網數據采集系統監督制約機制,保護物聯網數據采集系統的安全、健康、持續有效地發展。具體而言,首先為基層順利開展物聯網統計數據采集工作提供法律保障;其次,對不重視物聯網技術應用的企業,應當及時與之溝通聯系,幫助其提高認識水平。
[1]Kevin-Ashton,Sanjay-Sarma,David L.Brock.The Networked Physical World[R].Auto-ID Center White Paper,2000.
[2]Melon S.Toward A Global Internet of Things[R].SUN Corporation,2003.
[3]International Telecommunication Union.ITU Internet Reports 2005:The Internet of Things[R].Geneva:ITU,2005.
[4]Klein B,Rossin D F Data Errors In Neural Network and Linear Regression Models:An Experimental Comparison[J].Data Quality,1999,5(l).
[5]辛金國,王淵.基于云計算的統計數據網絡直報系統的探索[J].統計與決策,2014,(04).
[6]李金昌.論什么是統計數據質量[J].統計與決策,1998,(09).
[7]辛金國,柯芳,李紹君,夏靜波.數據挖掘技術在經濟統計中的應用探索[J],統計與決策,2009,(9).
[8]朱達欣,蔡丹琳.信息管理與信息系統專業建設芻議[J].計算機教育,2008,(4).
[9]陳如明.信息化及應急通信與無線城市融合發展策略思考[Z].甘肅蘭州,2010.
[10]孟祥茹,張金剛.EPC及物聯網在我國推廣應用的對策分析[J].江蘇商論,2009,(1).
[11]初蓓,賈志琦.影響統計數據信息質量的原因及對策[J].科技情報開發與經濟,2005,(3).