李 恒
(洛陽理工學院,河南 洛陽 471023)
在2012年的瑞士達沃斯世界經濟論壇上大數據是一個重要主題,與會者發布了題為《大數據,大影響》(Big Data,Big Impact)的報告。《紐約時報》在2012年2月發表了《大數據的時代》(The Age of Big Data)的文章。2012年10月的《哈佛商業評論》中一半以上的內容和大數據相關。徐子沛的《大數據》,舍恩伯格的《大數據時代》和《刪除》等也對大數據及其影響、大數據的分析等內容進行了介紹。《人民日報》也發表了多篇關于大數據的文章,如“2013被稱為大數據元年:數據就是資源”“當‘大數據’來敲門”“大數據成信息技術領域熱門概念”“數據時代,智者生存”“移動互聯網和大數據挖掘”等,可見“大數據”已成為人們關心的一個熱點詞匯。
什么是大數據?《辭海》中定義數據為:電子計算機加工處理的對象。《大不列顛百科全書》對“data”的定義為“factual information(as measurements or statistics)used as a basis for reasoning,discussion,or calculation”。對于大數據的定義,維基百科和百度百科給出:大數據(bigdata),或稱巨量資料,是現代數據中的一種,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。具有4V特點:Volume、Velocity、Variety、Veracity,即:數據量大,類型繁多,價值密度低,速度快、時效高。舍恩伯格在《大數據時代》中給出的定義與此一致。我國學者于洋給出的定義為“嚴格的解釋是無法在容許的時間內用常規軟件工具對其內容進行抓取、處理、分析的數據集合”。從上述定義中可以看出,大數據是數據中的一種,也是計算機加工處理的對象;是一種數據量大,多種類型混合,價值密度低,數據獲得速度快,但難以在合理時間內快速處理的數據。所以筆者認為,在大數據時代能夠快速低廉地找到任何想要的數據,但是整理數據,提取數據中的信息卻相對困難。
由此可知,育明輪在艏傾時,主機每海里的油耗量比平吃水主機每海里油耗量都有所增加,能效營運水平都比平吃水時低,在較大的艉傾即吃水差為-1.4米時,主機每海里油耗量與平吃水相比有很大的增加,能效運營水平顯著降低,在比較小的艉傾下,其運營能效水平有所提高,尤其在吃水差為-0.2米時主機每海里的油耗量最小,能效營運水平最高。
消費者價格指數(Consumer Price Index,簡稱 CPI)用來衡量住戶消費的商品和服務的價格的平均變化情況。我國的CPI為一“籃子”消費品的價格變化百分比的加權平均數。
對于籃子的確定,使用全國12萬戶城鄉居民家庭消費支出的抽樣調查資料統一確定商品和服務項目的類別,將商品和服務項目分為:食品、煙酒及用品、衣著、家庭設備用品及服務、醫療保健及個人用品、交通和通信、娛樂教育文化用品及服務、居住等八大類。每個大類下分別依次劃分中類、小類、基本分類,共39個種類,262個基本分類。每個基本分類下設一定數量的代表規格品作為經常性調查項目。各調查市縣選擇至少600種代表規格品,但不同調查市縣的規格品不完全相同,如:糧食制品是國家統一確定的一個基本分類,北京選擇的是饅頭、火燒和大餅等規格品,貴陽選擇的是米粉、卷粉和寬粉等規格品。若計算CPI中規格品的數量,則有成千上萬種。代表規格品一年一定,如果某規格品在年內失去代表性或完全從市場上消失,就必須要進行更換。
在現階段,由于籃子指數具有較強的可操作性,所以大部分國家都使用籃子指數。我國CPI也是籃子指數。
首先,中小企業管理制度內容不能全面化地涵蓋企業管理中的日常工作。制定制度的管理者由于自身知識的缺乏,對崗位要求和內容等認識不清,因而不能很好地完善制度政策。如管理思想的偏差或管理細節的缺失導致企業管理效能不均衡。其次,管理制度內容缺乏針對性,容易在執行時產生監管不力的情況,制度較難以落實,對管理形式和管理方式提出了很大的挑戰。最后,管理制度內容不能及時更迭。在當前經濟時代發展迅速的時代,管理模式和管理方法及管理思想一定要緊跟時代潮流,但中小企業管理者在制定和修改制度的時候沒有很好地結合當前的經濟形勢對管理制度進行修改。
在數據質量監控方面,已經啟用了全新的數據采集管理系統。為這些調查員配備了CPI手持數據采集器,配備這一設備的調查員只要將現場采集到的價格信息輸入其中,就能立即傳送到國家統計局。這套系統還具有調查員定時定位、數據修改痕跡記憶等諸多功能,為確保源頭數據的真實性提供了強有力的技術支撐。
CPI指數的匯總計算過程。首先計算各市的指數。各市指數計算時,分為兩步:計算初級價格指數和計算較高層級價格指數。在計算初級價格指數時,使用Jevons指數,即:將基本分類下各代表規格品價格變動相對數或價格比的幾何平均數作為該基本分類的指數。然后,采用對不同月份之間的指數采用鏈式法則計算。在較高層級指數的計算時,采用Young指數。即較高級的指數為下一級的價格指數的加權平均值。其中,權數主要也是根據全國12萬戶城鄉居民家庭消費支出的抽樣調查資料確定的,且每年適當調整。其次,按城鄉居民消費支出金額加權平均各市的指數計算全省(區)指數(全省(區)城市和農村指數)。最后,計算全國指數。全國城市(農村)指數根據各省(區、市)指數按各地居民消費支出金額加權平均計算;全國指數根據全國城市和農村指數按城鄉居民消費支出金額加權平均計算。
CPI的調整。為了保證CPI的科學性和準確性,對基期進行調整。我國自2001年計算CPI定基價格指數以來,首輪基期為2000年,第二輪基期為2005年,現基期為2010年。對比基期越久,價格規格品變化就越大,可比性就會下降。
理論上,消費者價格指數是衡量住戶購買或以其他形式獲得的、直接或間接用于滿足自身需求的產品和服務在不同時間的價格變化指數。它可以從兩個角度進行度量,一個是用戶感受到的價格的上漲率;另一個是用戶為維持自身的生活標準而所需支出金額的變化。從而形成了CPI的兩個理論框架:一個是衡量商品和服務價格上漲率的價格變化指數,另一個是衡量在一定生活標準下生活費用增加情況的生活費用指數(cost-of-livingindex,COLI)。
設計完成后,對硬件和軟件整體調試,對出現故障逐一排查,增強系統穩定性和實用性。硬件測試保證硬件設備正常運行,為軟件調試提供了基礎條件,驗證系統軟件的安全性,必須在硬件搭建基礎上對系統進行實時運行。冷調庫測試結果進行反復調試,直到符合設計要求,保證整個系統軟件設計的可靠性和穩定程度,為將來的大面積推廣應用提供有利的條件。系統[14-15]能夠實時的監測環境溫濕度以及氣體濃度,測試結果如圖8所示。
對于價格變化指數,既可以采用普查的數據,也可以使用調查的數據。所謂使用普查的數據就是將住戶購買的產品和服務的價格變化進行計算,并基于適當的加權方法估計該指數。所謂使用調查數據的方法就是籃子指數(fixed-basket index),從住戶購買的產品和服務中抽出一部分作為樣本,依據該樣本的價格變化來計算估計該指數。而生活費用指數因于使用效應函數刻畫住戶的生活水平,而住戶的每一種消費品種可能都會影響到其效應函數的變化。所以,使用的是普查數據,即用戶購買的所有的產品和服務的價格。
從調查問卷中可知:26%的學生對于無教師看管的自習課會自覺學習,65%的學生會選擇小聲聊天或討論學習,令人遺憾的是,9%的學生會選擇看雜志或干脆睡覺。調查結果還表明,60%的學生對學習的熱情較高,30%的學生對學習的熱情中等,10%的學生害怕學習。學生害怕學習或討厭某些課程的根本原因與該課程的實用價值緊密相關。70%的學生對與現實生活聯系緊、實用性強的語文、數學、物理、化學、勞技學習熱情較高,而對學術性較強的歷史、地理、生物、英語不感興趣。在學生討厭的課程中,英語是核心課程之一。
如果能夠廉價地收集到住戶購買的所有的產品和服務在前一期和當期的價格以及交易量,那么不僅可以使用普查的數據計算價格變化指數,而且可以計算籃子指數。同時,若能夠對不同住戶的效應函數找出解析式,則可以同時計算出生活費用指數。
1) 傳統加工作坊。傳統加工小作坊遍布于全國各竹區,主要分布于首都亞的斯亞貝巴、阿姆哈拉州的因吉巴拉和南方州的塞達瑪。目前,亞的斯亞貝巴的傳統作坊有20多家;人數約100多人。生產人員均為2005年和2006年中國在埃塞俄比亞舉辦的竹子加工培訓班及其以后國際竹藤組織竹子培訓班的學員。加工利用方向包括:房屋建造,外墻及屋頂裝飾,小橋,腳手架;竹椅、竹沙發、竹茶幾、竹凳、竹柜、竹櫥等各式家具;竹簍、竹筐、竹籃、竹燈籠、竹篾板等各種日常用具。銷售一般限于亞的斯亞貝巴市內、一些度假區以及南部咖啡產區(竹席用于咖啡涼曬)。
在數據收集環節。國家統計局在各地成立了直屬調查隊,一直采用派人直接調查方式收集原始價格資料,目前分布在31個省(區、市)500個調查市縣的價格調查員有4 000人左右。價格調查員在31個省(區、市)共500個調查市縣的5萬個商業業態、農貿市場,以及醫院、電影院等提供服務消費的單位(統稱為價格調查點)收集原始數據。對于CPI中的糧食、豬牛羊肉、蔬菜等與居民生活密切相關、價格變動相對比較頻繁的食品,每5天調查一次價格;對于服裝鞋帽、耐用消費品、交通通信工具等大部分工業產品,每月調查2~3次價格;對于水、電等政府定價項目,每月調查核實一次價格。
第一類為抽樣誤差。首先,城鄉居民家庭消費支出調查中的樣本代表性誤差。第六次人口普查顯示,家庭數目多,現有家庭4億多戶;民族種類多,現有56個民族;覆蓋范圍廣,跨越了熱帶、溫帶、寒帶等不同的氣候帶;地貌特征多,既有平原也有高原、丘陵等。從而在不同的地域形成了不同的消費模式和消費習慣,所以在居民家庭消費支出調查中也將存在樣本代表性誤差。其次,籃子商品和服務的代表性誤差。對于市場上存在的商品和服務的類型多至百萬以上,其中有的是全國范圍內流通,有的僅在某區域內流通,有的是不完全流通。所以從這么多的商品和服務中選擇一定的商品和服務作為籃子將帶來一定的誤差。再次,調查市縣選擇的代表性誤差。截至2011年底,我國共有332個地級區,2 853個縣級區,從這些區中抽取500個作為調查市縣。同時,即使在同一個市縣,也存在不同的民族、不同的地貌,從而存在不同的消費構成。所以,抽樣市縣的選擇也存在代表性誤差。最后,價格調查點選擇帶來的代表性誤差。價格調查點的確定是以零售額或經營規模為標志從高到低排隊后,使用等距抽樣,同時按照各種商業業態兼顧,大小兼顧以及區域分布合理的原則進行適當調整。但是,也同樣存在代表性誤差。
第二類為非調查誤差。包括交易價格調查誤差和支出調查的數據誤差。在這兩個調查中,都可能存在缺失數據誤差、填寫誤差、敏感性回答誤差等不同類型的誤差。缺失數據誤差是指由于調查數據不完全帶來的誤差。如在居民支出調查中,某用戶對自己的某項支出沒有填寫,從而引起數據缺失帶來誤差;填寫誤差是指在填寫過程中,由于書寫問題引起的誤差,如誤將1寫成了7,小數點位數錯誤等;由于這兩個調查中都涉及到價格的問題,從而使得存在敏感性問題誤差,如某低收入家庭購買的商品是促銷商品,但是在居民支出調查中卻按照正常的價格進行填寫等。
CPI中的數據應該是購買者的購買價格,不是大多數交易點采集的價格,僅是采集員在采集點觀測或記錄的標價,或者是該交易點提供給采價員的價格,這些價格不一定是真實的交易價格。因為實際支付的購買價格,會因為多種原因,如打折、促銷、討價還價等,使得實際支付的價格和廣告價格和交易點的價格不同。
第三類為模型計算誤差。首先,指數選擇誤差。我國的CPI是基于鏈式定基Lowe指數。該指數不滿足傳遞性,從而在計算時,該估計值一般高于真實值,并且與基期越遠,該偏差也將越大。其次,逐級匯總帶來計算誤差。我國現行的計算方法是逐級匯總,即首先計算各市縣的指數;然后匯總到省,計算省級的指數;最后將省級指數匯總到國家層面,計算全國的指數。由于在每次計算時都存在計算誤差。所以,這種逐級匯總的方法將增加計算誤差。
在上述幾種誤差中,如果數據都可以低廉快速地獲得,那么,將不再需要設置調查市縣和價格調查點,但由于商品和服務的數量太多,為了數據處理的需要,仍將選擇籃子商品和服務以及居民消費支出調查中的家庭樣本。由于所有交易數據可使用,所以不存在缺失數據、填寫誤差和敏感性問題誤差,故調查誤差將大大降低。在計算過程中,不再需要逐級匯總,而不同級別的指數都在統一數據庫中數據的基礎上分別計算,從而不再存在匯總誤差;由于過去各期的商品和服務的交易價格以及交易數量的數據都可以獲得,從而不再需要確定基期,可以降低誤差;并且能夠同時計算多種類型的指數,如Laspeyres指數、Paasche指數、Fisher理想指數等。
“我那天錢少,就只買了這么幾枚。這枚‘廣政通寶’,我是花了6 0 0 0 0元買下來。這枚‘靖康通寶’是5 0 0 0 0元。這枚‘崇慶通寶’是……”中年人如數家珍。
在我國現行的CPI指數的計算過程中,需要用到的數據為:籃子商品和服務在基期、上一期和當期的價格,以及基期的支出數量。從而,需要通過調查的方法獲得上述數據,在此過程中主要存在以下幾種誤差:
在大數據時代,CPI計算需要的數據可以通過不同部門的數據庫、不同區域的數據系統、甚至用戶的行為數據等多種途徑獲得,這種數據獲得方法不同于現在的抽樣調查方法,從而將改變現有的數據收集方法。工作的重心轉移到從已經儲存下來的大量的、散亂的數據集中篩選整理出滿足本需要的數據。在居民支出調查中,不再向住戶要數據,而是向不同的數據集要數據;同樣,消費價格指數調查中也不再在價格調查點記錄數據,而是向不同的數據集要數據。
首先,統計系統的人員編組需要調整。現為了CPI指數的調查,在全國范圍內,分為國家、省市、地市、縣區四級管理體系中,共有價格調查員有4 000人左右。這些統計工作者的工作重心在于原始數據的收集、匯總。當原始數據能夠廉價獲得的時候,原有的四級管理體系將發生改變,可以研究僅有國家一級的CPI中心,也可以采用國家、省市兩級的CPI中心模式。在前一種模式中,可以分別計算全國和各省市的CPI指數以及CPI各種分類指數;在后一種模式中,國家級的CPI中心僅計算全國的CPI指數以及CPI各種分類指數,而各個省市的計算自己省市的CPI指數以及CPI各種分類指數。對于不同模式的選擇需要考慮現實情況。同樣,由于不再需要原始數據的收集工作,所以統計工作者的數量將會大幅度地減少。
在現階段,我國CPI數據的收集,主要通過兩個調查:居民消費支出調查和消費價格指數統計調查。在第一個調查中,需要12萬戶家庭作為樣本,記錄自己每天的詳細生活支出的數量、價格等商品信息,然后向上逐級匯總上報;在消費價格指數統計調查中,統計人員需要到全國5萬個價格調查點,現場統計交易價格,且并非每日統計,而是根據商品的特性劃分成不同間隔類型的采樣商品。在這兩個調查中,都需要質量監控方法對調查的數據進行監控,也需要數據質量的評估方法對數據質量進行評估。如在消費價格指數調查中要求采用“三定(定點、定時、定人)”原則進行收集調查登記,實際采價時要求同一規格品的價格必須與上期同質可比,即產品性質基本相同可以進行比較等等。
其次,統計工作更加專業化。統計工作者的工作重心將由數據收集轉移到數據整理和數據分析上。在此過程中,統計工作者至少需要以下幾種能力:掌握計算機操作能力,尤其是大型數據庫的搜索能力、數據的讀寫能力、數據格式的轉換等;掌握統計指數的計算方法,由于數據種類和數據量巨大,使得計算多種類型的指數成為可能,因此,統計工作人員需要掌握各種指數的原理、方法、優缺點等,并能夠利用數據計算不同種類的指數;掌握數據質量的評價方法,對于已形成的數據集中的數據,需要形成一種新的數據質量評估方法,統計工作者需要對這些評估方法的原理、過程及優缺點非常熟悉。
最后,統計部門的權限有待進一步提高。在大數據時代,大量的數據存儲于不同的部門或不同的企業之間,而統計系統想要使用這些數據,則需要與這些不同的單位進行協調與溝通,進而獲得相應的使用權限。同時,由于部分數據設計商業機密或部門利益,所以在數據收集過程中,將會遇到一些實際困難。因此,應該從國家層面建立一個數據管理中心,對不同的單位設置不同的權限,對個人或法人隱私進行保護,從而形成一個完整系統的數據世界。
根據才府玻璃招股說明書,其所處玻璃包裝容器年產量、行業利潤總額近年來呈現明顯的下滑態勢。玻璃包裝容器年產量從2015年和2016年的2047萬噸和2064萬噸的高峰下滑到2017年的1827.53萬噸。行業利潤總額也在2015年達到頂峰后開始滑落,2015年至2017年分別為:52.71億元、49.77億元和45.97億元。
第一步:確定要計算的指數是價格變化指數,還是生活費用指數。確定使用的指數類型:Laspeyres指數,Paasche指數,Fisher指數等;當然,為了計算的方便和指數的連續,可以使用籃子指數,從而確定籃子中的商品和服務。確定商品缺失時的替代方案和質量調整方案。
第二步:通過不同的現有數據集對數據進行收集整理,完成數據的收集與整理。這一步是當前CPI調查中任務量較大的一步;但在大數據時代這一步需要的人力物力會大幅度的減少。同時,當前CPI調查中,能夠最調查過程的非抽樣誤差進行控制,而在大數據時代對調查過程的非抽樣誤差的控制已經不在統計部門的工作范圍內。
第三步:對收集的數據進行評估。如果通過評估則進入下一步;否則,則對數據重新收集與整理。這一步與現階段的CPI調查過程中的數據質量評估類似,但是由于多途徑獲得數據或交叉數據存在的可能,因此評估的方法和方式也將進一步的得到改進。
第四步:計算CPI。利用整理好的數據和計算公式計算CPI的值;并根據相關要求對指數進行適當調整。
[1]Ewing,Ian,Ha,Yuong,and Mai,Brendan.What Should the Consumers Price Index Measure?[J].Statistics New Zealand paper prepared for the 2004 Consumer Price Index Revision Advisory Committee,2004.
[2] 大數據,http://zh.wikipedia.org/zh/%E5%A4%A7%E6%95%B0%E6%8D%AE.
[3] 百度百科,http://baike.baidu.com/view/6954399.htm.
[4]Hann J.De.,Heymerik A.Van der Grient,Eliminating Chain Drift in Price Indexes Based on Scanner Data[J].Journal of Econometrics,2011,(161):36-46.
[5]United nations.Practical guide to producing consumer price indices[M].2009.
[6]陳相成,喬晗.掃描數據支持下CPI編制方法研究[J].統計研究,2013,(1).
[7]國際勞工組織,等.消費者價格指數手冊:理論與實踐[M].北京:中國財政經濟出版社,2008.
[8][美]維克托·邁爾—舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[9]徐強.CPI編制中的幾個基本問題探析[J].統計研究.2007,(8).
[10]余建斌,趙展慧.大數據成信息技術領域熱門概念[N].人民日報,2013-02-23.
[11]于洋.數據時代,智者生存[N].人民日報,2013-01-24.