白燕燕,楚菲菲,趙永強
統計面臨新挑戰
白燕燕1,楚菲菲1,趙永強2
(1.蘭州財經大學,甘肅 蘭州730000;2.內蒙古工業大學理學院,內蒙古呼和浩特010051)
“大數據”是伴隨著網絡新技術的發展產生的數據形態,本質上是數據生產、傳輸和應用的社會化?!按髷祿辈辉谟跀祿康亩嗌?,而是一種“以數據為大”的方法論,對傳統統計工作的理念、方法以及價值將產生重大的沖擊,對當前統計管理體制、機構設置、數據價值等形成了挑戰。政府統計應當借助于“大數據”所帶來的有利條件,從優化統計機構設置、推進統計業務數據化,提高數據挖掘分析能力等方面加快推進政府統計的改革。
大數據;統計;數據挖掘
1.1當代大數據的特點
在當代世界,網絡上越來越多的數據是在我們周圍不斷增多的電子設備傳感器上產生的。隨著數據的數量和頻率的增加,“大數據”的概念應用而生。其特點是數量巨大(volume)、增長迅速(velocity)、形式多樣(variety),即3V的特點。大數據主要是非結構化的數據,這意味著它沒有預定義的數據模型,并且不同于傳統的關系數據庫。大數據除了在私有企業創造新的商業機會外,也可以將有趣的官方統計數據作為輸入,或者結合如抽樣調查和行政登記這樣更傳統的數據源進行分析。然而,收集的信息用大數據方法合并成一個統計生產過程并不容易。因此,本文將試圖解決兩個基本問題,即What和How:國家統計局應該注重什么樣的子集大數據并給予官方統計?國家統計局如何利用大數據并克服它所帶來的挑戰?
1.2統計的可靠性
數據革命是跟蹤并儲存人們產生的行動、選擇、喜好,以此來了解他們的日常生活。官方統計數據也會持續產生有關信息,使之產生一個獲得豐富深入了解人類社會經驗、補充以往收集到的數據指標的巨大機會。
相比傳統的官方統計資源,大數據方法會產生相關性更強、即時度更高的統計數據。官方統計不是完全依賴調查數據收集,而是依靠政府項目管理來獲取數據。對于數據的獲取,國家顯然比私營企業容易,因為國家統計局的特權往往來源于立法。
大數據現象使我們認識到,我們的世界現在已經充滿數據。因此,官方統計的意義是不容忽視的。而我們需要解決的一個問題是,大數據如何能幫助我們預測更準確及時的經濟、社會和環境等現象?這是官方統計所面臨的挑戰。
2.1統計的定義
統計的定義是由官方統計的基本原則來界定的,其原則是民主社會信息系統不可或缺的重要元素,它提供有關經濟,人口,社會和環境狀況的數據。官方統計服務于政府,經濟和公眾。到目前為止,國家統計局(NSO)和國際組織(IO)主要由兩種方式產生數據:抽樣調查和存儲器中的管理性數據。大數據來源主要分為以下幾類:行政(產生于對計劃的管理,無論其是否為政府)。如電子病歷,醫院探訪,保險記錄,銀行記錄,食品銀行等;商業或交易 (兩個實體之間所產生的交易)。如信用卡交易,在線交易(包括移動設備)等;傳感器,例如衛星圖像,道路傳感器,氣候傳感器;跟蹤設備(移動電話、GPS跟蹤數據);行為,在線搜索(關于產品、服務或任何其他類型的信息)網絡頁面視圖等;主觀觀點(社會媒體上的評論等).
行政數據是國家統計局(NSO)用于統計目的的主要數據來源之一。行政數據被收集于統計辦公室,并應用于官方統計。管理數據按統計局規定,周期性收集并應用于官方統計。傳統上,國家統計局用結構化的方式進行公共管理、處理、存儲和使用。
2.2統計使用大數據所面臨的挑戰
大數據在官方統計中的使用面臨一些挑戰,主要的挑戰類型有以下幾個方面。立法,即相對于數據訪問和使用的權利;隱私權,即管理公共信托和接收的數據再利用它鏈接到其他來源;金融,即采購數據的潛在成本與效益;管理,即有關數據管理和保護的政策和指令;方法論,即數據質量和統計方法的適用性;技術,即與信息技術有關的問題。
2.2.1法律的局限性
在一些如加拿大這樣的國家中,法律提供從政府和非政府機構訪問數據的權利,而其他如愛爾蘭這樣數據的權利。這可能會引起訪問某些類型大數據的局限性。國家統計局(NSO)訪問數據的權利,原則上應該由法律來建立,但是往往沒有特定法律條款來充分維護數據擁有者的權利。即使立法提供訪問所有的數據類型,用于訪問統計數據的目的在某種程度上可能還需要證明,這不會因國家的不同而不同。
2.2.2隱私的保護
定義隱私可能因國家而異,但一般定義為個人的權利,它是一種可能會被泄露的信息,能用來控制或影響個人的工作和生活。就像公司一樣,希望保存他們的競爭力,保護他們的消費者。隱私是民主的支柱。大數據的問題,是服務和設備上以用戶生成的數據很可能沒有被大眾意識到,或者不知道這些數據可以用來做什么。這樣的數據將會積成更大的數據天池,引發個人的隱私問題。
2.2.3潛在成本與權益的權衡
國家統計局獲得數據可能需要付出代價,尤其是獲取私營部門的數據。如果立法對采集周圍外部數據的財務模式保持沉默,國家統計局就必須做出正確的決定,以平衡質量(其中包括相關性,及時性,準確性,一致性,可訪問性和可解釋性),減少成本,從而減輕財政負擔。大數據的成本可能對國家統計局是一筆很大的花銷,但其潛在的收益遠遠大于成本,并且大數據可能會提供相關信息,以提高政府工作的效率(如醫療系統)。政府的采購規則也可能因此發揮作用。美國科技基金聯邦大數據委員會(TechAmericaFoundation'sFederalBigdataCommission)在美國的一次報告中指出,轉型大數據的成功在于,了解一個特定機構在關鍵業務中的需求,并根據這個需求去制定正確的方法,以此來利用可能的手段,采取側重于服務的措施,以達到有利結果。2.2.4方法論的新要求
行政數據存在的問題,是大數據根本問題的代表。而對于大數據,數據是第一位的,接著官方統計學家就會對應建立一個數據框。這就提出了一個問題,產生一個連貫綜合的國家官方統計體系的方法是唯一的么?
另一個問題是IT方法論。面對越來越多需要分析的數據,傳統的統計方法對小樣本的透徹分析也會有困難。在最簡單的情況下,它們也是不夠快的,所以需要新的統計分析方法和工具:從大量數據中發現有價值的信息的方法。如數據的可視化的方法,文本數據流挖掘技術,都能從大量的數據中提取有價值的小部分數據,在信息統計整合的過程中能夠發現方法。如大規模的關聯,宏微觀一體化等統計方法。這些方法都特別適合大型的數據庫。需要注意的是,方法是需要開發的,我們要做的就是在它使用于大型的數據庫時,可以迅速的產生可靠的結果。
對于數據采集這一板塊,大數據時代提出了收集和整合不同來源、不同類型數據的可能性。在不久的將來,利用組合的數據源來產生新的信息是特別有趣的一種挑戰。結合“傳統”的數據源(諸如調查數據和管理數據),用新的數據源提供機會來描述“智能”社區的行為,將又是一個未開發的領域,由此,可迎來新的機遇。
探索得到的大數據對于官方統計潛在目的的可行性研究包括使用信息和通信技術 (ICT)的統計,在信息社會利用互聯網流量來匯總數據的可行性研究。歐盟統計局的目標是在試點評估“以用戶為中心”和“以網絡為中心”的測量方法的可行性。
3.1交通和運輸統計
在荷蘭,一天大約產生8000萬的交通循環檢測記錄。這些數據可以作為交通和運輸統計的信息來源,也可能用于對其他經濟現象的統計。該數據的提供非常精細,更具體地說,在荷蘭的道路有超過1萬個檢測回路,這些回路每分鐘對過往的各類車輛的長度和數量為指標來計算。長度類別的不同使得汽車和卡車產生差異。而這個分類嚴重的受到覆蓋面和選擇性的影響。檢測到的車輛數不適用于每分鐘,因為不是所有的荷蘭道路都有檢測回路。即使在最詳細檢測下,各個環路檢測到的車輛數目也是不穩定的,這說明我們需要一個更好的統計方法。從大量數據中獲取信息是統計學上的一個重大挑戰。這些數據的充分利用,預示著有關經濟發展的更詳細的交通信息將能得到更快更可靠的統計。
3.2社交媒體數據統計
在荷蘭每天大約產生100萬的公共社交媒體信息,這些信息可提供給任何使用互聯網的人。在社會化媒體上,人們自愿分享信息、討論感興趣的話題、聯系家人和朋友,這些其實都可作為數據源。為了回應社交媒體是否為一個有趣的可進行統計的數據源,荷蘭統計局從兩個方面研究了荷蘭社會媒體的消息,即內容和情緒。荷蘭統計局在Twitter(在研究荷蘭社會化媒體時,Twitter是主要的公共社交媒體)上的信息內容,大約50%的信息是無意義的,其余的信息主要討論了業余時間活動(20%)、工作(15%)、媒體(電視和廣播10%)、政治(5%),更嚴重的是“胡言亂語”阻礙了有用的信息,而且這些對文本挖掘的方法也有負面的影響。社會媒體信息決定的情緒透露了一個對統計數據源來說很有趣的潛在用途。荷蘭社會媒體消息情緒被認為與荷蘭消費者信心高度相關,特別是對經濟形勢的看法。這些關系在每月和每周是非常穩定的。但是,日報數據顯示出這是極不穩定的行為。這些都突出強調了消費者信心的周線指標可能是繼上周研究的第一個工作日產生的,這展示了快速傳遞結果的能力。
大數據與官方統計的結合,代表了一些類似于已經在過去的幾十年中涉及的使用管理數據和官方統計數據的情況。與眾不同的是,其對結合兩者所做的統計建模可能有更廣泛的應用。這樣,可在維持官方統計的質量下,增強他們從大數據中獲得接近實時的測量效率。
使用大量的數據并不是一件容易的事。在數據探索階段,大數據與結構化數據相比較將花費大量的時間。其結果是,“新”的探索和分析方法是必需的。因為很多的方法都存在,并且已經使用,但是在官方統計領域它是新的。例如可視化方法,文本挖掘,以及高性能計算。
雖然國家統計局的很多統計人員都積極參與到了大數據技術方面,但大數據技術方法仍是私營部門的最重要的需求。官方統計需要合適的大數據分析工具和系統,這必然要求國家統計局參與其中。國家統計局與私營部門之間的協同效應不僅限于技術問題。國家統計局與私有數據源的業主合作是至關重要的,它觸及敏感問題,如隱私、誠信、企業的競爭力、國家統計局的法律框架等。在這一領域中,授予國家統計局特權進入采購私有的大數據,處理一些問題應該是優先行動的一部分。
使用大數據,需要用不同的思維方式并擁有新技能的統計人員。官方統計需要可以處理更多數據、善于統計分析、擁有統計思維方式的人員,因為處理數據和IT技術(如編程技巧)密不可分。除此之外,這類人員還需從數據中提取有價值的“知識”的能力。雖然大數據統計和“數據科學家”普遍存在長期的技術問題,但可通過大學課程的調整來解決(有些大學已經開始提供相關的課程),從短期到中期而言,國家統計局應經過專門培訓來發展必要的內部分析能力人員。這樣,對國際合作及對官方統計界都是非常有益的。
[1] 維克托·邁爾·伯舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤,譯.浙江人民出版社.
[2] 馬建堂.大數據在政府統計中的探索與應用[M].中國統計出版社,23013,10.
[3]Exploiting'Big Data'for Policy'for the 9th meeting of the OECDCommitteeonStatistics,2012.
[4]Using Adminis trative and Secondary Sources for Official Statistics-AHandbook of Principles and Practices,UNECE publication,2012.
[5]Bollier,D.The Promise and Peril of Big Data,The AspenInsti tute,WashingtonDC,2012.
[6]Manyika et al.‘Big data'The next Frontier for Innovation,Competition and Productivity'McKinsey Global Institute,2011,May.
[7]The Conference Board,The Conference.Board Help Wante dOnLineDataSeriesTechnicalNotes,2011.
[8] 原鵬飛.國際官方統計打會論文綜述[J].統計研究,2013,30(5):105-112.
G644