袁瑩靜 陳婷 陳龍



摘? 要: 隨著信息高科技的快速發展,互聯網技術將人類的文化傳播帶進了一個嶄新的時代,即人們所稱為的網絡時代.我們幾乎每天都要與網絡打交道,它已經成為日常生活中不可或缺的一部分,網絡已經很大程度上改變了人們的生活。人們對信息的需求不斷增加,加大了人們的信息消費,而今互聯網已成為我們生活中不可缺少的東西,互聯網也正在潛移默化地影響著我們的生活方式、學習方式、交往方式。本文圍繞我國各省市的互聯網的使用狀況進行分析,用聚類分析、主成分分析、對應分析方法分析各省市的互聯網的使用情況,兼用SPSS軟件,以此得出數據分析的結果以及各省市在互聯網使用上的狀況的差異。
關鍵詞: 互聯網技術;聚類分析;主成分分析;SPSS軟件
【Abstract】: With the rapid development of information technology, Internet technology has brought human cultural communication into a new era, which is called the Internet age. We have to deal with the Internet almost every day, and it has become impossible in daily life. Part of the gap, the Internet has largely changed people's lives. People's demand for information is increasing, and people's information consumption has increased. Today, the Internet has become an indispensable part of our lives. The Internet is also affecting our way of life, learning, and communication. This paper analyzes the use of the Internet in various provinces and cities in China, and analyzes the use of the Internet in various provinces and cities by cluster analysis, principal component analysis and corresponding analysis methods, and uses SPSS software to obtain the results of data analysis and the provinces and cities. Differences in the status of use of the Internet.
【Key words】: Internet technology; Cluster analysis; Principal component analysis; SPSS software
0? 引言
互聯網應用正在中國的城市中迅速普及,已經深入到人們的日常生活,并且直接影響了人們的觀念和行為。網絡正在改變傳統的媒介使用,正在改變人們日常交流方式,在一定程度上也開始改變政府和民眾交往的方式,并且作為一種開放的技術,互聯網也正在對中國相對封閉的傳統、文化和體制產生深刻的影響。調查和研究互聯網網絡的使用現狀及其影響成為當務之急。在當今社會下,互聯網數據的統計有多個指標,隨著時代的變遷和網絡時代的迅速發展,指標的時效性也會發生變化。因此本文以2017年中國統計年鑒統計的數據,運用聚類分析、主成分分析、對應分析三種分析方法來分析數據指標之間的內在關系,從而分析出各省市在互聯網的使用下對各項指標的應用,進而分析出各省市在互聯網的使用上數據的差別,分析出相應的結論。
1? 相關理論方法
1.1? 聚類分析
聚類[1]分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。聚類分析的原則是直接比較樣本中各事物之間的性質,將性質相似的歸為一類,而將性質差別比較大的分在不同類中,也就是說,同類事物之間的性質差異小,類與類直接的事物性質相差較大。描述樣本間的親疏程度最常用的是聚類,其中歐式距離[2]在聚類分析中用的最為廣泛。聚類的方法主要有系統聚類法,模糊聚類法,k-均值法,有序樣品聚類等。
1.2? 主成分分析
主成分分析[3](Principal component analysis)是由霍特林于1933年首先提出來的。主成分分析是利用的降維的思想,在損失很少的信息的前提下,把多個指標轉化為幾個綜合指標的多元統計方法。在對某一事物進行實證研究時,為了更全面、準確地反映事物的特征及其發展規律、人們往往要考慮與其有關系的多個指標,這些指標在多元統計學中也稱為變量。既然研究某一問題涉及的眾多變量之間有一定的相關性,就必然存在著起支配作用的共同因素。根據這一點,通過對原始變量相關矩陣或協方差矩陣內部結構關系研究,利用原始變量的線性組合形成幾個綜合指標(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復雜問題時更容易抓住主要矛盾。
1.3? 對應分析
對應分析[4](Correspondence analysis)也稱關聯分析、R-Q型因子分析,通過分析由定性變量構成的交互匯總表來揭示變量間的聯系。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。
對應分析的基本思想是將一個列聯表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
它最大特點是能把眾多的樣品和眾多的變量同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉等復雜的數學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,而且能夠指示分類的主要參數(主因子)以及分類的依據,是一種直觀、簡單、方便的多元統計方法。
對應分析法整個處理過程由兩部分組成:表格和關聯圖。對應分析法中的表格是一個二維的表格,由行和列組成。每一行代表事物的一個屬性,依次排開。列則代表不同的事物本身,它由樣本集合構成,排列順序并沒有特別的要求。在關聯圖上,各個樣本都濃縮為一個點集合,而樣本的屬性變量在圖上同樣也是以點集合的形式顯示出來。
2? 數據獲取及分析
2.1? 數據來源
根據中國統計年鑒[5]公布的截止到2016年底我國31個省市互聯網使用狀況統計數據,利用SPSS軟件將統計好的數據輸入得出以下分析。
2.2? 聚類分析
2.2.2? SPSS軟件分析
由圖1可以看出,廣東為第一類;北京為第二類;江蘇、浙江、山東為第三類;河北、河南,四川、安徽、湖北、遼寧、湖南、上海、福建為第四類;其余的為第五類。說明經濟發達的省區如廣東、北京單獨分為了一類,浙江、江蘇等經濟發展水平較高的地區歸為了一類[6]。
2.3? 主成分分析
利用31省標準化后的數據進行分析,分析結果如表4所示。
由表4輸出結果看到,前兩個主成分y1,y2的方差占全部方差的比例為89.845%。我們就選取y1為第一主成分,y2為第二主成分,且這兩個主成分的方差和占全部方差的89.845%[7],即基本上保留了原來指標的信息,這樣由原來的10個指標轉化為 2個新指標,起到了降維的作用。
由圖2碎石圖可知,第二個及第三個特征值變化的趨勢已經開始趨于平穩,所以,取前兩個或前三個主成分是比較合適的。這種方法確定的主成分個數與按累積貢獻率確定的主成分個數往往是一致的[8]。
對SPSS的因子分析模塊運行結果輸出的成分矩陣的第i列的每一個元素分別除以第i個特征根的平方根,就得到主成分分析的第i個主成分的系數,結果見表6。
由表7的得分中,有的省份的分數是負數,但并不表明這個省份的互聯網使用情況就是負的,這里的正負僅代表各省份與平均水平的位置關系[10],各省份的互聯網接入情況的平均水平算作零點,這是我們在整個過程中將數據標準化的結果。
從表7可看到,廣東的互聯網的綜合使用情況最好,是第一名;浙江的互聯網的綜合使用情況為第二名;西藏的互聯網的綜合使用情況最差。
2.4? 對應分析
上述表8給出了行和列記分的關系。慣例比例[11]代表各維度分別解釋總慣量的比例及累計百分比,從中可以看出第一維和第二維的慣量比例占總慣量的90.1%,因此可以選取兩維來進行分析。
在SPSS的輸出結果中還給出了繪制最后疊加的散點圖所需的兩套坐標。首先是關于行變量(地區)的點坐標表,例如北京(2.538,5.067),河北(–0.048,–0.708)等,如表9所示。
同樣地,列變量(互聯網變量)的點的坐標表見輸出結果表10,例如互聯網寬帶接入端口(1.067, –0.860),互聯網撥號用戶(1.625,–0.360)等。
由以上兩張坐標表可以得出如下疊加散點圖(見圖3)。從輸出結果圖3看出,我國的經濟發達地區,如廣東、江蘇等,主要在互聯網寬帶接入端口,移動互聯網接入流量,移動互聯網用戶和互聯網上網人數上對互聯網的使用占有較大比重;江西、安徽、遼寧、河北等主要在互聯網接入端口上分析出對互聯網的使用狀況,個別省區,如上海、北京,浙江經濟發展迅速,在互聯網的網頁數,互聯網的撥號用戶、網站數和域名數上使用范圍普及廣。
從我國的目前的經濟發展狀況來看,大部分的省區都以逐漸的接入了互聯網寬帶,使用人數逐漸增多,互聯網的普及力度逐漸加大。隨著我國經濟的不斷發展和進步,這種省區之間的互聯網的使用情況也會發生一定的變化。
3? 結語
從統計分析結果上得出,廣東、浙江、江蘇的互聯網的綜合使用情況較好,互聯網在這些地區的
發展和使用情況領先于其他地區。當前的時代屬于大數據時代[12],軟件測試面臨著很多的挑戰.21世紀是信息化的時代,互聯網發展影響著世界各國的經濟、政治、文化和社會的發展,同時推動了社會生產生活和信息傳播的變革。互聯網為經濟發展提供了平臺,經濟間的交流破除了空間與時間的限制,擴大空間范圍,減少經濟運行成本。一個地區互聯網的使用情況可以很大程度的影響該地區的信息化程度,憑借互聯網的優勢可以實現市場戰略優化,帶動地方經濟收益持續增長。同時互聯網的發展對于一個地區的經濟戰略轉型提出了嚴格要求,把握互聯網經濟趨勢是地方經濟轉型的重點。根據分析結果顯示,互聯網寬帶接入端口、移動互聯網用戶、移動互聯網接入流量、互聯網上網人數、網站數這些因素在互聯網的發展和使用中起著很大的推動作用。因此地方政府對于網絡的使用和發展中可以從以下幾個方面入手:首先對互聯網知識的普及是一個重要的方面,從公民入手,使得他們對于網絡的經濟效應有一定的了解;其次政府可以對互聯網的安裝和使用制定相應的惠民政策;最后政府應著重關注各地區的經濟戰略轉型,以網絡經濟為中心構建新的格局,把握網絡經濟改革的風向。因此對于一個地區互聯網的普及可以著重從這些方面入手,進而可以更好地推動互聯網和經濟發展的進一步結合,使得經濟的發展結構得到轉型,經濟發展水平得以提升。
參考文獻:
杜淑穎. 基于大型數據集的聚類算法研究[J]. 軟件, 2016, 37(01): 132-135.
何曉群, 現代統計分析方法與應用[M], 北京: 中國人民大學出版社, 1998.
趙海霞, 武建. 淺析主成分分析方法[J]. 科技信息, 2009(2).
對應分析數學模型及其應用, 陶鳳梅, 韓燕等[M]. 北京: 科學出版社, 2008.
中國統計年鑒. 北京: 中國統計出版社, 2017.
Bryan F. J. Manly. Multivariate Statistical Methods: A Primer. Chapman and Hall, 1986.
MacQueen, J. Some Methods for Classification and Analysis of Multivariate Observations, the 5th Berkley Symposium on Mathematics. Statistics and Probability, 1967.
張文宇, 王秀秀, 任露, 等. 改進的主成分聚類分析法在教育信息化中的應用[J]. 軟件, 2015, 36(7): 10-16.
王學仁, 王松桂. 實用多元統計分析. 上海: 上海科學技術出版社, 1990.
袁志發, 宋世德. 多元統計分析. 北京: 科學出版社, 2009.
G. A. F. Seber. Multivariate Observations. John Wiley & Sons, Inc., 1984.
張琪. 大數據背景下軟件測試的挑戰與展望[J]. 軟件, 2018, 39(6): 181-183.