梁曉佳+周菊玲
摘 要 本文對(duì)居中型和區(qū)間型兩種適度指標(biāo)進(jìn)行論證和例證,考察了這兩種數(shù)據(jù)處理方法對(duì)主成分和因子分析這種綜合評(píng)價(jià)結(jié)果的影響。另外,本文用文獻(xiàn)①“初始化”思想對(duì)極差法進(jìn)行分析,得到結(jié)論,即處理后數(shù)據(jù)的協(xié)方差矩陣不僅消除了指標(biāo)量綱和數(shù)量級(jí)的影響,還能包含原始數(shù)據(jù)的全部信息。
關(guān)鍵詞 數(shù)據(jù)處理 同趨勢(shì)化 標(biāo)準(zhǔn)化 變異
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
The Discussion of Data Preprocessing
LIANG Xiaojia, ZHOU Juling
(Department of Mathematical sciences, Xinjiang Normal University, Urumqi, Xinjiang 830054)
Abstract Argument and illustration of some kinds of appropriate indicators is done in this paper, such as the indicators of medium and interval. And the paper looks at the effect of the comprehensive evaluation results from the two data processing method on principal components analysis and factor analysis. In addition, this article analyses the process according to the method of "Initialization" in the literature [1], then come to a conclusion of which the data covariance matrix after processing not only eliminate the influence of index dimension and order of magnitude, and also can contain all the information in the raw data.
Key words data processing; communalities; standardized; variation
0 引言
綜合評(píng)價(jià)是依據(jù)被評(píng)價(jià)對(duì)象的過(guò)去或當(dāng)前一段時(shí)間的相關(guān)信息,對(duì)被評(píng)價(jià)對(duì)象進(jìn)行客觀、公正、合理的全面評(píng)價(jià)。由于來(lái)自實(shí)際的指標(biāo)數(shù)據(jù)可能是各種各樣的,每個(gè)評(píng)價(jià)對(duì)象又涉及多個(gè)指標(biāo),特別是對(duì)于不同類(lèi)型、不同單位、不同數(shù)量級(jí)的數(shù)據(jù)存在著不可公度性,所以在一個(gè)較復(fù)雜的綜合評(píng)價(jià)問(wèn)題中,可能同時(shí)含有極大型指標(biāo)、極小型指標(biāo)、居中型指標(biāo)和區(qū)間型指標(biāo).做這樣的綜合評(píng)價(jià)問(wèn)題時(shí),必須先將不同類(lèi)型的數(shù)據(jù)做一致化處理,即通過(guò)一定的數(shù)學(xué)變換把性質(zhì)、量綱各異的指標(biāo)轉(zhuǎn)化為可以綜合的一個(gè)相對(duì)數(shù), 即對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。
對(duì)于數(shù)據(jù)的處理,目前很多學(xué)者已經(jīng)進(jìn)行了多方面的研究,并已獲得了一定成果。例如:韓中庚提出了定性數(shù)據(jù)指標(biāo)的量化處理方法;②陳軍才論述了同趨勢(shì)化方法對(duì)綜合評(píng)價(jià)的影響,并指出了適用條件;③張立軍、袁能文分析與比較了各種指標(biāo)一致化與無(wú)量綱化方法對(duì)綜合評(píng)價(jià)結(jié)果的影響,并對(duì)有效性進(jìn)行測(cè)度;④張衛(wèi)華、趙銘軍找到了一種“合理排序”來(lái)進(jìn)行無(wú)量綱化方法的優(yōu)選;⑤俞立平、潘云濤、武夷山根據(jù)選擇標(biāo)準(zhǔn)化方法的三大原則篩選出一種正項(xiàng)指標(biāo)標(biāo)準(zhǔn)化方法,并提出一種負(fù)項(xiàng)指標(biāo)標(biāo)準(zhǔn)化方法;⑥郭亞軍、易平濤構(gòu)建了一種復(fù)合無(wú)量綱化方法——“極標(biāo)復(fù)合法”;⑦賈明輝、華志強(qiáng)提出了一種新的無(wú)量綱化方法——初始化法,并討論了這種方法的優(yōu)勢(shì)。
本文研究陳軍才文獻(xiàn)中的同趨勢(shì)化方法對(duì)主成分和因子分析的影響,欲對(duì)另外兩種適度指標(biāo)(居中型和區(qū)間型)進(jìn)行論證和例證,考察這兩種數(shù)據(jù)處理方法對(duì)綜合評(píng)價(jià)結(jié)果的影響。另外,本文用賈明輝文獻(xiàn)中 “初始化”思想對(duì)極差法進(jìn)行分析,考察極差法的性質(zhì)。
1 兩種同趨勢(shì)化方法對(duì)主成分和因子分析的影響
這里的同趨勢(shì)化方法均取自韓中庚文獻(xiàn)中的方法,探求使用此方法處理后的數(shù)據(jù)間發(fā)生的變化。
1.1 將居中型化為極大型
其中,、分別為的極大值和極小值。
命題:通過(guò)這種變換后,數(shù)據(jù)間正負(fù)相關(guān)關(guān)系的變化不確定。
證明:不妨設(shè)為其他指標(biāo),為居中型指標(biāo)。
樣本相關(guān)系數(shù) = 。
設(shè) = 0,因?yàn)?0,>0,當(dāng) = 0時(shí), = 。
只需證與·是否同號(hào)。即原來(lái)負(fù)相關(guān)的關(guān)系,可能變?yōu)檎嚓P(guān),也可能負(fù)相關(guān),也可能變換前后關(guān)系不確定。
∵· = ·()
∴簡(jiǎn)化為只需證與·()是否同號(hào)。
若變換前后關(guān)系不定,只要舉例求證<0時(shí),判斷·()(Department of Mathematical sciences, Xinjiang Normal University, Urumqi, Xinjiang 830054)與 0的大小關(guān)系即可。
例證:樣本數(shù)據(jù)為{(-1,1),(-2,2),(-3,3),(6,1)}時(shí):
= -8<0,·()= -8<0,兩者相等;
樣本數(shù)據(jù)為{(-1,1),(-2,2),(-3,3),(5,1)}時(shí):
= -9<0,·()= -8<0,兩者同號(hào);
樣本數(shù)據(jù)為{(-1,0),(8,0),(2,-1)}時(shí):
= -2<0,·()= 7<0,兩者異號(hào)。
這里只驗(yàn)證第一部分,同理可證第二部分。endprint
運(yùn)用這種居中型向極大型的變換方法,變換前后正負(fù)相關(guān)關(guān)系不確定。
命題成立。
1.2 將區(qū)間型化為極大型
對(duì)于區(qū)間型指標(biāo)[,],
其中 = {, },、分別為的極大值和極小值。
命題:運(yùn)用這種區(qū)間型向極大型的變換方法,變換前后正負(fù)相關(guān)關(guān)系不確定。
證明:這里只驗(yàn)證第一部分,不妨設(shè)>。
這樣只需證與( )是否同號(hào)即可。
∵·( ) = ·
只需證與·()是否同號(hào)。
故同理,可以例證說(shuō)明<0時(shí),·()可能大于0,也可能小于0,即說(shuō)明了經(jīng)過(guò)此方法的變換后,居中指標(biāo)與其他指標(biāo)之間的正負(fù)相關(guān)關(guān)系仍不確定。命題成立。
綜上,得到以下結(jié)論:經(jīng)過(guò)對(duì)上述兩種適度指標(biāo)的分析:(1)這兩種極大型變換會(huì)將原指標(biāo)均變?yōu)榉秦?fù)數(shù);(2)這兩種極大型變換對(duì)極大型指標(biāo)與其他指標(biāo)之間的相關(guān)關(guān)系的改變不能確定。
2 極差法的優(yōu)良性質(zhì)
設(shè)變換前第個(gè)評(píng)價(jià)對(duì)象第個(gè)指標(biāo)為( = 1,2,…,; = 1,2,…,),各指標(biāo)的相關(guān)系數(shù)為,極差變換后第個(gè)評(píng)價(jià)對(duì)象第個(gè)指標(biāo)為( = 1,2,…,; = 1,2,…,),利用“極差化”方法來(lái)消除量綱后,各指標(biāo)的相關(guān)系數(shù)為,令 = {,,…,}, = {,,…,},有 = , [0,1]。
記()的協(xié)方差矩陣為 = 。
∵ = ()(),
= = = [()] = ,
類(lèi)似地 = ,
,
其中為原始數(shù)據(jù)()的協(xié)方差。
特別的,當(dāng) = 時(shí), = 。
因此,使用“極差化”方法來(lái)消除量綱得到的新數(shù)據(jù)的協(xié)方差矩陣主對(duì)角元素反映出了各指標(biāo)變異程度的差異信息。
然后有:。
這就證明了“極差化方法”的處理不改變各指標(biāo)間的相關(guān)系數(shù),保留了原始數(shù)據(jù)間的差異。
所以,“極差化”處理后數(shù)據(jù)的協(xié)方差矩陣不僅消除了指標(biāo)量綱和數(shù)量級(jí)的影響,還能包含原始數(shù)據(jù)的全部信息。因此“初始化”“極差化”在數(shù)據(jù)標(biāo)準(zhǔn)化中是非常合理的方法。
3 小結(jié)
對(duì)數(shù)據(jù)進(jìn)行處理時(shí),采用不同的方法會(huì)直接影響綜合評(píng)價(jià)結(jié)果與排序的準(zhǔn)確性。本文就兩種同趨勢(shì)化方法對(duì)綜合評(píng)價(jià)方法的影響,以及極差法這種無(wú)量綱化方法的一些優(yōu)良性質(zhì)進(jìn)行探討,發(fā)現(xiàn)這兩種同趨勢(shì)化方法對(duì)綜合評(píng)價(jià)方法的影響是不確定的,而“極差化”也同樣具有“初始化方法”的優(yōu)勢(shì),即處理后數(shù)據(jù)的協(xié)方差矩陣不僅消除了指標(biāo)量綱和數(shù)量級(jí)的影響,還能包含原始數(shù)據(jù)的全部信息。關(guān)于文中同趨勢(shì)化方法對(duì)評(píng)價(jià)影響的不確定性,必須說(shuō)明的是其中的例子只是為了求證變換前后相關(guān)關(guān)系的不確定性、以及對(duì)最終評(píng)價(jià)結(jié)果的影響。這種不確定往往與樣本數(shù)據(jù)有關(guān)。
但是值得一提的是,綜合評(píng)價(jià)是評(píng)價(jià)者的主觀行為,在每一個(gè)環(huán)節(jié)上都體現(xiàn)著評(píng)價(jià)者主觀的意志和導(dǎo)向,所以在實(shí)際問(wèn)題中需要評(píng)價(jià)者根據(jù)具體情況選擇數(shù)據(jù)處理方法,處理方法應(yīng)盡可能地簡(jiǎn)潔并具有可操作性。總之,評(píng)價(jià)者應(yīng)遵循綜合評(píng)價(jià)的理論研究始終為綜合評(píng)價(jià)的實(shí)踐活動(dòng)服務(wù)的原則。
基金項(xiàng)目:2013-2014年度新疆師范大學(xué)研究生科技創(chuàng)新項(xiàng)目《運(yùn)用統(tǒng)計(jì)方法實(shí)現(xiàn)S-P法的改進(jìn)》.
注釋
① 賈明輝,華志強(qiáng).主成分分析數(shù)據(jù)處理方法探討[J]. 2008.7.23(4):379-381.
② 韓中庚.數(shù)學(xué)建模方法及其應(yīng)用(第二版)[M].北京:高等教育出版社,2009(7).
③ 陳軍才.主成分和因子分析中指標(biāo)同趨勢(shì)化方法探討[J].統(tǒng)計(jì)與信息論壇,2005.3.20(2):19-23.
④ 張立軍,袁能文.線性綜合評(píng)價(jià)模型中指標(biāo)標(biāo)準(zhǔn)化方法的比較與選擇[J].統(tǒng)計(jì)與信息論壇,2010.8.25(8):10-15.
⑤ 張衛(wèi)華,趙銘軍.指標(biāo)無(wú)量綱化方法對(duì)綜合評(píng)價(jià)結(jié)果可靠性的影響及其實(shí)證分析[J].統(tǒng)計(jì)與信息論壇,2005.5.20(3):33-36.
⑥ 俞立平,潘云濤.武夷山 學(xué)術(shù)期刊綜合評(píng)價(jià)數(shù)據(jù)標(biāo)準(zhǔn)化方法研究[J].圖書(shū)情報(bào)工作,2009.6. 53(53):136-139.
⑦ 郭亞軍,易平濤.線性無(wú)量綱化方法的性質(zhì)分析[J].統(tǒng)計(jì)研究,2008.2.25(2):93-100.endprint