翁世洲,呂躍進
(1.廣西民族師范學院 經濟與管理學院,廣西 崇左 532200; 2.廣西大學 數學與信息科學院,南寧 530004;3.廣西科技大學 鹿山學院,廣西 柳州 545616)
區間粗糙數作為近年來興起的一種新的數據形式,以粗糙集和序信息系統為理論基礎[1],在處理不確定、不一致和不精確數據方面顯示出其獨特優勢.作為區間數和粗糙集的聯合推廣形式,區間粗糙數的數據區間從一個變為兩個,形如([a,b],[c,d]),其中c≤a≤b≤d.因此,如何將區間粗糙數與實數空間對應起來,進而解決多屬性決策中的相關問題尤為重要.
在對區間粗糙數進行排序比較的研究領域,國內學者已取得一些初步成果.如曾玲等人[2]1758將區間粗糙數的期望值定義為(a+b+c+d)/4,以期望值大小作為區間粗糙數排序的依據.王堅強等人[3]則進一步引入區間粗糙數的隨機變量,使得每個對象在各個準則下的取值對應多個區間粗糙數和相應的概率取值,并通過區間粗糙集結算子(WIRDAA)對準則下的不同取值進行集結以達到排序目的.錢偉懿等人[4]在定義加權平均算子(IRWA)與加權幾何算子(IRWG)的基礎上,提出了區間粗糙數比較的可能度公式,并討論了相關性質,最后通過IRWA算子進行排序決策.呂躍進等人[5]提出了一種考慮決策者偏好的加權期望值計算方法,孫琪恒[6]通過統計理論中的極大似然估計確定其數學期望進而排序,張芳馨等人[7]通過定義區間粗糙數的可能度然后進行排序,曾雪蘭等人[8]將集對分析與聯系數的概念引入區間粗糙數,然后將區間粗糙數轉化為聯系數進而加以比較和排序.此外謝鳳平等人[9]討論了基于區間粗糙數互補判斷矩陣的排序問題,呂躍進等[10]對基于區間粗糙數信息系統的覆蓋分類冗余度與屬性約簡進行了相關研究并取得一定成果.
在區間粗糙數分布類型的研究領域,國內近年來也取得一些成果,如田瑾等人[11]提出了帶參數的區間粗糙數問題,考慮了非均勻分布下的區間粗糙數比較問題,并給出了集結算子.夏曉東等[12]在其成果中也采用了帶參數的區間粗糙數,并結合理想點法給出了多屬性決策方法.盡管這些文獻開始意識到不能忽略區間粗糙數的分布類型去討論其相關性質,但在分布類型的研究上還有待進一步深入.

從現有文獻來看,盡管研究區間粗糙數的排序方法已經取得諸多成果,但是在將區間粗糙數轉化為實數的過程中,不可避免需要涉及的一個問題,即區間粗糙數分布類型的假定.在上述文獻中,文獻[6-7]給出了區間粗糙數服從均勻分布的假定,文獻[8-9]給出了區間粗糙數服從正態分布的假定.文獻[2-5]雖未明確表明其研究的區間粗糙數服從何種分布,但根據其所定義的數學期望等度量公式來看,研究者們也更傾向于數據服從均勻分布或正態分布.但在實際問題中,區間粗糙數在給定范圍內的取值可能服從各種不同類型的分布,如常見的還有指數分布、二項分布、泊松分布等形式,若區間粗糙數并非服從簡單的均勻分布或正態分布,則上述文獻所定義的相關公式(如數學期望)將不再適用,這將給區間粗糙數的比較與排序帶來新的難題,但若針對每一種分布類型去研究其復雜的數學機理,進而定義數學期望、方差的公式再用于比較,其晦澀的數學推理將成為阻礙區間粗糙數理論研究發展的一大障礙.
鑒于此,本文將對區間粗糙數所服從的不同分布類型進行假定,從常見的均勻分布、正態分布、二項分布、指數分布入手展開相應分析.在本文中,將避開復雜的數學理論,直接考慮隨機變量在區間粗糙數給定范圍內的取值情況,并通過MATLAB軟件產生符合特定分布律的隨機數,模擬這一情形,其關鍵在于如何將區間粗糙數的參數與不同分布類型的參數對應起來.對不同區間粗糙數的排序比較問題,不再使用數學理論進行推導,在服從給定分布的情形下,用MATLAB軟件進行大數據模擬,根據每次產生的不同隨機數進行比較,統計總體結果并對不同的區間粗糙數比較排序.借助于軟件的強大功能并通過快速運算在一定程度上替代數學推理,但能達到相同的效果,為人工智能的發展提供參考和借鑒.
定義1[16]設U是一個論域,并且是一個表示概念的集合,其下近似和上近似分別定義為
(1)

(2)
其中:R(x)={y∈U|y?x},R-1(x)={y∈U|x?y}.

定義3一個區間粗糙數是下近似和上近似均為區間的粗糙集,記為([a,b],[c,d]),其中c≤a≤b≤d.
例如某項目的投資額用區間粗糙數表示為([4,6],[3,7]),對于這一表達的含義,解釋為“投資額在4萬~6萬元之間是肯定的,在3萬~7萬元之間是可能的”[2]1757,筆者認為這一解釋在邏輯上存在些許問題,既然取值在4萬~6萬元之間是肯定的,自然就無法取到超出這一范圍的值,也就不存在于3萬~7萬元之間取值的提法.鑒于此,本文認為對于區間粗糙數的語義解釋可有以下兩種:
1)若該項目的投資額在4萬~6萬元之間,是肯定能被投資者接受的,若投資額在3萬~7萬元之間,是可能被投資者接受的.這一解釋是站在投資人的角度,對不同投資額的接受程度進行解釋,且“肯定”與“可能”的語義與粗糙集的下、上近似相一致.
2)該項目的投資額肯定會在3萬~7萬元之間,但實際上更有可能在4萬~6萬元之間.這一解釋是站在項目本身的角度,對其投資額可能的取值范圍進行描述,以不同的概率取對應值,這一解釋雖使得“肯定”與“可能”的語義與粗糙集不相一致,但與絕大多數實際情況是相符的.
若區間粗糙數ξ=([a,b],[c,d])在給定區間上服從均勻分布,則對應的數學期望與方差分別為
(3)
此時ξ在區間[a,b]取值的概率為
(4)
在使用MATLAB軟件進行仿真時,利用系統自帶的函數unifrnd可以產生服從均勻分布的隨機數,語法格式為
M=unifrnd(a,b):產生在區間[a,b]上服從均勻分布的隨機數.
本文所指的兩階段均勻分布,其基本提法來源于文獻,意為ξ在區間[c,d]上服從均勻分布的基本假定,但由于區間粗糙數的初衷為ξ“更有可能”在[a,b]上去取值,鑒于此,在均勻分布的基礎上,將ξ所對應的區間分為兩部分,即[a,b]與[c,a]∪[b,d],然后ξ在[a,b]與[c,a]∪[b,d]各自服從均勻分布,但顯然應在[a,b]上有更大的概率密度[18]820.

(5)
公式(5)意為ξ在[a,b]上取值的概率密度是在[c,a]∪[b,d]上取值的概率密度的k倍,解之得
(6)


在使用MATLAB軟件進行仿真時,無法直接產生此種類型的分布,因此只能借助于均勻分布的方法間接產生.步驟如下:
1)使用flag=unifrnd(0,1)產生[0,1]上服從均勻分布的隨機數;
2)若flag≤x,則使用M=unifrnd(a,b)產生區間[a,b]上服從均勻分布的隨機數;否則轉下一步;
3)使用flag2=unifrnd(0,1)產生[0,1]上服從均勻分布的隨機數;

注:上述第4步的flag2,意在使得ξ在[c,a]∪[b,d]}按區間長度所占比例對應產生隨機數,避免因為[c,a]∪[b,d]}不是一個連續區間而無法直接產生隨機數.
若區間粗糙數ξ∈([a,b]∪[c,d])在給定區間上服從正態分布N(μ,σ2),由于正態分布對應的定義域為(-∞,+∞),區間[c,d]只是定義域中的一段,如何通過區間粗糙數的端點來界定正態分布的參數值得考慮,為避免在生成正態分布隨機數時產生溢出或越界現象,根據正態分布的3σ準則,使得P{ξ∈[c,d]}≥Φ(3)-Φ(-3)=0.997 4,即溢出的概率僅為3‰以下,使隨機數以盡可能大的概率落入給定區間[c,d]上.
由準則可知正態分布下對應的數學期望與標準差為
(7)
此時ξ在區間[a,b]取值的概率為
(8)
在使用MATLAB軟件進行仿真時,可直接使用系統自帶函數normrnd(MU,SIGMA)產生均值為°MU,標準差為°SIGMA°的正態隨機數.步驟如下:
1)計算區間粗糙數ξ=([a,b],[c,d]}所對應的正態分布均值MU和標準差SIGMA;
2)使用M=normrnd(MU,SIGMA)命令生成均值為°MU,標準差為°SIGMA°的正態隨機數;
3)若M?[c,d],表明數據溢出,則重新生成,直至符合要求為止.
若區間粗糙數ξ∈([a,b],[c,d])在給定區間上服從二項分布b(n,p),其中二項分布X~b(n,p)的兩個參數分別表示最大實驗次數和單次實驗中某事件發生的概率.為使得區間粗糙數服從二項分布,對應關系如下.
由于隨機變量應在0~n之間取值,為了對應,需先將ξ∈([a,b],[c,d])轉化為ξ′=([a-c,b-c],[0,d-c]),此時則有n=d-c,二項分布的數學期望E(X)=np代表最有可能發生的位置,由于ξ′=([a-c,b-c],[0,d-c]),更有可能在[a-c,b-c]之間取值,因此有數學期望的近似公式:
(9)

(10)
將ξ=([a,b],[c,d])轉化為ξ′=([a-c,b-c],[0,d-c])的合理性在于:
E(X+C)=E(X)+C,D(X+C)=D(X),
(11)
即數據進行線性變換后不會改變隨機變量的數字特征和分布規律,因此這種轉換是合理的.

在使用MATLAB軟件進行仿真時,可直接使用系統自帶函數°binornd(n,p)產生實驗次數為°n,單次試驗發生概率為p的二項分布隨機數,具體步驟如下:
1)將區間粗糙數ξ=([a,b],[c,d])轉化為ξ′=([a-c,b-c],[0,d-c]);
2)由公式計算所需參數n,p;
3)使用M=binornd(10n,p)命令產生0~10n上的二項分布隨機數;
4)令M=M/10+c將數據還原到區間[c,d]上.
X服從參數為θ的指數分布的概率密度為
(12)

若區間粗糙數ξ=([a,b],[c,d])在給定區間上服從指數分布,為擬合指數分布,需做與二項分布類似的數據變換,即ξ′=([a-c,b-c],[0,d-c]).由于指數分布的有效定義域為(0,+∞),而ξ對應的區間[0,d-c]只是其中很小一部分,但占據著極大概率.因此,在確定參數θ時應盡可能使得產生的隨機數落入區間[0,d-c]上.與正態分布類似,采取以1-α的概率保證這一結論的成立,即
(13)
其中x0=d-c.則解之得
(14)

在使用MATLAB軟件進行仿真時,可直接使用系統自帶函數exprnd(EX)產生均值為EX的隨機數,具體步驟如下:
1)將區間粗糙數ξ=([a,b],[c,d])轉化為ξ′=([a-c,b-c],[0,d-c]);
2)由公式計算對應參數θ;
3)使用M=exprnd(θ)命令產生(0,+∞)上的指數分布隨機數;
4)若M>d-c,表明數據溢出,則返回上一步重新生成隨機數,否則轉下一步;
5)令M=M+c將數據還原到區間[c,d]上.
本文所指的無規律隨機分布,指不存在任何明顯規律,或者是尚未發現其規律,抑或是難以用常見的分布類型進行表達的情形.即ξ=([a,b],[c,d])在區間[c,d]上的取值幾乎是完全隨機的.
MATLAB軟件本身沒有提供完全無規律的隨機數,因此在仿真時,實際上仍是產生服從某種常見分布的隨機數,但是在選擇分布類型時是以隨機原則進行的.其步驟可簡單概括為:
1)使用某一分布函數隨機產生一個k∈[1,n]之間的整數隨機數,即k=1,2,……,n;
2)根據k值選擇預先設定好的隨機數類型;
3)根據上一步選擇的分布類型使用對應的函數產生相應隨機數,具體步驟如前所述.
例如預先設定了五種分布,則取n=5,若在步驟1中產生的數字為1,則按第一種分布類型(假定為均勻分布)產生隨機數,在第二次試驗時,若在步驟1中產生的數字為3,則按第三種分布類型(假定為正態分布)產生隨機數,以盡可能達到完全隨機的目的.
上述做法看似隨機數是由有規律的分布類型所產生,但由于在循環仿真中每次產生的隨機數實際上是由不同分布混合而成,而這些常見分布的混合并不服從某一常見分布,從而實現模擬無規律隨機分布的目的.
在統計領域,對于隨機變量的分布類型,遠遠不止上述幾種,如還有幾何分布、超幾何分布、泊松分布、卡方分布、t分布等各種類型,限于篇幅,本文無法一一列舉并做討論,對于其他分布,可按類似的方式確定區間粗糙數的邊界值與相應分布類型參數之間的對應關系,然后進行轉化.值得說明的是,不同分布之間并無優劣之分,不同分布的存在僅僅是因為有其各自適用的問題背景.至于在實際問題中,不同的屬性或指標數據符合何種分布,需要根據問題特性以及行業經驗來加以確定,不是數學本身可以做出強制性規定的.如在排隊系統中,顧客到達率一般服從泊松分布或指數分布,乘客候車時間則服從均勻分布,考試成績一般服從正態分布等.在同一個問題中,不同指標可能服從不同的分布類型,不能采用統一的分布假設進行處理.
為研究不同分布類型對區間粗糙數實際取值的影響,本文分別用MATLAB程序將上述分布類型對應的產生隨機數算法加以實現,并對表1中不同的區間粗糙數進行兩兩對比分析,得到的實驗結果如表2所示(實驗環境:Windows7 32位操作系統,CPU AMD N830三核,內存2GB,硬盤500GB).

表1 仿真分析原始數據
在表2中,仿真次數N=10 000,i和j分別表示表1中的對應區間粗糙數xi和xj的對比,fk表示第k種分布下,xi>xj的次數,ek表示第k種分布下,xi=xj的次數(只有二項分布和無規律隨機分布下會出現此種情形),pk表示根據仿真結果計算出的xi>xj的概率,則P{xi>xj}=fk/N.

表2 仿真分析統計結果表
基于本文比較方法,可得不同分布下的區間粗糙數排序關系如表3所示,為了驗證本文算法,將文獻[2]和文獻[4]給出的排序方法應用于本例中,對比結果如表3所示.

表3 本文算法與類似文獻對比
注:表中帶*的數字,表明該方法下的排序與其他各排序方法存在不一致的情況.
由表2的仿真結果可以看出,給定兩個區間粗糙數,當給出不同的分布類型假設時,所得到的優劣比較概率存在較大差別.以x3,x5的比較為例,在指數分布下,x3與x5不相上下,甚至x3還稍微占優,但在其他分布類型下,比較結果均為x3顯著劣于x5,整個占優概率區間跨度為[0.02,0.51],差異性較大.
由表3可以看出,盡管大多數分布下得出的排序結果一致,均為x4?x1?x2?x5?x3,該結果與文獻[2]和[4]一致,但也存在特殊情況,例如在二項分布中,x1與x4出現了逆序情況,在指數分布中,x3與x5同樣出現了逆序.
仿真結論:區間粗糙數分布類型的不同假定對于區間粗糙數大小的比較有一定影響,甚至可能會在不同的分布類型下得到完全不同的結論,因此在現實問題的區間粗糙數比較研究中,有必要根據實際情況對區間粗糙數所服從的分布類型進行研究,從而做出合理的假定.
為進一步驗證對不同分布類型假定下的合理性,特地選取x1在二項分布和指數分布下的隨機數取值結果進行分析,取值規律如圖1、圖2所示.

圖1 二項分布下的x1取值效果圖 圖2 指數分布下的x1取值效果圖
從圖1、圖2可以看出,在對x1進行的10 000次仿真模擬中,產生的隨機數服從二項分布和指數分布的擬合效果與相應分布的理論情形基本吻合,說明隨機數模擬算法達到了預定目標.同時可以看出,盡管x1都是在[9,13]之間取值,但是由于分布類型不同,其取值的集中區間明顯不同,在二項分布下,x1取值主要集中在[11,12],基本呈對稱分布,而在指數分布下,x1取值則主要集中在[9,10],并且取值概率逐漸下降.
物流配送中心的選址關系到物流運輸成本、車輛調度等諸多問題,越來越受到企業重視.因此,在企業物流規模的擴張中,何處選址需要企業進行科學分析.假定某公司現有5個候選地址可供建立物流配送中心,企業在選址時考慮的主要因素包括成本、期望收益、管理效益和風險四個方面.各指標對應的數據由于是預估值,因此都是以區間粗糙數的形式給出,為了避免指標間的數據類型差異,成本數據表示成本節約量、風險數據表示規避和防范風險能力,因此所有數據都是效益型數據.原始數據如表4所示,其中a1,a2,a3,a4分別表示節約成本、期望收益、管理效益和規避風險四個方面的評價指標.

表4 物流中心選址原始數據
對于區間粗糙數形式的多屬性決策問題,首先需要解決兩個難題,一是區間粗糙數向實數的轉化,這就涉及數據分布的假設問題,而傳統方法在求其期望值時基本是按照均勻分布或正態分布進行處理,且對所有指標均是如此,缺乏科學依據.二是多屬性的數據集結問題,一般方法如層次分析法、模糊綜合評價等均需要確定不同指標的權重,然后在此基礎上進行集結,但權重的確定是一個極為主觀的問題,不同的權重完全可能導致不同的排序結果.綜合上述分析,擬采用本文所提的方法,一是根據不同指標擬合不同的分布類型,二是避免不同屬性集結過程中的數據歸一化處理和權重確定問題,最大程度上做到客觀公正.
根據指標本身的數據特性,同時為了進一步驗證本文所給出的不同分布形式,故假定節約成本和期望收益服從均勻分布,管理效益服從二項分布,規避風險服從指數分布.根據上節中的MATLAB仿真算法進行再次仿真,得到的結論見如下表5.

表5 物流中心數據兩兩比較仿真結果
表5中,第一行第二列表格中的(0.899,0.772,0.979,1)表示x1與x2相比,在四個屬性下各自的優勢度(仿真次數N=10 000),即Pa1(x1>x2)=0.899,Pa2(x1>x2)=0.772,Pa3{x1>x2}=0.979,Pa4{x1>x2}=1,其他數值可做類似解釋.
若取α=0.5表示優劣比較的下限,則根據優勢關系的構造方法[18]823,可得
進而根據優勢關系排序法[19],可得五個方案的排序結果為
x5?x3?x1?x2~x4.
排序結果表明,在5個候選地址中,x5是最佳選擇,x2和x4則不相上下,且均不宜作為選址方案.這與文獻[18]的排序結果一致,說明了本文對區間粗糙數分布的假定是合理的.
本文通過對區間粗糙數所服從的分布做出合理假定,討論了六種不同分布類型下的區間粗糙數取值與分布類型參數之間的關系,并給出了如何使用MATLAB軟件進行仿真分析的相關算法.通過樣例數據,在MATLAB軟件下對各種分布類型的區間粗糙數進行比較分析,得出分布類型對區間粗糙數的比較存在一定影響的結論.此外,論文還將這一方法應用到物流領域,用于輔助進行物流中心的選址決策,結果與其他文獻一致.
通過MATLAB軟件進行數據仿真分析,可大大降低分析難度,避開晦澀難懂的概率求解問題,具有更好的推廣價值.今后我們將進一步討論其他分布類型下的區間粗糙數比較問題,并進一步推廣到其他應用領域,以不斷豐富和完善多屬性決策的理論方法.