摘要:在云變換的基礎上,結合非經典關系數據庫理論提出了云關系模式,給出了云關系模式的定義,探討了云關系模式的意義,并將它應用于學生成績數據庫中,改進了目前學生定性評定方法,克服了其中的主觀因素,實例證明該方法具有可行性。
關鍵詞:云模型; 云關系; 定性評價
中圖分類號:TP301
文獻標志碼:A
文章編號:1001-3695(2007)09-0170-03
0引言
隨著不確定性研究的深入,越來越多的科學家相信,不確定性是這個世界的魅力所在,只有不確定性本身才是確定的。在眾多的不確定性中,隨機性和模糊性是最基本的[1,2]。前蘇聯數學家克爾莫哥洛夫提出的概率論公理化方法是人們研究隨機性數學的基礎,用概率來表示隨機性,利用隨機變量的分布函數可以方便地研究各種隨機現象[3]。美國學者L.A.Zadeh提出的模糊數學是處理模糊性的主要理論工具[4],其基本思想是:用隸屬度來表示模糊性,將經典集合論中的特征函數的取值范圍從二值{0,1}推廣到區間[0,1],使得模糊性可以用[0,1]區間中的數表示。概率論和模糊數學分別被用來研究隨機性和模糊性,均存在各自的不足。首先,概率論中概率分布的前提條件過于嚴格,使其應用受到限制;模糊數學在應用中隸屬度的難以確定是其始終沒有解決的難題。其次,模糊性和隨機性僅僅是從不同的角度去認識不確定性,均不考慮兩者之間的關聯性,實際應用中,隨機性和模糊性常常是連在一起的,難以區分和獨立存在。比如人類語言中學生成績的定性概念——好、合格、差,概念的邊界具有模糊性,同時處在定性概念邊界附近的某些成績歸屬于哪個定性概念又具有隨機性。針對概率論和模糊數學在處理不確定性方面的不足,1995年我國工程院院士李德毅教授在概率論和模糊數學的基礎上提出了云的概念,并研究了模糊性和隨機性及兩者之間的關聯性。
自李德毅院士等人提出云模型至今短短的十多年,其已成功地應用到數據挖掘、決策分析、智能控制等眾多領域。在眾人的共同努力下云的基本理論也取得了一些發展,主要有云變換、逆向云、多維云、虛擬泛概念樹自動生成等。關于云關系模式的文獻尚不多見,而在實際應用中,數據源大多來自數據庫,如果能對數據庫進行云化處理,將會大大提高效率。本文的目的就是嘗試建立云關系模型的基本理論,為云理論在數據挖掘、決策分析、綜合評判及信息處理等方面的廣泛應用作準備。
1云模型理論基礎知識
1.1云概念和云發生器[5]
設U是一個用精確數值表示的定量論域;C是U上的定性概念;若定量值x∈U,且x是定性概念C的一次隨機實現,x對C的確定度μ(x)∈[0,1]是有穩定傾向的隨機數。 μ:U→[0,1],x∈U,x→μ(x),則x在論域U上的分布稱為云(cloud),每一個x稱為一個云滴。
云概念整體特性可用云的數字特征來反映:a)期望Ex,云滴在論域空間分布的期望;b)熵En,定性概念的不確定性度量,由概念的隨機性和模糊性共同決定;c)超熵He,是熵的熵,由熵En的隨機性和模糊性共同決定。
圖1是正向正態云發生器;圖2是反向正態云發生器。正向正態云發生器是從定性到定量的映射,它根據云的數字特征(Ex,En,He)產生云滴;逆向正態云發生器是從定量值到定性概念的轉換模型,它可以將一定數量的精確數據轉換為以數字特征(Ex,En,He)表示的定性概念。
在一維云的基礎上,可以定義二維云的數字特征:期望(Ex1,Ex2)、熵(En1、En2)、超熵(He1,He2)和相應的二維云發生器。
1.2云變換[6]
給定論域中某個數據屬性X的頻率分布函數f(x),根據X的屬性值頻率的實際分布情況自動生成若干粒度不同的云C(Exi,Eni,Hei)的疊加,每個云代表一個離散的、定性的概念。這種從連續的數值區間到離散的概念的轉換過程,稱為云變換。數學表達式為f(x) →∑ni=1(ai×C(Exi,Eni,Hei))。式中:ai為幅度系數;n為變換后生成離散概念的個數。
2云關系
定義1云域是指相關云概念的集合,記為C(c1(Ex1,En1,He1),…,cm(Exm,Enm,Hem))。其中:C為云域名,ci為云域中的第i個云概念。
給定一實數域D,通過云變換,該實數域D對應的云域記做C;用Ψ(C)表示C的冪集減Φ,即2C-Φ。
定義2云關系模式。設R={A1,…,An}是一個普通關系模式。其中屬性Ai的值域是實數區間。通過云變換,屬性Ai的云域為Ci,Ψ(Ci)為Ci對應的冪集減Φ(i=1,…,n)。則R上的云關系是Ψ(C1)×…×Ψ(Cn)的子集。
云關系模型和經典關系模型一樣均將關系看做是元組的集合,而且元組均無序。如果關系模式R={A1,…,An},每個屬性Ai的域dom(Ai)記做Di,則R上經典關系的元組ti具有形式〈di1,…,din〉。其中:dij∈Di,j=1,…,n。對于關系模式R上的云關系,每個屬性Ai的云域cloud(Ai)記做Ci,則將云關系的元組ti定義成〈ci1,…,cin〉的形式。其中cijCi,每個cij都是Ci的非空子集,j=1,…,n。
由定義可知,Ψ(C1)×…×Ψ(Cn)的任何一個子集都是R上的云關系,但筆者感興趣的是那些滿足一定語義要求的子集,也就是說有用的云關系一般是由語義決定的。例如,有一個關系模式R={姓名,數學,語文}。其中數學、語文代表成績,域是[0,100]。根據學生定性評價辦法,筆者利用云變換將語文、數學成績轉換為五分中的五個云概念云域C1{1,2,3,4,5}、C2{1,2,3,4,5}。其中1~5分別是云域中云概念的名字。如果有這樣的語義:張三的語文、數學(五分制)成績。雖然Ψ(C1)×Ψ(C2)的子集很多,但筆者感興趣的只是與張三的成績有關的云關系元組,如〈{張三},{2,3,4},{3,4,5}〉。
云關系模型和經典關系模型不同,它允許元組的分量是域中一些值的集合,而不限于是域中的某個單個值。
定義3 云元組的語義。 關系模式R={A1,…,An}上的云關系r的元組ti=〈ci1,…,cin〉的解釋是a=〈a1,…,an〉。其中aj∈cij,j=1,…,n,而且〈a1,…,an〉滿足決定云關系r的那些語義。顯然,在經典關系中,任何元組ti都只能有一個解釋,那就是這個元組自己;但在云關系中,任何元組ti都可能有多個解釋。云關系中一個元組的屬性的取值可以是集合,所以云關系都不屬于1NF。
3 基于云關系模型的學生定性評價
表1是一個簡化的學生成績數據庫,包含7 356個學生記錄。傳統的百分制—五分制轉換機制如表2所示。
3.1傳統評定方法存在的不足
a)百分制到五分制的轉換是硬劃分的方法,對學生的定性評價不夠客觀。比如89分和90分的差別不像級點反映的那么明顯。
b)不同科目的轉換機制采用統一的轉換標準,沒有考慮不同科目之間的差異。
c)沒有考慮試題難易對分數的影響。
3.2對傳統評價方法的改進
a)百分制到五分制的轉換采用軟劃分。以學生成績數據庫中的數據為依據對每門成績進行
云變換。把區間[0,100]轉換成含五個云概念的云域C{C1(Ex1,En1,He1),…,C5(Ex5,En5,He5)},五個云概念分別對應五分制中的{5,4,3,2,1}。
b)采用軟劃分。某一成績可能對應兩個或多個五分制概念(如89既隸屬于五分制的4分又隸屬于五分制的5分),剩下的問題是判定每一個具體的百分制成績最終隸屬于那個五分制概念。這里采用極大判定法,就是求出百分制成績對五分制概念集中所有概念的隸屬度的大小,選擇最大隸屬程度的概念作為百分制成績最終隸屬的五分制概念。其原理如圖3所示。
c)可以根據不同的數據源背景產生不同粒度的評價標準。本文選擇廣西大學學生成績數據庫為數據源來產生轉換標準,也可以以一個年級的成績庫為數據源,或以整個地區、省市的成績庫為數據源產生定性評價標準,原理一樣。
4實例分析
對于表1所示的學生成績數據庫,本文分別對三科成績進行云變換后得到如下云域:
傳統評價方法中,丁松同學三科五分制成績為{2,5,3},由本文提供的評價方法其五分制成績為{2,5,4}。通過比較發現結果有些不同,這正是新方法以實際數據為依據更客觀的結果。
5結束語
近年來,云模型理論已經被廣泛地應用于數據挖掘和知識發現領域,特別是在定性規則挖掘方面,綜合考慮隨機性、模糊性以及兩者之間的關聯性的優勢越來越引起人們的重視。建立云關系理論的困難在于給出合適的定義。本文從云模型理論的現有理論出發,充分考慮云模型的特點,推廣了經典關系模型,建立了云關系的基本理論,是對云模型理論的有益補充,希望能成為云模型理論應用的有力工具。
參考文獻:
[1]李德毅,杜鷁.不確定性人工智能[M].北京:國防工業出版社, 2005.
[2]李德毅,劉常昱,杜鷁,等. 不確定性人工智能[J]. 軟件學報, 2004,15(11):15831594.
[3]王梓坤.概率論及其應用[M].北京:北京師范大學出版社, 1995.
[4]ZADEH L A.Fuzzy sets[J].Information and Control,1965, 8(3):338-353.
[5]李德毅,孟海軍,史雪梅.隸屬云和隸屬云發生器[J]. 計算機研究與發展,1995,32(6):16-21.
[6]杜鷁,李德毅.基于云的概念劃分及其在關聯采掘上的應用[J]. 軟件學報,2001,12(2):196-
203.
[7]蔣嶸,李德毅,范建華.數值型數據的泛概念樹的自動生成方法[J]. 計算機學報,2000,23(5):
471-477.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”