999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PMML標(biāo)準(zhǔn)的數(shù)據(jù)挖掘本體構(gòu)建

2008-12-31 00:00:00張世鈴
電腦知識(shí)與技術(shù) 2008年36期

摘要:針對(duì)實(shí)際問(wèn)題選擇數(shù)據(jù)挖掘方法是一個(gè)困難的工作,使用本體對(duì)數(shù)據(jù)挖掘方法進(jìn)行建模并為用戶(hù)推薦適合的方法是一個(gè)可行的解決方案。PMML是一種應(yīng)用廣泛的數(shù)據(jù)挖掘國(guó)際標(biāo)準(zhǔn),提出了一種基于PMML標(biāo)準(zhǔn)構(gòu)建數(shù)據(jù)挖掘本體的方法并用Protégé構(gòu)建了一個(gè)本體,為利用本體推理為用戶(hù)推薦挖掘算法奠定了基礎(chǔ)。

關(guān)鍵詞:本體;數(shù)據(jù)挖掘;PMML;

中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)36-2563-03

Constructing Data Mining Ontology Based on PMML Standard

LIANG Zhu, ZHANG Hui, ZHANG Shi-ling

(Southwest University of Science and Technoloty,Mianyang 621010,China)

Abstract: It is difficult to select a suitable data mining algorithm for a real problem. Using ontology for modeling data mining algorithms and suggestingappropriate algorithm to a user is a feasible solution. We Propose a method to construct data mining ontology based.

Key words: ontology; data mining; PMML

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取知識(shí)的過(guò)程。然而,隨著研究的不斷發(fā)展,針對(duì)各種不同的問(wèn)題催生出了各種不同的數(shù)據(jù)挖掘算法,如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、粗糙集等。但這些算法有各自的假設(shè),并需要設(shè)置各種參數(shù),用戶(hù)在沒(méi)有數(shù)據(jù)挖掘?qū)<規(guī)椭那闆r下很難使用這些算法對(duì)他們的數(shù)據(jù)進(jìn)行挖掘。將數(shù)據(jù)挖掘模型本體化,利用本體的推理機(jī)制為用戶(hù)推薦算法,對(duì)簡(jiǎn)化用戶(hù)的挖掘過(guò)程具有重要意義。本文提出了一種基于PMML標(biāo)準(zhǔn)構(gòu)建數(shù)據(jù)挖掘模型本體的方法,為利用本體推理為用戶(hù)推薦挖掘算法奠定了基礎(chǔ)。

1 本體

本體(ontology)原本是一個(gè)哲學(xué)上的概念,是研究客觀世界本質(zhì)的學(xué)問(wèn)。在計(jì)算機(jī)科學(xué)中,本體的定義尚未統(tǒng)一,Studer在1998年對(duì)本體的定義得到最多的認(rèn)同:“本體是對(duì)某一領(lǐng)域概念模型的明確的、形式化的規(guī)范說(shuō)明”[1] 人工智能領(lǐng)域的研究被分為兩類(lèi),一類(lèi)是面向形態(tài)的,另一類(lèi)是面向內(nèi)容的。前者研究邏輯和知識(shí)的表示,后者研究知識(shí)的存儲(chǔ)。本體是面向內(nèi)容的,它清楚地描述了概念及概念之間的關(guān)系,通過(guò)概念之間的關(guān)系來(lái)描述概念的語(yǔ)義。不同研究者都把它當(dāng)作是領(lǐng)域內(nèi)不同主體(人、機(jī)器、軟件系統(tǒng)等)之間進(jìn)行交流(對(duì)話(huà)、互操作、共享等)的一種語(yǔ)義基礎(chǔ),即由本體提供一種共識(shí)。

出于對(duì)各自學(xué)科領(lǐng)域和具體工程的不同考慮,構(gòu)建本體的過(guò)程各不相同。目前還沒(méi)有一套標(biāo)準(zhǔn)的本體構(gòu)建方法。一般認(rèn)為,Gruber在1995年提出的5條規(guī)則[2]是比較有影響的:1)清晰性、明確性和客觀性:本體應(yīng)該用自然語(yǔ)言對(duì)術(shù)語(yǔ)給出明確客觀的語(yǔ)義定義;2)完整性:所給出的定義是完整的,能表達(dá)特定術(shù)語(yǔ)的含義;3)一致性:知識(shí)推理產(chǎn)生的結(jié)論與術(shù)語(yǔ)本身的含義不會(huì)產(chǎn)生矛盾;4)最大單調(diào)可擴(kuò)展性:向本體中添加通用或?qū)S玫男g(shù)語(yǔ)時(shí),通常不需要修改已有的內(nèi)容;5)最少約束:對(duì)待建模對(duì)象應(yīng)該盡可能少列出限定約束條件。

Ontology可以按照分類(lèi)來(lái)組織,包含5個(gè)基本的建模元語(yǔ):類(lèi)、關(guān)系、函數(shù)、公理、實(shí)例;4種基本關(guān)系:part-of、kind-of、instance-of和attribute-of。本體構(gòu)建者也可以根據(jù)具體情況定義關(guān)系。[3]

2 PMML

數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用經(jīng)歷了十多年的努力和發(fā)展已取得了很大的成果,但仍然還存在許多問(wèn)題:

1)各種數(shù)據(jù)挖掘問(wèn)題及挖掘方法基于不同的模型和技術(shù),彼此互相獨(dú)立,聯(lián)系很少;

2)缺少簡(jiǎn)明精確的問(wèn)題描述方法,挖掘的語(yǔ)義通常是由實(shí)現(xiàn)方法決定的;

3)數(shù)據(jù)挖掘系統(tǒng)僅提供孤立的知識(shí)發(fā)現(xiàn)功能,難于嵌入大型應(yīng)用;

4)數(shù)據(jù)挖掘系統(tǒng)僅提供孤立的知識(shí)發(fā)現(xiàn)功能,它沒(méi)有提供應(yīng)用獨(dú)立的操作元語(yǔ)。

到目前為止,數(shù)據(jù)挖掘行業(yè)是高度分散的,公司和研究機(jī)構(gòu)獨(dú)立開(kāi)發(fā)各自的數(shù)據(jù)挖掘系統(tǒng)和平臺(tái),沒(méi)有形成開(kāi)放性的標(biāo)準(zhǔn);同時(shí)數(shù)據(jù)挖掘本身是一門(mén)多學(xué)科綜合跨度非常大的技術(shù),這兩點(diǎn)是上述問(wèn)題存在的根本原因。數(shù)據(jù)挖掘行業(yè)非常需要一個(gè)數(shù)據(jù)挖掘和統(tǒng)計(jì)模型的標(biāo)準(zhǔn)描述,除此之外,也希望該標(biāo)準(zhǔn)是一個(gè)相對(duì)嚴(yán)謹(jǐn)?shù)臉?biāo)準(zhǔn),為今后提出的標(biāo)準(zhǔn)之間的互操作提供一個(gè)通用的平臺(tái)。

由Angoss,IBM,NCR,Magnify,Oracle,Illinois大學(xué)的NCDM(The NationalCenter For Data Mining),SPSS,Xchange以及MINEit等組成的DMG,于1999年7月制訂出基于XML的預(yù)測(cè)模型標(biāo)記語(yǔ)言PMML,其思想就是依托XML本身特有的合理數(shù)據(jù)分層思想和自描述性,實(shí)現(xiàn)數(shù)據(jù)挖掘模型的描述、管理標(biāo)準(zhǔn)化和可移植性[4],是一個(gè)已經(jīng)被W3C所接受的標(biāo)準(zhǔn)。其目的在于將模型以獨(dú)立于形式的方式封裝,使不同的應(yīng)用程序都可以使用它[5]。PMML可以幫助用戶(hù)簡(jiǎn)便、快捷地定義模型并且在不同廠(chǎng)商的相容應(yīng)用之間共享這些模型,為應(yīng)用提供了一個(gè)獨(dú)立于廠(chǎng)商的方法來(lái)定義預(yù)測(cè)模型(實(shí)際范圍已經(jīng)擴(kuò)展到其它數(shù)據(jù)挖掘模型),使用PMML標(biāo)準(zhǔn)在不相容的應(yīng)用系統(tǒng)之間可以實(shí)現(xiàn)無(wú)縫的模型交換。現(xiàn)在已經(jīng)得到應(yīng)用的是PMML3.2。

3 數(shù)據(jù)挖掘模型本體的構(gòu)建

3.1 數(shù)據(jù)挖掘模型

我們的研究是要構(gòu)建數(shù)據(jù)挖掘模型的本體,在這里將以樹(shù)的形式簡(jiǎn)單介紹基于PMML標(biāo)準(zhǔn)的數(shù)據(jù)挖掘模型的主要模塊,如圖1所示。模型主要包括頭信息、數(shù)據(jù)字典、 挖掘任務(wù)、 轉(zhuǎn)換字典和PMML模型以及擴(kuò)展幾個(gè)部分[6]。

1)頭信息(Header):包含了版權(quán)、版本等相關(guān)信息

2)數(shù)據(jù)字典(DataDictionary):涉及整個(gè)PMML文件中的原始數(shù)據(jù)定義

3)挖掘任務(wù)(MiningBuildTask):包含了任意XML形式的對(duì)于挖掘結(jié)構(gòu)的描述

4)轉(zhuǎn)換字典(TransformationDictionary):定義了多種形式的轉(zhuǎn)換機(jī)制

5)PMML模型(PMML Model):包含了關(guān)聯(lián)規(guī)則,聚類(lèi),回歸等各類(lèi)模型的定義

6)擴(kuò)展(Extension):包含了其他各部分沒(méi)有定義的需要擴(kuò)充的描述,也是每個(gè)元素的定義中都包含的內(nèi)容,方便用戶(hù)對(duì)模型的說(shuō)明和擴(kuò)展

其中最重要的部分是數(shù)據(jù)字典和PMML模型本身。PMML對(duì)模型中的每一個(gè)元素可以有進(jìn)一層的定義,定義中包含該元素涉及的其他元素和特征。對(duì)特征的定義包含特征的名稱(chēng)、數(shù)值類(lèi)型。

3.2 本體構(gòu)建

3.2.1 本體構(gòu)建工具Protégé

Protégé是一個(gè)免費(fèi)的開(kāi)放源碼本體編輯器和知識(shí)庫(kù)框架。Protégé平臺(tái)支持兩種本體建模方式,即采用Protégé框架編輯器和Protégé OWL編輯器。Protégé本體可導(dǎo)出為各種格式,包括Clips、UML、DAML+OIL、RDF(S)、OWL 和 XML Schema。它基于Java,具備可擴(kuò)展性,提供的是一種即插即用環(huán)境,使其成為一個(gè)進(jìn)行快速構(gòu)建原型)和開(kāi)發(fā)應(yīng)用程序的靈活基礎(chǔ)。

Protégé所采用的方法論使得系統(tǒng)構(gòu)建者能夠從模塊部件基礎(chǔ)上搭建軟件系統(tǒng),包括組建領(lǐng)域模型的可重用的框架、獨(dú)立于領(lǐng)域的問(wèn)題解決方法論,這方便了解決問(wèn)題時(shí)的策略制定。系統(tǒng)包括兩個(gè)主要的部件:本體編輯器,通過(guò)擴(kuò)展層次結(jié)構(gòu)來(lái)建立領(lǐng)域本體,包括抽象和實(shí)際的類(lèi)與屬性;基于本體建立的知識(shí)獲取工具,以得到本體的實(shí)例。

Protégé擁有一個(gè)由開(kāi)發(fā)者、學(xué)術(shù)用戶(hù)、政府用戶(hù)和公司用戶(hù)共同構(gòu)成的強(qiáng)大群體。他們?cè)诟鞣N各樣的領(lǐng)域中為尋求知識(shí)解決方案而使用著Protégé,如生物醫(yī)學(xué)、情報(bào)搜集、公司建模等。

3.2.2 本體構(gòu)建方法

用類(lèi)表示的本體構(gòu)建關(guān)鍵在于合理地對(duì)知識(shí)進(jìn)行分類(lèi),并正確完善地定義類(lèi)之間的關(guān)系。在該數(shù)據(jù)挖掘模型的頂層本體構(gòu)建參照PMML標(biāo)準(zhǔn),按照以下方法構(gòu)建:

圖1 基于PMML的數(shù)據(jù)挖掘模型

圖2 用Protégé構(gòu)建的數(shù)據(jù)挖掘模型本體Header部分

圖3 Header的NECESSARY條件約束

1)類(lèi)的構(gòu)建

定義PMMLHeader, PMML-MiningBuildTask, PMML-DataDictionary, PMML-Models和PMML-TransformationDictionary幾個(gè)基本類(lèi)以及 BaseElement, BaseAttribute幾個(gè)擴(kuò)展類(lèi)。PMML-Models下包含子類(lèi)Association,Clustering,GeneralRegression等各種算法模型,該類(lèi)也是挖掘模型的核心部分,各算法模型詳細(xì)定義了出入口參數(shù),挖掘數(shù)據(jù)類(lèi)型,使用算法名稱(chēng)等,其組織形式和其他各基本類(lèi)相似。BaseElement, BaseAttribute包含一些類(lèi)都關(guān)聯(lián)的共用子類(lèi),如Extension,ValuePartition,optype等。

在各個(gè)類(lèi)下定義對(duì)應(yīng)的Element(元素)和Attribute(特征)兩個(gè)基本子類(lèi),包含該部分的所有元素和特征。通過(guò)Element關(guān)聯(lián)到其他相關(guān)類(lèi),Attribute則定義了該類(lèi)的各種特征。如PMML-Header的HeaderElement子類(lèi)包含子類(lèi)Application,Annotation,Timestamp和Header(因?yàn)镠eader和其他類(lèi)的關(guān)系不是父子類(lèi)的繼承關(guān)系,所以作為兄弟結(jié)點(diǎn)放在同一層,具體關(guān)系定義會(huì)在下一節(jié)中提到);PMML-Header的HeaderAttribute包含子類(lèi)copyright和description等,表示Header的特征,如圖2所示。

ValuePartitions專(zhuān)門(mén)用來(lái)定義一些數(shù)據(jù)字典中沒(méi)有定義的離散數(shù)據(jù)類(lèi)型。如屬性property的屬性類(lèi)型為PROPERTY,取值范圍是:valid,invalid,missing。則在ValuePartitions下建立子類(lèi)PropertyValuePartitions,在PropertyValuePartitions下建立子類(lèi)valid,invalid,missing。然后建立property的對(duì)象屬性hasProperty,再設(shè)置該屬性的值域range為PropertyValuePartitions。[7]

2)關(guān)系的定義

不同于其他的領(lǐng)域本體,數(shù)據(jù)挖掘模型本體中的各類(lèi)間的關(guān)系并不依賴(lài)于父類(lèi)和子類(lèi)間的繼承,而是相互關(guān)聯(lián)。所以,定義對(duì)象屬性hasElement,hasAttribute和數(shù)值屬性hasValue幾個(gè)主要屬性,利用protégé提供的NECESSARY和NECESSARYSUFFICIENT條件約束機(jī)制來(lái)建立各個(gè)類(lèi)之間的關(guān)系。

例如對(duì)于上節(jié)中提到的Header的NECESSARY條件約束如圖3所示。對(duì)該約束中涉及的元素Application ,Annotation和Timestamp以及Extension再以類(lèi)似的方式進(jìn)行定義,這些元素也是以類(lèi)的方式存在。而對(duì)于特征copyright和description則需要用數(shù)值屬性hasValue定義其數(shù)據(jù)的類(lèi)型。

4 結(jié)論和將來(lái)的工作

數(shù)據(jù)挖掘模型本體的建立能夠?qū)崿F(xiàn)相關(guān)挖掘知識(shí)的共享和重用,而且由于該本體的建立參照了PMML標(biāo)準(zhǔn),使之更容易被數(shù)據(jù)挖掘工作者理解和使用。由于數(shù)據(jù)挖掘過(guò)程本身的復(fù)雜性,本文建立的本體只是頂層本體,構(gòu)建了挖掘模型本體的框架。我們的下一步工作是進(jìn)一步完善類(lèi)間關(guān)系約束,并根據(jù)描述邏輯進(jìn)行推理選擇合適的數(shù)據(jù)挖掘算法。

參考文獻(xiàn):

[1] Studer R, Benjamins V R, Fensel D. Knowledge engineer, principles and methods[J].Data and Knowledge Engineering,1998,25(12):161-197

[2] 韓韌,黃永忠,劉振林.OWL本體構(gòu)建方法的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,26(3):1397-1340.

[3] 宋煒,張銘.語(yǔ)義網(wǎng)簡(jiǎn)明教程[M].北京:高等教育出版社,2004.

[4] 唐亮,鄭丕諤,陳瑋.基于PMML的數(shù)據(jù)挖掘模型管理[J],2005,27(3):58-60.

[5] Raspl S. An Overview of PMML Version 3.0(RDF)[EB/OL].www.ncdm.uic.edu/workshops/dm-ssp04/pmml3_overview.pdf,2007.

[6] DMG HomePage.PMML 3.2 Specification[EB/OL].http://www.dmg.org/pmml-v3-2.html,2008.

[7] Horridge M, Jupp S, Stevens R. A Practical Guide To Building OWL Ontologies Using The Protg 4 and CO-ODE Tools Edition 1.1(RDF)[EB/OL].http://www.co-ode.org/resources/tutorials/,2007.

主站蜘蛛池模板: 日韩国产精品无码一区二区三区| 99国产精品国产高清一区二区| 一级片免费网站| 伊人色天堂| av在线无码浏览| 麻豆精选在线| 久久a级片| 亚洲一级毛片免费观看| 一本色道久久88亚洲综合| 亚洲第一视频区| 青青热久免费精品视频6| av无码久久精品| 77777亚洲午夜久久多人| 五月激情婷婷综合| 成人免费视频一区二区三区| 成人在线不卡| 精品人妻无码中字系列| 国内熟女少妇一线天| 欧美亚洲激情| 欧美一区二区三区不卡免费| 国产精品视频第一专区| 日本黄色不卡视频| 亚洲成人黄色网址| 色亚洲激情综合精品无码视频 | 伊伊人成亚洲综合人网7777| 国产成人无码久久久久毛片| 日本欧美在线观看| 欧美一区二区啪啪| 免费不卡视频| 成人亚洲国产| 亚洲欧美国产高清va在线播放| 亚洲欧美日韩综合二区三区| 国产在线91在线电影| 国产喷水视频| 国产一级毛片yw| 精品三级网站| 国产欧美在线观看精品一区污| 国产精品性| 国产精品污视频| 国产精品久久自在自线观看| 丰满少妇αⅴ无码区| 亚洲侵犯无码网址在线观看| 日本精品中文字幕在线不卡| 蜜桃臀无码内射一区二区三区| 91网在线| 91精品福利自产拍在线观看| 丝袜久久剧情精品国产| 东京热一区二区三区无码视频| 成年人免费国产视频| a毛片基地免费大全| 免费aa毛片| 无码视频国产精品一区二区| 亚洲视频三级| 久久久久久久久18禁秘| 国产精品护士| 国产福利在线观看精品| 免费a级毛片18以上观看精品| 天天躁夜夜躁狠狠躁图片| 国产无码网站在线观看| 毛片在线播放网址| 亚洲精品无码专区在线观看| 十八禁美女裸体网站| 老司机久久99久久精品播放| 国产精品亚洲αv天堂无码| 在线国产毛片手机小视频| 亚洲精品无码不卡在线播放| 国产成人毛片| 在线看片中文字幕| www成人国产在线观看网站| 欧美一区二区啪啪| 久久女人网| 国产视频自拍一区| 亚洲无码免费黄色网址| 一区二区偷拍美女撒尿视频| 2020国产精品视频| 国产在线精彩视频二区| 在线国产91| 伊人色在线视频| 999福利激情视频| 午夜三级在线| 色网站在线免费观看| 日韩黄色在线|