可拓分類知識挖掘系統的設計與實現

2017-03-01 04:32:00葉廣仔李衛華劉曉蔚

計算機應用與軟件 2017年1期

關鍵詞：數據挖掘關聯分類

葉廣仔李衛華劉曉蔚

1(東莞職業技術學院計算機工程系廣東東莞 523808)2(廣東工業大學計算機學院廣東廣州 510006)3(東莞職業技術學院管理科學系廣東東莞 523808)

可拓分類知識挖掘系統的設計與實現

葉廣仔1李衛華2劉曉蔚3

1(東莞職業技術學院計算機工程系廣東東莞 523808)2(廣東工業大學計算機學院廣東廣州 510006)3(東莞職業技術學院管理科學系廣東東莞 523808)

針對決策者處理矛盾問題時需要動態分類知識作為參考依據的需求，研制可拓分類知識挖掘系統。系統采用B/S結構，利用jQuery技術實現Web前端開發，通過MVC框架模式實現后臺開發。此外，系統增強了數據預處理能力，提出且實現了挖掘八類可拓分類知識以及動態生成信息元庫和知識庫。并給出系統在教師科研考核評價中的具體應用，為科研管理者找出適合促進教師科研工作的策略提供科學的依據。

可拓分類知識挖掘科研考核 jQuery技術

0 引言

在實際工作中，處理矛盾問題時，決策者往往希望知道對象具有某種性質或符合某些要求的程度，在某些變換下是否會從具有變為不具有這些性質、從符合變為不符合這些要求，或反之。這樣的一種動態分類知識，對作出更合適的決策具有重要的價值。但是，單靠人力去挖掘動態分類知識效率低且難以普及，因此，提出利用計算機技術協助人們完成這個任務。可拓分類知識挖掘系統是結合可拓數據挖掘技術[1]、數據庫技術、可視化技術而形成的人工智能系統，可挖掘動態的分類知識。

自2004年提出，經過十年的研究和探索，可拓數據挖掘[2]逐步明確了其研究對象和目標，并初步形成一套挖掘可拓知識的基本理論以及基本方法[3-4]。近幾年關于可拓數據挖掘的應用及其計算機實現開始被涉及，如文獻[5]以CPI指數的變換對產品銷售數據的影響為例來研究傳導知識的挖掘，文獻[6]研究了成品油稅費改革對股票市場影響的傳導知識挖掘，文獻[7]進行了客戶價值可拓知識挖掘軟件研究。本文實現的可拓分類知識挖掘系統在系統設計及功能實現方面做出以下改進及優化：

(1) 系統設計方面：系統采用B/S結構，降低了客戶端運行環境的軟硬件要求；系統的Web前端采用jQuery技術[8]，提升了系統與用戶交互能力；系統后臺使用MVC框架模式[9-10]，加強了系統模塊化，提高系統的重用性及降低維護成本。

(2) 系統功能方面：系統根據可拓知識挖掘需要，對原始數據庫進行預處理，把空缺數據記錄進行清除；系統可挖掘出八類可拓分類知識，為決策者提供更全面的參考依據；系統可根據不同的原始數據庫，動態生成“基礎信息元庫”、“評價信息元庫”以及“可拓分類知識庫”，從而提高系統的靈活性及通用性。

此外，本文以某學院出臺的新規定對教師科研工作影響程度進行定“量”和定“性”分析作為應用案例[11]，介紹了可拓分類知識挖掘系統進行可拓分類知識挖掘的過程。

1 可拓分類知識挖掘相關概念

1.1 簡單關聯函數

設取值范圍為有限區間(a,b]，其中正域為X=(a1,b]，a1≥a，且最優點為b，建立簡單關聯函數[12]：

(1)

1.2 關聯差和關聯積

(2)

為變換φ下信息元Ii關于評價特征d的關聯差[12]；稱:

(3)

為變換φ下信息元Ii關于評價特征d的關聯積[12]。

1.3 支持度和可信度

數據挖掘得到的規則知識是從一批數據中獲取的，可通過支持度和可信度來衡量其重要程度和準確程度，通常用:l=(支持度，可信度)=(support，confidence)表示，即知識式表示為：A?(l)B。

設|U|表示論域中所有對象的個數，|E-|表示負域中對象的個數，|E0|表示零界中對象的個數，|E+|表示正域中對象的個數，|E+(T)|表示發生正質變的對象個數。

根據文獻[12]中描述，正質變知識支持度和可信度的計算公式如下：

(4)

2 可拓分類知識挖掘系統的設計

如圖1所示，可拓分類知識挖掘系統首先對數據庫或數據倉庫中已有的原始數據進行預處理，并利用基元和復合元從形式化的角度對信息進行表示，建立變換前后評價信息元庫；其次選取關聯函數建立分類模型，計算變換前后評價信息元的綜合關聯度、關聯差、關聯積；然后根據可拓分類標準，把變換后的評價信息元劃分為正質變域、負質變域、拓界、正量變增效變換域、正量變減效變換域、負量變增效變換域、負量變減效變換域和零效變換域等八個域；最后對可拓分類信息元庫進行支持度和可信度計算，從而生成可拓分類知識。

圖1 可拓分類知識挖掘系統框圖

根據上述可拓分類知識挖掘流程，可拓分類知識挖掘系統針對數據庫、用戶界面以及業務邏輯等方面進行設計，以確定系統的數據庫結構、功能要求以及業務邏輯模塊。

2.1 系統的數據庫設計

本系統使用SQL Server 2008 R2作為數據庫管理系統，其數據主要劃分為三類：

(1) 變換前后基礎信息元庫：用于存儲數據挖掘前的原始數據,其字段的個數、名稱及類型由原始數據表決定，結構固定，如圖2所示。

圖2 變換前后基礎信息元庫設計圖

(2) 變換前后評價信息元庫：用于存儲數據挖掘過程中產生的中間數據，字段的個數、名稱及類型基于原始數據表，但受數據挖掘過程中的操作影響，結構不固定，如圖 3所示。

圖3 變換前后評價信息元庫設計圖

(3) 可拓分類知識庫：用于存儲數據挖掘后生成的分類知識，主要包括分類、數量、支持度以及可信度等四個字段，結構固定，如圖4所示。

圖4 可拓分類知識庫設計圖

其中，“變換前后評價信息元庫”和“可拓分類知識庫”的數據基于“變換前后基礎信息元庫”，并通過可拓分類知識挖掘過程產生。

2.2 系統的用戶界面設計

本系統主要使用jQuery技術進行用戶界面設計，同時使用CSS[13]進行樣式設計，具體設計如下：

(1) 用戶界面布局：系統利用jQuery EasyUI中的Tabs選項卡、Accordion 折疊面板以及Layout布局等插件實現界面的整體布局。

(2) 界面動態效果：系統采用jQuery中的隱藏/顯示、淡入淡出、滑動技術和jQuery EasyUI中的Draggable 可拖動、Droppable 可放置插件，以及jqChart插件實現用戶界面豐富的動態效果。

(3) 數據交互方式：系統通過jQuery EasyUI中的Form 表單、Dialog 對話框插件實現數據的提交，利用Datagrid 數據網格、Pagination 分頁插件實現數據的顯示，使用jQuery AJAX技術[14]實現前臺與服務器間的數據交互，以JSON文本作為數據傳輸格式，如圖5所示。

圖5 系統前后臺數據格式變換過程

2.3 系統的業務邏輯設計

本系統通過MVC框架模式劃分為模型層、視圖層、控制層，將業務邏輯聚集到一個部件中，在改進和個性化定制界面及用戶交互的同時，不需要重新編寫業務邏輯，從而提高系統的通用性及可維護性。下面以計算關聯度的業務邏輯為例，介紹功能模塊及層次的劃分。

如圖6所示，index.jsp頁面為視圖層模塊，主要負責用戶與系統的數據交互，具有輸入和顯示數據功能；CalculateKbySCFuncServlet類為控制層模塊，主要負責接受視圖層模塊提交的數據及請求，并根據請求調用模型層的模塊進行處理，然后把處理結果返回到視圖層；SRWMiningImpl類為模型層模塊，主要負責應用程序數據邏輯部分的處理，實現在數據庫中存取數據。

圖6 功能模塊層次結構圖

3 可拓分類知識挖掘系統的案例實現

下面根據上述的可拓分類知識挖掘系統設計，以某學院計算機系教師科研考核為案例，對學院出臺的“學院科研工作考核及獎勵辦法”這一策略，即可拓變換φ，對教師科研工作的影響程度進行定“量”和定“性”的分析，實現對應的可拓分類知識挖掘。

3.1 數據預處理

在進行數據分類知識挖掘前，需要對原始數據進行預處理，把存在的空缺數據記錄進行清除，以避免對知識提取的影響。本系統將去除策略出臺后才引進，即字段“title_2012”為null的教師記錄；以及去除策略出臺前后科研工作量都為0，即字段“totalScore_2012”和“totalScore_2013”同時為0的教師記錄。

如圖7所示，在界面右側窗格中選擇字段名稱及字段值，點擊“process”按鈕，便可刪除一個或多個字段為選定值的教師記錄，從而形成“變換前后基礎信息元庫”。

圖7 數據預處理界面

3.2 選取評價特征

在“變換前后基礎信息元庫”中，教師信息元有9個特征，為了分析教師的科研工作情況，選取達標值作為評價特征。其中，教師“科研年度達標值”等于“年度總得分”減去“年度標準分”，即：standardScore=totalScore-basicScore。

如圖8所示，選取了教工號“t_id”、2012年度達標值“standardScore_2012”、2013年度達標值“standardScore_2013”作為“變換前后評價信息元庫”中的三個字段。其中:

standardScore_2012=totalScore_2012-basicScore_2012

standardScore_2013=totalScore_2013-basicScore_2013

圖8 評價特征選取界面

3.3 計算評價信息元關聯度

圖9 簡單關聯函數參數設置界面

3.4 計算關聯差和關聯積

為了實現可拓分類，并對教師科研工作的受影響程度進行定“量”和定“性”的分析，需要對變換前后評價特征進行關聯差和關聯積計算。如圖10所示，根據式(2)，在變換T下Di關于評價特征standardScore的關聯差:

=standardScore_2013_K- standardScore_2012_K

根據式(3)，其關聯積:

=standardScore_2013_K× standardScore_2012_K

圖10 關聯差與關聯積計算界面

3.5 可拓分類處理

基于評價特征變換前的關聯度“K_before”、變換后的關聯度“K_after”、關聯差“Alpha”以及關聯積“Beta”等4個字段的取值范圍對評價信息元進行分類。如圖11所示，把“變換前后評價信息元庫”中字段“standardScore_2012_K”設置為“K_before”，把字段“standardScore_2013_K”設置為“K_after”，把字段“alpha”設置為“Alpha”，把“beta”設置為“Beta”。

圖11 分類標準設置界面

根據上述4個字段的取值范圍，參照表1所示的分類標準，對評價信息元進行可拓分類，從而得出“變換前后評價信息元庫”的評價信息元分類情況，如圖12所示。

表1 評價信息元分類標準表

基于實際情況，此處不考慮零界，把關聯度大于等于0的情況歸類為正域，小于0歸類為負域，因此只有七種分類。

圖12 變換前后評價信息元庫

3.6 獲取可拓分類知識

根據“變換前后評價信息元庫”統計出正質變、負質變、正量變增效變換、正量變減效變換、負量變增效變換和零效變換等六種分類的數量，并通過相關計算公式，如利用式(4)計算正質變知識的支持度和可信度，求出各分類的支持度和可信度，從而得出可拓分類知識庫，如圖13所示。本例由于不考慮零界，因此不存在拓界情況。此外由于原始數據記錄數有限，負量變減效變換情況并沒有出現。

圖13 可拓分類知識庫

如圖14所示，正質變情況的支持度和可信度為l1=(17.65%,83.33%)。同理可得：

正量變增效變換情況的支持度和可信度為l2=(82.35%,64.28%)；

正量變減效變換情況的支持度和可信度為l3=(82.35%,28.57%)；

負質變情況的支持度和可信度為l4=(82.35%,3.57%)；

負量變增效變換情況的支持度和可信度為l5=(17.65%,16.67%)；

零效變換情況的支持度和可信度為l6=(100%,2.94%)。

圖14 可拓分類知識的支持度和可信度

綜合上述六種可拓分類知識，負質變知識和零效變換知識的可信度分別為3.57%和2.94%，而正質變知識和正量變增效變換知識可信度分別為83.33%和64.28%?？梢妼W院推出的獎勵策略對教師的科研工作具有較好的促進作用，能較好調動教師科研工作的積極性。

4 結語

本文設計及實現的可拓分類知識挖掘系統能協助人們挖掘動態分類知識。在系統設計上，引入jQuery技術在前臺頁面創造出豐富的交互元素和動態效果，利用MVC框架模式把系統劃分為模型層、視圖層、控制層，用一種業務邏輯、數據、界面顯示分離的方法組織代碼，提高系統的通用性和可維護性。在系統功能上，增強了數據預處理能力，提出了八類可拓分類知識的挖掘，以及信息元庫和知識庫的動態生成對系統的通用性有很大的提高。總的來說，在系統的性能及功能上比以往的可拓數據挖掘軟件有了一定的優化及改進。

本文實現的案例說明，可拓分類知識挖掘系統能為科研管理者對策略執行前后的數據進行分析，挖掘出有助于衡量策略執行效果的知識。它將可拓分類方法應用到高校教師科研考核評價中，從量上分析該策略對教師的科研情況產生正面或負面影響的程度，在各種策略中找出更適合院校促進教師科研工作的策略，從而解決教師科研工作量不足的矛盾問題。

本系統的研究仍處于初級階段，下一步將針對基于數據庫的傳導知識挖掘、可拓聚類知識挖掘等問題進行深入研究，從而完善其可拓數據挖掘的功能。

[1] 蔡文，楊春燕，陳文偉，等．可拓集與可拓數據挖掘[M]．北京：科學出版社，2008．

[2] 李立希，李鏵汶，楊春燕．可拓學在數據挖掘中的應用初探[J]．中國工程科學，2004，6(7)：53-59．

[3] 楊春燕，蔡文．基于可拓集的可拓分類知識獲取研究[J]．數學的實踐與認識，2008，38(16)：184-191．

[4] 楊春燕，蔡文．可拓數據挖掘研究進展[J]．數學的實踐與認識，2009，39(4)：134-141．

[5] 李小妹．CPI指數變換對產品銷售影響的可拓數據挖掘[J]．數學的實踐與認識，2009，39 (4)：178-183．

[6] 李小妹，楊春燕，李衛華．成品油稅費改革對股票市場影響的傳導知識挖掘[J]．計算機應用研究，2010，27(8)：2865-2868．

[7] 朱伶俐，李衛華，李小妹．客戶價值可拓知識挖掘軟件研究[J]．廣東工業大學學報，2012，29(4)：7-13．

[8] 藍健．輕松玩轉jQuery[M]．北京：人民郵電出版社，2012．

[9] 趙俊峰，姜寧，焦學理，等．Java Web應用開發案例教程——基于MVC模式的JSP+Servlet+JDBC和AJAX[M]．北京：清華大學出版社，2012．

[10] 葉廣仔，李衛華，李淑飛．可拓策略生成系統的構件化設計與實現[J] ．智能系統學報，2010，5(4)：366-371．

[11] 葉廣仔，李衛華．可拓數據挖掘在教師科研考核評價中的應用[J]．數學的實踐與認識，2015，45(12)：53-59．

[12] 楊春燕，李小妹，陳文偉，等．可拓數據挖掘方法及其計算機實現[M]．廣州：廣東高等教育出版社，2010．

[13] 劉增杰，臧順娟，何楚斌．精通HTML5+CSS3+JavaScript網頁設計[M]．北京：清華大學出版社，2012．

[14] Bear Bibeault，Yehuda Katz．jQuery實戰[M]．三生石上，譯．2版．北京：人民郵電出版社，2012．

[15] 楊春燕，蔡文．可拓工程[M]．北京：科學出版社，2007．

[16] 楊春燕，蔡文．可拓學[M]．北京：科學出版社，2014．

DESIGN AND IMPLEMENTATION OF EXTENSION CLASSIFICATION KNOWLEDGE MINING SYSTEM

Ye Guangzai1Li Weihua2Liu Xiaowei3

1(DepartmentofComputerEngineering,DongguanPolytechnic,Dongguan523808,Guangdong,China)2(SchoolofComputerScienceandTechnology,GuangdongUniversityofTechnology,Guangzhou510006,Guangdong,China)3(DepartmentofManagementScience,DongguanPolytechnic,Dongguan523808,Guangdong,China)

According to the demand of policy makers’ need for dynamic classification knowledge as reference to deal with contradictory issues, an extension classification knowledge mining system is developed. The system is enhanced by B/S structure, using the jQuery technology to implement Web front-end development and the framework of MVC model to implement background development. Besides, this system enhances the ability of data preprocessing, and it is able to mine eight kinds of extension classification knowledge and dynamic generate information database and knowledge database. This system is applied into faculty scientific research evaluation, which provides references for scientific research managers to find appropriate strategy to promote teachers’ scientific research.

Extension classification Knowledge mining Scientific research evaluation jQuery technology

2015-08-12。廣東省自然科學基金項目(1015009001000044)；廣東省省級科技計劃項目(2014A010103002)。葉廣仔，講師，主研領域：智能系統軟件。李衛華，教授。劉曉蔚，實驗師。

TP30

10.3969/j.issn.1000-386x.2017.01.059

可拓分類知識挖掘系統的設計與實現

0 引 言

1 可拓分類知識挖掘相關概念

2 可拓分類知識挖掘系統的設計

3 可拓分類知識挖掘系統的案例實現

4 結 語

0 引言

4 結語