摘 要: 為了挖掘醫藥銷售數據庫頻繁集,采用雙數組窮舉算法DAEA。該算法主要使用兩個數組和窮舉算法,實現挖掘醫藥銷售數據庫的頻繁集功能。該算法的優點是只需對醫藥銷售數據庫進行數據預處理就可以直接挖掘該數據庫的頻繁集,無需把醫藥銷售數據庫轉換成相應的事務數據庫。根據DAEA算法,開發了醫藥銷售數據庫頻繁集挖掘系統,使用該系統挖掘醫藥銷售數據庫的頻繁集,挖掘的結果與實際相吻合,說明該算法是可行的和有效的。關鍵詞:數據挖掘; 關聯規則; 頻繁集; 雙數組; 窮舉法
中圖分類號:TN911-34; TP301.6 文獻標識碼:A
文章編號:1004-373X(2010)18-0066-03
Mining of Frequent Itemsets of Medicine Sale Database Using Double
Array and Exhaust Algorithm
XUE Xiang-yang
(Weinan Vocational and Technical College,Weinan 714000, China)
Abstract: The double array and exhaust algorithm (DAEA) is adopted to mine frequent itemsets of medicine sale database. The function of mining medicine sale database frequent itemsets is accomplished by the algorithm which mainly uses two arrays and exhaust algorithm. The advantages of this algorithm is that the frequent itemsets of the medicine sale database can be directly mined only by the data preprocessing of the medicine sales database but there is no necessity to convert the relevant transaction database into the corresponding transaction database. The mining system of medicine sale database frequent itemsets was developed on the basis of DAEA. This system was successfully used to mine the frequent itemsets of medicine sales database. The results is identical with the actual one. The experimental results demonstrate that it is feasible and effective.Keywords: data mining; association rule; frequent itemset; double array; exhaust algorithm
收稿日期:2010-04-27
隨著數據庫技術的成熟和數據庫管理系統的廣泛應用,人們己經在商業、政府和科學等領域的數據庫內積累了大量的歷史數據,激增的數據背后隱藏著許多重要的信息,然而過去由于缺乏挖掘數據背后隱藏知識的手段,導致了“數據豐富,但信息貧乏”的現象[1],即所謂“數據爆炸”。所謂數據挖掘,就是從大量、不完全、有噪聲、模糊、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[2]。簡單地說,數據挖掘就是從大量的數據中提取或者“挖掘”知識[3]。目前,數據挖掘的主要研究領域可分為分類、預測、聚類、關聯規則等方面。關聯規則挖掘是數據挖掘研究的一個重要分支,它是數據挖掘眾多知識類型中最為典型的一種,有著極其重要的應用價值。挖掘關聯規則過程可以分解為以下兩個子過程:首先找出存在于事務數據庫中的所有頻繁項集;其次利用頻繁項集生成關聯規則。……