兩種關(guān)聯(lián)規(guī)則挖掘算法的介紹及其主要步驟的分析
關(guān)聯(lián)規(guī)則按照不同的標(biāo)準(zhǔn),能用各種不同的方法分成不同類型。將關(guān)聯(lián)規(guī)則分為挖掘頻繁項集、閉頻繁項集、被約束頻繁項集、極大頻繁項集,是根據(jù)挖掘模式的完全性分類的;將關(guān)聯(lián)規(guī)則分為多層和單層關(guān)聯(lián)規(guī)則,以及單位和多維關(guān)聯(lián)規(guī)則是根據(jù)規(guī)則所涉及的數(shù)據(jù)進行分類的;將關(guān)聯(lián)規(guī)則分為量化關(guān)聯(lián)規(guī)則和挖掘布爾型規(guī)則是根據(jù)規(guī)則處理值類型分類的;將關(guān)聯(lián)規(guī)則分為序列模式挖掘、頻繁項集挖掘以及結(jié)構(gòu)模式挖掘是根據(jù)俄關(guān)聯(lián)規(guī)則挖掘模式進行分類的;將關(guān)聯(lián)規(guī)則分為興趣度約束、知識類型約束、數(shù)據(jù)約束,是根據(jù)規(guī)則所挖掘的約束類型分類的。
關(guān)聯(lián)規(guī)則挖掘算法分析
1 Apriori 算法分析
關(guān)聯(lián)規(guī)則算法中的挖掘完全頻繁項集中,Apriori 算法該類型中最具有應(yīng)用價值,影響力最大的算法。
Apriori 算法主要有兩個步驟:
?。?)發(fā)現(xiàn)所有的頻繁集;
?。?)生成強關(guān)聯(lián)規(guī)則。
在 Apriori 算法中的第一步是最為重要的步驟,該算法的核心思路是,給定一個數(shù)據(jù)庫,在第一次數(shù)據(jù)庫掃描中找出所有支持度大于等于最小支持度的項目組成頻繁 1—項集,也就是 L1,1—項集 C1,由 L1進行連接得到;接著進行第二次數(shù)據(jù)庫掃描,將 C1中所有支持度大于等于最小支持度的項集組成頻繁 2—項集,也就是 L2,候選 2—項集 C2由 L2連接得到。以此類推,直到找出最大項頻繁集。即在進行第 N 次數(shù)據(jù)庫掃描時,找出 CN-1中所有支持度大于等于最小支持度的項集組成頻繁N—項集,即是 LN,N—項集 CN要由 LN連接得出,一直到找不出新的選集為止。在這里還要用到 Apriori 算法性質(zhì),即是頻繁項集是頻繁項集的子集,非頻繁項集是非頻繁項集的超集。在 Apriori 算法中對數(shù)據(jù)庫的掃描次數(shù)需要大于最大頻繁項集的項數(shù)。
非常好我支持^.^
(1) 100%
不好我反對
(0) 0%