摘 要: 在系統熵的基礎上,定義了一種新的屬性重要度并提出了一種基于改進系統熵的粗糙集屬性約簡算法,實驗分析表明,該屬性重要度為啟發式信息進行的屬性約簡,取得了理想效果。
關鍵詞: 粗糙集;屬性約簡;系統熵
粗糙集(Rough Set)理論[1]是一種處理不確定、不完整知識的數學工具,最早是由Pawlak于1982年提出的。現在廣泛應用于數據挖掘、智能控制、模式識別等領域[2-3]。屬性約簡是粗糙集理論中的核心內容之一,有許多學者致力于粗糙集屬性約簡算法的研究。其中應用較多的是基于差別矩陣及在此基礎上的一些改進算法[4],雖然該算法可以得到所有的約簡,但是只適合較小的數據集;基于代數觀點的相對約簡算法不能精確地度量粗糙集中的信息粒度劃分;苗奪謙[5]等人提出基于互信息的屬性約簡算法,是建立在條件屬性對決策屬性的信息量基礎上的。然而以上這些屬性約簡算法所依據的都是條件屬性的分類能力,它們的出發點都是一樣的,只是采用的標準有所不同。最近,有些學者提出新的屬性約簡定義,認為只關心條件屬性的分類能力是不夠的,決策屬性的分類能力也應該充分考慮,即基于系統熵的屬性約簡定義[6],這種屬性約簡定義同時考慮到了條件屬性和決策屬性的分類能力,是一種較周全的屬性約簡模型。
本文從系統熵的角度出發,改進了原先的屬性重要度定義,給出了新的屬性重要性的度量方法,并構造了相應的啟發式算法,并通過實例驗證了算法的有效性。
這種新的度量方法同時兼顧了系統熵作為一種同時考慮了條件屬性和決策屬性的分類能力和數值大小對約簡結果的影響,并充分考慮到了在屬性子集R中添加屬性a∈C-R后系統熵的增量(R自身的熵也被考慮在內)。這種新的屬性重要性的定義有如下特點:(1)當系
3 仿真實例和相關比較
為了驗證上述算法的有效性,從UIC數據庫中選取了三個具有離散屬性的數據庫實例進行驗證。分別采用文中所提到的兩種不同屬性重要性定義的約簡算法對其進行屬性約簡。約簡結果如表1所示。其中C為該屬性集合所包含的條件屬性的個數,算法1和算法2分別是以系統熵增益率和本文改進的系統熵增益率為屬性重要性度量方法的啟發式屬性約簡算法。從表中可以看到本文所提出的算法在大多數情況下獲得的相對約簡屬性個數較少。
為了進一步驗證文中所改進算法的特點,使用Zoo數據集如表2所示。其中論域U={1,…,101},條件屬性C={hair,feathers,eggs,milk,airborne,aquatic,predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize},D={type}為決策屬性。
如果按照式(1)所提出的屬性重要性來度量各個屬性的重要性,經計算得出屬性重要性最大的是{milk}。而依據本文所提出的屬性重要性得到的結果是{eggs},算法1所得到的屬性約簡結果是:Ra={feathers,milk,airborne,aquatic,backbone,breathes,fins,legs}。
依照本文算法2所得到的屬性約簡結果是:Rb={milk,eggs,aquatic,legs}。這是因為利用式(1)計算屬性重要性的時候只考慮了屬性本身的值的分布而沒有考慮屬性的相對信息熵,如果某一屬性的相對信息熵較小會導致該屬性的屬性重要度較大,從而會使所選屬性并不是最重要的,或者造成錯選。
本文從系統熵的角度出發,定義了一種新的度量屬性重要性的方法,構造了相應的啟發式算法。相對于原算法,本文算法優勢明顯,通過實例證明,在大多數情況下本文的算法所得到的屬性約簡個數較少。
參考文獻
[1] PAWLAK Z. Rough sets[J]. Int computer & science,1982;11(5):341-356.
[2] 常犁云,王國胤,吳渝.一種基于Rough Set理論的屬性約簡及規則提取方法[J].軟件學報,1999,10(11):1206-1211.
[3] Hu Xiaohua, CERCONE N. Learning in relational databases a rough set approach[J]. International Journal of Computational Intelligence,1995,11(2):320-340.
[4] RAUSZER S. The discernibility matrices and functions in information systems[M]. Intelligent Decision Support-Handbook of Applications and Advances of the Rough Sets Theory. Dordrecht Kluwer,1992,31-362.
[5] 苗奪謙,胡桂榮.知識約簡的一種啟發式算法[J].計算機研究與發展,1999,36(6):681-684.
[6] Zhao Jun,Wu Zhongfu,Li Hua. System entropy and its application in feature selection[J]. The Journal of China Universities of Posts and Telecommunications, 2004,11(1):100-105.
[7] 苗奪謙,李道國.粗糙集理論算法與應用[M].北京:清華大學出版社,2008.
[8] 王雄彬,鄭雪峰,等,基于系統熵的屬性約簡的簡化差別矩陣方法[J].計算機應用研究,2009,26(7):2461-2464.