中文引用格式: 李秋云,劉燕武. 一種服務于K-means的初始中心選取方法[J]. 電子技術應用,2023,49(3):134-138.
英文引用格式: Li Qiuyun,Liu Yanwu. An initial centers selection method serving K-means[J]. Application of Electronic Technique,2023,49(3):134-138.
0 引言
聚類是一種無監督分析方法,其目的是識別出數據集中的所有數據簇,并將每個簇中的數據點看作一類。在眾多聚類算法中,K-means[1]是使用頻率最高的舉足輕重的算法之一。K-means算法從數據集中選取k個數據點作為初始聚類中心,按照距離最近原則,將其他數據點分配給這k個初始中心得到初始簇,再將處于初始簇中心的數據點作為新的聚類中心。重復上述過程,直到聚類中心不再改變為止。K-means算法的原理相對簡單,這也是其受到廣泛追捧的原因。然而,該算法也存在著明顯缺陷:
(1)分析之前,需要明確k值。在K-means算法中,k值就是簇的數量。若k被設置為10,那么K-means算法將識別出10個數據簇。但聚類是一種無監督分析任務,在聚類之前無法得知數據集存在多少簇。顯然,K-means算法的機理與聚類初衷是相矛盾的。在真實分析場景中,常常會出現k值多于或少于真實簇數的情況,影響聚類準確度。
(2)初始中心易聚團。K-means算法隨機將k個數據點確定為初始聚類中心,易造成多個聚類中心出現在同一簇內,導致該簇被分解為多類。
(3)迭代次數無法控制。K-means算法需要經過多次迭代直至聚類中心不再改變為止。通常情況下,聚類中心最終會迭代到密度稠密區。也就是說,初始中心越遠離密度核心,K-means算法的迭代次數越多,運行時間越長。又因初始中心是隨機選取的,致使K-means算法的運行時間無法控制。
針對上述問題,本文提出一種名為DPCC(Density Peak Clustering Centers)的方法,為K-means算法提供初始中心。DPCC運用于K-means算法之前,通過計算數據點密度以及與高密度數據點間最近距離生成決策圖,以凸顯數據集中所有的密度峰值點。這些密度峰值點即可作為K-means算法的初始中心。
本文詳細內容請下載:http://www.j7575.cn/resource/share/2000005243
作者信息:
李秋云1,劉燕武2
(1.中國運載火箭技術研究院 北京宇航系統工程研究所,北京 100076;
2.中國電子信息產業集團有限公司,廣東 深圳 518000)