K-anlamı

K-ortalamalarının algoritması

Doğa	Veri bölümleme algoritması ( d )

İçinde Kisimlandirmaya k anlamına gelmektedir (veya k anlamına gelmektedir İngilizce) yöntemidir bölünmesi veri ve kombinatoryal optimizasyon problemi . Noktalar ve bir tamsayı k verildiğinde sorun, belirli bir işlevi en aza indirmek için noktaları genellikle küme adı verilen k gruplarına bölmektir . Bir noktanın, kümesinin noktalarının ortalamasından uzaklığını ele alıyoruz; minimize edilecek fonksiyon, bu mesafelerin karelerinin toplamıdır.

Bu problem için, çoğu uygulamada kullanılan ve genellikle k- ortalamaları yöntemleri olarak adlandırılan klasik bir buluşsal yöntem vardır . Problem aynı zamanda, örneğin yaklaşım algoritmaları ile klasik bir optimizasyon problemi olarak incelenmiştir .

K - ortalamaları, özellikle gözlemlerin k bölümlere ayrıldığı gözetimsiz öğrenmede kullanılır . Dinamik kümeler her bölüm ortalama daha karmaşık olabilen bir halka ile temsil edildiği için prensip bir genelleme bulunmaktadır. Klasik bir k -ortalama algoritması , Lloyd-Max niceleme algoritması ile aynıdır .

Tanım

Bir nokta kümesi verildiğinde ( x 1 , x 2 ,…, x n ), n noktaları k kümelerine S = { S 1 , S 2 ,…, S k } ( k ≤ n ) en aza indirerek bölmeye çalışırız . her bölümün içindeki noktalar arasındaki mesafe:

{\ underet {\ mathbf {S}} {\ operatorname {arg \, min}}} \ sum _ {i = 1} ^ {k} \ sum _ {\ mathbf {x} _ {j} \ S_ { i}} \ sol \ | \ mathbf {x} _ {j} - {\ boldsymbol {\ mu}} _ {i} \ sağ \ | ^ {2}

burada μ I noktaların ağırlık merkezi olan S i .

Tarihi

Orijinal fikir 1957'de Hugo Steinhaus tarafından önerilmiş olmasına rağmen, " k-anlamına gelir " terimi ilk kez 1967'de James MacQueen tarafından kullanıldı . Klasik algoritma , 1957'de Stuart Lloyd tarafından darbe kod modülasyonu amacıyla önerildi , ancak piyasaya sürülmedi. Bell Labs dışında 1982'den önce. 1965'te, EW Forgy esasen benzer bir yöntem yayınladı, bu yüzden bazen "Lloyd Forgy'nin yöntemi" olarak adlandırılıyor. Fortran'da kodlanmış daha verimli bir versiyon, 1975 / 1979'da Hartigan ve Wong tarafından yayınlandı.

Klasik algoritma

Problem için, bazen k-ortalamaları yöntemi olarak adlandırılan , pratikte yaygın olarak kullanılan ve ne optimalliği ne de polinom hesaplama süresini garanti etmese de verimli olduğu düşünülen klasik bir algoritma vardır .

Açıklama

İlk bölümlerin ortalama konumunu temsil eden k noktası seçin m 1 (1) ,…, m k (1) (örneğin rastgele);
Yakınsama olana kadar tekrarlayın:

- her gözlemi en yakın bölüme atayın (yani , araçlara göre bir Voronoi bölümü gerçekleştirin ):

{\ displaystyle S_ {i} ^ {(t)} = \ sol \ {\ mathbf {x} _ {j}: {\ büyük \ |} \ mathbf {x} _ {j} - \ mathbf {m} _ {i} ^ {(t)} {\ büyük \ |} \ leq {\ big \ |} \ mathbf {x} _ {j} - \ mathbf {m} _ {i ^ {*}} ^ {(t )} {\ büyük \ |} \ \ forall \ i ^ {*} = 1, \ ldots, k \ right \}}

, - her kümenin ortalamasını güncelleyin:

\ mathbf {m} _ {i} ^ {(t + 1)} = {\ frac {1} {| S_ {i} ^ {(t)} |}} \ sum _ {\ mathbf {x} _ { j} \ içinde S_ {i} ^ {(t)}} \ mathbf {x} _ {j}

Başlatma

Başlatma, sonuçların kalitesinde belirleyici bir faktördür (yerel minimum). Birçok eser bu noktayla ilgilenir. İki genel başlatma yöntemi vardır: Bir yandan Forgy'nin yöntemi ve diğer yandan rastgele bölümleme. Forgy'nin yöntemi, başlangıçtaki araçların k noktasını rastgele seçilen k girdi verisine atar. Rastgele bölümleme, her veri parçasına rastgele bir küme atar ve ardından ilk ortalama noktaların (ilk) hesaplanmasına geçer.

K-ortalama ++, optimum çözümü (global minimum) elde etme olasılığını artıran bir başlatma öneren bir k noktası başlatma algoritmasıdır. Bu yaklaşımın arkasındaki önsezi, başlangıçtaki araçların k noktalarını dağıtmaktır. İlk kümenin ilk ortalama noktası verilerden rastgele seçilir. Daha sonra, her bir ilk ortalama nokta, nokta ile en yakın küme arasındaki mesafenin karesiyle orantılı bir olasılıkla, kalan noktalardan seçilir.

Analiz

K sınıfları ile sınırlı sayıda olası bölüm vardır . Ek olarak, algoritmanın her adımı maliyet fonksiyonunu kesin olarak azaltır, pozitiftir ve daha iyi bir bölüm ortaya çıkarır. Bu, algoritmanın her zaman sonlu zamanda yakınsadığını, yani sona erdiğini onaylamayı mümkün kılar.

Son bölümleme her zaman optimum değildir. Ek olarak, hesaplama süresi düzlemde bile nokta sayısında üstel olabilir. Uygulamada, yinelemelerin sayısına bir sınır veya yinelemeler arasındaki iyileştirmeye bir ölçüt koymak mümkündür.

At sabit k , pürüzsüz karmaşıklığı noktaları dahil olmak üzere bazı yapılandırmalar için polinom olan Öklid uzayında ve durumda Kullback-Leibler sapma . Eğer k girdinin bir parçasıysa, pürüzsüz karmaşıklık Öklid durumu için hala polinomdur. Bu sonuçlar, algoritmanın pratikteki verimliliğini kısmen açıklamaktadır.

Diğer algoritmik yönler

Genel durumda k- ortalamaları sorunu NP-zordur . Öklid durumunda, yerel aramayla oran 9 olan bir polinom yaklaşım algoritması vardır .

Başvurular

Öğrenmenin avantajları ve dezavantajları

Bölümleme için k-araçlarının olası bir dezavantajı, kümelerin başlatmaya ve seçilen mesafeye .

Önceden k parametresini seçmek zorunda olma gerçeği, bir dezavantaj veya bir avantaj olarak algılanabilir. Örneğin, kelime torbasının hesaplanması durumunda , bu, istenen sözlüğün boyutunu tam olarak sabitlemeyi mümkün kılar. Aksine, verilerin belirli bölümlendirilmesinde, böyle bir kısıtlamadan vazgeçilmesi tercih edilecektir.

Vektör ölçümü

Referanslar

JB MacQueen (1967). “ Çok değişkenli Gözlemler sınıflandırılması ve Analiz için bazı yöntemler içinde” Matematiksel İstatistik 5'inci Berkeley Sempozyumu ve Olasılık 1 : 281-297 p .. erişildi 7 Nisan 2009.
H. Steinhaus , " Maddi cisimlerin parçalara ayrılması üzerine ", Bull. Acad. Polon. Sci. , cilt. 4, n o 12,1957, s. 801–804 ( Matematik İncelemeleri 0090073 , zbMATH 0079.16403 ).
SP Lloyd , " PCM'de en küçük kare niceleme ", Bell Telephone Laboratories Paper ,1957Daha sonra dergide yayınlandı: SP Lloyd. , " PCM'de en küçük kareler niceleme ", Bilgi Teorisi üzerine IEEE İşlemleri , cilt. 28, n o 21982, s. 129–137 ( DOI 10.1109 / TIT.1982.1056489 , çevrimiçi okuma , 15 Nisan 2009'da erişildi ).
EW Forgy, " Çok değişkenli verilerin küme analizi: sınıflandırmaların yorumlanabilirliğine karşı verimlilik ", Biometrics , cilt. 21,1965, s. 768–769 ( JSTOR 2528559 ).
JA Hartigan, Kümeleme algoritmaları , John Wiley & Sons, Inc.,1975.
JA Hartigan ve MA Wong , " Algorithm AS 136: A K-Means Clustering Algorithm, " Journal of the Royal Statistical Society, Series C , cilt. 28, n o 1,1979, s. 100–108 ( JSTOR 2346830 ).
David Arthur ve Sergei Vassilvitskii, " K-Ortalamasına Bir Uygulama ile ICP Algoritmasının En Kötü Durum ve Düzgünleştirilmiş Analizi ", SIAM J. Comput. , cilt. 39, n o 2 2009, s. 766-782.
Arthur, David ve Vassilvitskii, Sergei, “ k-mean ++: dikkatli tohumlamanın avantajları ”, Ayrık algoritmalar üzerine ACM-SIAM sempozyumu , 2007( çevrimiçi okuyun ).
Daha fazla ayrıntı için Stirling Numarasına bakın.
Andrea Vattani, " k- anlamı Düzlemde Bile Üstel Olarak Birçok Yineleme Gerektirir, " Ayrık ve Hesaplamalı Geometri , cilt. 45, n, o , 4, 2011, s. 596-616
Bodo Manthey ve Heiko Röglin, " Bregman Farklılıkları ile K-Ortalama Kümelenmesinin En Kötü Durum ve Düzgünleştirilmiş Analizi ", JoCG , cilt. 4, n o 1, 2013, s. 94-132.
David Arthur, Bodo Manthey ve Heiko Röglin, " k-Ortalamalar Yönteminin Düzgünleştirilmiş Analizi ", ACM Dergisi , cilt. 58, n o 5, 2011, s. 19 ( çevrimiçi okuyun )
The Hardness of Kmeans Clustering Sanjoy Dasgupta, Technical Report CS2008-06, Department of Computer Science and Engineering, University of California, San Diego
Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman ve Angela Y. Wu, " k-ortalamalı kümeleme için yerel bir arama yaklaşım algoritması ", Comput. Geom. , cilt. 28 Hiçbir kemikleri 2-3, 2004, s. 89-112 ( çevrimiçi okuyun )

Ayrıca görün

Kaynakça

(en) Richard O. Duda, Peter E. Hart, David G. Stork, Örüntü Sınıflandırması , Wiley-interscience,2001( ISBN 0-471-05669-3 ) [ basımların ayrıntıları ]