Davies-Bouldin indeksi
Davies-Bouldin endeksi bir veri setinin bir bölümünün kalitesinin bir ölçüsüdür otomatik sınıflandırma .
Bir noktanın, grubun merkezinden uzaklığı ile iki grup merkezi arasındaki mesafe arasındaki maksimum oranın ortalamasıdır.
İfade
Sorunun konumu
Veri matrisini not edersek , her satırı bir bireye (veya gözleme) karşılık gelir ve her sütun bir tahminciye (veya değişkene) karşılık gelir . Bireylerin sayısını ve öngörücülerin sayısını not ediyoruz :
X{\ textstyle X}DEĞİL{\ textstyle N}p{\ textstyle p}
X=(x11...xp1⋮⋮x1DEĞİL...xpDEĞİL){\ displaystyle X = \ left ({\ begin {array} {ccc} x_ {1} ^ {1} & ... & x_ {p} ^ {1} \\\ vdots && \ vdots \\ x_ {1 } ^ {N} & ... & x_ {p} ^ {N} \\\ end {dizi}} \ sağ)}
Not bireyler arasındaki farklılığı ve (sırasıyla hat ve bir ). Oluşturmak istediğimiz grupların sayısına dikkat edin.
d(xben,xben′){\ metin stili d (x ^ {i}, x ^ {i '})}xben=(x1ben,...,xpben){\ displaystyle x ^ {i} = (x_ {1} ^ {i}, ..., x_ {p} ^ {i})}xben′=(x1ben′,...,xpben′){\ displaystyle x ^ {i '} = (x_ {1} ^ {i'}, ..., x_ {p} ^ {i '})}ben{\ displaystyle i}ben′{\ displaystyle i '}X{\ displaystyle X}K⩾2{\ displaystyle K \ geqslant 2}
Bir bölümleme algoritması , alaka düzeyini bir puanla değerlendirmeye çalıştığımız bir öznitelik işlevi verecektir . Bir gruba ait olan puan kümesi daha sonra tarafından verilir .
VS:[[1,DEĞİL]]⟶[[1,K]]{\ displaystyle C: [\! [1, N] \!] \ longrightarrow [\! [1, K] \!]}k{\ textstyle k}benk={ben∈[[1,DEĞİL]]/ VS(ben)=k}{\ textstyle I_ {k} = \ {i \ [\! [1, N] \!] / \ C (i) = k \}}
Davies-Bouldin endeksinin ifadesi
Davies-Bouldin endeksi (veya puanı), her grubun ortalama puanlarına ve bir nokta ile grubun merkezi arasındaki ortalama mesafeye dayanmaktadır .
SDB{\ textstyle S_ {DB}}μk=1|benk|∑ben∈benkxben{\ textstyle \ mu _ {k} = {\ frac {1} {\ vert I_ {k} \ vert}} \ toplam _ {i \ in I_ {k}} x ^ {i}}δ¯k=1|benk|∑ben∈benkd(xben,μk){\ textstyle {\ bar {\ delta}} _ {k} = {\ frac {1} {\ vert I_ {k} \ vert}} \ toplam _ {i \ in I_ {k}} d (x ^ { i}, \ mu _ {k})}
İfadesi şöyle olacaktır:
SDB=1K∑k=1Kmaxk′≠k(δ¯k+δ¯k′d(μk,μk′)){\ displaystyle S_ {DB} = {\ frac {1} {K}} \ sum _ {k = 1} ^ {K} \ max _ {k '\ neq k} \ sol ({\ frac {{\ bar {\ delta}} _ {k} + {\ bar {\ delta}} _ {k '}} {d (\ mu _ {k}, \ mu _ {k'})}} \ sağ)}
Uygulamalara göre biraz değişebilir (empoze edilen mesafe veya sınırlı seçim).
Özellikleri
Varyasyon aralığı
Davies-Bouldin indeksi, 0 (en iyi sınıflandırma) ve (en kötü sınıflandırma) arasında değişir .
+∞{\ textstyle + \ infty}
Karmaşıklık
Notlar ve referanslar
-
DL Davies ve DW Bouldin , " A Cluster Separation Measure ", IEEE Process on Pattern Analysis and Machine Intelligence , cilt. PAMI-1, n o 2Nisan 1979, s. 224–227 ( ISSN 0162-8828 , DOI 10.1109 / TPAMI.1979.4766909 , çevrimiçi okuma , erişim tarihi 19 Haziran 2019 )
-
(in) " Clustering Indexes " , cran.r-project.org adresinde (erişim tarihi 19 Haziran 2019 )
Ayrıca görün
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">