Davies-Bouldin indeksi

Davies-Bouldin endeksi bir veri setinin bir bölümünün kalitesinin bir ölçüsüdür otomatik sınıflandırma .

Bir noktanın, grubun merkezinden uzaklığı ile iki grup merkezi arasındaki mesafe arasındaki maksimum oranın ortalamasıdır.

İfade

Sorunun konumu

Veri matrisini not edersek , her satırı bir bireye (veya gözleme) karşılık gelir ve her sütun bir tahminciye (veya değişkene) karşılık gelir . Bireylerin sayısını ve öngörücülerin sayısını not ediyoruz : ${\ textstyle X}$ ${\ textstyle N}$ ${\ textstyle p}$

X=(x11...xp1⋮⋮x1DEĞİL...xpDEĞİL){\ displaystyle X = \ left ({\ begin {array} {ccc} x_ {1} ^ {1} & ... & x_ {p} ^ {1} \\\ vdots && \ vdots \\ x_ {1 } ^ {N} & ... & x_ {p} ^ {N} \\\ end {dizi}} \ sağ)} ${\ displaystyle X = \ left ({\ begin {array} {ccc} x_ {1} ^ {1} & ... & x_ {p} ^ {1} \\\ vdots && \ vdots \\ x_ {1 } ^ {N} & ... & x_ {p} ^ {N} \\\ end {dizi}} \ sağ)}$

Not bireyler arasındaki farklılığı ve (sırasıyla hat ve bir ). Oluşturmak istediğimiz grupların sayısına dikkat edin. ${\ metin stili d (x ^ {i}, x ^ {i '})}$ ${\ displaystyle x ^ {i} = (x_ {1} ^ {i}, ..., x_ {p} ^ {i})}$ ${\ displaystyle x ^ {i '} = (x_ {1} ^ {i'}, ..., x_ {p} ^ {i '})}$ $ben$ $ben '$ $X$ ${\ displaystyle K \ geqslant 2}$

Bir bölümleme algoritması , alaka düzeyini bir puanla değerlendirmeye çalıştığımız bir öznitelik işlevi verecektir . Bir gruba ait olan puan kümesi daha sonra tarafından verilir . ${\ displaystyle C: [\! [1, N] \!] \ longrightarrow [\! [1, K] \!]}$ ${\ textstyle k}$ ${\ textstyle I_ {k} = \ {i \ [\! [1, N] \!] / \ C (i) = k \}}$

Davies-Bouldin endeksinin ifadesi

Davies-Bouldin endeksi (veya puanı), her grubun ortalama puanlarına ve bir nokta ile grubun merkezi arasındaki ortalama mesafeye dayanmaktadır . ${\ textstyle S_ {DB}}$ ${\ textstyle \ mu _ {k} = {\ frac {1} {\ vert I_ {k} \ vert}} \ toplam _ {i \ in I_ {k}} x ^ {i}}$ ${\ textstyle {\ bar {\ delta}} _ {k} = {\ frac {1} {\ vert I_ {k} \ vert}} \ toplam _ {i \ in I_ {k}} d (x ^ { i}, \ mu _ {k})}$

İfadesi şöyle olacaktır:

SDB=1K∑k=1Kmaxk′≠k(δ¯k+δ¯k′d(μk,μk′)){\ displaystyle S_ {DB} = {\ frac {1} {K}} \ sum _ {k = 1} ^ {K} \ max _ {k '\ neq k} \ sol ({\ frac {{\ bar {\ delta}} _ {k} + {\ bar {\ delta}} _ {k '}} {d (\ mu _ {k}, \ mu _ {k'})}} \ sağ)} ${\ displaystyle S_ {DB} = {\ frac {1} {K}} \ sum _ {k = 1} ^ {K} \ max _ {k '\ neq k} \ sol ({\ frac {{\ bar {\ delta}} _ {k} + {\ bar {\ delta}} _ {k '}} {d (\ mu _ {k}, \ mu _ {k'})}} \ sağ)}$ Uygulamalara göre biraz değişebilir (empoze edilen mesafe veya sınırlı seçim).

Özellikleri

Varyasyon aralığı

Davies-Bouldin indeksi, 0 (en iyi sınıflandırma) ve (en kötü sınıflandırma) arasında değişir . ${\ textstyle + \ infty}$

Karmaşıklık

Notlar ve referanslar

DL Davies ve DW Bouldin , " A Cluster Separation Measure ", IEEE Process on Pattern Analysis and Machine Intelligence , cilt. PAMI-1, n o 2Nisan 1979, s. 224–227 ( ISSN 0162-8828 , DOI 10.1109 / TPAMI.1979.4766909 , çevrimiçi okuma , erişim tarihi 19 Haziran 2019 )
(in) " Clustering Indexes " , cran.r-project.org adresinde (erişim tarihi 19 Haziran 2019 )

Ayrıca görün