Çok boyutlu konumlandırma

Çok boyutlu ölçeklendirme , verilerdeki benzerlikleri keşfetmek için bilgi görselleştirme alanında kullanılan bir dizi teknik istatistiktir . Çok değişkenli konumlandırma, çok değişkenli analizin özel bir durumudur . Tipik olarak, çok-boyutlu bir konumlandırma algoritması ile başlar matris arasında benzerlik her bir nokta, bir bir pozisyon atamak için tüm noktaları arasında boyutlu boşluk . İçin = 2 veya = 3, pozisyonlar bir ile görselleştirilebilir düzlem bir ya da bir hacim içinde nokta bulutuyla . $m$ $m$ $m$

Genel çerçeve

Verilen noktaları bir boyutlu bir uzayda , çok boyutlu konumlandırma boyutlu uzayda bu noktaları temsil oluşur göre yeni nokta yakınlıklarına koruyarak. Bunun için kendimize Öklid mesafesi ile tanımlanabilen bir mesafe matrisi veriyoruz . Benzerlik değerlerinden yola çıkarsak, onları gerçek matematiksel uzaklık değerlerine dönüştürmeliyiz, çünkü mesafenin ve benzerliğin zıt kavramlar olduğunu unutmamalıyız: mesafe ne kadar küçükse, benzerlik o kadar büyük olur ve bunun tersi de geçerlidir. . Bu ışık altında sunulan çok boyutlu konumlandırma, tıpkı temel bileşen analizi gibi bir boyut azaltma tekniğidir . $DEĞİL$ ${\ displaystyle x_ {1}, x_ {2}, \ cdots, x_ {N}}$ $p$ ${\ displaystyle m <p}$ $DEĞİL$ ${\ displaystyle y_ {1}, y_ {2}, \ cdots, y_ {N}}$ $D$ ${\ displaystyle d_ {ij} = || x_ {i} -x_ {j} || _ {2}}$

Uygulamada, çok boyutlu konumlandırma, stres adı verilen bir maliyet fonksiyonunu en aza indiren boyut vektörlerinin bulunmasından oluşur . $DEĞİL$ ${\ displaystyle y_ {1}, y_ {2}, \ cdots, y_ {N}}$ $m$ ${\ displaystyle S (y_ {1}, y_ {2}, \ cdots, y_ {N})}$

Metrik çok boyutlu konumlandırma

Bir metrik çok boyutlu konumlandırma , noktalar arasındaki Öklid mesafesi veya nokta çarpımı ile tanımlanan bir maliyet fonksiyonunu ifade eder . $y_i$

Çok boyutlu konumlandırma için doğal bir maliyet işlevi,

{\ displaystyle S (y_ {1}, y_ {2}, ..., y_ {N}) = \ toplam _ {i \ neq j} {\ bigl (} d_ {ij} - || y_ {i} -y_ {j} || {\ bigr)} ^ {2}}

ancak bu formülasyonun genellikle açık bir çözümü yoktur.

Klasik çok boyutlu konumlandırma

Klasik çok boyutlu konumlandırma için maliyet işlevi,

{\ displaystyle S (y_ {1}, y_ {2}, ..., y_ {N}) = \ toplam _ {i \ neq j} (b_ {ij} - \ langle y_ {i}, y_ {j } \ rangle) ^ {2}}

Terimi ile tanımlanır ile . Genel olarak, matris , benzerlik matrisi, çift merkezleme ile bir uzaklık matrisinden elde edilebilir : $b _ {{ij}}$ ${\ displaystyle b_ {ij} = <x_ {i} - {\ overline {x}}, x_ {j} - {\ overline {x}}>}$ ${\ displaystyle {\ overline {x}} = {\ frac {1} {N}} \ sum _ {i = 1 \ cdots N} x_ {i}}$ $B$ $D$

{\ displaystyle B = (I - {\ frac {1} {N}} J) D ^ {2} (I - {\ frac {1} {N}} J)}

sadece birleri içeren bir boyut matrisi nerede . $J$ $N \ times N$

Bu formülasyon ayrışması ile açık bir çözüm olan avantajı vardır içine temiz elemanları . Izin vermek en büyük özdeğerler ve karşılık gelen özvektörler. Daha sonra çok boyutlu konumlandırma için bir çözüm , matrisin sütunlarını vektör olarak almaktır , burada transpoze özvektör matrisi ve köşegen özdeğer matrisi. $B$ ${\ textstyle \ lambda _ {1}, \ lambda _ {2}, ..., \ lambda _ {m}}$ ${\ textstyle m}$ ${\ textstyle e_ {1}, e_ {2}, ..., e_ {m}}$ ${\ displaystyle y_ {1}, \ cdots, y_ {N}}$ ${\ textstyle Y = \ Lambda _ {m} ^ {1/2} {E_ {m}} ^ {T}}$ ${\ textstyle {E_ {m}} ^ {T}}$ ${\ textstyle \ Lambda _ {m}}$

Metrik olmayan çok boyutlu konumlandırma

Metrik olmayan çok boyutlu konumlandırma, mesafelerin korunmasına göre yakınlıkların sırasını tercih eden yöntemlerle ilgilidir. En aza indirilecek maliyet fonksiyonu

{\ displaystyle S (y_ {1}, y_ {2}, ..., y_ {N}) = \ toplam _ {i \ neq j} {\ bigl (} d_ {ij} -f (|| y_ { i} -y_ {j} ||) {\ bigr)} ^ {2}}

Optimizasyon sırasında fonksiyonun adapte olmasına izin verilir . Bunu yapmak için, noktaların monoton regresyonunu hesaplayabiliriz . $f$ ${\ displaystyle (|| y_ {i} -y_ {j} ||, d_ {ij})}$

Ayrıca görün

Notlar ve referanslar

(tr) TF Cox ve MAA Cox , Çok Boyutlu Ölçekleme , Chapman ve Hall ,2001
(tr) Trevor Hastie , Robert Tibshirani ve Jerome Friedman , The Elements of Statistical Learning , Springer,2009, 2 nci baskı. Bölüm 14.8, s. 570

Alain Baccini ve Philippe Besse, İstatistiksel Keşif, bölüm 7