Çapraz doğrulama

Çapraz doğrulama ( " çapraz onaylama " ) 'de, bir makine öğrenme , bir tekniğe göre bir modelin tahmini güvenilirliği için bir yöntem örnekleme .

Çapraz doğrulamanın faydası

Bir veya daha fazla bilinmeyen parametre içeren bir istatistiksel modelimiz ve modeli öğrenebileceğimiz (veya "eğitebileceğimiz") bir eğitim veri kümemiz olduğunu varsayalım. Eğitim süreci, modelin parametrelerini, eğitim verileriyle mümkün olduğunca yakından eşleşecek şekilde optimize eder. Daha sonra, sözde eğitim örneğiyle aynı popülasyondan bağımsız bir doğrulama örneği alırsak, genellikle modelin doğrulama verilerini ve eğitim verilerini modellemediği ortaya çıkacaktır: aşırı uyumdan bahsediyoruz . Ancak, bağımsız bir doğrulama örneği her zaman mevcut değildir. Ek olarak, bir doğrulama örneğinden diğerine model doğrulama performansı değişebilir. Çapraz doğrulama, aynı veritabanından birkaç doğrulama seti türetmeyi ve böylece modelin doğrulama performansının sapma ve varyansla daha sağlam bir tahminini elde etmeyi mümkün kılar.

Doğrulama teknikleri

Doğrulamanın birçok çeşidi vardır, ancak önce şunları ayırt edebiliriz:

Çapraz olmayan doğrulama, " test seti doğrulaması " veya " uzatma yöntemi " : örnek boyutunu iki alt örneğe böleriz , ilki öğrenme (genellikle örneğin% 60'ından fazla) ve ikincisi adı geçen doğrulama veya test. Model, eğitim örneği üzerine kurulur ve seçtiğimiz bir performans skoru ile test örneği üzerinde doğrulanır. $değil$
Çapraz doğrulama blok " çapraz doğrulama k-kat " numunesi orijinal bölünmesi: ardından birini seçer örnekleri (ya da "blok") ise doğrulama bir dizi olarak örneklerin diğer örnekleri bütün vardır öğrenme'. Öğrendikten sonra, bir doğrulama performansı hesaplanabilir. Daha sonra, önceden tanımlanmış bloklar arasından başka bir doğrulama örneği seçilerek işlem tekrarlanır. Prosedürün sonunda, blok başına bir performans skoru elde ederiz . Performans puanlarının ortalama ve standart sapması , doğrulama performansının sapmasını ve sapmasını tahmin etmek için hesaplanabilir. $k$ $k$ $k$ $k-1$ $k$ $k$

K = 3 blokta çapraz doğrulama için veri dağıtım tablosu

k	Blok 1	blok 2	blok 3
1	doğrulama	öğrenme	öğrenme
2	öğrenme	doğrulama	öğrenme
3	öğrenme	öğrenme	doğrulama

Birinin hepsine karşı çapraz geçerliliği, " birini dışarıda bırakma çapraz doğrulama " (LOOCV): Bu, özel bir blok çapraz doğrulama durumudur . Yani, öğrenme onaylamanın her yinelemesinde, öğrenme, kalan tek gözlem üzerindeki gözlemler ve doğrulama üzerinden yapılır . $k$ $k = n$ $n-1$

Modelin validasyonunu gerçekleştirdikten sonra, daha önce bir kenara bırakılan test seti ile teste geçmek gerekir.

Dengesiz veritabanlarını yönetme

Sınıflandırma görevlerinde , veritabanındaki sınıfların dağılımı dengesiz olabilir, yani sınıf başına gözlem sayısı bir sınıftan diğerine aynı olmayabilir: -inci sınıfın gözlem sayısını belirtirsek , o zaman böyle olur bu . Bu durumda, sınıfların bir onaylama (veya öğrenme) kümesinden diğerine değişen bir dağıtım dağılımıyla doğrulama (ve öğrenme) performansının önyargılı olmasını önlemek için, katmanlı bir çapraz doğrulama ("katmanlı çapraz doğrulama") kullanılması önerilir . Tabakalaşma, kullanılan tüm eğitim ve doğrulama setlerinde sınıf dağılımının aynı olmasını sağlamaktan ibarettir. Diğer bir deyişle, ilk veritabanı, örneğin, sınıf 2'nin 7 gözlemi için sınıf 1'in 3 gözlemini sunuyorsa, o zaman her doğrulama seti (sırasıyla Öğrenme), 7'ye 3 olan bu oranı sunmalıdır. $veya$ $ben$ ${\ displaystyle \ {i, j \}}$ ${\ displaystyle n_ {i} \ neq n_ {j}}$

Bloklarla çapraz doğrulama durumunda , bu basitçe sınıfların aynı şekilde bir bloktan diğerine dağıtılması meselesidir. Ondan türetilecek doğrulama ve öğrenme setleri bu dağıtımı miras alacaktır. $k$

Ayrıca görün

İç bağlantılar

Referanslar

Payam Refaeilzadeh, Lei Tang, Huan Liu, " Cross-Validation " ( Archive • Wikiwix • Archive.is • Google • Que faire? ) (Erişim tarihi 20 Nisan 2020 )
Andrew W. Moore, Aşırı uyumu tespit etmek ve önlemek için çapraz doğrulama