Çapraz doğrulama ( " çapraz onaylama " ) 'de, bir makine öğrenme , bir tekniğe göre bir modelin tahmini güvenilirliği için bir yöntem örnekleme .
Bir veya daha fazla bilinmeyen parametre içeren bir istatistiksel modelimiz ve modeli öğrenebileceğimiz (veya "eğitebileceğimiz") bir eğitim veri kümemiz olduğunu varsayalım. Eğitim süreci, modelin parametrelerini, eğitim verileriyle mümkün olduğunca yakından eşleşecek şekilde optimize eder. Daha sonra, sözde eğitim örneğiyle aynı popülasyondan bağımsız bir doğrulama örneği alırsak, genellikle modelin doğrulama verilerini ve eğitim verilerini modellemediği ortaya çıkacaktır: aşırı uyumdan bahsediyoruz . Ancak, bağımsız bir doğrulama örneği her zaman mevcut değildir. Ek olarak, bir doğrulama örneğinden diğerine model doğrulama performansı değişebilir. Çapraz doğrulama, aynı veritabanından birkaç doğrulama seti türetmeyi ve böylece modelin doğrulama performansının sapma ve varyansla daha sağlam bir tahminini elde etmeyi mümkün kılar.
Doğrulamanın birçok çeşidi vardır, ancak önce şunları ayırt edebiliriz:
k | Blok 1 | blok 2 | blok 3 |
---|---|---|---|
1 | doğrulama | öğrenme | öğrenme |
2 | öğrenme | doğrulama | öğrenme |
3 | öğrenme | öğrenme | doğrulama |
Modelin validasyonunu gerçekleştirdikten sonra, daha önce bir kenara bırakılan test seti ile teste geçmek gerekir.
Sınıflandırma görevlerinde , veritabanındaki sınıfların dağılımı dengesiz olabilir, yani sınıf başına gözlem sayısı bir sınıftan diğerine aynı olmayabilir: -inci sınıfın gözlem sayısını belirtirsek , o zaman böyle olur bu . Bu durumda, sınıfların bir onaylama (veya öğrenme) kümesinden diğerine değişen bir dağıtım dağılımıyla doğrulama (ve öğrenme) performansının önyargılı olmasını önlemek için, katmanlı bir çapraz doğrulama ("katmanlı çapraz doğrulama") kullanılması önerilir . Tabakalaşma, kullanılan tüm eğitim ve doğrulama setlerinde sınıf dağılımının aynı olmasını sağlamaktan ibarettir. Diğer bir deyişle, ilk veritabanı, örneğin, sınıf 2'nin 7 gözlemi için sınıf 1'in 3 gözlemini sunuyorsa, o zaman her doğrulama seti (sırasıyla Öğrenme), 7'ye 3 olan bu oranı sunmalıdır.
Bloklarla çapraz doğrulama durumunda , bu basitçe sınıfların aynı şekilde bir bloktan diğerine dağıtılması meselesidir. Ondan türetilecek doğrulama ve öğrenme setleri bu dağıtımı miras alacaktır.