Çapraz doğrulama

Çapraz doğrulama ( çapraz onaylama  " ) 'de, bir makine öğrenme , bir tekniğe göre bir modelin tahmini güvenilirliği için bir yöntem örnekleme .

Çapraz doğrulamanın faydası

Bir veya daha fazla bilinmeyen parametre içeren bir istatistiksel modelimiz ve modeli öğrenebileceğimiz (veya "eğitebileceğimiz") bir eğitim veri kümemiz olduğunu varsayalım. Eğitim süreci, modelin parametrelerini, eğitim verileriyle mümkün olduğunca yakından eşleşecek şekilde optimize eder. Daha sonra, sözde eğitim örneğiyle aynı popülasyondan bağımsız bir doğrulama örneği alırsak, genellikle modelin doğrulama verilerini ve eğitim verilerini modellemediği ortaya çıkacaktır: aşırı uyumdan bahsediyoruz . Ancak, bağımsız bir doğrulama örneği her zaman mevcut değildir. Ek olarak, bir doğrulama örneğinden diğerine model doğrulama performansı değişebilir. Çapraz doğrulama, aynı veritabanından birkaç doğrulama seti türetmeyi ve böylece modelin doğrulama performansının sapma ve varyansla daha sağlam bir tahminini elde etmeyi mümkün kılar.

Doğrulama teknikleri

Doğrulamanın birçok çeşidi vardır, ancak önce şunları ayırt edebiliriz:

K = 3 blokta çapraz doğrulama için veri dağıtım tablosu
k Blok 1 blok 2 blok 3
1 doğrulama öğrenme öğrenme
2 öğrenme doğrulama öğrenme
3 öğrenme öğrenme doğrulama

Modelin validasyonunu gerçekleştirdikten sonra, daha önce bir kenara bırakılan test seti ile teste geçmek gerekir.

Dengesiz veritabanlarını yönetme

Sınıflandırma görevlerinde , veritabanındaki sınıfların dağılımı dengesiz olabilir, yani sınıf başına gözlem sayısı bir sınıftan diğerine aynı olmayabilir: -inci sınıfın gözlem sayısını belirtirsek , o zaman böyle olur bu . Bu durumda, sınıfların bir onaylama (veya öğrenme) kümesinden diğerine değişen bir dağıtım dağılımıyla doğrulama (ve öğrenme) performansının önyargılı olmasını önlemek için, katmanlı bir çapraz doğrulama ("katmanlı çapraz doğrulama") kullanılması önerilir . Tabakalaşma, kullanılan tüm eğitim ve doğrulama setlerinde sınıf dağılımının aynı olmasını sağlamaktan ibarettir. Diğer bir deyişle, ilk veritabanı, örneğin, sınıf 2'nin 7 gözlemi için sınıf 1'in 3 gözlemini sunuyorsa, o zaman her doğrulama seti (sırasıyla Öğrenme), 7'ye 3 olan bu oranı sunmalıdır.

Bloklarla çapraz doğrulama durumunda , bu basitçe sınıfların aynı şekilde bir bloktan diğerine dağıtılması meselesidir. Ondan türetilecek doğrulama ve öğrenme setleri bu dağıtımı miras alacaktır.

Ayrıca görün

İç bağlantılar

Referanslar

  1. Payam Refaeilzadeh, Lei Tang, Huan Liu, "  Cross-Validation  " ( ArchiveWikiwixArchive.isGoogle • Que faire? ) (Erişim tarihi 20 Nisan 2020 )
  2. Andrew W. Moore, Aşırı uyumu tespit etmek ve önlemek için çapraz doğrulama


<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">