Tek kollu haydut (matematik)

Gelen matematik , daha kesin olarak olasılık teorisi , tek slot sorunu (genellenebilir K-kolunun haydut problem ya da N-kol eşkıya sorunu ) aşağıdaki gibi resim olarak formüle edilir: Bir kullanıcı (bir madde ), slot makineleri bakan, hangi makinelerin oynanacağına karar vermelidir. Her makine, kullanıcının önceden bilmediği ortalama bir ödül verir. Amaç, kullanıcının kümülatif kazancını maksimize etmektir.

Bu, pekiştirmeli öğrenmeye bir örnektir . Tipik olarak, kullanıcının politikası, sömürü (çok şey öğrendiği makineyi kullanmak) ve keşif (daha fazla kazanmayı ummak için başka bir makineyi test etmek) arasında gidip gelir. Tek kollu haydut sorunu, tek devletli bir Markov karar alma süreci olarak görülebilir .

Sorunun resmileştirilmesi

Bu bölümde, Auer ve diğerleri tarafından yazılan makaleden bazı notasyonları alarak sorunu resmileştiriyoruz..

Soruna girmek

K slot makinelerini düşünün. Sorunun girdisi , tüm 1 ≤ i ≤ K için X i, n rasgele değişkenler ve n ≥ 1 tarafından verilir; burada i indisi, K makinelerinden birini (veya haydutun bir "kolunu") ve indeksi temsil eder. n bir dönüşü temsil eder.Tüm bu rastgele değişkenlerin bağımsız olduğunu ve aynı i makinesinin değişkenlerinin, yani X i, 1 , X i, 2 , vb. değişkenlerinin , aynı bilinmeyen olasılık dağılımını takip ettiğini varsayıyoruz . ajan, beklenti μ i .

Buna karşılık, kullanıcı seçtiği makineye bağlı olarak bir ödül alacak. Tek kollu bir haydutun klasik bir örneği, makinenin p i olasılıkla 1 ve 1-p i olasılıkla 0 ödülünü getirdiği durumdur .

Problemin dışında: bir politika hesaplamak

Kullanıcı, en yüksek ortalama ödülü getiren slot makinesini bulmaya çalışır. Penguen problemi için bir politika veya strateji , oynanacak bir sonraki makineyi önceki seçimlere ve elde edilen ödüllere göre seçen bir algoritmadır. Amaç, pişmanlığı en aza indiren , yani en iyi makineyi seçme ile ilgili olarak politikanın ne kaybettiğini ifade eden politikalar sağlamaktır.

Pişmanlık

Tek kollu bir haydut probleminde, n kez en iyi makineyi kullanmanın ödülü ile politikaya uygun olarak yapılan n denemeden sonra ödül beklentisi arasındaki fark, n denemeden sonra pişmanlık olarak tanımlanır. Resmi olarak, bu pişmanlık şu değere sahiptir:

{\ displaystyle r_ {n} = n \ mu ^ {*} - \ toplamı _ {k = 1} ^ {n} \ mathbb {E} (\ mu _ {I_ {k}})}

en iyi makinenin ortalama ödülü nerede ve o anda önerilen strateji ile elde edilen ödülü belirler . $\ mu ^ {*}$ ${\ displaystyle \ mu _ {I_ {k}}}$ $k$

Farklı algoritmalar

Bu nedenle, tek kollu haydut problemini çözmek için pekiştirmeli öğrenme algoritmaları önerilmiştir.

Haydut algoritması

Haydut algoritması, adını oyuncunun kazancını maksimize etmeye çalıştığı slot makinelerinden ( çok kollu haydut ) alır. 1960'larda klinik deneylerdeki uygulamalar için tanıtıldılar.

Bir haydut algoritmasının ilkesi şu şekilde tanımlanabilir: 2 kaynağımız var A ve B (sırasıyla kullanıldığında pA ve pB'nin tatmin edici olma olasılığına sahip) ve ikisinden hangisinin en verimli olduğunu belirlemek istiyoruz.

Açgözlü yaklaşım

Açgözlü bir yaklaşım sadece benimkidir, keşfetmek değil. Böylece, bir makinenin a kolunun değerini (eylem için vardır) şu şekilde hesaplıyoruz:

${\ displaystyle Q_ {t} (a): = {\ frac {{\ text {eylem tarafından alınan ödüllerin toplamı}} a {\ text {zamandan önce}} t} {{\ text { action}} {\ text {zamandan önce tetiklendi}} t}}}$

Açgözlü seçim, maksimize eden eylemlerden birini seçmekten ibarettir . Bu yaklaşımla optimuma ulaşılmaz. Temsilci, ε> 0 olasılıkla keyfi bir eylem seçerse, hesaplanan politikayı geliştirdiğimizi gösteriyoruz. Aşağıdaki algoritma, ε-açgözlü dediğimiz tek kollu haydut problemi için basit bir algoritmadır. ${\ displaystyle Q_ {t} (a)}$

initialiser pour tout bras a: Q(a) := 0 N(a) := 0 boucle pour toujours: avec une probabilité ε: a := un bras au hasard sinon: a := une action qui maximise Q(a) R := récompense obtenue en tirant a N(a) := N(a) + 1 Q(a) := Q(a) + (R - Q(a)) / N(a)

Mevcut değerini Q (a) 'da saklıyoruz. ${\ displaystyle Q_ {t} (a)}$

Lai ve Robbins algoritmaları

Tze Leung Lai ve Herbert Robbins algoritmaları ödül için belirli ailelerin olasılık dağılımı için bir logaritma fonksiyonu ile sınırlı bir pişmanlık alınmasını sağlarlar öğrenme takviye verdi: . Başka bir deyişle, optimum makinenin diğer makinelere göre üssel olarak daha sık oynandığı anlamına gelir. ${\ displaystyle r_ {n} <O (\ log (n))}$

Thompson örneklemesi

Thompson örnekleme algoritması , bu sorunu çözmek için önerilen ilk algoritmadır .

Kullanıcı her seferinde en yüksek indekse sahip makineyi seçer. Bu endeks, bir beta yasasını izleyen rastgele bir değişkendir . Her makine için, kullanıcı , parametreleri ve 1 olarak başlatılan bir beta yasasına göre bir indeks çizer . Kullanıcı makinelerden birini her kullandığında , ödülü alırsa vb . ${\ displaystyle \ beta (a_ {j}, b_ {j})}$ $a_ {j}$ $b_j$ ${\ displaystyle a_ {j} = a_ {j} +1}$ ${\ displaystyle b_ {j} = b_ {j} +1}$

UCB

UCB algoritması ( Üst Güven Sınırları için ) 2002 yılında P. Auer tarafından önerildi. Bu algoritma ile kullanıcı, makinelerin her biri için ödülün deneysel ortalamasını hesaplar.

${\ displaystyle X_ {j} = {\ frac {1} {T_ {j}}} \ toplamı _ {i = 1} ^ {t} r_ {i} \ chi _ {a_ {j} = i}}$

Bu denklemde, kullanıcı tarafından gerçekleştirilen test sayısı, tayin makinede, kullanıcı tarafından yapılan test sayısı , test sırasında elde edilen bir ödül belirtmektedir . makinenin test için seçildiğini gösteren gösterge işlevini belirler . $t$ $T_j$ $j$ $ri$ $ben$ $\ chi$ $j$ $ben$

Her kanaldaki endeksi hesaplamak için, algoritmanın farklı makineleri keşfetmesine olanak tanıyan bir önyargı ekliyoruz.

${\ displaystyle B_ {j} = X_ {j} + A_ {j}}$

Önyargı , pişmanlıkta logaritmik bir düşüşe sahip olacak şekilde seçilmelidir. Önyargı: $A_ {j}$

${\ displaystyle A_ {j} = {\ sqrt {\ frac {2 \ log (t)} {T_ {j}}}}}$

pişmanlığı logaritmik bir şekilde sınırlandırmaya izin verir.

Bu algoritmanın birçok iyileştirmesi mevcuttur.

Pratik uygulama

En tipik uygulama bir otomatik satış makinası problem eski ve yeni bir dozaj arasında bir seçim olduğunu aşı veya ilaç yeni ürün kabul veya gerekip gerekmediğini de mümkün olduğu kadar çabuk belirlenmesi gerekmektedir: (ya da iki farklı olanlar) eski olanı sürdürdü. Herhangi bir hata, insan hayatının kaybına (veya en azından, tamamlanmamış tedaviden veya aşırı yan etkilerden kaynaklanan sorunlardan muzdarip insanlarda) sonuçlanacaktır. Bu nedenle, klasik istatistiksel protokolleri ( Fisher ) kullanamayız , bilgi toplama ucuz ve işlenmesi pahalı olduğunda optimaldir ve daha çok bilgiyi akarken kullanan Bayes yöntemlerini kullanan bir deney tasarımına yöneliriz .

Bu model bazen makine öğreniminde kullanılır; örneğin, bir reklam bağlantısına tıklamayı reddetmenin kullanılabilir bilgiler sağlaması dışında, önceden bilinenlere dayalı olarak sunmak için reklam seçimleri yapmak için kullanılır.

Gelen akıllı radyo , bu model genellikle spektrum için fırsatçı erişim için karar verme için kullanılmaktadır.

Notlar ve referanslar

" İstatistiksel olarak sizindir - İstatistikler etrafında rastgele konu seçimi " , İstatistiksel olarak sizinkinde (erişim tarihi 21 Eylül 2018 )
" Lille Üniversitesi'ndeki Kurs" Haydut algoritmalarına giriş " "
P. Auer , N. Cesa-Bianchi ve P. Fischer , "Çok Kollu Haydut Probleminin Sonlu Zaman Analizi ", Makine Öğrenimi , cilt. 47, No kemikleri 2/32002, s. 235–256 ( DOI 10.1023 / A: 1013689704352 )
MN Katehakis ve AF Veinott , " Çok Silahlı Haydut Problemi: Ayrıştırma ve Hesaplama " Yöneylem Araştırması Matematiği , cilt. 12, n o 21987, s. 262–268 ( DOI 10.1287 / moor.12.2.262 )
(in) " Çok kollu haydutlarda Varyans Tahminlerini kullanarak keşif ve sömürü ödünleşimi " , Teorik Bilgisayar Bilimi , cilt. 410, n o 19,28 Nisan 2009, s. 1876–1902 ( ISSN 0304-3975 , DOI 10.1016 / j.tcs.2009.01.016 , çevrimiçi okuma , 21 Eylül 2018'de erişildi )
" Washington Üniversitesi'ndeki Kurs (bkz. Birinci paragraf) "
" POKİ'LERDE KAZANMA ŞANSLARINIZI NASIL ARTIRIRSINIZ? ", Pokiestar ,4 Mayıs 2019( çevrimiçi okuyun , 5 Temmuz 2019'da danışıldı )
Agrawal, R. (1995). Birden çok slot makinesi sorunu için O (log n) pişmanlığıyla örnek ortalamaya dayalı indeks politikaları. Uygulamalı Olasılıktaki Gelişmeler , 27 (4), 1054-1078.
Maureen Clerc, Laurent Bougrain ve Fabien Lotte, Beyin-bilgisayar arayüzleri 1: temeller ve yöntemler, Cilt 1 , ISTE Group ,1 st 2016 Temmuz, 310 p. , s. 228
" Çalışma Narendra Shapiro algoritmaları eşkiyanın türüyle ilişkili pişman " üzerine MARSEILLE Matematik Enstitüsü'nde (üzerinde erişilen 1 st 2020 Ekim )
(in) The MIT Press , " Reinforcement Learning, Second Edition | The MIT Press ” , mitpress.mit.edu (erişim tarihi 9 Şubat 2020 ) , s. Bölüm 2. Verilen algoritma s. 32
(in) " asimptotik olarak verimli uyarlanabilir tahsis kuralları " , Uygulamalı Matematikteki Gelişmeler , cilt. 6, n o 1,1 st Mart 1985, s. 4–22 ( ISSN 0196-8858 , DOI 10.1016 / 0196-8858 (85) 90002-8 , çevrimiçi okuma , 21 Eylül 2018'de erişildi )
" Haydutlarla ilgili kurs (bkz. Slayt 12) "
WR Thompson, "İki örneğin kanıtı açısından bilinmeyen bir olasılığın diğerini geçme olasılığı üzerine", Biometrika, 25: 285–294, 1933.
Auer, P., Cesa-Bianchi, N. & Fischer, P. Machine Learning (2002) 47: 235.
Haydut Sorunları için Bayes Üst Güven Sınırları Üzerine, Émilie Kaufmann, Olivier Cappé, Aurelien Garivier; JMLR W&CP 22: 592-600, 2012.
http://blog.octo.com/online-machine-learning-application-a-la-publicite-sur-le-web/
L. Lai, H. Jiang and HV Poor, "Bilişsel radyo ağlarında orta erişim: Rekabetçi çok kollu bir haydut çerçevesi", 2008 42. Asilomar Sinyaller, Sistemler ve Bilgisayarlar Konferansı, Pacific Grove, CA, 2008, s. 98-102 .

Ayrıca görün