Doğa | Teoremi |
---|---|
Referans olarak adlandırıldı | Richard Threlkeld Cox |
Cox-Jaynes teoremi ( 1946 ) düzenliyor ve beş dayalı öğrenme sürecini rakamlarla basit önermeleri ( desideratasına ). Bu kodlama , tarihsel olarak oldukça farklı kökene sahip olasılık ile örtüşmektedir . Teorem, adını ilk versiyonu formüle eden fizikçi Richard Threlkeld Cox'a borçludur .
Cox, sezgisel akla yatkınlık kavramını sayısal bir biçimde resmileştirir. Olasılıklar bir dizi hipotezi karşılarsa, onları manipüle etmenin tek tutarlı yolunun olasılık teorisine izomorfik bir sistem kullanmak olduğunu gösterir .
Bu sistem , frekansınkinden bağımsız olasılıkların "mantıksal" bir yorumunu indükler . Mantık indüksiyon mekanizması ve dolayısıyla makine öğrenimi için rasyonel bir temel sağlar . Dahası, teorem, varsayımların dayattığı koşullar altında, bilginin bu özel temsili çerçevesi dahilinde başka herhangi bir bilginin dikkate alınmasının aslında önyargılı olacağını ima eder. Bu nedenle bu son derece güçlü bir sonuçtur.
Edwin Thompson Jaynes bu teoremi yeniden keşfetmeden ve Bayes yöntemlerinin bir dizi çıkarımını ortaya çıkarmadan önce Cox'un sonuçları yalnızca küçük bir kitleye ulaşmıştı . Irving John Good , yapay zeka alanındaki sonuçları araştırdı .
Stanislas Dehaene , 1988'de Jaynes tarafından zaten ifade edilen bir fikri takiben teoremi, onun inşasını ve uygulamalarını insan bilişsel süreçlerinin incelenmesi çerçevesinde kullanır.
"Bilim Batıl İnanç mı?" Başlıklı makalesinde " Bertrand Russell çağrıştırıyor ait skandal ' indüksiyon ' :
Bu paradoks, tümevarım mekanizmasında, ikincisinin geçerlilik alanının daha titiz bir şekilde belirlenmesini gerektiren bir kusuru göstermeyi amaçladı: bahsettiğimiz şeyin bağlamından her zaman bahsedilmelidir. Yani bir odada hem beyaz olmayan ve non-kuzgun kuşları sayma tüm kargalar beyaz olduğunu, ancak tüm kargalar beyaz olduğunu size olasılığını söylemez o odada hayır hayır karga orada var olduğunda mükemmel doğru beyanı - oda, ilişki sayesinde ( tamamen tümdengelim mantığında mantıksal çıkarımı tanımlar ):
Cox , bir tümevarım mantığına göre akıl yürüten bir robot için beş istenen veriyi ortaya koyar .
Bunlardan üçü yöntem için geçerlidir:
tutarlılık bir sonuç bulmanın birkaç yolu varsa, bunlar aynı sonuca götürmelidir; yöntem sürekliliği bir parametrenin değerindeki bir değişiklik, hesaplama yönteminde bir değişiklik gerektirmemelidir; evrensellik belirli bir kullanım için tasarlanmamış bir genel durum hesaplayıcısı istiyoruz.Kullanıcıdan iki tane gereklidir:
kesin özellikler bir önerme tek bir şekilde ve yalnızca bir şekilde anlaşılabilmelidir; bilgi verilmez robot tüm ilgili verileri bilir.Her an diğerinden daha büyük olan iki olasılıktan söz edebilmek gerekir . Bu sıra ilişkisi , nicel bir temsil önermektedir ve sayısal biçim uygun görünmektedir.
Tam sayı şeklindeki bir temsil, bir sorun teşkil eder, ardışık tamsayılarla temsil edilen ikisi arasında hiçbir olasılık kaymaz. Bu yüzden sürekli bir sete ihtiyacımız var .
Rasyonel kabul şöyle dursun gerçek sayılar kabul ediyorum.
Keyfi olarak benimsenen sözleşme, daha büyük olasılıkların daha büyük sayılarla temsil edileceğidir .
Bize açık görünen şey modelle çelişmemelidir. Condorcet paradoksu ve Arrow'un imkansızlık teoreminin gösterdiği gibi, görünüşte basit olan bu kuralı kolektif tercihler durumunda uygulamak her zaman kolay değildir .
Örnek kural:Birden fazla yolla bir sonuca varılabiliyorsa, tüm bu araçlar aynı sonucu vermelidir.
Bu kural (bazen bu tür kriterleri yaptıkça onlar bu çelişkileri içerebilir beri muayene alan "Birden çok sezgisel tarama" ortadan kaldırır Savage ve Wald hem iddia minimax ait oyun teorisi ).
Robot, kendisine sağlanan tüm bilgileri her zaman hesaba katmalıdır. Bunun bir kısmını kasıtlı olarak görmezden gelmemeli ve sonuçlarını geri kalanına dayandırmamalıdır. Diğer bir deyişle, bir robot tamamen olmalıdır ideolojik olmayan , bir bakış açısı nötr .
Robot, eşdeğer olasılıklarla eşdeğer bilgi durumlarını temsil eder. Önerilerin basit bir şekilde etiketlenmesi dışında iki problem aynıysa, robot her iki duruma da aynı olasılıkları atamalıdır.
Bu nedenle, iki önerme, yalnızca isimleriyle ayırt edildiklerinde eşdeğer olasılık açısından a priori olarak düşünülmelidir ; bu, çok özel durumlar dışında, yüksüz madeni paralar veya zarlar gibi neredeyse hiç olmaz.
Denklemlere girmeden, fikir, aynı durumdaki iki olasılık bir araya geldiğinde, bileşik olasılığın zorunlu olarak ikisinden büyük olana eşit veya ondan daha büyük olmasıdır.
Bu tam tersi durumdur: Bir durumun var olması için iki olasılığın her ikisinin de doğrulanması gerektiğinde, bu durum, önceki iki olandan daha küçük olandan daha büyük bir akla yatkınlığa sahip olamaz.
Good, olasılıkları manipüle etmeyi kolaylaştıran bir gösterim önerdi. Alan Turing , zamanında, olasılıkların ifadesinin, 0'dan 1'e kadar değişen bir p olasılığını ln (p / (1-p)) ifadesiyle değiştirerek çok küçük değerlerin daha iyi ayırt edilmesini sağlayarak daha kolay ele alındığına işaret etmişti . (0'a çok yakın) ve çok büyük değerler (1'e çok yakın). Özellikle, bu formda, Bayes kuralı tarafından bilginin bir katkısı, bu ifadeye (Turing'in log-tek olarak adlandırdığı ) benzersiz bir cebirsel niceliğin eklenmesiyle sonuçlanır; bu , gözlemden önce önsel ayrılma olasılığı ne olursa olsun . Good'un gösterimi, bu fikre uygun olarak logaritmik bir ölçek kullanır .
Deciban ölçeğiIrving John Good , bu yeni miktarlarla çalışmayı kolaylaştırmak için bu fikrin bir varyasyonunu kullandı. Turing'in aksine:
Karşılık gelen ölçüyü, W = 10 log 10 (p / (1-p)), kanıtın ağırlığı olarak adlandırdı, çünkü gerçeklerin ifadesini beklentilere göre "tartmayı" mümkün kıldı - önceki "öznel" olasılıkların gösterdiği gibi . gözleme - bu beklentilerden bağımsız olarak .
Herhangi bir asalak çağrışımdan kaçınmak için Dehaene, İyi gibi desibellerden ziyade Turing gibi desibellerden bahsetmeyi tercih ediyor .
Bitler halindeKanıtlar bazen , özellikle ölçeklendirme yasalarının geçerlilik testlerinde de bitlerle ifade edilir .
Böyle bir yasa ne zaman Nitekim Zipf en ya Mandelbrot yasası daha iyi önceden sıralamayı gerektirmez başka yasa daha verilere uymadığını, dikkate alınmalıdır sıralama dizisi n terimleri keyfi seçer bir arasında permütasyon n ! mümkün. Sıralama , n log 2 n sırasının bir bilgi girişini (veya sırasını ) temsil eder . Bu bilgi girişi, en iyi ayarlama için yeterli olabilir. Az önce kendini azalan düzende sıraladıklarını daha iyi yansıtmak için azalan bir dağılım görmeyi bekleyebiliriz.
Sıralama ile getirilen kanıt kazancı, bu sıralama maliyetinden daha az biti temsil ediyorsa, yetersiz bir kanunun dikkate alınmasıyla sağlanan bilgi sıfırdır. Sağlanan sıra, az önce koyduğumuz sıradır: bu nedenle model bu durumda tutulmamalıdır. Diğerlerinde geçerliliği açıktır: Zipf-Mandelbrot yasasına bakın .
Boole cebirinin, sadece 0 ve 1 değerlerine indirgenmiş olasılıklar teorisine izomorfik olduğunu fark ettik .
Buluşun yol açtı Bu husus 1970'li ait stokastik bilgisayarlar şirket tarafından terfi Alsthom (bir ile yazıldığından edildi h anda) ve bilgisayarların işlem gücü ile anahtarlama devrelerinin. Analog düşük maliyetli birleştirmek amaçlanmıştır. O sırada birkaç tane yapıldı.
Myron Tribus , olasılığı , frekans kavramının sınırına geçiş olarak değil , bir bilgi durumunun basit dijital çevirisi olarak ele almayı önerir . Destek yılında 1 / den sayılır her yüzün olasılık çıkışı ile zar klasik görüntüsünü alır 6 inci yüzden sınıra herhangi geçit yasaklayan bir kaç kez, üzerinde çalıştırılabilir, kalıp buzdan yapılmış olsa bile.
Sonra bir muhatabın itirazını hayal eder: "Zihinsel olarak bin zar hayal edersem, sınıra gerçekten bir geçiş tasavvur edebilirim" diye yanıt verir: "Kesinlikle. Ve bu nedenle onları yalnızca zihinsel olarak temsil ediyorsanız , bunun nedeni aslında yalnızca bir bilgi durumu sorunu olmasıdır ”
Sıklık yanlısı ve Bayesçi yaklaşımlar arasındaki ayrılıklar, neredeyse bir "dinsel savaş" boyutuna büründükleri 1970'lerde büyük tutku uyandırdı. "Onların" barışçıl "bir arada yaşamaları artık kabul ediliyor, her biri maksimum etkinlik alanına sahip ve iki yaklaşım zaten çok sayıda gözlemlere gittiğimizde birleşiyor. Bu uygulama alanıyla ilgili olmayan küçük sayılar, sıklık ( istatistiksel ) yöntemler için hiçbir çelişki yoktur .
Edwin Thompson Jaynes , yeniden başlaması ve Cox teoremini derinleştirmesinde , otomatik öğrenme de dahil olmak üzere herhangi bir öğrenmenin mutlaka Bayesci çıkarım kullanması gerektiğini göstermek için kullanır (istenirse bir homomorfizm hariç, pratik basitleştiren bir logaritma dönüşümünden bir geçiş gibi) hesaplamalar) veya bir yerde tutarsız sonuçlar verir ve sonuç olarak uygun olmaz. Bu son derece güçlü sonuç , yöntem sürekliliği de dahil olmak üzere beş basit aranan verinin kabul edilmesini gerektirir (bir veri sonsuz küçük bir şekilde değiştirildiği için algoritmayı aniden değiştirmeyin) .
Ayrıca Logit makalesine bakın .
Yaklaşımlar farklıdır: sözde bulanık mantık pragmatik kökenlidir ("bulanık mantık" örneği, öğrencilerin genel bir incelemede her ders için keyfi katsayılar kullanılarak sınıflandırılmasıdır) ve gerçek teoremler olmadan: bu bir sorudur basit bir tekniğin . Bayes öğrenimi, matematiksel bir yapıya ve entropi maksimizasyonu (MAXENT) gibi nicel kavramlara dayanan sağlam bir teoridir. İki yaklaşımın nihayetinde birleştiği doğrudur (dijital kameralar için otomatik sahne algılama, ses ve karakter tanıma), ancak bunun tek nedeni Bayesci yaklaşımların geri kalanını büyük ölçüde yutmasıdır.
Teorem, önermelere ayrıştırmanın ondan önce olduğunu ve yalnızca her birinin değerini tahmin etmeye devam ettiğini varsayar. Daha sonra Watanabe , kriterlere ayrıştırmanın inşa gereği keyfi olduğunu ( Çirkin Ördek Yavrusu Teoremi ) ve bu nedenle herhangi bir kişiliksizlik iddiasında bulunamayacağını gözlemledi . Murphy ve Medin bunu 1985'te alaycı bir şekilde örneklediler:
"Benzerliklerini değerlendirmek için eriklerin ve çim biçme makinelerinin ortak özelliklerini listelediğimizi varsayalım. Listenin sonsuz olabileceğini görmek kolaydır. Her ikisi de 10 tondan hafif (ve 11'den az), 10 milyon yıl önce (ne de 11) önce yoktu, her ikisinin de işitme organı yoktu, ikisi de terk edilebilir, her ikisi de yer kaplıyor vb. benzer şekilde, farklılıklar listesi sonsuz olabilir ... İki varlık, ilgili olarak değerlendirmeyi tercih ettiği özniteliklerin basit seçimiyle keyfi olarak benzer veya farklı kabul edilebilir. "
Her disiplinin en sevdiği ölçümler vardır: Eğer termik esas olarak sıcaklıklarla ilgileniyorsa , termodinamik daha çok ısı miktarı ve hatta entropi ölçümlerine bağlanacaktır . Elektrostatik, yoğunluklardan çok voltajlarla ilgilenirken, tersi zayıf akımlar için doğrudur ve elektrik mühendisliğinde akıl yürütme eğiliminde olduğumuz güç açısından daha fazladır . Menşe disiplinine göre, her deneyci bu nedenle alışık olduğu birimlerle ilgili tahminlerini yapma eğiliminde olacaktır .
Bir elektrik tertibatı söz konusu olduğunda, elektrik mühendisliği uzmanı belki de harcanan gücü (Ri²) tahmin ederken, zayıf akımlarda bir uzman , yoğunluğun kendisini tahmin etmeyi tercih edecektir (i). Her iki durumda da tahminlerin uzun vadeli yakınsaması sağlanırsa, aynı a priori dağılımlarda bile aynı şekilde yapılmayacaktır , çünkü bir karenin matematiksel beklentisi matematiksel olarak d 'a umut karesine bağlı değildir. . Bu, Bayes yöntemlerinin ana tökezleyen bloğudur .
Olaylara atfettiğimiz önsel olasılıklardan bağımsız olarak, tahminlerimiz de kısmen dile ve ona eklenen "profesyonel çarpıtma" tarafından "biçimlendirilir". Somut olarak, bu bize Bayesci yöntemlerde yalnızca bir değil, iki keyfilik kaynağı olduğunu hatırlatır: seçilen a priori olasılıkları lekeleyen ölçüm kaynağı ve bizim problemin temsiline karşılık gelen yöntem. Öte yandan, keyfilik bu iki unsurla sınırlıdır ve Bayesci yöntemler bu durumda tamamen kişiliksizdir.