İstatistiksel

İstatistiksel Bilgi Kutusu'ndaki görüntü.
Alt sınıfı Matematik , resmi bilim
Parçası Matematik , ekonomi
Tarafından uygulandı İstatistikçi
Alan Tanımlayıcı istatistikler
Nesneler Veri
olasılık kanunu
Tarih İstatistik tarihi

İstatistik toplama yoluyla çalışmalar fenomenler olduğu disiplindir verilere , işleme, analiz, sonuçların yorumlanması ve bunların sunumu tüm veri anlaşılır hale getirmek için. Aynı zamanda uygulamalı matematiğin bir dalı, bir yöntem ve bir dizi tekniktir .

İstatistiklerin bazen matematiksel uygulamalarını bir istatistikle (küçük harfle) ayırt etmeyi mümkün kılan "İstatistikler" (büyük harfle) olarak ifade edildiğini unutmayın . Çoğul, genellikle onu belirtmek için kullanılır: "istatistik", bu, bu bilimin çeşitliliğini göstermeye izin verir .

İstatistik bir matematik alanıdır ve daha fazlası, şimdi veri bilimi dediğimiz şeyin bir parçasıdır ( İngilizce'de  : Veri Bilimi ). Analiz daha genel matematiksel yasaları (kümeler, gruplar, dahil etme, dışlama) uygular. Teorik bir bileşene ve uygulamalı bir bileşene sahiptir. Teorik bileşen, olasılık teorisine dayanır ve ikincisi olan rastgele olayların analizi ile formlar. Uygulamalı istatistikler, insan faaliyetinin neredeyse tüm alanlarında kullanılır: mühendislik , yönetim , ekonomi , biyoloji , bilgisayar bilimi , fizik ( örneğin kuantum fiziğinin temelleri ). İstatistikler, genellikle karar desteğinin bir bileşeni olarak doğru şekilde yorumlanabilmeleri için veri toplamayla ilgili kuralları ve yöntemleri kullanır. İstatistikçi bireyin mesleği özel veya kamu sektöründe istatistiksel araçların geliştirilmesi, ve uzmanlık alanında genel olarak kullanımları.

Tarih

Adı rağmen istatistikler nispeten yeni - genellikle için adının kökeni atfedilen XVIII inci  yüzyılın , Alman Staatskunde - Bu etkinlik ilk sosyal yapıların doğuştan olduğu anlaşılıyor. Ayrıca, bulunan ilk yazılı metinler, çiftlik hayvanlarının sayımları, seyri hakkında bilgiler ve çeşitli sözleşmelerdir. Arsa iyi oldu sayımı sonuçlarına Çin veya Mısır'da XVIII inci  yüzyılın  M.Ö.. AD Bu veri toplama sistemi kadar devam XVII inci  yüzyılın . In Europe , veri toplayıcı rolü sıklıkla tarafından tutulan tüccar loncalar devlet sorumlu kimselerce sonra.

O kadar değildi XVIII inci  yüzyılın bir ilk tablolar inşaatı ile, istatistiklerin öngörülen rolünü gördüğü mortalite . Antoine Deparcieux yazdığı 1746 insan ömrünün olasılıklara Deneme . Önce hayat sigortası şirketleri tarafından kullanılacak ve daha sonra yaratılacaktır.

İstatistikler ayrıca ileriye dönük veya geçmişe dönük geçmiş, özellikle de demografi için destek sağlar . Böylece 1842'de Baron de Reiffenberg bıraktığı rakamlara göre, Akademi'ye Galya halkları arasında nüfusun onun retrospektif hesaplamalar sundu Jül Sezar onun içinde Galya Savaşları üzerine Yorum'un ( De GALLICO bello , v.).

Matematiksel istatistikler, Fermat ve Pascal tarafından geliştirilen olasılıklarla ilgili ilk çalışmaya dayanıyordu . Muhtemelen bir çıkarımsal istatistik embriyonunun ortaya çıkışını Thomas Bayes'te gördük. Condorcet ve Laplace hala olasılıktan bahsettiler , oysa bugün sıklıktan bahsedecektik . Ancak istatistiğin olasılıklara dayalı bir bilim olduğu fikrini Adolphe Quetelet'e borçluyuz .

XIX inci  yüzyılın bu etkinlik onun patlama almak görüyor. Verilerin toplanması ve yorumlanmasına ilişkin kesin kurallar yürürlüğe konmuştur. İstatistiklerin ilk endüstriyel uygulaması, istatistikçi Herman Hollerith tarafından icat edilen delikli kartın uygulandığı 1890 ABD Nüfus Sayımı sırasında gerçekleşti . O bir dosyaya almıştır patent ile ABD Patent ofisi .

Gelen XX inci  yüzyılın , bu endüstriyel uygulamalar ilk büyüdü ABD'de önde vardı, yönetim biliminin sonra sonra ve Birinci Dünya Savaşı içinde Avrupa'da . Nazi rejimi yeniden silahlanma için 1934'ten istatistiksel yöntemler kullandı . In France , biz bu uygulamaların daha az farkındaydı.

İstatistiğin endüstriyel uygulama Fransa'nın oluşturulması ile geliştirilen INSEE tarafından oluşturulan Ulusal İstatistik Servisi yerini René Carmille .

Gelişi bilgisayarda içinde 1940 ( ABD (Avrupa) ve 1960 ), daha fazla sayıda tedavi etmek için izin verilere , ama her şeyden her dizi geçmeye verilere farklı türde. Bu, çok boyutlu analiz denen şeyin gelişimidir . Yüzyıl boyunca, birkaç düşünce akımı çatışacak:

Tanım

İstatistiğin tanımını vermenin kolay olmadığını belirterek başlayalım: Önceki bölümde açıklandığı gibi, istatistiklerin tanımları çağa veya kullanımına göre gelişir. 1935'te istatistikçi Walter F. Willcox, 100 ila 120 farklı tanım saydı.

İstatistikçilerin üzerinde hemfikir olmadıkları konular arasında bilimlerinin tanımı var. "

Maurice Kendall

İlk olarak, en azından 1982'den beri, şu anda kullanımda olan en klasik tanımı verelim: "İstatistikler, bir grup birey veya birimle ilgili gözlemsel verilerin toplanması, işlenmesi ve yorumlanmasını amaçlayan tüm yöntemlerdir. " Bu tanıma göre, istatistik, fiziğin maddeye, biyolojinin hayata doğru olduğu gibi, özerk bilim odaklı bir veri olarak ortaya çıkıyor. Ancak , kendisi bir rastgele bilimi olan olasılık teorisine dayandığından ( daha fazla ayrıntı için olasılık teorisi ve istatistik arasındaki ara bağlantılar'a bakınız), özellikle akademik bir bakış açısıyla, genellikle bir uygulamalı matematik dalı. Bugün, Anglosaksonların "Veri Bilimi" olarak adlandırdığı ve dahası, BT'nin de önemli bir yere sahip olduğu daha çapraz bir disiplin alanının parçası. İstatistiğin farklı yönleri, farklı alanlara veya kavramlara göre gruplandırılmıştır: tanımlayıcı istatistikler , bugün daha yaygın olarak keşif istatistikleri , istatistiksel çıkarım , matematiksel istatistikler , veri analizi , istatistiksel öğrenme  vb. Olarak bilinir .

John Tukey , aralarında sürekli olarak hokkabazlık yaptığı iki istatistik yaklaşımı olduğunu iddia ediyor: istatistik araştırıcı ve istatistiksel doğrulayıcı ( keşifsel ve doğrulayıcı istatistikler ):

Uygulama alanları

1982'de istatistikçi Pierre Dagnelie istatistikte üç ana eğilim önerdi:

Uygulamada, istatistiksel yöntemler ve araçlar aşağıdaki gibi alanlarda kullanılır:

Tanımlayıcı istatistikler ve matematiksel istatistikler

İstatistiğin amacı, basit bir okuma ile yorumlanması zor olan bir sayılar listesinden ilgili bilgileri çıkarmaktır. Koşullara bağlı olarak iki ana yöntem ailesi kullanılır. Somut bir problemde bunların paralel olarak kullanılmasını hiçbir şey engellemez, ancak tamamen farklı nitelikteki sorunları çözdüklerini unutmamalıyız. Klasik terminolojiye göre bunlar tanımlayıcı istatistikler ve matematiksel istatistiklerdir . Günümüzde veri analizi ve çıkarımsal istatistik gibi ifadelerin tercih edildiği görülmektedir ki bu , ilk durumda kullanılan yöntemlerin ilerleyişiyle doğrulanmaktadır.

Örneğin, bir sınavdaki genel puanları düşünün. Öğrencilerin seviyesi hakkında sentetik bir fikir veren merkezi bir değer elde etmek ilginç olabilir . Bu , grubun homojenliğini belirli bir şekilde ölçen bir dağılım değeri ile desteklenebilir . Bu son nokta hakkında daha kesin bilgi istiyorsak, bir histogram oluşturabilir veya biraz farklı bir bakış açısıyla ondalık sayıları düşünebiliriz . Bu kavramlar, önceki yıllarda veya başka yerlerde yapılmış benzer sınavlarla karşılaştırma yapmak için ilgi çekici olabilir. Bunlar, sonlu bir popülasyonla ilgili veri analizinin en temel problemleridir . Çok boyutlu istatistiklerle ilgili problemler doğrusal cebirin kullanılmasını gerektirir. Temel olsun ya da olmasın, doğası ne olursa olsun, bu, olasılıkların ortaya konmasının elde edilen bilgileri pek iyileştirmeyeceği bilinen verilerin istatistiksel olarak azaltılması sorunudur . Bu farklı kavramları gruplamak mantıklıdır:

Veriler artık cebir kurallarına göre deşifre edilecek tam bilgi olarak değil, genellikle sonsuz bir popülasyon olarak kabul edilen daha büyük bir popülasyon hakkında kısmi bilgi olarak kabul edildiğinde radikal bir değişiklik meydana gelir . To neden bilinmeyen nüfus hakkında bilgi kavramı tanıtmak için gerekli olan olasılık hukuk . Bilinen veriler, bu durumda , bağımsız olduğu varsayılan rastgele değişkenler kümesinin bir örneğinin gerçekleştirilmesini oluşturur (bkz . Birkaç değişkenli olasılık kanunu ). Olasılık teorisi daha sonra diğer işlemlerin yanı sıra şunları sağlar:

İstatistiksel yaklaşım

Veri toplama

İstatistiksel anketten önce her zaman, çalışılacak farklı özelliklerin belirlendiği bir aşama gelir.

Bir sonraki adım, çalışılacak nüfusu seçmektir. Bu durumda örnekleme problemi ortaya çıkar: örneklenecek nüfusun seçimi (geniş anlamda: bu, insanları sorgulayarak yapılan bir kamuoyu yoklaması veya bir toprağın doğasını belirlemek için kayaların toplanması olabilir. Jeoloji), nüfus ve temsili.

İster toplam (nüfus sayımı) ister kısmi (anket) toplama için, ister kaza eseri ister tekrarlayan (sapma) ölçüm hatalarını önlemek için protokoller uygulamaya konulmalıdır.

Verilerin ön işleme tabi tutulması son derece önemlidir, aslında, ilk verilerin bir dönüşümü (örneğin, logaritmaya geçiş), aşağıdaki istatistiksel işlemi önemli ölçüde kolaylaştırabilir.

Veri işleme

İstatistiksel araştırmanın sonucu, bir dizi nicel veri (boyutlar, maaşlar) veya nitel verilerdir (konuşulan diller, tercih edilen markalar). Bunları kullanabilmek için bir sınıflandırma ve görsel veya dijital bir özet yapılması gerekecektir. Bazen veri sıkıştırması yapmak gerekebilir . Bu, tanımlayıcı istatistiklerin işidir. Çalışmanın bir veya daha fazla değişkene odaklanmasına bağlı olarak farklı olacaktır.

Tek değişkenli çalışma

Verilerin gruplandırılması, sayıların hesaplanması, grafiklerin oluşturulması, incelenen istatistiksel karakterin ilk görsel özetini sağlar. Sürekli bir nicel karakter durumunda, histogram en yaygın grafik temsilidir.

İstatistiksel bir karakterin sayısal değerleri dağıtılır , konumlarının tanımlanması gerekir. İstatistikte, genellikle çok sayıda değerin varlığındayız. Bununla birlikte, tüm bu değerler bilgiyi oluşturuyorsa, birkaç yüz hatta binlerce veriyi manipüle etmek veya bunlardan sonuç çıkarmak kolay değildir. Bu nedenle, verilerin analiz edilmesini sağlayacak birkaç değerin hesaplanması gereklidir: bu, istatistiksel azaltmaların rolüdür. Bunlar son derece kısa olabilir, bir sayıya indirgenebilir: merkezi değerler ve dağılım değerleri için durum budur. Bazıları ( varyans gibi ) verilerin daha teorik kullanımına izin vermek için geliştirilmiştir (bkz. İstatistiksel çıkarım ).

Ayrıca iki popülasyonu karşılaştırmayı deneyebiliriz. Bu durumda, özellikle konum, dağılım, kutu grafiği veya varyans analizi kriterleriyle daha çok ilgileneceğiz .

Çeşitli değişkenlerin incelenmesi

Bilgisayar kaynakları artık birkaç değişkeni aynı anda incelemeyi mümkün kılıyor. İki değişken durumu, bir nokta bulutunun, iki fenomen arasında olası bir korelasyon çalışmasının veya doğrusal bir regresyon çalışmasının yaratılmasına yol açacaktır .

Ancak ikiden fazla değişkenle ilgili çalışmalarla karşılaşılabilir: analizin ana bileşenlerde , bağımsız bileşenlerde analizin , çoklu doğrusal regresyonun ve verilerin keşfinin (aynı zamanda " bilgi keşfi  " olarak da adlandırılır) bulunduğu çok boyutlu analizdir .  veya "  veri madenciliği  "). Günümüzde veri madenciliği, diğer şeylerin yanı sıra, çok büyük veri tabanlarındaki değişkenler arasındaki ilişkileri keşfetmek için istatistiğe dayanmaktadır. Teknolojik gelişmeler (mevcut sensörlerin, depolama araçlarının ve bilgi işlem gücünün sıklığındaki artış) veri keşfine gerçek bir ilgi sağlar.

Verilerin yorumlanması ve analizi

İstatistiksel çıkarımın amacı, yalnızca birkaç gerçekleştirmeleriyle (bir veri örneğini oluşturan) bilinen bir dizi değişkenin özelliklerini ortaya çıkarmaktır.

Olasılık teorisi ve bilgi teorisi ile ilgili titiz matematiksel hesaplamaları, çalışılacak olgunun sadece birkaç gerçekleşmesinin (deneylerinin) gözlemlendiği durumlara uygulayan matematiksel istatistiklerin sonuçlarına dayanmaktadır .

Matematiksel istatistikler olmadan , veriler üzerinde bir hesaplama (örneğin bir ortalama) yalnızca bir göstergedir . Tahmincinin durumunu , önyargısı , belirsizliği ve diğer istatistiksel özellikleri kontrol edilen matematiksel istatistiklerdir . Genellikle tahmin edicinin tarafsız, yakınsak (veya tutarlı) ve verimli olmasını isteriz.

Genel fenomeni üreten yasa hakkında da varsayımlar yapabiliriz, örneğin "Fransa'daki 10 yaşındaki çocukların boyutu Gauss yasasına uygun  mu?" ". Örneklemin incelenmesi daha sonra bu hipotezi doğrulayacak veya doğrulamayacaktır: bu, hipotez testleri olarak adlandırılan şeydir. Hipotez testi (bir numuneden yalnızca bilinir) değişkenleri, belirli bir özellik yerine olasılığını ölçmek.

Son olarak, bir fenomeni a posteriori modellemeye çalışabiliriz . İstatistiksel modelleme fiziksel modellemeden farklı olmalıdır. İkinci durumda, fizikçiler (bu aynı zamanda kimyagerler, biyologlar veya diğer bilim adamları için de geçerlidir), fenomenin nasıl gerçekleştiğini açıklayan daha genel bir teori ile desteklenen bir fenomenin açıklayıcı bir modelini oluşturmaya çalışırlar . ilkesi nedensellik . İstatistiksel modelleme durumunda, model , ilgili mekanizmalara herhangi bir önsel olmadan, mevcut verilerden inşa edilecektir . Bu tür modellemeye ampirik modelleme de denir . İstatistiksel modellemeyi fiziksel denklemlerle tamamlamak (genellikle verilerin ön işlemesine entegre edilir ) her zaman olumludur.

Bir model, her şeyden önce , açıklayıcı değişkenlerle açıklanacak değişkenleri işlevsel bir ilişki ile ilişkilendirmenin bir yoludur :

İstatistiksel modeller geniş aileler halinde gruplanabilir (fonksiyonun şekline bağlı olarak ):

  • doğrusal modeller;
  • doğrusal olmayan modeller;
  • parametrik olmayan modeller.

Bayes modelleri ( Bayes adını almıştır ) her üç kategoride de kullanılabilir.

Matematiksel istatistikler

Olasılıklarla yakından bağlantılı olan bu matematik dalı, çıkarımsal istatistiklerde geliştirilen hipotezleri veya modelleri doğrulamak için gereklidir. Matematiksel olasılık teorisi, rastgele olayları biçimlendirir. Matematiksel istatistikler, bazı başarıları aracılığıyla bildiğimiz rastgele olayların incelenmesine adanmıştır .

Örneğin, altı yüzlü bir zar oyunu için:

  • olasılıkçı bakış açısı, böyle bir oyunu , birinci, ikinci ..., altıncı yüzün çizildiği olaylarla ilişkili bir olasılık dağılımı ile resmileştirmektir . Olasılık teorisi bize, örneğin bu dağılımın bir olasılık dağılımı olması için bunun gerekli olduğunu söyler . Daha sonra bu oyunun farklı özelliklerini inceleyebiliriz;
  • O düzeltildikten sonra, istatistik ve ardından söz bu tür ilgilenen edilir: "100 oyunlarından sonra her yüz Eğer çizilmiştir kez, ben olasılıkların değerinin bir fikir edinebilirsiniz  ?" Ne derece güvenle? "

Kural oluşturulduktan sonra, çıkarımsal istatistiklerde kullanılabilir .

Sosyal bilim istatistikleri

İstatistik çoğu sosyal bilimde kullanılmaktadır . Bununla birlikte, çalışma nesnesinin karmaşıklığına bağlı olarak belirli özgüllüklerle ortak bir metodoloji sunarlar.

Sosyolojide

Verilerin geometrik analizi ( faktör analizi , artan hiyerarşik sınıflandırma ) nicel sosyologlar tarafından çok sık kullanılır. Bu yöntemler, bir dizi nicel (gelir, yaş, vb.) Ve / veya nitel (cinsiyet, sosyo-profesyonel kategori vb.) Değişkenleri dikkate alarak sentetik profiller oluşturmayı mümkün kılar. Örneğin toplum tarzlarını belirlemek mümkündür .

Notlar ve referanslar

  1. G HENKIN ve A SHANANIN , "  Burgers tipi denklemler için Cauchy probleminin çözümlerinin asimptotik davranışı  ", Journal of Pure and Applied Mathematics , cilt.  83, n o  12,Aralık 2004, s.  1457–1500 ( ISSN  0021-7824 , DOI  10.1016 / s0021-7824 (04) 00111-4 , çevrimiçi okuma , 15 Şubat 2021'de erişildi )
  2. M. Dumas , "  İstatistik  " kelimesinin tanımı üzerine tartışma , Journal of the statistical Society of Paris , cilt.  97,1986, s.  253-258 ( çevrimiçi okuyun ).
  3. Haccoun Robert ve Denis Cousineau , İstatistik: kavramlar ve uygulamalar , University of Montreal Press,2007, 412  s. ( ISBN  978-2-7606-2014-8 , çevrimiçi okuyun ).
  4. Saporta 2006 , s.  16
  5. Almanac des Français, gelenekler ve varyasyonlar, sayfa 194.
  6. Belçika'daki eski istatistikler üzerine bir makale. I. Nüfus. - II. Mimari. - III. Mobilya, Kostümler . Baron de Reiffenberg, 3 Kasım 1832 akademi oturumunun ikinci bölümü, Brüksel, PDF, 142 sayfa
  7. Pierre Dagnelie , "  İstatistiklerin çeşitliliği ve birliği  ", Journal of the statistical Society of Paris , cilt.  123, n o  21982, s.  86-92 ( çevrimiçi okuyun )
  8. J. Torrens-Ibern , “  Çeşitlilik. İstatistik nedir?  », Journal of the Statistical Society of Paris , cilt.  97,1956, s.  289-296 ( çevrimiçi okuyun )
  9. Frédéric Lebaron, "  Bir sosyolojik araştırma programında verilerin geometrik analizi: Bourdieu sosyolojisi örneği  ", MODULAD incelemesi ,2010( çevrimiçi okuyun )

Ayrıca görün

Kaynakça

  • Olivier Rey , Dünya numara olduğunda , Stock, 2016 ( ISBN  978-2-234-07339-5 )
  • Bernard Delmas, Ekonomi ve yönetim için tanımlayıcı istatistikler , Presses universitaire du Septentrion , 2009 ( ISBN  978-2-7574-0074-6 ) .
  • Jean-Pierre Favre, Yönetim Matematiği , Digilex, 2009 ( ISBN  978-2-940404-01-8 ) .
  • Olivier Martin , The Survey ve yöntemleri: nicel verilerin analizi , Paris, Armand Colin, 2005; 2009.
  • Michel Volle , Le métier de statisticien , Economica 1984 , 2 nd  baskı, ( ISBN  2-7178-0824-8 ) , çevrimiçi okumak
  • Michel Volle , Sanayi istatistikleri tarihi , Economica, 1982 , ( ISBN  2-7178-0520-6 ) , çevrimiçi okuyun .
  • Georges Hostelet , İstatistiksel gerçeklerin deneysel analiz matematiksel analizi yarışması , Paris, Hermann, News Scientific and Industrial, n o  585), 1937, 70 s.
  • TH ve RJ Wonnacott, Statistics , eds. Economica, 1995 ( 4 th Ed.), 922, s., ( ISBN  2-7178-2072-8 )
  • Gilbert Saporta , Olasılık, Veri Analizi ve İstatistik , Paris, Éditions Technip,2006, 622  s. [ baskıların ayrıntıları ] ( ISBN  978-2-7108-0814-5 , çevrimiçi sunum )
  • Nicolas Gauvrit, İstatistikler: Dikkat! , ed. Ellipses (Paris), 2007 ( ISBN  978-2-7298-3070-0 )
  • Stéphanie Dupays, Ekonomik ve sosyal istatistikleri deşifre etmek , ed. Dunod, 2008 ( ISBN  2-10-051584-5 )
  • Alain Desrosières , The Politics of Large Numbers: History of Statistical Reason , Paris, La Découverte ,2000, 456  s. ( ISBN  978-2-7071-6504-6 )
  • (en) Anders Hald , A History of Mathematical Statistics , New-York, Wiley ,1998, 795  s. ( ISBN  0-471-17912-4 )
  • (tr) David Salsburg , The Lady Tasting Tea: Statistics, How Revolutionized Science in the Twentieth Century , Holt McDougal,Mayıs 2002, 1 st  ed. , 340  p. ( Mayıs ISBN  978-0-8050-7134-4 )

İlgili Makaleler

Dış bağlantılar