alt sınıfı | Görselleştirme ( in ) |
---|---|
Parçası | Veri bilimi |
Kilit kişiler |
William Playfair Florence Nightingale Charles Joseph Minard John Tukey Edward Tufte |
Verilerin görselleştirilmesi (veya dataviz veya verilerin grafiksel gösterimi ), grafik verilerini özetlemek için bir dizi yöntem . Veri görselleştirme, veri biliminin bir parçasıdır .
Veri görselleştirme doğar XVIII inci yüzyılın özellikle çalışmalarından, William Playfair . Bu yaygın olarak yetişir XIX inci yüzyıla tarafından 1820 ve 1830'larda veri kartları icadı ile Charles Dupin ve André-Michel Guerry , çalışmalarına Florence Nightingale ve ikinci XIX inci yüzyılın çalışmalarından Charles Joseph Minard 1781-1870 ( ), Francis Amasa Walker ve Émile Cheysson . Sonunda, ikinci bir destek alır XX inci yüzyılın öncülüğünde John Tukey istatistikte ve görüntülenmesi rolünü vurgular Edward Tufte ve son olarak gelişmesiyle dijital .
Veri görselleştirme, özellikle resmi istatistiklerde , bilimlerde , gazetecilikte ve daha özel olarak veri gazeteciliğinde ve daha genel olarak veri biliminde kullanılır .
Bu sonu XVIII inci yüzyılın tarafından 1786 yılında yayın ile, William Playfair başlıklı bir kitabın (1759-1823) Ticari ve Siyasi Atlas yazar ekonomik verilerin değişimini gösteren zaman serilerinin bir dizi grafikten izleri olduğu, İngiltere ile ilgili ve özellikle verilerin modern grafik temsili olan XVIII E yüzyıl boyunca ticaret dengesinin evrimi . Aynı kitapta yazar , tarihteki ilk sütun grafiğini de temsil etmektedir . Bilinen ilk pasta grafiği de William Playfair'e borçluyuz. 1801'de The Statistical Breviary'de yayınlanan grafik, her ülke için alanı, gelir miktarını ve vergi miktarını temsil ediyor.
1819'da tarihçi Jean Picot, Cenevre'de , İsviçre'nin İstatistikleri veya bu ülkenin ve bu ülkenin oluşturduğu yirmi iki kantonun İstatistikleri başlıklı bir cilt yayınlar [...] . Katlanmış bir sayfada Johannes Fehr'den alınan verilere dayanan iki grafik içerir: "İsviçre'nin yirmi iki kantonunun karşılaştırmalı kapsamı veya alanı, her kanton adının yanına çizilen çizgilerin uzunluğu ile temsil edilir" ve " İsviçre'nin yirmi iki Kantonunun karşılaştırmalı nüfusu, her kantonun adının yanına çizilen çizgilerin uzunluğu ile temsil edilir”.
1820'lerde istatistiksel verileri bir harita üzerinde temsil etmeye başladık. 1826 yılında Charles Dupin bir çekti choropleth harita arasında Fransa'da halk eğitiminin temsil değişkenin yoğunluğuna göre Fransız bölümleri boyama. Bu görsel temsil hızlı bir başarı ile karşılandı ve hemen soruşturmanın koropleth haritalarını çizen André-Michel Guerry ve Adriano Balbi tarafından, mülkiyete karşı işlenen suçların sayısı ve insanlara karşı işlenen suçların sayısı, ardından Guerry tarafından Deneme'sinde ele alındı . Fransa'nın ahlaki istatistikleri 1833'te yayınlandı. Kısa bir süre sonra, Armand Joseph Frère de Montizon , Fransız nüfusunu Carte Philosophique adlı bölüm tarafından Fransa Nüfusunu betimleyen bir temsille birlikte ilk " nokta haritasını" önerdi . 1855'te İngiliz doktor John Snow , Londra'da ölülerin yerlerini ve Londra kentindeki su noktalarının yerlerini temsil ettiği bir kolera noktası haritası çizerek, salgının suyla yayıldığını vurguladı. 1861'de Charles Joseph Minard , alanı temsil edilen miktarla orantılı olan dairesel diyagramları kullanarak bir harita üzerinde verileri temsil etmeyi önerdi ( departmanlar ve tüketiciler tarafından toynak üzerine gönderilen kasap eti miktarlarının mecazi ve yaklaşık haritasının örneği ).
1857'de Florence Nightingale , Doğu'daki ordu içindeki ölüm nedenlerinin Diyagramını yayınladı . Grafik, Kırım Savaşı'na katılan İngiliz askerlerinin düşman karşısında muharebede ölmediğini, içinde yaşadıkları sağlık koşullarının kurbanı olduklarını gösteriyor.
1889'da Charles Booth, Londra'daki yaşam koşulları hakkında rapor vermek için büyük ölçekli bir etnografik yaklaşımı ve kartografik biçimde görselleştirmeyi birleştirdi. Türünün en önemlilerinden biri olan bu sosyolojik çalışma, Booth tarafından ödenen bir araştırmacı ekibini, her kadastro parseli düzeyinde veri toplamak için seferber etti. Booth ayrıntıları tarafından önerilen görselleştirme, renkler, 7 "sınıf". Görselleştirme, özellikle Booth'un "alt sınıf" olarak adlandırdığı en düşük sınıf için kümeleri tanımlamayı mümkün kılar. Kısır, yarı suçlu ”.
İkinci yarısında XIX inci yüzyıl , biz böyle İtalyan üç boyutlu ham görselleştirme gibi birçok önemli yenilikleri bulmak Luigi Perozzo ya da Alman Gustav Zeuner .
Birleşik Krallık'ta, iki değişken ( nokta bulutu ) ve aynı zamanda meteorolojik haritalar arasındaki korelasyonun grafik temsillerini sunarak veri görselleştirmeye önemli bir katkı yapan Francis Galton'du . .
İlk olarak , XX inci yüzyılın , istatistikçiler veri görselleştirme daha az dikkat ödüyoruz.
1960'larda, John Tukey , özellikle Keşif Verileri Analizi (1977) adlı kitabıyla, istatistiklerdeki verilerin görselleştirilmesine asalet mektuplarını verdi .
2005 yılında Leland Wilkinson , istatistiksel grafik tasarımı üzerine en önemli teorik çalışmalardan biri olan The Grammar of Graphics'i yayınladı . Wilkinson, istatistiksel grafiği, geometrik nesnelerin (noktalar, çizgiler, çubuklar vb.) estetik özellikleri (renk, şekil, boyut vb.) ile veriler arasındaki yazışma olarak tanımlar.
Görselleştirme; görsel bir öğe, bir ölçek, bir koordinat sistemi ve bir bağlamdan oluşur.
Bir nokta bulutunda , verileri temsil eden görsel bir öğe olarak noktaların uzaydaki konumunu kullanırız. Bir çubuk grafikte, çubukların uzunluğu verilere karşılık gelen görsel öğedir.
Koordinat sistemi Kartezyen, Kutupsal veya Coğrafi olabilir.
Ölçek, nicel bir değişken olduğunda doğrusal veya logaritmik, kategorik bir değişken olduğunda kategorik veya zaman olduğunda zamansal olabilir.
Dikey bir çubuk grafik için, ayrı bir değişkenin her bir modu için yüksekliği sürekli bir değişkenin değerini temsil eden ve genişliğinin istatistiksel bir yorumu olmayan bir dikdörtgeni temsil ediyoruz.
Yatay bir çubuk grafik için, sürekli değişkenin değerini temsil eden dikdörtgenin genişliği ve istatistiksel bir yorumu olmayan bu dikdörtgenin yüksekliğidir.
Yığılmış çubuk grafiklerle karşılaşmak da yaygındır .
1780 Noeli ile 1781 Noeli arasında İskoçya'nın ithalat ve ihracatı. Bu tarihteki ilk çubuk grafiktir. William Playfair tarafından The Commercial and Political Atlas (1786) adlı kitabında yayınlandı .
André-Michel Guerry tarafından Fransa'nın ahlaki istatistiklerine ilişkin makaledeki çubuk grafikler , yönetim kurulu VII 1833
Pasta grafiği, pasta grafiği veya halka grafiği olabilir .
Oranları temsil etmek için dairesel veya pasta grafiği kullanılır. Bir pasta grafiğinde, her bir kategorinin bir bütün içindeki payını temsil eden açıdır.
Halka grafik bir pasta ile grafik ortasında bir delik. Bu durumda, her kategorinin temsil edilen bütün içindeki payını temsil eden, her kategoriye karşılık gelen bir dairenin yayının uzunluğudur.
William Playfair tarafından The Statistical Breviary'de (1801) yayınlanan pasta grafikler . Daireler her ülkenin alanını temsil eder. Her dairenin solundaki çizgiler nüfusu (milyonlarca insan olarak) ve sağdaki çizgiler toplanan toplam vergileri (milyon sterlin olarak) temsil eder. Noktalı çizgi, gelir çizgisini ve vergi çizgisini birbirine bağlar. Eğiminin yorumu yoktur, ancak eğim işareti yapar. Grafik, Büyük Britanya'da nüfusa kıyasla toplam vergilerin diğer ülkelere göre daha yüksek olduğunu göstermektedir.
Dağılım grafiği, genellikle iki değişken arasındaki ilişkiyi temsil etmek için kullanılır. Bir nokta bulutunda, x ekseni ve y ekseni üzerindeki her noktanın koordinatları, değişkenlerin her birinin değerlerini temsil eder. İki değişken arasındaki bir korelasyonu vurgulamayı mümkün kılar.
Bir çizgi veya çizgi grafiği , noktaların birbirine bağlandığı bir nokta bulutudur (doğrusal, kübik olabilen bir enterpolasyon ile).
Kabarcıkların alanının temsil edilen boyutla orantılı olduğu baloncukları kullanarak nicel verileri de grafiklendirebiliriz.
Bir ısı haritası (ısı haritası, ısı haritası), hücreleri temsil edilen değişkenin değerine göre renklendirilen bir matristir.
Kutu ve bıyık grafiği , incelenen özelliğin yalnızca birkaç konumsal özelliğini (medyan, çeyrekler, min / maks veya ondalık) özetler . Esas olarak, aynı özelliği farklı büyüklükteki iki popülasyonda karşılaştırmak için kullanılır. Birinci çeyrekten üçüncü çeyreğe giden ve medyan tarafından kesilen bir dikdörtgen çizme sorunudur. Bazen uçlara minimum / maksimum değerlere veya birinci ve dokuzuncu ondalık değerlere kadar segmentler eklenir. Buna kutu grafiği veya bacak diyagramı denir.
Sparklines, Edward Tufte tarafından bir sayfadaki metne eklenebilen mini grafikler için geliştirilmiş bir formattır .
Tufte açıklar sparklines "veri yoğun grafik, tasarım basit ve bir kelimenin boyutu" olarak. Tipik grafik mümkün olduğunca çok veri olarak göstermek için tasarlanmıştır ve metin akışının dışındaki yerleşirken, sparklines özlü unutulmaz ve tam doğru yerde bulunmaktadır.
Zaman serisi grafiği, bir değişkenin zaman içindeki gelişimini temsil eder. En çok kullanılan grafik temsilidir ve yorumu genellikle çok sezgiseldir.
Zaman serisi ayrık ise, onu temsil etmek için basit bir çubuk grafik kullanmak yaygındır. Örneğin, yıllık veya aylık veriler genellikle çubuk grafiklerle gösterilir. Öte yandan, veriler sürekliyse , William Playfair'in Ticari ve Politik Atlas'ında yaptığı gibi, bunları bir çizgi grafiği veya alan grafiği ile temsil etmek daha yaygındır ( buraya ve buraya bakın ).
Küresel bir varlığın coğrafi birimlerinin her birinde istatistiksel bir değişkenin değerini temsil etmek için bir istatistiksel harita kullanılır. İstatistiksel harita, herkesin her coğrafi birim için ayrıntıları bulmasına izin verirken, hem küresel bir analizi ortaya çıkarabilme avantajına sahiptir. Öte yandan, her coğrafi birime kendi alanıyla orantılı bir önem verme kusuruna sahiptir, oysa birçok durumda her bir coğrafi birime verilen önemin, alanı gibi başka bir değişkene göre olması tercih edilir. misal.
Haritalar daha 5000 yıldan orada icat edildi iken, istatistik kartları yalnızca gerçekten ortaya çıkan edilir XVII inci yüzyılın . 1686'da Edmond Halley , rüzgarların kökenini ve özellikle yoğunluğunu vermeye izin veren sembollerle bir dünya haritasını temsil eder. Daha sonra içinde XIX inci yüzyılın , John Snow kentinde suya Eylül 1854 ve erişim noktalarında salgın sırasında kolera ölüm bilançosu bularak bir Londra haritasıdır. Onun haritası kolera'nın su yoluyla bulaştığını gösteriyor.
İki değişken arasındaki ilişkiyi temsil etmek için dağılım grafiği kullanmak yaygındır .
İkiden fazla değişken olduğunda, birçok çözüm vardır. En basit çözüm, nokta bulutlarından oluşan bir matrisi temsil etmektir. Bir dağılım grafiğinde olduğu gibi, kabarcıkların koordinatlarının iki değişkenin değerlerini temsil ettiği ve kabarcıkların alanının üçüncü bir değişkeni temsil ettiği bir kabarcık grafiği de kullanabilirsiniz.
Ayrık durumda, her bir dikdörtgenin yüksekliğinin her modalite ile ilişkili sayıları veya frekansları temsil ettiği bir çubuk grafiğin kullanılması yaygındır.
Veri hiyerarşik bir yapısı vardır, bu bir şeklinde temsil edilebilir dendrogram , bir Treemap'te ya da bir sunburst .
ağaç haritasıAğaç haritası , 1990 yılında Ben Shneiderman tarafından sabit diskindeki alan işgalini temsil etmek için icat edilen görsel bir temsildir . Bu temsilde, her bir elemanın bütün içindeki parçasını temsil eden her bir dikdörtgenin yüzeyidir. Bu temsil daha sonra başka amaçlar için kullanılmıştır. Örneğin, Martin Wattenberg bunu, her bir dikdörtgenin alanının sektördeki şirketlerin piyasa değeriyle orantılı olduğu sektöre göre bir “piyasa haritası”nı temsil etmek için kullandı. Marcos Westamp, dikdörtgenlerin boyutunun, konuyla ilgili basında yer alan makalelerin sayısının bir fonksiyonu olduğu bir bilgi ağaç haritası tasarladı. Matthew Bloch, Shan Carter ve Amanda Cox, her tür malın bir Amerikan hanesinin tüketimindeki payını görselleştirmek için bir ağaç haritası ve enflasyonu görselleştirmek için bir renk kodu kullandı.
Filippo Menczer (Indiana Üniversitesi), 2010 yılında bir ağ görselleştirme yoluyla Twitter'daki bot etkinliğini ortaya çıkaran ilk kişiydi. Ağ analizi artık filtre baloncuklarının oluşumunu görselleştirmek için kullanılıyor.
Akış şeması görselleştirmek için temsili spesifik bir tipi olan akışları .
Sürekli değişkenler için kümülatif sayıların (veya frekansların) çokgenini çizebiliriz . Arsa ilkesi, sürekli temel istatistikler makalesinde açıklanmıştır . Bu çokgen, formun bir aralığının efektifini ve farkla, herhangi bir aralığın efektifini çok hızlı bir şekilde okumayı mümkün kılar . Ayrıca çeyrekleri ve ondalıkları çok hızlı okumayı mümkün kılar . Bu temsil, olasılık dağılım fonksiyonunun grafiğini önceden şekillendirir .
Bazen ayrık değişkenler için kümülatif sayıların bir çokgeninin göründüğünü görürüz. Açıkçası, bir merdiven diyagramı çizmek gerekli olacaktır.