Veri madenciliği da sentezleme altında bilinen, veri madenciliği , veri madenciliği , veri madenciliği , veri madenciliği veya çıkarma bilgisi veri , bir ekstre edilmesine ilişkindir bilmesi ya da 'büyük miktarlarda' bilgi verisi otomatik veya göre, yarı otomatik yöntemler.
İstatistik , yapay zeka veya bilgisayar bilimi gibi çeşitli bilimsel disiplinlerden bir dizi algoritma kullanmayı , verilerden modeller oluşturmayı , yani önceden belirlenmiş kriterlere göre ilginç yapılar veya modeller bulmayı ve mümkün olduğunca çok bilgi .
Bu bilginin profesyonel dünyada endüstriyel veya operasyonel kullanımı, müşteri ilişkileri yönetiminden , dolandırıcılık tespiti ve web sitesi optimizasyonu dahil olmak üzere önleyici bakıma kadar çok çeşitli sorunları çözmeyi mümkün kılar . Aynı zamanda veri gazeteciliğinin çalışma şeklidir .
Veri madenciliği, işletme veri madenciliğinin yükselişini, iş zekası olarak izler . Bu, ciro gibi bir gerçeği gözlemlemeyi ve bunu ürün bazında düşen ciro olarak açıklamayı mümkün kılarken, veri madenciliği gerçekleri sınıflandırmayı ve belli bir ölçüde tahmin etmeyi veya aydınlatmayı mümkün kılar. Örneğin, bir satış noktasının cirosunun diğerinden neden daha yüksek olduğunu anlamayı mümkün kılan değişkenleri veya parametreleri açıklayarak.
Büyük miktarda veriden model oluşturmak yeni bir olgu değil. Model oluşturma olabilmesi için veri toplama olması gerekir. In China biz efsanevi İmparator atfettiğimiz Yao , 2238 M.Ö. bitkileri tanımlamak için arzu. AD; içinde Mısır Firavun Amasis içinde nüfus sayımı organize V inci yüzyıl M.Ö.. AD O kadar değildi XVII inci ortak özellikler için bakmak için verileri analiz etmek başlaması yüzyılın. In 1662 , John Graunt kitabını yayınladı " Ölüm Bono üzerine yapılmış Doğal ve Siyasi Gözlemler " Londra'da mortalite analiz ve veba görünümünü tahmin etmeye çalıştı hangi. In 1763 , Thomas Bayes gösterir biz sadece bir deney sonucu gözlemlerinden olasılıklar değil, aynı zamanda bu olasılıklara ilişkin parametreler, belirleyebilmesi. Binom dağılımının özel durumunda sunulan bu sonuç, Laplace tarafından bağımsız olarak genişletilerek Bayes teoreminin genel bir formülasyonuna yol açar . Legendre , 1805'te bir veri kümesini matematiksel bir modelle karşılaştırmayı mümkün kılan en küçük kareler yöntemi üzerine bir makale yayınladı . Bununla birlikte, pahalı manuel hesaplamalar, bu yöntemlerin az sayıda basit ve aydınlatıcı durum dışında kullanılmasına izin vermez.
Ronald Fisher , 1919'dan 1925'e kadar tıbbi istatistiksel çıkarım projesi için bir araç olarak varyans analizini geliştirdi . 1950'ler, bu makinelerde hala pahalı bilgisayarların ve toplu hesaplama tekniklerinin ortaya çıktığını gördü. Eşzamanlı olarak, segmentasyon , sınıflandırma (diğerleri arasında dinamik bulutlar yöntemiyle ), Perceptron adı verilen gelecekteki sinir ağlarının ilk versiyonu ve daha sonra genetik olarak adlandırılacak bazı kendi kendine gelişen algoritmalar gibi yöntemler ve teknikler ortaya çıkmaktadır . 1960'larda karar ağaçları ve mobil merkez yöntemi geldi ; bu teknikler, araştırmacıların giderek daha hassas modellerden yararlanmasına ve keşfetmesine olanak tanır. In France , Jean-Paul Benzécri geliştirilen yazışma analizini içinde 1962 . Bununla birlikte, toplu işleme perspektifinde kalıyoruz .
In 1969 çalışmalarını çıktı Myron Tribus Rasyonel açıklamaları, karar ve tasarımlar genelleştirir Bayes yöntemleri otomatik hesaplamada (en profesörü Dartmouth , o dili oldukça mantıklı kullanan TEMEL birkaç yıl önce yaratıldı, ve bunun etkileşim ). Fransızca çeviri, 1973'te Rational Decisions in Uncertain adıyla kullanıma sunuldu . Çalışmanın önemli bir fikri, bir modelin herhangi bir ediniminin Bayes kurallarına göre yapıldığını ( homomorfizm hariç ) veya tutarsızlıklara yol açtığını gösteren Cox-Jaynes teoreminden bahsedilmesidir . Bir diğeri ise, gözlemleri karşılayan tüm olasılık dağılımları arasında (sayıları sonsuzdur), en az keyfi olanı seçmek gerekir (bu nedenle en az bilgi eklenmiş ve sonuç olarak maksimum entropi olabilir . Temelde sıkça bir çağrışım olmadan, bir bilgi durumunun basit bir dijital çevirisi.Son olarak, bu çalışma, olasılıkların desibel cinsinden gösterimini popüler hale getirir, bu da Bayes kuralını katkı maddesi yapar ve gözlemin sağlanmasını benzersiz bir şekilde ölçmeyi mümkün kılar. şimdi bağımsız çeşitli tahminler önceki emsal oluşturuyor (bkz. Bayesci çıkarım ).
Mikrobilgisayarların kademeli olarak gelişi, bu Bayes yöntemlerini maliyetlere yük olmadan genellemeyi kolaylaştırır. Bu, araştırmayı teşvik eder ve Bayes analizleri, özellikle Tribus, gözlemler ilerledikçe klasik istatistik sonuçlarına doğru yakınsamalarını gösterdikçe, aynı edinim zamanlarını gerektirmeden zaman içinde bilgiyi rafine etmeyi mümkün kılarken genelleşmektedir (ayrıca bkz.Deney planı ) .
Klasik istatistiksel protokolden kurtulmak daha sonra başlar: artık bir hipotez belirlemek ve bunu doğrulamak ya da posteriori olmak gerekmez . Aksine, Bayesçi tahminler, gözlemler biriktikçe bu hipotezleri kendileri oluşturacaktır.
1960'ların başlarında " veri madenciliği " ifadesi aşağılayıcı bir çağrışıma sahipti ve istatistikçilerin hipotez başlatmadan korelasyon araştırma yaklaşımlarını küçümsemelerini ifade etti . Unutuldu , sonra Rakesh Agrawal , 1980'lerde 1 MB hacimli veritabanları üzerine araştırmalarına başladığında tekrar kullanıyor . Pal ve Jain'e göre veri madenciliği kavramı ilk olarak 1989'daki IJCAI konferanslarında ortaya çıktı . Gregory Piatetsky-Shapiro , 1980'lerin sonunda GTE Laboratuvarlarında bu yeni konsept için bir isim aradı . Telif hakkı koruması altında olan “ veri madenciliği ” , “ veri tabanlarında bilgi keşfi ” (KDD) ifadesini kullandı .
Daha sonra 1990'larda, geldi öğrenme makinesi teknikleri gibi SVM'ler içinde 1998 analistin araçlarını tamamlanmaktadır.
Başında XXI inci yüzyılda gibi bir şirket Amazon.com ilgilerini çekebilir müşterilerinin ürünlerini sunmak için tüm bu araçları kullanır.
Günümüzde veri madenciliği teknikleri çok özel amaçlarla tamamen farklı alanlarda kullanılabilmektedir. Posta siparişi veren şirketler, davranıştaki benzerlikleri belirlemek, sadakat kartları vermek veya ek satış için (çapraz satış) sunulacak ürün listeleri oluşturmak için tüketici davranışını analiz etmek için bu tekniği kullanır .
Yeni müşterileri bulmak için kullanılan bir doğrudan posta ( postalama ), ortalama olarak% 10'luk bir yanıt oranına sahiptir. Pazarlama şirketleri, potansiyel müşterileri gönderilen anketlere yanıt oranlarını artırmalarına olanak tanıyan kriterlere göre sıralayarak yeni bir müşteri edinme maliyetini düşürmek için veri madenciliği kullanır .
Bu aynı şirketler ve aynı zamanda bankalar, cep telefonu operatörleri veya sigortacılar gibi diğerleri , müşterilerinin yıpranmasını (veya kaybını ) en aza indirmek için veri madenciliği arayışındadır, çünkü bir müşteriyi sürdürmenin maliyeti, yeni bir müşteri edinmekten daha az önemlidir.
Tüm ülkelerdeki polis hizmetleri, suçu önlemek için suçları karakterize etmeye çalışır (soruyu yanıtlayın: "'Normal' suç nedir?") Ve suçluların davranışları (soruyu yanıtlayın: "normal" suç davranışı? ") Ve nüfus için riskleri ve tehlikeleri sınırlandırın.
Puanlama artık iyi biliniyor bankalarda müşterilerin, bu olmadan, "iyi" müşterileri tespit etmek mümkün kılan risk faktörlerinin ( müşteri değerlendirilmesi riskleri ) mali kuruluşlar, bankalar, sigorta şirketleri, vb fiyatlandırma sunabilir kime. Adapte ve çekici ürünler, sigorta durumunda geri ödememe veya ödeme yapmama ve hatta kayıp riskini sınırlarken.
Çağrı merkezleri hizmet kalitesini artırmak için bu tekniği kullanmak ve müşteri memnuniyeti için operatöre uygun bir tepki verir.
İnsan genomunun araştırılmasında , genleri ve işlevlerini keşfetmek için veri madenciliği teknikleri kullanılmıştır .
Diğer alanlarda başka örnekler de bulunabilir, ancak şu anda fark edebildiğimiz şey, tüm bu kullanımların araştırmayı azaltmak için karmaşık bir fenomeni (insan davranışı, bir genin ifadesi) daha iyi anlamak için karakterize etmeyi mümkün kıldığıdır. veya bu fenomenle bağlantılı işletme maliyetleri veya bu fenomenle bağlantılı proseslerin kalitesini iyileştirmek için.
Sektör, verilerinin oluşturduğu mirasın önemini kavradı ve iş zekası ve veri madenciliği kullanarak ondan yararlanmaya çalışıyor. Bu alandaki en gelişmiş şirketler üçüncül sektördedir . Kdnuggets.com sitesinde, dağıtım göre ABD'de veri madenciliği kullanımının ankete toplam yanıt, bir yüzdesi olarak, bir etkinlik sektöründe yürütülen 2010 aşağıdaki gibi:
CRM / tüketim analizi | Banka | Sağlık, insan kaynakları |
---|---|---|
Dolandırıcılık tespiti | Finansman | Doğrudan pazarlama , bağış toplama |
Telekomünikasyon | Sigorta | Bilim |
Eğitim | Tanıtım | ağ |
Tıbbi | İmalatçı | Perakende iş |
Kredi notu | ||
E-ticaret | ||
Arama motoru | ||
Sosyal ağlar | ||
Hükümet, askeri | ||
Yukarıdaki histogramda gösterildiği gibi, sektör , özellikle farklı yayıncılardan BT araçlarının kullanımını kolaylaştıran standartlar ve birlikte çalışabilirlik açısından konu ile çok ilgilenmektedir . Ek olarak, şirketler, eğitim ve araştırma yöntemlerin ve modellerin evrimine ve iyileştirilmesine (örneğin titizlik açısından) büyük katkı sağlamıştır; International Journal of Information Technology and Decision Making tarafından 2008 yılında yayınlanan bir makale , bu evrimin izini süren ve analiz eden bir çalışmayı özetlemektedir. Bazı oyuncular araştırmadan endüstriye geçti.
Gibi Üniversiteler Konstanz içinde Almanya'da , Dortmund içinde Kuzey Karolina , Amerika Birleşik Devletleri , Waikato içinde Yeni Zelanda'da ve Université Lumiere Lyon 2 Fransa'da, yeni bulmak için araştırmalarını, algoritmalar ve yaşlılar iyileştirmek . Ayrıca, öğrencilerinin, öğretmenlerinin ve araştırmacılarının bu alanda ilerlemelerine ve böylece endüstrinin ilerlemelerinden yararlanmasına olanak tanıyan bir yazılım geliştirdiler.
Öte yandan, veri madenciliğinin gelişimini yansıtmak ve desteklemek için birçok meslekler arası grup ve dernek oluşturulmuştur. Alanında bu meslek gruplarının ilk faiz grubudur Association for Computing Machinery üzerinde bilgi yönetimi ve veri madenciliği, SIGKDD . 1989'dan beri yıllık uluslararası bir konferans düzenlemekte ve üyelerinin yeni sonuçlarını, yansımalarını ve gelişmelerini yayınlamaktadır. Bu nedenle, 1999'dan bu yana , bu kuruluş “ SIGKDD Explorations ” başlığıyla yılda iki kez bir inceleme yayınlamaktadır .
Veri madenciliği ve bilgi işlemle ilgili diğer konferanslar düzenlenir, örneğin:
Mali açıdan ikna edici bu araştırma ve sonuçlar, veri madenciliği konusunda uzmanlaşmış ekipleri yapılandırılmış projelerde metodik çalışma yürütmeye zorlar.
Zamanla projelerin kalitesini iyileştirmek için iyi uygulamalar ortaya çıkmıştır. Bunların arasında, metodolojiler ekiplerin projeleri süreçler halinde düzenlemesine yardımcı olur. En çok kullanılan yöntemler arasında, SEMMA metodolojisi ve SAS Institute ve çıtır DM 2010'larda en çok kullanılan bir yöntemdir.
CRISP-DM yöntemi, veri madenciliği sürecini altı aşamaya böler ve tekniğin endüstriyel bir süreçte yapılandırılmasına ve sabitlenmesine izin verir. Standartlaştırılmış bir teoriden daha fazlası, iş bilgisini çıkarma sürecidir.
Öncelikle analiste soruyu soran işi anlamalı, kuruluşun verilerle ilgili olarak çözmeye çalıştığı sorunu resmileştirmeli, sorunları anlamalı, projenin başarısı için kriterleri bilmeli ve bu hedefe ulaşmak için bir başlangıç planı oluşturmalısınız. .
O zaman analistin doğru verilere ihtiyacı vardır. Proje ekibi ne yapacağını bilir öğrenmez, soruna yanıt vermelerini sağlayacak verileri, metinleri ve tüm materyalleri aramalıdır. Daha sonra kaliteyi değerlendirmeli, gizli modeller hakkında hipotezler oluşturmak için ilk görünen kalıpları keşfetmelidir.
Proje ekibinin topladığı veriler heterojendir . Kullanılan algoritmalara göre, aykırı değerler veya uç değerler kaldırılarak, doldurulmayan verileri tamamlayarak, en yakın komşuların ortalamasına veya yöntemine göre , çiftler, değişmez değişkenler ve bunlar kaldırılarak hazırlanmalıdır. çok fazla eksik değere sahip olmak veya örneğin, kullanılacak algoritma gerektiriyorsa değişkenleri ayrıştırarak, örneğin çoklu karşılık gelen ACM analizi , diskriminant analizi DISQUAL veya Condorcet'in yöntemi .
Veriler hazır olduğunda, onu keşfetmeniz gerekir. Grupları tek başına veya açıklayıcı veya tahmine dayalı amaçlarla diğerlerine ek olarak kullanılabilen görev sınıflarını birlikte modelleme.
Segmentasyon bilinen yapılar kullanmadan, bir şekilde benzer verilerdeki grupları ve yapıları keşfetmek görevidir önsel verilerde. Sınıflandırma genelleme görev bilinen yapılar ve yeni verilere uygulayabilirsiniz.
Regresyon gelecekteki değerlerini tahmin etmek için en düşük hata oranıyla ayrık değil, demek ki sürekli veri modelleme bir işlevi, bulmaya çalışır. Dernek öğeleri arasındaki ilişkileri arar. Örneğin, bir süpermarket, müşterilerinin satın alma alışkanlıkları hakkında veri toplayabilir. Süpermarket, ilişkilendirme kurallarını kullanarak hangi ürünlerin sıklıkla birlikte satın alındığını belirleyebilir ve böylece bu bilgiyi pazarlama amacıyla kullanabilir . Literatürde bu teknik genellikle “ev sepeti analizi” olarak anılır.
O halde, ticaretin başarı kriterlerine göre elde edilen sonuçların değerlendirilmesi ve boşlukları ve ihmal edilen adımları ortaya çıkarmak için sürecin kendisini değerlendirme meselesidir. Bunun bir sonucu olarak, neyin yanlış gittiğini veya yapılmadığını iyileştirerek süreci devreye almak veya yinelemek için bir karar verilmelidir.
Ardından teslimat aşaması ve proje değerlendirmesinin sonu gelir. Kontrol ve bakım planları tasarlanır ve proje sonu raporu düzenlenir. Tahmine dayalı bir model dağıtmak için XML'e dayalı PMML dili kullanılır. Modelin tüm özelliklerini tanımlamak ve diğer PMML uyumlu uygulamalara iletmek için kullanılır.
SAS Enstitüsü tarafından icat edilen SEMMA metodolojisi ( Örnekleyin Sonra Keşfedin, Değiştirin, Modelleyin, “Örnekleme, Sonra Araştırın , Değiştirin, Modelleyin, Değerlendirin”), veri madenciliğinin teknik faaliyetlerine odaklanır. SAS tarafından yalnızca SAS Kurumsal madencilik araçlarının mantıksal bir organizasyonu olarak sunulmasına rağmen , SEMMA, kullanılan yazılımdan bağımsız olarak veri madenciliği sürecini düzenlemek için kullanılabilir.
Altı Sigma (DMAIC)Altı Sigma ( DMAIC : aşağıdaki gibi bir yöntem karakterize bir kısaltmadır , denetim geliştirmek, Analiz, tanımlama, ölçme yapılandırılmış bir veri yönelimli metodoloji, hedef olan bir "kontrol geliştirmek, Analiz, Ölçüm, tanımlama" için) üretim, hizmet sağlama, yönetim ve diğer ticari faaliyet alanlarında her türlü kusur, fazlalık ve kalite kontrol sorunlarının giderilmesi. Veri madenciliği, bu metodolojik kılavuzun uygulanabileceği bir alandır.
Deneyimli ve deneyimsiz veri madencilerinin karşılaştığı en yaygın tuzaklar Robert Nisbet, John Elder ve Gary Miner tarafından İstatistiksel Analiz ve Veri Madenciliği Uygulamaları El Kitabında açıklanmıştır .
İlki yanlış soruyu sormaktır. Bu da yanlış yere bakmaya yol açar. Cevabın yararlı olması için ilk soru doğru sorulmalıdır.
Daha sonra, karmaşık bir problem için az miktarda veriye karar veriyor. Bunları keşfetmek için verilere sahip olmalıyız ve ekskavatör için ilginç durumlar gözlemlemek nadirdir, bu nedenle, bir öğrenme değeri olan ve bir tahmin yapmayı mümkün kılacak örnekler yapabilmek için emrinde çok fazla veriye sahip olmamız gerekir. durum, yani örneklem dışındaki veriler üzerinden sorulan bir soruyu yanıtlamaktır. Ek olarak, veriler sorulan soruya uyarlanmazsa, kazı sınırlı olacaktır: örneğin veriler tahmin edilecek değişkenler içermiyorsa, kazı açıklama ile sınırlandırılacak ve analist yalnızca bölme yapabilecektir. verileri tutarlı alt kümeler halinde ( kümeleme ) veya verilerin değişkenliğini yakalayan en iyi boyutları bulun.
Öğrenmeye izin veren örnek, dikkatli bir şekilde oluşturulmalı ve hafife alınmamalıdır. Öğrenme, modelin bir veya daha fazla örnekten oluşturulmasına izin verir. Veri madenciliği aracını model, aranan vakaların% 100'ünü döndürene kadar ayarlamak, özelliklere odaklanmak ve gerekli olan genellemeden uzaklaşmak, bu da modelin dışındaki verilere uygulanmasını mümkün kılar. Aşırı uydurma veya aşırı uydurmayı önlemek için teknikler vardır . Bunlar bootstrap , jackknife veya cross validation gibi yeniden örnekleme yöntemleridir .
Bazen tek bir teknik (karar ağacı, sinir ağları ...) tüm veriler üzerinde iyi sonuçlar veren bir model elde etmek için yeterli değildir. Bu durumda çözümlerden biri, birbiri ardına kullanabileceğimiz ve sonuçları aynı veriler üzerinde karşılaştırabileceğimiz ya da öğrenerek ya da sonuçları birleştirerek her yöntemin güçlü yönlerini birleştirebileceğimiz bir dizi araçtan oluşacaktır.
Verileri ve kazı sonuçlarını kendi bağlamında bir perspektife oturtmak ve verilere odaklanmamak önemlidir, aksi takdirde zaman ve para israfının yanı sıra yorumlama hataları da ortaya çıkabilir.
Beklenene kıyasla saçma görünen sonuçların önsel olarak ortadan kaldırılması hataların kaynağı olabilir, çünkü sorulan sorunun çözümünü belki de bu sonuçlar verebilir.
Bir modelin sonuçlarını, oluşturulduğu çerçevenin dışında kullanmak ve yorumlamak imkansızdır. Sonuçları diğer benzer ancak farklı durumlara göre yorumlamak da bir hata kaynağıdır, ancak bu, veri madenciliği muhakemesine özgü değildir. Son olarak, düşük boyutlu uzaylarda elde edilen sonuçların yüksek boyutlu uzaylarda ekstrapolasyonu da hatalara yol açabilir.
George Box'tan iki alıntı , "Tüm modeller yanlış, ancak bazıları faydalıdır" ve "İstatistikçiler sanatçılar gibidir, modellerine aşık olurlar", mizahi bir şekilde, bazı veri madenciliği analistlerinin modellerine inanmaları ve inanmaları gerektiğini gösterir. üzerinde çalıştıkları modelin en iyisi olduğunu. Bir dizi model kullanmak ve sonuçların dağılımını yorumlamak çok daha güvenlidir.
Bir veri madenciliği projesinde neyin önemli olup neyin olmadığını, neyin zaman aldığını ve neyin olmadığını bilmek önemlidir; bu her zaman çakışmaz.
Görevler | Şarj etmek |
Projedeki önemi |
---|---|---|
Verilerin envanteri, hazırlanması ve araştırılması | % 38 | 3 |
Geliştirme - Modellerin doğrulanması | % 25 | 2 |
Sonuçların iadesi | % 12 | 4 |
İlk testlerin analizi | % 10 | 3 |
Hedeflerin tanımı | % 8 | 1 |
Belgeler - sunumlar | % 7 | 5 |
Veri madenciliğinin kalbi modellemedir: tüm hazırlıklar analistin üretmeyi planladığı modele göre gerçekleştirilir, daha sonra gerçekleştirilen görevler seçilen modeli doğrular, tamamlar ve devreye alır. Modellemede en ciddi görev, beklenen modeli üretecek algoritmaları belirlemektir. Bu nedenle önemli soru, bunu veya bu algoritmaları seçmeyi mümkün kılan kriterlerdir.
Bir problemi bir veri madenciliği süreciyle çözmek, genellikle anlaşılması ve kullanılması az ya da çok kolay olan çok sayıda farklı yöntem ve algoritmanın kullanılmasını gerektirir. İki ana algoritma ailesi vardır: tanımlayıcı yöntemler ve öngörücü yöntemler.
Açıklayıcı yöntemler, büyük bir veri kümesinin altında yatan bilgileri düzenler, basitleştirir ve anlamaya yardımcı olur.
Bireylerin açıklayıcı değişkenlerinin hiçbirinin diğerleriyle ilişkili olarak özel bir öneme sahip olmadığı değişken örneklerinde düzenlenmiş bir veri kümesi üzerinde çalışmayı mümkün kılarlar. Örneğin, tipolojideki homojen grupları bir grup bireyden belirlemek, davranışsal standartlar oluşturmak ve dolayısıyla yeni veya bilinmeyen banka kartı dolandırıcılıklarının tespiti veya sigorta gibi bu standartlardan sapmaları belirlemek , bilgi sıkıştırmak için kullanılırlar. veya görüntü sıkıştırma vb.
ÖrneklerMevcut teknikler arasında, istatistiklerden türetilenler kullanılabilir. Terimi altında gruplandırılmıştır faktöryel analizler , hangi istatistik yöntemler bir dizi tedbir gizli değişkenleri tespit etmek mümkün kılar; bu gizli değişkenler "faktörler" olarak adlandırılır. Faktör analizlerinde, verilerin birbirine bağımlı olması durumunda bunun ortak olan faktörlere bağlı olmalarından kaynaklandığını varsayıyoruz. Faktörlerin avantajı, az sayıda faktörün verileri neredeyse değişkenler kümesi kadar iyi açıkladığı gerçeğinde yatmaktadır; bu, çok sayıda değişken olduğunda yararlıdır. Teknik faktör, temel olarak temel bileşen analizini , bağımsız bileşen analizini , uyuşma analizini , çoklu uygunluk analizini ve çok boyutlu ölçeklendirmeyi ayrıştırır .
Fikirleri düzeltmek için, temel bileşen analizi; bireyleri, faktörleri ve temel bileşenleri tanımlayan nicel değişkenleri , bilgi kaybının minimum düzeyde olacağı şekilde eşleştirir . Nitekim bileşenler bilgi kaybı sırasına göre düzenlenmiştir, ilki en az kaybeder. Bileşenler birbiriyle doğrusal olarak ilişkilendirilmez ve bireyler, aralarında var olan mesafeye bakılarak faktörlerin tanımladığı eksenlere yansıtılır. Benzerlikler ve farklılıklar faktörlerle açıklanmaktadır.
Karşılıklı faktör analizi ve MCA , bireylerin özelliklerini , acil durum tablosunu kullanan faktörleri veya MCA durumunda Burt'un tablosunu tanımlayan nitel değişkenlere karşılık gelir ; ilk nitel değişkenler, iki bireyin nitel değişkenlerin yaklaşık olarak aynı değerlerine sahip olmaları durumunda yakın oldukları ve iki nitel değişkenin değerlerinin, sahip oldukları bireylerin pratikte aynı olması durumunda birbirine yakın olduğu.
Yapay zeka katında ve daha özel olarak makine öğreniminde doğan yöntemleri de kullanabiliriz . Denetimsiz sınıflandırma, bireylerin sınıflar halinde gruplanmasına izin veren bir yöntemler ailesidir; özelliği, aynı sınıftaki bireylerin birbirine benzemesi, ancak iki farklı sınıftaki kişilerin birbirinden farklı olmasıdır. Sınıflandırmanın sınıfları önceden bilinmemektedir, süreç tarafından keşfedilirler. Genel olarak, sınıflandırma yöntemleri a priori homojen olmayan homojen verileri oluşturmaya hizmet eder ve böylece her sınıfın aykırı değerlere duyarlı algoritmalarla işlenmesini mümkün kılar. Bu perspektifte, sınıflandırma yöntemleri analiz sürecinde ilk adımı oluşturmaktadır.
Yapay zekadan ödünç alınan bu teknikler , tüm bilgilerin bölümlenmesini değil, aynı zamanda kurtarmayı da kullanır . Bölümleme, örneğin, k-ortalamaları (Fransızca "dinamik bulutlar"), k-medoidler ( k-medoidler ), k-modları ve k-prototipleri gibi yöntemleri kullanan algoritmaların hedefidir. Aykırı değerleri , sınıflandırma, EM algoritması veya AdaBoost için de kullanılabilen Kohonen ağlarını bulun . Hiyerarşik sınıflandırma bölünmesi grafik ürünleri kolayca anlaşılabilir olduğu için özel bir durumdur. Yükselen yöntemler, sınıflar halinde toplanan bireylerden başlarken, alçalan yöntemler bütünden başlar ve birbirini izleyen bölümler ile sınıfları oluşturan bireylere ulaşır. En yakın sınıfların daha yüksek seviyeli sınıflar oluşturmak için nasıl birbirine bağlandığını göstermek için artan bir sınıflandırmanın grafiğinin karşısına çizilmiştir.
Bulanık mantık örtüşmesi , bazılarının sıfır olmayan iki farklı sınıfa ait olma olasılığına sahip olduğu bir matrisin satırlarıyla temsil edilen bireyler kümesinin örtüşme biçimidir. Bu türden en iyi bilinen algoritma FCM'dir ( Bulanık c-araçları ).
Çoklu ilişkilerin karmaşık ağlarının analizine uygun bir geometrik yöntem olan Mantıksal Etkileşimlerin kullanımıyla ilişkili korelasyonların İkonografisinden de bahsetmeliyiz .
Gelen Biyoinformatik , çift sınıflandırma teknikleri farklı sınıflara birey ve bunları belirleyen değişkenler eş zamanlı olarak grubuyla birlikte kullanılır.
Bu kurtarma yöntemlerinin yararlılığını hesaba katmak için, sınıflandırmanın, Eric Bell tarafından büyük karmaşıklığı tanımlanan bir sorun olduğu unutulmamalıdır . Bölümlerin sayısı bir dizi nesnelere eşittir: . Bu nedenle, tüm olası çözümleri gözden geçirmek yerine, ortaya çıkan soruna yanıt veren bir bölüm bulmak için verimli ve hızlı yöntemlere sahip olmak daha iyidir.
Son olarak, analiz bireylere, öğelere veya nesnelere değil, aralarındaki ilişkilere odaklandığında, ilişkilendirme kurallarının araştırılması uygun araçtır. Bu teknik başlangıçta alışveriş sepeti analizi veya sıra analizi için kullanıldı. Bu durumda, hangi ürünlerin aynı anda, örneğin bir süpermarkette, çok sayıda müşteri tarafından satın alındığını bilmeyi mümkün kılar; aynı zamanda web sitesi gezinme yolu analizi problemlerini çözmek için de uygulanır. İlişkilendirme kurallarının aranması denetimli bir şekilde kullanılabilir; apriori , GRI , Carma ARD yöntem ya da PageRank algoritmaları bu tekniği kullanır.
Tahmine dayalı yöntemlerin amacı, bir veya daha fazla gözlemlenebilir ve etkili bir şekilde ölçülen fenomeni açıklamak veya tahmin etmektir. Somut olarak, analizin hedefleri olarak tanımlanan bir veya daha fazla değişkenle ilgileneceklerdir. Örneğin, bir bireyin bir ürünü diğerine göre satın alma olasılığını, doğrudan bir pazarlama işlemine yanıt verme olasılığını, belirli bir hastalığa yakalanma olasılığını, onu iyileştirmeyi, bir web sitesinin bir sayfasını ziyaret eden bir kişinin geri dönme şansını değerlendirmek buna göre, tipik olarak tahmine dayalı yöntemlerle ulaşılabilen hedeflerdir.
Tahmine dayalı veri madenciliğinde iki tür işlem vardır: ayrımcılık veya sıralama ve regresyon veya tahmin, hepsi açıklanacak değişkenin türüne bağlıdır. Ayrımcılık, nitel değişkenlerle ilgilenirken, regresyon sürekli değişkenlerle ilgilidir.
Sınıflandırma ve tahmin yöntemleri, bireyleri birkaç sınıfa ayırmayı mümkün kılar. Sınıf önceden biliniyorsa ve sınıflandırma işlemi, bireylerin özelliklerini bir sınıfa yerleştirmek için analiz etmekten ibaretse, yöntemin "denetimli" olduğu söylenir. Aksi takdirde, "denetimsiz" yöntemlerden söz ederiz, bu kelime dağarcığı makine öğreniminden türetilmiştir . Daha önce gördüğümüz tanımlayıcı sınıflandırma yöntemleri ile tahmine dayalı sınıflandırma yöntemleri arasındaki fark, amaçlarının farklı olmasından kaynaklanmaktadır: verilerin daha net bir vizyonunu sağlamak için ilk "verileri azaltın, özetleyin, sentezleyin". Veri kümeleri, ikincisi yeni gelenler için bu hedeflerin değerlerini tahmin etmek için bir veya daha fazla hedef değişkeni açıklar.
ÖrneklerTahmine dayalı yöntemlerin bazı örneklerine başvurabilir ve bunları geldikleri alana göre sunabiliriz.
Yapay zekadan türetilen yöntemler arasında, analist karar ağaçlarını , bazen tahmin için, bazen nicel verileri ayırmak için, vaka temelli akıl yürütme , sinir ağları , sınıflandırma ve işlevlerin yaklaştırılması için radyal tabanlı nöronları kullanabilecektir . genetik algoritmalar , bazıları Bayes ağlarını destekliyor, diğerleri ise nadir olayları arayan Timeweaver gibi .
Analist istatistiklerden ve olasılıktan türetilen yöntemleri kullanmaya daha meyilli ise, bir yaklaşıklık fonksiyonu bulmak için geniş anlamda doğrusal veya doğrusal olmayan regresyon tekniklerine, Fisher'in diskriminant analizine , lojistik regresyona ve kategorik bir değişkeni tahmin etmek için PLS lojistik regresyonuna yönelecektir. veya çok boyutlu bir değişkeni tahmin etmek için genelleştirilmiş doğrusal model (GLM), genelleştirilmiş toplamsal model (GAM) veya log-doğrusal model ve varsayılan ve varsayılmamış çoklu regresyon modelleri .
Bayesci çıkarıma ve daha özel olarak Bayes ağlarına gelince , analist için bir fenomenin nedenlerini ararsa veya bir olayın meydana gelme olasılığını ararsa yararlı olabilirler.
Eksik veriyi tamamlamak isterse, k en yakın komşu yöntemi (K-nn) hizmetindedir.
Algoritmalar listesi her gün gelişir, çünkü hepsi aynı amaca sahip değildir, aynı girdi verilerine uygulanmaz ve hiçbiri her durumda optimal değildir. Ayrıca pratikte birbirlerini tamamlayıcı nitelikte olduklarını kanıtlamakta ve model modeller veya metamodeller oluşturarak akıllıca birleştirerek çok önemli performans ve kalite kazanımları elde etmek mümkündür. ICDM-IEEE, 2006 yılında veri madenciliği dünyasında en fazla etkiye sahip 10 algoritmanın bir sıralamasını yaptı: bu sıralama, bu algoritmaların seçimi ve anlaşılması için etkili bir yardımcıdır.
Stanford Üniversitesi sonbahar sezonunda rekabet vardır 2007 abonelikleri manyetik kartı ile ödenir bir dağıtım ağı her müşteri tarafından görüntülenen baz filmlerde inşa olan bir film için en olası kitleyi belirlemek henüz hiç: Aşağıdaki proje üzerinde iki takım görüldü. Bir ekip, veritabanındaki bilgilerden son derece ince algoritmalar aramaya odaklandı, diğeri ise tam tersine son derece basit algoritmalar aldı, ancak dağıtıcı tarafından sağlanan veritabanını İnternet Film Veritabanının (IMDB) içeriğiyle birleştirdi . bilgileri. İkinci ekip çok daha kesin sonuçlar elde etti. Bir makale, Google'ın verimliliğinin PageRank algoritmasından çok, Google'ın sorgu geçmişlerine çapraz referans vererek ve kullanıcılarının farklı sitelerdeki tarama davranışlarını analiz ederek ilişkilendirebileceği çok büyük miktardaki bilgiden kaynaklandığını öne sürüyor .
Modern hesaplama araçlarıyla, bu iki çözümden biri veya diğeri her projede düşünülebilir, ancak modellerin kalitesini ve performanslarını iyileştirmedeki etkinliklerini kanıtlayan başka teknikler de ortaya çıkmıştır.
Kalite ve performansKaliteli bir model, hata oranının olabildiğince düşük olması gereken hızlı bir modeldir. Denetlenen yöntemlerle ilgili olarak numunedeki dalgalanmalara duyarlı olmamalı, sağlam olmalı ve verilerdeki yavaş değişikliklere dayanabilmelidir. Ayrıca basit, anlaşılır olması ve kolay yorumlanabilir sonuçlar üretmesi değerini artırmaktadır. Son olarak, yeniden kullanılabilir olacak şekilde yapılandırılabilir.
Bir modelin kalitesini değerlendirmek için çeşitli göstergeler kullanılır ve bunlar arasında ROC ve kaldırma eğrileri , Gini indeksi ve kök ortalama kare hatası , tahminin gerçeklikle ilişkili nerede olduğunu gösterir ve bu nedenle değer hakkında iyi bir fikir verir. modelin kalitesinin bu bileşeninin.
Sağlamlık ve hassasiyet, modelin kalitesinin diğer iki yönüdür. Verimli bir model elde etmek için teknik, verilerin heterojenliğini sınırlamak, örneklemeyi optimize etmek veya modelleri birleştirmekten oluşur.
Ön bölümleme, popülasyonu sınıflandırmayı, ardından verilerin daha homojen olduğu sınıfların her biri için bir model oluşturmayı ve son olarak sonuçları bir araya getirmeyi önerir.
Model birleştirme ile analist, aynı modeli orijinal örnekten biraz farklı örneklere uygular ve ardından sonuçları ilişkilendirir. Torbalama ve artırılması , örneğin en etkili ve pazarlama 1999 yılında en popüler olduğunu, Artış algoritması tacizden sonra ticari bir teklif yanıt olabilecek insanlar kimlik modelinin üretim gruplarına tekniği torbalama kullanımları.
Son olarak, modellerin kombinasyonu, analistin aynı popülasyona birkaç model uygulamasına ve sonuçları birleştirmesine yol açar. Örneğin ayırıcı analizi ve sinir ağları gibi teknikler kolaylıkla birleştirilebilir.
Veri madenciliği araçlar olmadan var olamaz. BT teklifi, yazılım biçiminde ve ayrıca bazı özel platformlarda mevcuttur. Ticari yazılım alanında pek çok yazılım mevcuttur , ancak özgür yazılım alanında da bir miktar vardır . Diğerlerinden daha iyi bir yazılım yoktur, hepsi onunla ne yapmak istediğinize bağlıdır. Ticari yazılım daha çok şirketler veya keşfedilecek büyük miktarda veriye sahip kuruluşlar için tasarlanmıştır; ücretsiz yazılım ise daha özel olarak öğrenciler, yeni teknikler denemek isteyenler ve KOBİ'ler için tasarlanmıştır. In 2009 , en çok kullanılan araçlar sırayla, vardı, SPSS , RapidMiner (tr) , SAS , Excel , R , KXEN (tr) , Weka , Matlab , KNIME , Microsoft SQL Server , Oracle DM (tr) , STATISTICA ve Corico ( Korelasyonların ikonografisi ). In 2010 , R yanıtladı kullanıcıları arasında en çok kullanılan araçtı Rexer Analytics anket ve STATISTICA en veri Araştırmacılar (% 18) tercih araç olarak ortaya çıktı. STATISTICA , IBM SPSS Modeler ve R, bu Rexer Analytics anketinde hem 2010 hem de 2009'da en yüksek memnuniyet derecelendirmelerini aldı .
Bilgisayar bulut ( cloud computing ) veri ve yazılımların ve / veya kullanımını karşılamak için bir veri madenciliği aracı, ancak internet üzerinden sağlayıcıları tarafından iletilen web hizmetleri bir dizi, değil. Yine de veri madenciliği alanında kullanılabilecek hizmetler bulunmaktadır. Oracle Veri madenciliği, müşterilere veri madenciliği için bir HMI içeren bir Oracle veritabanı içeren bir Amazon Makine Görüntüsü sunarak Amazon'un IaaS'sinde ifşa edilir ; R ve Python için bir görüntü de Amazon Web Services'da mevcuttur . Yalnızca bulutta bulunan ve veri madenciliği alanında uzmanlaşmış aktörler , diğerlerinin yanı sıra Braincube , In2Cloud , Predixion ve Cloud9Analytics gibi hizmetlerini sunar .
Veri madenciliği, sınırlamaları olan ve bazı sorunlar ortaya çıkaran bir tekniktir.
Yazılım kendi kendine yeterli değildir. Veri madenciliği araçları, sonuçların bir yorumunu sunmaz, veri madenciliğinde uzmanlaşmış bir analist ve verilerin çıkarıldığı mesleği bilen bir kişinin, yazılımın çıktılarını analiz etmek için gerekli olduğunu.
Ek olarak, veri madenciliği yazılımı her zaman bir sonuç verir, ancak hiçbir şey bunun alakalı olduğunu göstermez veya kalitesini göstermez. Ancak, değerlendirme yardımı teknikleri, ücretsiz veya ticari yazılımlarda giderek daha fazla uygulanmaktadır.
Değişkenler arasındaki ilişkiler açıkça tanımlanmamıştır. Veri araştırma araçları, bu ve bu tür değişkenlerin açıklanacak değişken üzerinde bir etkiye sahip olduğunu gösterir, ancak ilişki türü hakkında hiçbir şey söylemez, özellikle ilişkilerin neden ve sonuç olup olmadığı söylenmez .
Dahası, analiz sonuçlarını grafikler, eğriler veya histogramlarla net bir şekilde yeniden üretmek çok zor olabilir. Teknisyen olmayan kişi bazen kendisine verilen cevapları anlamakta güçlük çeker.
Üstelik bir frankofon, neofit için kelime hazinesi bir zorluktur, hatta bir sorundur. Bunu gerçekleştirmek için, Fransız ve Anglosakson edebiyatında karşılaşılan kelime dağarcığını belirtmek ilginçtir. Anglosakson kelime dağarcığını referans alarak, kümeleme veri madenciliğinde bir bölümleme, istatistikte ve veri analizinde bir sınıflandırma olarak anlaşılır. Sınıflandırma İngilizce Fransız tarzı veri analizinde veri madenciliği, ayırma analizi veya sınıflandırma sınıflandırma ve istatistikte bir karar problemine karşılık gelir. Son olarak, karar ağaçları veri madenciliğindeki karar ağaçlarıdır ve bu durumda veri analizi alanında segmentasyon hakkında bir şeyler duyabiliriz. Terminoloji belirsizdir.
Verilerin kalitesi verilerinin alaka ve eksiksiz demek ki, veri madenciliği için bir gereklilik, ama yeterli değildir. Veri giriş hataları, mükerrer kayıtlar, zaman referansı olmaksızın doldurulmayan veya doldurulmayan veriler de verilerin kalitesini etkiler. Şirketler, yeni dış düzenlemelere ve iç denetimlere etkin bir şekilde yanıt verebilmek ve miraslarının bir parçası olduğunu düşündükleri verilerinin karlılığını artırmak için veri kalitesi güvence yapıları ve prosedürlerini devreye sokmaktadır.
Birlikte çalışabilirlik bir sistemin farklı satıcılar tarafından oluşturulan diğer sistemlerle çalışmak yeteneğidir. Veri madenciliği sistemleri, birden çok veritabanı yönetim sisteminden , dosya türlerinden, veri türlerinden ve farklı sensörlerden gelen verilerle çalışabilmelidir . Ek olarak, birlikte çalışabilirlik veri kalitesine ihtiyaç duyar. Endüstrinin birlikte çalışabilirlik konusundaki çabalarına rağmen, bazı alanlarda bu kural değil gibi görünüyor.
Veriler, mesleğin sorduğu bir soruyu cevaplamak için toplanır. Veri madenciliği riski, bu verilerin başlangıçta tahsis edilenden farklı bir amaç için kullanılmasıdır. Veri kaçırma, bağlam dışında alıntı yapmaya eşdeğerdir. Ayrıca etik sorunlara da yol açabilir.
Gizlilik hiçbir önlem olmak üzere, alınırsa bireylerin, projelerini madencilik verileri tarafından tehdit edilebilir web arayışı ve kullanımı kişisel verilerin tabi tutulabilir internet veya satın alma alışkanlıkları, tercihleri ve hatta halk sağlığı üzerindeki topladı. Başka bir örnek tarafından sağlanan bilgiler Farkındalık Ofisi ve özellikle de toplam Bilgilendirme Bilinçlendirme tamamen veri madenciliği teknolojisi istismar ve (TIA) programı "biriydi 11 Eylül sonrası " projelerinde olduğu Statesman United Kongresi fon başlamıştı , ancak daha sonra bu programın Amerikan vatandaşlarının mahremiyetine getirdiği özellikle ciddi tehditler nedeniyle onu terk etti. Ama yoluyla şirketleri tarafından toplanan kişisel bilgiler, ifşa edilen hatta olmadan müşteri ilişkileri yönetimi (CRM) araçları , yazarkasa , ATM'ler , sağlık kartları , vb , veri madenciliği teknikleriyle, insanların bilmediği kriterlere göre, insanları iyiden kötüye, potansiyel müşterilere, hastalara veya sosyal yaşamda belirli bir anda oynadığı rollere göre bir grup hiyerarşisine ayırmaya öncülük edebilir. kendilerini. Rakesh Agrawal ve Ramakrishnan Sikrant , bunu akılda tutarak ve bu olumsuz yönü düzeltmek için, insanların mahremiyetini koruyacak veri madenciliğinin fizibilitesini sorguluyor. Diğer bir sorun, kazı için gerekli veri depolama dijital veri edilebilir uğramış . Ve bu durumda, dağıtılmış veritabanları ve kriptografi üzerindeki veri patlaması, var olan ve şirketler tarafından yerine getirilebilecek teknik yanıtların bir parçasıdır.
Tüketim verileri için Acxiom , Experian Information Solutions , D & B ve Harte-Hanks veya kitle verileri için Nielsen NV gibi belirli şirketler veya gruplar uzmanlaşmıştır .
Veri madenciliğine (yukarıda açıklanan) ek olarak, bunlar, arama görüntüleri ( resim madenciliği ), web madenciliği ( web veri madenciliği ), veri akışı madenciliği ( veri akışı madenciliği ) ve metin madenciliği ( metin madenciliği ) 2010'larda gelişiyor ve insanları çalıştırdıkları kişisel verileri yayınlamanın riskleri de dahil olmak üzere birçok araştırmacının ve endüstrinin dikkatini çekti .
Bireyleri sosyal geçmişlerine ve tüketici karakterizasyonlarına göre kategorize etmek için yazılım bu şirketler tarafından kullanılmaktadır (örneğin Claritas Prizm ( Claritas Inc. tarafından oluşturulmuş ve Nielsen Company tarafından satın alınmıştır) .
Bazen veri madenciliği ile ilgili olan daha yeni bir teknik olan ses madenciliği , bir ses akışındaki sesleri algılayabilir. Esas olarak ses tanıma alanında kullanılır ve / veya buna dayanır.
Arama görüntü görüntünün içeriğinde ilgilenilmesi tekniktir. Örneğin, bu görüntünün kopyalarını aramak veya belirli bir nesneyi tespit etmek için, bunları sınıflandırmak, türe göre gruplandırmak veya bir görüntüdeki şekilleri tanımak için bir dizi görüntüden, örneğin web'den karakteristikler çıkarır .
Metin madenciliği yüksek kaliteli bilgiyi ayıklamak için metinlerinin keşfidir. Bu teknik genellikle metin madenciliği anglicism olarak adlandırılır . İnsanlar tarafından insanlar için üretilen metinlerde, bir yenilik veya benzerlik kriterine göre bilginin çıkarılmasından oluşan bir dizi bilgisayar işlemidir. Uygulamada, bu, algoritmalara öğrenme ve istatistik için bilgisayar sistemlerinde basitleştirilmiş bir dil teorisi modeli koymak anlamına gelir . İlgili disiplinler bu nedenle hesaplamalı dilbilim , dil mühendisliği , makine öğrenimi , istatistik ve bilgisayar bilimidir .
Bu, web'in kazılmasıyla, ağı oluşturan muazzam veri kaynağını kullanmak ve web'in kullanımı, içeriği ve yapısındaki modelleri ve kalıpları bulmakla ilgilidir. Web kullanımının kazılması ( Web kullanım madenciliği veya Web günlüğü madenciliği ), sunucu günlüklerinde depolanan yararlı bilgi çıkarma işlemidir. Bu madencilik, metin belgelerini analiz etmek için metin madenciliğini kullanır. Web'in yapısını keşfetmek, web'de depolanan belgeler veya sayfalar arasındaki önceden bilinmeyen ilişkileri analiz etme sürecidir.
Veri akışı madenciliği ( veri akışı madenciliği ) büyük bir hızla sınırsız bir akışı, gelen veri keşfetmek tekniktir ve bazı temel zamanla değişen: örneğin, verilerin analizi, otomotiv sensörler tarafından yayılan akımları. Ancak telekomünikasyon, ağ yönetimi, finansal piyasa yönetimi, gözetim alanlarında ve ATM akışlarının analizi , kredi kartı işlemleri vb. Gibi insanlara daha yakın günlük yaşam aktiviteleri alanlarında uygulama örnekleri bulunabilir .
Mekansal veri madenciliği ( mekansal veri madenciliği ) da Yer üzerindeki ölçekte coğrafi veri teknik keşif, ancak astronomik veya mikroskobik , amacı bu metin zamansal veri veya geometrik verileri her ikisini ihtiva eden verilerde ilginç desenler, bulmaktır, vektörler , çerçeveler veya grafikler. Mekansal veriler, değişikliklerin gözlemlenmesi için genellikle uzun bir süre boyunca, farklı tekniklerle, farklı formatlarda sağlanan farklı ölçeklerde bilgi sağlar. Bu nedenle hacimler çok büyüktür, veriler kusurlu ve gürültülü olabilir. Ek olarak, uzamsal veriler arasındaki ilişkiler genellikle örtüktür: bu uzmanlaşmada küme , topolojik , yönlü ve metrik ilişkiler sıklıkla karşılaşılır. Mekansal veri madenciliği bu nedenle özellikle zordur.
Mekansal veri madenciliği keşfetmek için kullanılan yer bilimleri verilerini, suç harita verilerini, sayım verileri , yol trafiği , kanser salgınları , vb
Veri madenciliğinin geleceği, dijital verilerin geleceğine bağlıdır. Web 2.0 , bloglar , wiki'ler ve bulut hizmetlerinin ortaya çıkmasıyla birlikte, dijital veri hacminde bir patlama meydana geldi ve bu nedenle veri madenciliği için hammadde birikintileri önemli hale geldi.
Birçok alan kendi ihtiyaçları için veri madenciliğinden hala çok az yararlanmaktadır. Blogosferden gelen verilerin analizi hala erken aşamalarındadır. Örneğin, İnternet medyasının nasıl çalıştığını analiz etmek için "bilgi ekolojisi" ni anlamak yeni başlıyor.
Bireylerin mahremiyetiyle ilgili sorunlar çözüldüğü sürece, veri madenciliği tıp alanındaki ve özellikle hastane risklerinin önlenmesindeki soruların ele alınmasına yardımcı olabilir.
Azınlık Raporu'nun bilim kurgusuna kadar gitmeden, önsel olmadan profil oluşturma teknikleri , bazı yeni etik sorunlar ortaya çıkarabilecek veri madenciliği ile mümkün hale getirilmiştir. Bir BBC Horizon belgeseli bu soruların bazılarını özetliyor.
Son olarak, yeni verilerin ve yeni alanların ortaya çıkmasıyla teknikler gelişmeye devam ediyor.