Veri madenciliği

Veri madenciliği da sentezleme altında bilinen, veri madenciliği , veri madenciliği , veri madenciliği , veri madenciliği veya çıkarma bilgisi veri , bir ekstre edilmesine ilişkindir bilmesi ya da 'büyük miktarlarda' bilgi verisi otomatik veya göre, yarı otomatik yöntemler.

İstatistik , yapay zeka veya bilgisayar bilimi gibi çeşitli bilimsel disiplinlerden bir dizi algoritma kullanmayı , verilerden modeller oluşturmayı , yani önceden belirlenmiş kriterlere göre ilginç yapılar veya modeller bulmayı ve mümkün olduğunca çok bilgi .

Bu bilginin profesyonel dünyada endüstriyel veya operasyonel kullanımı, müşteri ilişkileri yönetiminden , dolandırıcılık tespiti ve web sitesi optimizasyonu dahil olmak üzere önleyici bakıma kadar çok çeşitli sorunları çözmeyi mümkün kılar . Aynı zamanda veri gazeteciliğinin çalışma şeklidir .

Veri madenciliği, işletme veri madenciliğinin yükselişini, iş zekası olarak izler . Bu, ciro gibi bir gerçeği gözlemlemeyi ve bunu ürün bazında düşen ciro olarak açıklamayı mümkün kılarken, veri madenciliği gerçekleri sınıflandırmayı ve belli bir ölçüde tahmin etmeyi veya aydınlatmayı mümkün kılar. Örneğin, bir satış noktasının cirosunun diğerinden neden daha yüksek olduğunu anlamayı mümkün kılan değişkenleri veya parametreleri açıklayarak.

Tarih

Büyük miktarda veriden model oluşturmak yeni bir olgu değil. Model oluşturma olabilmesi için veri toplama olması gerekir. In China biz efsanevi İmparator atfettiğimiz Yao , 2238 M.Ö. bitkileri tanımlamak için arzu. AD; içinde Mısır Firavun Amasis içinde nüfus sayımı organize V inci yüzyıl M.Ö.. AD O kadar değildi XVII inci ortak özellikler için bakmak için verileri analiz etmek başlaması yüzyılın. In 1662 , John Graunt kitabını yayınladı " Ölüm Bono üzerine yapılmış Doğal ve Siyasi Gözlemler " Londra'da mortalite analiz ve veba görünümünü tahmin etmeye çalıştı hangi. In 1763 , Thomas Bayes gösterir biz sadece bir deney sonucu gözlemlerinden olasılıklar değil, aynı zamanda bu olasılıklara ilişkin parametreler, belirleyebilmesi. Binom dağılımının özel durumunda sunulan bu sonuç, Laplace tarafından bağımsız olarak genişletilerek Bayes teoreminin genel bir formülasyonuna yol açar . Legendre , 1805'te bir veri kümesini matematiksel bir modelle karşılaştırmayı mümkün kılan en küçük kareler yöntemi üzerine bir makale yayınladı . Bununla birlikte, pahalı manuel hesaplamalar, bu yöntemlerin az sayıda basit ve aydınlatıcı durum dışında kullanılmasına izin vermez.

Ronald Fisher , 1919'dan 1925'e kadar tıbbi istatistiksel çıkarım projesi için bir araç olarak varyans analizini geliştirdi . 1950'ler, bu makinelerde hala pahalı bilgisayarların ve toplu hesaplama tekniklerinin ortaya çıktığını gördü. Eşzamanlı olarak, segmentasyon , sınıflandırma (diğerleri arasında dinamik bulutlar yöntemiyle ), Perceptron adı verilen gelecekteki sinir ağlarının ilk versiyonu ve daha sonra genetik olarak adlandırılacak bazı kendi kendine gelişen algoritmalar gibi yöntemler ve teknikler ortaya çıkmaktadır . 1960'larda karar ağaçları ve mobil merkez yöntemi geldi ; bu teknikler, araştırmacıların giderek daha hassas modellerden yararlanmasına ve keşfetmesine olanak tanır. In France , Jean-Paul Benzécri geliştirilen yazışma analizini içinde 1962 . Bununla birlikte, toplu işleme perspektifinde kalıyoruz .

In 1969 çalışmalarını çıktı Myron Tribus Rasyonel açıklamaları, karar ve tasarımlar genelleştirir Bayes yöntemleri otomatik hesaplamada (en profesörü Dartmouth , o dili oldukça mantıklı kullanan TEMEL birkaç yıl önce yaratıldı, ve bunun etkileşim ). Fransızca çeviri, 1973'te Rational Decisions in Uncertain adıyla kullanıma sunuldu . Çalışmanın önemli bir fikri, bir modelin herhangi bir ediniminin Bayes kurallarına göre yapıldığını ( homomorfizm hariç ) veya tutarsızlıklara yol açtığını gösteren Cox-Jaynes teoreminden bahsedilmesidir . Bir diğeri ise, gözlemleri karşılayan tüm olasılık dağılımları arasında (sayıları sonsuzdur), en az keyfi olanı seçmek gerekir (bu nedenle en az bilgi eklenmiş ve sonuç olarak maksimum entropi olabilir . Temelde sıkça bir çağrışım olmadan, bir bilgi durumunun basit bir dijital çevirisi.Son olarak, bu çalışma, olasılıkların desibel cinsinden gösterimini popüler hale getirir, bu da Bayes kuralını katkı maddesi yapar ve gözlemin sağlanmasını benzersiz bir şekilde ölçmeyi mümkün kılar. şimdi bağımsız çeşitli tahminler önceki emsal oluşturuyor (bkz. Bayesci çıkarım ).

Mikrobilgisayarların kademeli olarak gelişi, bu Bayes yöntemlerini maliyetlere yük olmadan genellemeyi kolaylaştırır. Bu, araştırmayı teşvik eder ve Bayes analizleri, özellikle Tribus, gözlemler ilerledikçe klasik istatistik sonuçlarına doğru yakınsamalarını gösterdikçe, aynı edinim zamanlarını gerektirmeden zaman içinde bilgiyi rafine etmeyi mümkün kılarken genelleşmektedir (ayrıca bkz.Deney planı ) .

Klasik istatistiksel protokolden kurtulmak daha sonra başlar: artık bir hipotez belirlemek ve bunu doğrulamak ya da posteriori olmak gerekmez . Aksine, Bayesçi tahminler, gözlemler biriktikçe bu hipotezleri kendileri oluşturacaktır.

1960'ların başlarında " veri madenciliği " ifadesi aşağılayıcı bir çağrışıma sahipti ve istatistikçilerin hipotez başlatmadan korelasyon araştırma yaklaşımlarını küçümsemelerini ifade etti . Unutuldu , sonra Rakesh Agrawal , 1980'lerde 1 MB hacimli veritabanları üzerine araştırmalarına başladığında tekrar kullanıyor . Pal ve Jain'e göre veri madenciliği kavramı ilk olarak 1989'daki IJCAI konferanslarında ortaya çıktı . Gregory Piatetsky-Shapiro , 1980'lerin sonunda GTE Laboratuvarlarında bu yeni konsept için bir isim aradı . Telif hakkı koruması altında olan “ veri madenciliği ” , “ veri tabanlarında bilgi keşfi ” (KDD) ifadesini kullandı .

Daha sonra 1990'larda, geldi öğrenme makinesi teknikleri gibi SVM'ler içinde 1998 analistin araçlarını tamamlanmaktadır.

Başında XXI inci yüzyılda gibi bir şirket Amazon.com ilgilerini çekebilir müşterilerinin ürünlerini sunmak için tüm bu araçları kullanır.

Endüstriyel uygulamalar

Hedeflere göre

Günümüzde veri madenciliği teknikleri çok özel amaçlarla tamamen farklı alanlarda kullanılabilmektedir. Posta siparişi veren şirketler, davranıştaki benzerlikleri belirlemek, sadakat kartları vermek veya ek satış için (çapraz satış) sunulacak ürün listeleri oluşturmak için tüketici davranışını analiz etmek için bu tekniği kullanır .

Yeni müşterileri bulmak için kullanılan bir doğrudan posta ( postalama ), ortalama olarak% 10'luk bir yanıt oranına sahiptir. Pazarlama şirketleri, potansiyel müşterileri gönderilen anketlere yanıt oranlarını artırmalarına olanak tanıyan kriterlere göre sıralayarak yeni bir müşteri edinme maliyetini düşürmek için veri madenciliği kullanır .

Bu aynı şirketler ve aynı zamanda bankalar, cep telefonu operatörleri veya sigortacılar gibi diğerleri , müşterilerinin yıpranmasını (veya kaybını ) en aza indirmek için veri madenciliği arayışındadır, çünkü bir müşteriyi sürdürmenin maliyeti, yeni bir müşteri edinmekten daha az önemlidir.

Tüm ülkelerdeki polis hizmetleri, suçu önlemek için suçları karakterize etmeye çalışır (soruyu yanıtlayın: "'Normal' suç nedir?") Ve suçluların davranışları (soruyu yanıtlayın: "normal" suç davranışı? ") Ve nüfus için riskleri ve tehlikeleri sınırlandırın.

Puanlama artık iyi biliniyor bankalarda müşterilerin, bu olmadan, "iyi" müşterileri tespit etmek mümkün kılan risk faktörlerinin ( müşteri değerlendirilmesi riskleri ) mali kuruluşlar, bankalar, sigorta şirketleri, vb fiyatlandırma sunabilir kime. Adapte ve çekici ürünler, sigorta durumunda geri ödememe veya ödeme yapmama ve hatta kayıp riskini sınırlarken.

Çağrı merkezleri hizmet kalitesini artırmak için bu tekniği kullanmak ve müşteri memnuniyeti için operatöre uygun bir tepki verir.

İnsan genomunun araştırılmasında , genleri ve işlevlerini keşfetmek için veri madenciliği teknikleri kullanılmıştır .

Diğer alanlarda başka örnekler de bulunabilir, ancak şu anda fark edebildiğimiz şey, tüm bu kullanımların araştırmayı azaltmak için karmaşık bir fenomeni (insan davranışı, bir genin ifadesi) daha iyi anlamak için karakterize etmeyi mümkün kıldığıdır. veya bu fenomenle bağlantılı işletme maliyetleri veya bu fenomenle bağlantılı proseslerin kalitesini iyileştirmek için.

Sektör bazında

Sektör, verilerinin oluşturduğu mirasın önemini kavradı ve iş zekası ve veri madenciliği kullanarak ondan yararlanmaya çalışıyor. Bu alandaki en gelişmiş şirketler üçüncül sektördedir . Kdnuggets.com sitesinde, dağıtım göre ABD'de veri madenciliği kullanımının ankete toplam yanıt, bir yüzdesi olarak, bir etkinlik sektöründe yürütülen 2010 aşağıdaki gibi:

Veri madenciliğinin kullanıldığı sektörler ve alanlar (%).

CRM / tüketim analizi	26.8	Banka	19.2	Sağlık, insan kaynakları	13.1
Dolandırıcılık tespiti	12.7	Finansman	11.3	Doğrudan pazarlama , bağış toplama	11.3
Telekomünikasyon	10.8	Sigorta	10.3	Bilim	10.3
Eğitim	9.9	Tanıtım	9.9	ağ	8.9
Tıbbi	8.0	İmalatçı	8.0	Perakende iş	8.0
Kredi notu	8.0
E-ticaret	7.0
Arama motoru	6.6
Sosyal ağlar	6.6
Hükümet, askeri	6.1

Araştırma ve düşünce kuruluşları

Yukarıdaki histogramda gösterildiği gibi, sektör , özellikle farklı yayıncılardan BT araçlarının kullanımını kolaylaştıran standartlar ve birlikte çalışabilirlik açısından konu ile çok ilgilenmektedir . Ek olarak, şirketler, eğitim ve araştırma yöntemlerin ve modellerin evrimine ve iyileştirilmesine (örneğin titizlik açısından) büyük katkı sağlamıştır; International Journal of Information Technology and Decision Making tarafından 2008 yılında yayınlanan bir makale , bu evrimin izini süren ve analiz eden bir çalışmayı özetlemektedir. Bazı oyuncular araştırmadan endüstriye geçti.

Gibi Üniversiteler Konstanz içinde Almanya'da , Dortmund içinde Kuzey Karolina , Amerika Birleşik Devletleri , Waikato içinde Yeni Zelanda'da ve Université Lumiere Lyon 2 Fransa'da, yeni bulmak için araştırmalarını, algoritmalar ve yaşlılar iyileştirmek . Ayrıca, öğrencilerinin, öğretmenlerinin ve araştırmacılarının bu alanda ilerlemelerine ve böylece endüstrinin ilerlemelerinden yararlanmasına olanak tanıyan bir yazılım geliştirdiler.

Öte yandan, veri madenciliğinin gelişimini yansıtmak ve desteklemek için birçok meslekler arası grup ve dernek oluşturulmuştur. Alanında bu meslek gruplarının ilk faiz grubudur Association for Computing Machinery üzerinde bilgi yönetimi ve veri madenciliği, SIGKDD . 1989'dan beri yıllık uluslararası bir konferans düzenlemekte ve üyelerinin yeni sonuçlarını, yansımalarını ve gelişmelerini yayınlamaktadır. Bu nedenle, 1999'dan bu yana , bu kuruluş “ SIGKDD Explorations ” başlığıyla yılda iki kez bir inceleme yayınlamaktadır .

Veri madenciliği ve bilgi işlemle ilgili diğer konferanslar düzenlenir, örneğin:

DMIN - Uluslararası Veri Madenciliği Konferansı
DMKD - Veri Madenciliği ve Bilgi Keşfi ile İlgili Araştırma Sorunları
ECML-PKDD - Avrupa Makine Öğrenimi ve İlkeleri Konferansı ve Veritabanlarında Bilgi Keşfi Uygulaması
ICDM - IEEE Uluslararası Veri Madenciliği Konferansı
MLDM - Örüntü Tanıma Alanında Makine Öğrenimi ve Veri Madenciliği
SDM - SIAM Uluslararası Veri Madenciliği Konferansı
EDM - Eğitimsel Veri Madenciliği Uluslararası Konferansı
ECDM - Avrupa Veri Madenciliği Konferansı
PAKDD - Bilgi Keşfi ve Veri Madenciliği üzerine yıllık Pasifik-Asya Konferansı

Mali açıdan ikna edici bu araştırma ve sonuçlar, veri madenciliği konusunda uzmanlaşmış ekipleri yapılandırılmış projelerde metodik çalışma yürütmeye zorlar.

Projeler, yöntemler ve süreçler

Zamanla projelerin kalitesini iyileştirmek için iyi uygulamalar ortaya çıkmıştır. Bunların arasında, metodolojiler ekiplerin projeleri süreçler halinde düzenlemesine yardımcı olur. En çok kullanılan yöntemler arasında, SEMMA metodolojisi ve SAS Institute ve çıtır DM 2010'larda en çok kullanılan bir yöntemdir.

CRISP-DM yöntemi

CRISP-DM yöntemi, veri madenciliği sürecini altı aşamaya böler ve tekniğin endüstriyel bir süreçte yapılandırılmasına ve sabitlenmesine izin verir. Standartlaştırılmış bir teoriden daha fazlası, iş bilgisini çıkarma sürecidir.

Öncelikle analiste soruyu soran işi anlamalı, kuruluşun verilerle ilgili olarak çözmeye çalıştığı sorunu resmileştirmeli, sorunları anlamalı, projenin başarısı için kriterleri bilmeli ve bu hedefe ulaşmak için bir başlangıç planı oluşturmalısınız. .

O zaman analistin doğru verilere ihtiyacı vardır. Proje ekibi ne yapacağını bilir öğrenmez, soruna yanıt vermelerini sağlayacak verileri, metinleri ve tüm materyalleri aramalıdır. Daha sonra kaliteyi değerlendirmeli, gizli modeller hakkında hipotezler oluşturmak için ilk görünen kalıpları keşfetmelidir.

Proje ekibinin topladığı veriler heterojendir . Kullanılan algoritmalara göre, aykırı değerler veya uç değerler kaldırılarak, doldurulmayan verileri tamamlayarak, en yakın komşuların ortalamasına veya yöntemine göre , çiftler, değişmez değişkenler ve bunlar kaldırılarak hazırlanmalıdır. çok fazla eksik değere sahip olmak veya örneğin, kullanılacak algoritma gerektiriyorsa değişkenleri ayrıştırarak, örneğin çoklu karşılık gelen ACM analizi , diskriminant analizi DISQUAL veya Condorcet'in yöntemi .

Veriler hazır olduğunda, onu keşfetmeniz gerekir. Grupları tek başına veya açıklayıcı veya tahmine dayalı amaçlarla diğerlerine ek olarak kullanılabilen görev sınıflarını birlikte modelleme.

Segmentasyon bilinen yapılar kullanmadan, bir şekilde benzer verilerdeki grupları ve yapıları keşfetmek görevidir önsel verilerde. Sınıflandırma genelleme görev bilinen yapılar ve yeni verilere uygulayabilirsiniz.

Regresyon gelecekteki değerlerini tahmin etmek için en düşük hata oranıyla ayrık değil, demek ki sürekli veri modelleme bir işlevi, bulmaya çalışır. Dernek öğeleri arasındaki ilişkileri arar. Örneğin, bir süpermarket, müşterilerinin satın alma alışkanlıkları hakkında veri toplayabilir. Süpermarket, ilişkilendirme kurallarını kullanarak hangi ürünlerin sıklıkla birlikte satın alındığını belirleyebilir ve böylece bu bilgiyi pazarlama amacıyla kullanabilir . Literatürde bu teknik genellikle “ev sepeti analizi” olarak anılır.

O halde, ticaretin başarı kriterlerine göre elde edilen sonuçların değerlendirilmesi ve boşlukları ve ihmal edilen adımları ortaya çıkarmak için sürecin kendisini değerlendirme meselesidir. Bunun bir sonucu olarak, neyin yanlış gittiğini veya yapılmadığını iyileştirerek süreci devreye almak veya yinelemek için bir karar verilmelidir.

Ardından teslimat aşaması ve proje değerlendirmesinin sonu gelir. Kontrol ve bakım planları tasarlanır ve proje sonu raporu düzenlenir. Tahmine dayalı bir model dağıtmak için XML'e dayalı PMML dili kullanılır. Modelin tüm özelliklerini tanımlamak ve diğer PMML uyumlu uygulamalara iletmek için kullanılır.

Diğer yöntemler

SEMMA

SAS Enstitüsü tarafından icat edilen SEMMA metodolojisi ( Örnekleyin Sonra Keşfedin, Değiştirin, Modelleyin, “Örnekleme, Sonra Araştırın , Değiştirin, Modelleyin, Değerlendirin”), veri madenciliğinin teknik faaliyetlerine odaklanır. SAS tarafından yalnızca SAS Kurumsal madencilik araçlarının mantıksal bir organizasyonu olarak sunulmasına rağmen , SEMMA, kullanılan yazılımdan bağımsız olarak veri madenciliği sürecini düzenlemek için kullanılabilir.

Altı Sigma (DMAIC)

Altı Sigma ( DMAIC : aşağıdaki gibi bir yöntem karakterize bir kısaltmadır , denetim geliştirmek, Analiz, tanımlama, ölçme yapılandırılmış bir veri yönelimli metodoloji, hedef olan bir "kontrol geliştirmek, Analiz, Ölçüm, tanımlama" için) üretim, hizmet sağlama, yönetim ve diğer ticari faaliyet alanlarında her türlü kusur, fazlalık ve kalite kontrol sorunlarının giderilmesi. Veri madenciliği, bu metodolojik kılavuzun uygulanabileceği bir alandır.

Kaçınılması gereken beceriksizlik

Deneyimli ve deneyimsiz veri madencilerinin karşılaştığı en yaygın tuzaklar Robert Nisbet, John Elder ve Gary Miner tarafından İstatistiksel Analiz ve Veri Madenciliği Uygulamaları El Kitabında açıklanmıştır .

İlki yanlış soruyu sormaktır. Bu da yanlış yere bakmaya yol açar. Cevabın yararlı olması için ilk soru doğru sorulmalıdır.

Daha sonra, karmaşık bir problem için az miktarda veriye karar veriyor. Bunları keşfetmek için verilere sahip olmalıyız ve ekskavatör için ilginç durumlar gözlemlemek nadirdir, bu nedenle, bir öğrenme değeri olan ve bir tahmin yapmayı mümkün kılacak örnekler yapabilmek için emrinde çok fazla veriye sahip olmamız gerekir. durum, yani örneklem dışındaki veriler üzerinden sorulan bir soruyu yanıtlamaktır. Ek olarak, veriler sorulan soruya uyarlanmazsa, kazı sınırlı olacaktır: örneğin veriler tahmin edilecek değişkenler içermiyorsa, kazı açıklama ile sınırlandırılacak ve analist yalnızca bölme yapabilecektir. verileri tutarlı alt kümeler halinde ( kümeleme ) veya verilerin değişkenliğini yakalayan en iyi boyutları bulun.

Öğrenmeye izin veren örnek, dikkatli bir şekilde oluşturulmalı ve hafife alınmamalıdır. Öğrenme, modelin bir veya daha fazla örnekten oluşturulmasına izin verir. Veri madenciliği aracını model, aranan vakaların% 100'ünü döndürene kadar ayarlamak, özelliklere odaklanmak ve gerekli olan genellemeden uzaklaşmak, bu da modelin dışındaki verilere uygulanmasını mümkün kılar. Aşırı uydurma veya aşırı uydurmayı önlemek için teknikler vardır . Bunlar bootstrap , jackknife veya cross validation gibi yeniden örnekleme yöntemleridir .

Bazen tek bir teknik (karar ağacı, sinir ağları ...) tüm veriler üzerinde iyi sonuçlar veren bir model elde etmek için yeterli değildir. Bu durumda çözümlerden biri, birbiri ardına kullanabileceğimiz ve sonuçları aynı veriler üzerinde karşılaştırabileceğimiz ya da öğrenerek ya da sonuçları birleştirerek her yöntemin güçlü yönlerini birleştirebileceğimiz bir dizi araçtan oluşacaktır.

Verileri ve kazı sonuçlarını kendi bağlamında bir perspektife oturtmak ve verilere odaklanmamak önemlidir, aksi takdirde zaman ve para israfının yanı sıra yorumlama hataları da ortaya çıkabilir.

Beklenene kıyasla saçma görünen sonuçların önsel olarak ortadan kaldırılması hataların kaynağı olabilir, çünkü sorulan sorunun çözümünü belki de bu sonuçlar verebilir.

Bir modelin sonuçlarını, oluşturulduğu çerçevenin dışında kullanmak ve yorumlamak imkansızdır. Sonuçları diğer benzer ancak farklı durumlara göre yorumlamak da bir hata kaynağıdır, ancak bu, veri madenciliği muhakemesine özgü değildir. Son olarak, düşük boyutlu uzaylarda elde edilen sonuçların yüksek boyutlu uzaylarda ekstrapolasyonu da hatalara yol açabilir.

George Box'tan iki alıntı , "Tüm modeller yanlış, ancak bazıları faydalıdır" ve "İstatistikçiler sanatçılar gibidir, modellerine aşık olurlar", mizahi bir şekilde, bazı veri madenciliği analistlerinin modellerine inanmaları ve inanmaları gerektiğini gösterir. üzerinde çalıştıkları modelin en iyisi olduğunu. Bir dizi model kullanmak ve sonuçların dağılımını yorumlamak çok daha güvenlidir.

Plan

Bir veri madenciliği projesinde neyin önemli olup neyin olmadığını, neyin zaman aldığını ve neyin olmadığını bilmek önemlidir; bu her zaman çakışmaz.

Farklı aşamalara ayrılacak zamanın tahmini

Görevler	Şarj etmek	Projedeki önemi
Verilerin envanteri, hazırlanması ve araştırılması	% 38	3
Geliştirme - Modellerin doğrulanması	% 25	2
Sonuçların iadesi	% 12	4
İlk testlerin analizi	% 10	3
Hedeflerin tanımı	% 8	1
Belgeler - sunumlar	% 7	5

Veri madenciliğinin kalbi modellemedir: tüm hazırlıklar analistin üretmeyi planladığı modele göre gerçekleştirilir, daha sonra gerçekleştirilen görevler seçilen modeli doğrular, tamamlar ve devreye alır. Modellemede en ciddi görev, beklenen modeli üretecek algoritmaları belirlemektir. Bu nedenle önemli soru, bunu veya bu algoritmaları seçmeyi mümkün kılan kriterlerdir.

Algoritmalar

Bir problemi bir veri madenciliği süreciyle çözmek, genellikle anlaşılması ve kullanılması az ya da çok kolay olan çok sayıda farklı yöntem ve algoritmanın kullanılmasını gerektirir. İki ana algoritma ailesi vardır: tanımlayıcı yöntemler ve öngörücü yöntemler.

Tanımlayıcı yöntemler

Tanım

Açıklayıcı yöntemler, büyük bir veri kümesinin altında yatan bilgileri düzenler, basitleştirir ve anlamaya yardımcı olur.

Bireylerin açıklayıcı değişkenlerinin hiçbirinin diğerleriyle ilişkili olarak özel bir öneme sahip olmadığı değişken örneklerinde düzenlenmiş bir veri kümesi üzerinde çalışmayı mümkün kılarlar. Örneğin, tipolojideki homojen grupları bir grup bireyden belirlemek, davranışsal standartlar oluşturmak ve dolayısıyla yeni veya bilinmeyen banka kartı dolandırıcılıklarının tespiti veya sigorta gibi bu standartlardan sapmaları belirlemek , bilgi sıkıştırmak için kullanılırlar. veya görüntü sıkıştırma vb.

Örnekler

Mevcut teknikler arasında, istatistiklerden türetilenler kullanılabilir. Terimi altında gruplandırılmıştır faktöryel analizler , hangi istatistik yöntemler bir dizi tedbir gizli değişkenleri tespit etmek mümkün kılar; bu gizli değişkenler "faktörler" olarak adlandırılır. Faktör analizlerinde, verilerin birbirine bağımlı olması durumunda bunun ortak olan faktörlere bağlı olmalarından kaynaklandığını varsayıyoruz. Faktörlerin avantajı, az sayıda faktörün verileri neredeyse değişkenler kümesi kadar iyi açıkladığı gerçeğinde yatmaktadır; bu, çok sayıda değişken olduğunda yararlıdır. Teknik faktör, temel olarak temel bileşen analizini , bağımsız bileşen analizini , uyuşma analizini , çoklu uygunluk analizini ve çok boyutlu ölçeklendirmeyi ayrıştırır .

Fikirleri düzeltmek için, temel bileşen analizi; bireyleri, faktörleri ve temel bileşenleri tanımlayan nicel değişkenleri , bilgi kaybının minimum düzeyde olacağı şekilde eşleştirir . Nitekim bileşenler bilgi kaybı sırasına göre düzenlenmiştir, ilki en az kaybeder. Bileşenler birbiriyle doğrusal olarak ilişkilendirilmez ve bireyler, aralarında var olan mesafeye bakılarak faktörlerin tanımladığı eksenlere yansıtılır. Benzerlikler ve farklılıklar faktörlerle açıklanmaktadır. $m$ $p$ $değil$

Karşılıklı faktör analizi ve MCA , bireylerin özelliklerini , acil durum tablosunu kullanan faktörleri veya MCA durumunda Burt'un tablosunu tanımlayan nitel değişkenlere karşılık gelir ; ilk nitel değişkenler, iki bireyin nitel değişkenlerin yaklaşık olarak aynı değerlerine sahip olmaları durumunda yakın oldukları ve iki nitel değişkenin değerlerinin, sahip oldukları bireylerin pratikte aynı olması durumunda birbirine yakın olduğu. $m$ $p$ $değil$

Yapay zeka katında ve daha özel olarak makine öğreniminde doğan yöntemleri de kullanabiliriz . Denetimsiz sınıflandırma, bireylerin sınıflar halinde gruplanmasına izin veren bir yöntemler ailesidir; özelliği, aynı sınıftaki bireylerin birbirine benzemesi, ancak iki farklı sınıftaki kişilerin birbirinden farklı olmasıdır. Sınıflandırmanın sınıfları önceden bilinmemektedir, süreç tarafından keşfedilirler. Genel olarak, sınıflandırma yöntemleri a priori homojen olmayan homojen verileri oluşturmaya hizmet eder ve böylece her sınıfın aykırı değerlere duyarlı algoritmalarla işlenmesini mümkün kılar. Bu perspektifte, sınıflandırma yöntemleri analiz sürecinde ilk adımı oluşturmaktadır.

Yapay zekadan ödünç alınan bu teknikler , tüm bilgilerin bölümlenmesini değil, aynı zamanda kurtarmayı da kullanır . Bölümleme, örneğin, k-ortalamaları (Fransızca "dinamik bulutlar"), k-medoidler ( k-medoidler ), k-modları ve k-prototipleri gibi yöntemleri kullanan algoritmaların hedefidir. Aykırı değerleri , sınıflandırma, EM algoritması veya AdaBoost için de kullanılabilen Kohonen ağlarını bulun . Hiyerarşik sınıflandırma bölünmesi grafik ürünleri kolayca anlaşılabilir olduğu için özel bir durumdur. Yükselen yöntemler, sınıflar halinde toplanan bireylerden başlarken, alçalan yöntemler bütünden başlar ve birbirini izleyen bölümler ile sınıfları oluşturan bireylere ulaşır. En yakın sınıfların daha yüksek seviyeli sınıflar oluşturmak için nasıl birbirine bağlandığını göstermek için artan bir sınıflandırmanın grafiğinin karşısına çizilmiştir.

Bulanık mantık örtüşmesi , bazılarının sıfır olmayan iki farklı sınıfa ait olma olasılığına sahip olduğu bir matrisin satırlarıyla temsil edilen bireyler kümesinin örtüşme biçimidir. Bu türden en iyi bilinen algoritma FCM'dir ( Bulanık c-araçları ).

Çoklu ilişkilerin karmaşık ağlarının analizine uygun bir geometrik yöntem olan Mantıksal Etkileşimlerin kullanımıyla ilişkili korelasyonların İkonografisinden de bahsetmeliyiz .

Gelen Biyoinformatik , çift sınıflandırma teknikleri farklı sınıflara birey ve bunları belirleyen değişkenler eş zamanlı olarak grubuyla birlikte kullanılır.

Bu kurtarma yöntemlerinin yararlılığını hesaba katmak için, sınıflandırmanın, Eric Bell tarafından büyük karmaşıklığı tanımlanan bir sorun olduğu unutulmamalıdır . Bölümlerin sayısı bir dizi nesnelere eşittir: . Bu nedenle, tüm olası çözümleri gözden geçirmek yerine, ortaya çıkan soruna yanıt veren bir bölüm bulmak için verimli ve hızlı yöntemlere sahip olmak daha iyidir. $değil$ $B_ {n} = {\ frac {1} {e}} \ sum _ {{k = 0}} ^ {\ infty} {\ frac {k ^ {n}} {k!}}> E ^ {n }$

Son olarak, analiz bireylere, öğelere veya nesnelere değil, aralarındaki ilişkilere odaklandığında, ilişkilendirme kurallarının araştırılması uygun araçtır. Bu teknik başlangıçta alışveriş sepeti analizi veya sıra analizi için kullanıldı. Bu durumda, hangi ürünlerin aynı anda, örneğin bir süpermarkette, çok sayıda müşteri tarafından satın alındığını bilmeyi mümkün kılar; aynı zamanda web sitesi gezinme yolu analizi problemlerini çözmek için de uygulanır. İlişkilendirme kurallarının aranması denetimli bir şekilde kullanılabilir; apriori , GRI , Carma ARD yöntem ya da PageRank algoritmaları bu tekniği kullanır.

Tahmine dayalı yöntemler

Tanım

Tahmine dayalı yöntemlerin amacı, bir veya daha fazla gözlemlenebilir ve etkili bir şekilde ölçülen fenomeni açıklamak veya tahmin etmektir. Somut olarak, analizin hedefleri olarak tanımlanan bir veya daha fazla değişkenle ilgileneceklerdir. Örneğin, bir bireyin bir ürünü diğerine göre satın alma olasılığını, doğrudan bir pazarlama işlemine yanıt verme olasılığını, belirli bir hastalığa yakalanma olasılığını, onu iyileştirmeyi, bir web sitesinin bir sayfasını ziyaret eden bir kişinin geri dönme şansını değerlendirmek buna göre, tipik olarak tahmine dayalı yöntemlerle ulaşılabilen hedeflerdir.

Tahmine dayalı veri madenciliğinde iki tür işlem vardır: ayrımcılık veya sıralama ve regresyon veya tahmin, hepsi açıklanacak değişkenin türüne bağlıdır. Ayrımcılık, nitel değişkenlerle ilgilenirken, regresyon sürekli değişkenlerle ilgilidir.

Sınıflandırma ve tahmin yöntemleri, bireyleri birkaç sınıfa ayırmayı mümkün kılar. Sınıf önceden biliniyorsa ve sınıflandırma işlemi, bireylerin özelliklerini bir sınıfa yerleştirmek için analiz etmekten ibaretse, yöntemin "denetimli" olduğu söylenir. Aksi takdirde, "denetimsiz" yöntemlerden söz ederiz, bu kelime dağarcığı makine öğreniminden türetilmiştir . Daha önce gördüğümüz tanımlayıcı sınıflandırma yöntemleri ile tahmine dayalı sınıflandırma yöntemleri arasındaki fark, amaçlarının farklı olmasından kaynaklanmaktadır: verilerin daha net bir vizyonunu sağlamak için ilk "verileri azaltın, özetleyin, sentezleyin". Veri kümeleri, ikincisi yeni gelenler için bu hedeflerin değerlerini tahmin etmek için bir veya daha fazla hedef değişkeni açıklar.

Örnekler

Tahmine dayalı yöntemlerin bazı örneklerine başvurabilir ve bunları geldikleri alana göre sunabiliriz.

Yapay zekadan türetilen yöntemler arasında, analist karar ağaçlarını , bazen tahmin için, bazen nicel verileri ayırmak için, vaka temelli akıl yürütme , sinir ağları , sınıflandırma ve işlevlerin yaklaştırılması için radyal tabanlı nöronları kullanabilecektir . genetik algoritmalar , bazıları Bayes ağlarını destekliyor, diğerleri ise nadir olayları arayan Timeweaver gibi .

Analist istatistiklerden ve olasılıktan türetilen yöntemleri kullanmaya daha meyilli ise, bir yaklaşıklık fonksiyonu bulmak için geniş anlamda doğrusal veya doğrusal olmayan regresyon tekniklerine, Fisher'in diskriminant analizine , lojistik regresyona ve kategorik bir değişkeni tahmin etmek için PLS lojistik regresyonuna yönelecektir. veya çok boyutlu bir değişkeni tahmin etmek için genelleştirilmiş doğrusal model (GLM), genelleştirilmiş toplamsal model (GAM) veya log-doğrusal model ve varsayılan ve varsayılmamış çoklu regresyon modelleri .

Bayesci çıkarıma ve daha özel olarak Bayes ağlarına gelince , analist için bir fenomenin nedenlerini ararsa veya bir olayın meydana gelme olasılığını ararsa yararlı olabilirler.

Eksik veriyi tamamlamak isterse, k en yakın komşu yöntemi (K-nn) hizmetindedir.

Algoritmalar listesi her gün gelişir, çünkü hepsi aynı amaca sahip değildir, aynı girdi verilerine uygulanmaz ve hiçbiri her durumda optimal değildir. Ayrıca pratikte birbirlerini tamamlayıcı nitelikte olduklarını kanıtlamakta ve model modeller veya metamodeller oluşturarak akıllıca birleştirerek çok önemli performans ve kalite kazanımları elde etmek mümkündür. ICDM-IEEE, 2006 yılında veri madenciliği dünyasında en fazla etkiye sahip 10 algoritmanın bir sıralamasını yaptı: bu sıralama, bu algoritmaların seçimi ve anlaşılması için etkili bir yardımcıdır.

Stanford Üniversitesi sonbahar sezonunda rekabet vardır 2007 abonelikleri manyetik kartı ile ödenir bir dağıtım ağı her müşteri tarafından görüntülenen baz filmlerde inşa olan bir film için en olası kitleyi belirlemek henüz hiç: Aşağıdaki proje üzerinde iki takım görüldü. Bir ekip, veritabanındaki bilgilerden son derece ince algoritmalar aramaya odaklandı, diğeri ise tam tersine son derece basit algoritmalar aldı, ancak dağıtıcı tarafından sağlanan veritabanını İnternet Film Veritabanının (IMDB) içeriğiyle birleştirdi . bilgileri. İkinci ekip çok daha kesin sonuçlar elde etti. Bir makale, Google'ın verimliliğinin PageRank algoritmasından çok, Google'ın sorgu geçmişlerine çapraz referans vererek ve kullanıcılarının farklı sitelerdeki tarama davranışlarını analiz ederek ilişkilendirebileceği çok büyük miktardaki bilgiden kaynaklandığını öne sürüyor .

Modern hesaplama araçlarıyla, bu iki çözümden biri veya diğeri her projede düşünülebilir, ancak modellerin kalitesini ve performanslarını iyileştirmedeki etkinliklerini kanıtlayan başka teknikler de ortaya çıkmıştır.

Kalite ve performans

Kaliteli bir model, hata oranının olabildiğince düşük olması gereken hızlı bir modeldir. Denetlenen yöntemlerle ilgili olarak numunedeki dalgalanmalara duyarlı olmamalı, sağlam olmalı ve verilerdeki yavaş değişikliklere dayanabilmelidir. Ayrıca basit, anlaşılır olması ve kolay yorumlanabilir sonuçlar üretmesi değerini artırmaktadır. Son olarak, yeniden kullanılabilir olacak şekilde yapılandırılabilir.

Bir modelin kalitesini değerlendirmek için çeşitli göstergeler kullanılır ve bunlar arasında ROC ve kaldırma eğrileri , Gini indeksi ve kök ortalama kare hatası , tahminin gerçeklikle ilişkili nerede olduğunu gösterir ve bu nedenle değer hakkında iyi bir fikir verir. modelin kalitesinin bu bileşeninin.

Sağlamlık ve hassasiyet, modelin kalitesinin diğer iki yönüdür. Verimli bir model elde etmek için teknik, verilerin heterojenliğini sınırlamak, örneklemeyi optimize etmek veya modelleri birleştirmekten oluşur.

Ön bölümleme, popülasyonu sınıflandırmayı, ardından verilerin daha homojen olduğu sınıfların her biri için bir model oluşturmayı ve son olarak sonuçları bir araya getirmeyi önerir.

Model birleştirme ile analist, aynı modeli orijinal örnekten biraz farklı örneklere uygular ve ardından sonuçları ilişkilendirir. Torbalama ve artırılması , örneğin en etkili ve pazarlama 1999 yılında en popüler olduğunu, Artış algoritması tacizden sonra ticari bir teklif yanıt olabilecek insanlar kimlik modelinin üretim gruplarına tekniği torbalama kullanımları.

Son olarak, modellerin kombinasyonu, analistin aynı popülasyona birkaç model uygulamasına ve sonuçları birleştirmesine yol açar. Örneğin ayırıcı analizi ve sinir ağları gibi teknikler kolaylıkla birleştirilebilir.

BT araçları

Yazılım

Veri madenciliği araçlar olmadan var olamaz. BT teklifi, yazılım biçiminde ve ayrıca bazı özel platformlarda mevcuttur. Ticari yazılım alanında pek çok yazılım mevcuttur , ancak özgür yazılım alanında da bir miktar vardır . Diğerlerinden daha iyi bir yazılım yoktur, hepsi onunla ne yapmak istediğinize bağlıdır. Ticari yazılım daha çok şirketler veya keşfedilecek büyük miktarda veriye sahip kuruluşlar için tasarlanmıştır; ücretsiz yazılım ise daha özel olarak öğrenciler, yeni teknikler denemek isteyenler ve KOBİ'ler için tasarlanmıştır. In 2009 , en çok kullanılan araçlar sırayla, vardı, SPSS , RapidMiner (tr) , SAS , Excel , R , KXEN (tr) , Weka , Matlab , KNIME , Microsoft SQL Server , Oracle DM (tr) , STATISTICA ve Corico ( Korelasyonların ikonografisi ). In 2010 , R yanıtladı kullanıcıları arasında en çok kullanılan araçtı Rexer Analytics anket ve STATISTICA en veri Araştırmacılar (% 18) tercih araç olarak ortaya çıktı. STATISTICA , IBM SPSS Modeler ve R, bu Rexer Analytics anketinde hem 2010 hem de 2009'da en yüksek memnuniyet derecelendirmelerini aldı .

Bulut bilişim

Bilgisayar bulut ( cloud computing ) veri ve yazılımların ve / veya kullanımını karşılamak için bir veri madenciliği aracı, ancak internet üzerinden sağlayıcıları tarafından iletilen web hizmetleri bir dizi, değil. Yine de veri madenciliği alanında kullanılabilecek hizmetler bulunmaktadır. Oracle Veri madenciliği, müşterilere veri madenciliği için bir HMI içeren bir Oracle veritabanı içeren bir Amazon Makine Görüntüsü sunarak Amazon'un IaaS'sinde ifşa edilir ; R ve Python için bir görüntü de Amazon Web Services'da mevcuttur . Yalnızca bulutta bulunan ve veri madenciliği alanında uzmanlaşmış aktörler , diğerlerinin yanı sıra Braincube , In2Cloud , Predixion ve Cloud9Analytics gibi hizmetlerini sunar .

Sınırlar ve sorunlar

Veri madenciliği, sınırlamaları olan ve bazı sorunlar ortaya çıkaran bir tekniktir.

Limitler

Yazılım kendi kendine yeterli değildir. Veri madenciliği araçları, sonuçların bir yorumunu sunmaz, veri madenciliğinde uzmanlaşmış bir analist ve verilerin çıkarıldığı mesleği bilen bir kişinin, yazılımın çıktılarını analiz etmek için gerekli olduğunu.

Ek olarak, veri madenciliği yazılımı her zaman bir sonuç verir, ancak hiçbir şey bunun alakalı olduğunu göstermez veya kalitesini göstermez. Ancak, değerlendirme yardımı teknikleri, ücretsiz veya ticari yazılımlarda giderek daha fazla uygulanmaktadır.

Değişkenler arasındaki ilişkiler açıkça tanımlanmamıştır. Veri araştırma araçları, bu ve bu tür değişkenlerin açıklanacak değişken üzerinde bir etkiye sahip olduğunu gösterir, ancak ilişki türü hakkında hiçbir şey söylemez, özellikle ilişkilerin neden ve sonuç olup olmadığı söylenmez .

Dahası, analiz sonuçlarını grafikler, eğriler veya histogramlarla net bir şekilde yeniden üretmek çok zor olabilir. Teknisyen olmayan kişi bazen kendisine verilen cevapları anlamakta güçlük çeker.

Problemler

Üstelik bir frankofon, neofit için kelime hazinesi bir zorluktur, hatta bir sorundur. Bunu gerçekleştirmek için, Fransız ve Anglosakson edebiyatında karşılaşılan kelime dağarcığını belirtmek ilginçtir. Anglosakson kelime dağarcığını referans alarak, kümeleme veri madenciliğinde bir bölümleme, istatistikte ve veri analizinde bir sınıflandırma olarak anlaşılır. Sınıflandırma İngilizce Fransız tarzı veri analizinde veri madenciliği, ayırma analizi veya sınıflandırma sınıflandırma ve istatistikte bir karar problemine karşılık gelir. Son olarak, karar ağaçları veri madenciliğindeki karar ağaçlarıdır ve bu durumda veri analizi alanında segmentasyon hakkında bir şeyler duyabiliriz. Terminoloji belirsizdir.

Verilerin kalitesi verilerinin alaka ve eksiksiz demek ki, veri madenciliği için bir gereklilik, ama yeterli değildir. Veri giriş hataları, mükerrer kayıtlar, zaman referansı olmaksızın doldurulmayan veya doldurulmayan veriler de verilerin kalitesini etkiler. Şirketler, yeni dış düzenlemelere ve iç denetimlere etkin bir şekilde yanıt verebilmek ve miraslarının bir parçası olduğunu düşündükleri verilerinin karlılığını artırmak için veri kalitesi güvence yapıları ve prosedürlerini devreye sokmaktadır.

Birlikte çalışabilirlik bir sistemin farklı satıcılar tarafından oluşturulan diğer sistemlerle çalışmak yeteneğidir. Veri madenciliği sistemleri, birden çok veritabanı yönetim sisteminden , dosya türlerinden, veri türlerinden ve farklı sensörlerden gelen verilerle çalışabilmelidir . Ek olarak, birlikte çalışabilirlik veri kalitesine ihtiyaç duyar. Endüstrinin birlikte çalışabilirlik konusundaki çabalarına rağmen, bazı alanlarda bu kural değil gibi görünüyor.

Veriler, mesleğin sorduğu bir soruyu cevaplamak için toplanır. Veri madenciliği riski, bu verilerin başlangıçta tahsis edilenden farklı bir amaç için kullanılmasıdır. Veri kaçırma, bağlam dışında alıntı yapmaya eşdeğerdir. Ayrıca etik sorunlara da yol açabilir.

Gizlilik hiçbir önlem olmak üzere, alınırsa bireylerin, projelerini madencilik verileri tarafından tehdit edilebilir web arayışı ve kullanımı kişisel verilerin tabi tutulabilir internet veya satın alma alışkanlıkları, tercihleri ve hatta halk sağlığı üzerindeki topladı. Başka bir örnek tarafından sağlanan bilgiler Farkındalık Ofisi ve özellikle de toplam Bilgilendirme Bilinçlendirme tamamen veri madenciliği teknolojisi istismar ve (TIA) programı "biriydi 11 Eylül sonrası " projelerinde olduğu Statesman United Kongresi fon başlamıştı , ancak daha sonra bu programın Amerikan vatandaşlarının mahremiyetine getirdiği özellikle ciddi tehditler nedeniyle onu terk etti. Ama yoluyla şirketleri tarafından toplanan kişisel bilgiler, ifşa edilen hatta olmadan müşteri ilişkileri yönetimi (CRM) araçları , yazarkasa , ATM'ler , sağlık kartları , vb , veri madenciliği teknikleriyle, insanların bilmediği kriterlere göre, insanları iyiden kötüye, potansiyel müşterilere, hastalara veya sosyal yaşamda belirli bir anda oynadığı rollere göre bir grup hiyerarşisine ayırmaya öncülük edebilir. kendilerini. Rakesh Agrawal ve Ramakrishnan Sikrant , bunu akılda tutarak ve bu olumsuz yönü düzeltmek için, insanların mahremiyetini koruyacak veri madenciliğinin fizibilitesini sorguluyor. Diğer bir sorun, kazı için gerekli veri depolama dijital veri edilebilir uğramış . Ve bu durumda, dağıtılmış veritabanları ve kriptografi üzerindeki veri patlaması, var olan ve şirketler tarafından yerine getirilebilecek teknik yanıtların bir parçasıdır.

Özel aramalar

Tüketim verileri için Acxiom , Experian Information Solutions , D & B ve Harte-Hanks veya kitle verileri için Nielsen NV gibi belirli şirketler veya gruplar uzmanlaşmıştır .

Veri madenciliğine (yukarıda açıklanan) ek olarak, bunlar, arama görüntüleri ( resim madenciliği ), web madenciliği ( web veri madenciliği ), veri akışı madenciliği ( veri akışı madenciliği ) ve metin madenciliği ( metin madenciliği ) 2010'larda gelişiyor ve insanları çalıştırdıkları kişisel verileri yayınlamanın riskleri de dahil olmak üzere birçok araştırmacının ve endüstrinin dikkatini çekti .

Bireyleri sosyal geçmişlerine ve tüketici karakterizasyonlarına göre kategorize etmek için yazılım bu şirketler tarafından kullanılmaktadır (örneğin Claritas Prizm ( Claritas Inc. tarafından oluşturulmuş ve Nielsen Company tarafından satın alınmıştır) .

Veri türlerine göre

Bazen veri madenciliği ile ilgili olan daha yeni bir teknik olan ses madenciliği , bir ses akışındaki sesleri algılayabilir. Esas olarak ses tanıma alanında kullanılır ve / veya buna dayanır.

Arama görüntü görüntünün içeriğinde ilgilenilmesi tekniktir. Örneğin, bu görüntünün kopyalarını aramak veya belirli bir nesneyi tespit etmek için, bunları sınıflandırmak, türe göre gruplandırmak veya bir görüntüdeki şekilleri tanımak için bir dizi görüntüden, örneğin web'den karakteristikler çıkarır .

Metin madenciliği yüksek kaliteli bilgiyi ayıklamak için metinlerinin keşfidir. Bu teknik genellikle metin madenciliği anglicism olarak adlandırılır . İnsanlar tarafından insanlar için üretilen metinlerde, bir yenilik veya benzerlik kriterine göre bilginin çıkarılmasından oluşan bir dizi bilgisayar işlemidir. Uygulamada, bu, algoritmalara öğrenme ve istatistik için bilgisayar sistemlerinde basitleştirilmiş bir dil teorisi modeli koymak anlamına gelir . İlgili disiplinler bu nedenle hesaplamalı dilbilim , dil mühendisliği , makine öğrenimi , istatistik ve bilgisayar bilimidir .

Teknik ortamlara göre

Bu, web'in kazılmasıyla, ağı oluşturan muazzam veri kaynağını kullanmak ve web'in kullanımı, içeriği ve yapısındaki modelleri ve kalıpları bulmakla ilgilidir. Web kullanımının kazılması ( Web kullanım madenciliği veya Web günlüğü madenciliği ), sunucu günlüklerinde depolanan yararlı bilgi çıkarma işlemidir. Bu madencilik, metin belgelerini analiz etmek için metin madenciliğini kullanır. Web'in yapısını keşfetmek, web'de depolanan belgeler veya sayfalar arasındaki önceden bilinmeyen ilişkileri analiz etme sürecidir.

Veri akışı madenciliği ( veri akışı madenciliği ) büyük bir hızla sınırsız bir akışı, gelen veri keşfetmek tekniktir ve bazı temel zamanla değişen: örneğin, verilerin analizi, otomotiv sensörler tarafından yayılan akımları. Ancak telekomünikasyon, ağ yönetimi, finansal piyasa yönetimi, gözetim alanlarında ve ATM akışlarının analizi , kredi kartı işlemleri vb. Gibi insanlara daha yakın günlük yaşam aktiviteleri alanlarında uygulama örnekleri bulunabilir .

Faaliyet alanlarına göre

Mekansal veri madenciliği ( mekansal veri madenciliği ) da Yer üzerindeki ölçekte coğrafi veri teknik keşif, ancak astronomik veya mikroskobik , amacı bu metin zamansal veri veya geometrik verileri her ikisini ihtiva eden verilerde ilginç desenler, bulmaktır, vektörler , çerçeveler veya grafikler. Mekansal veriler, değişikliklerin gözlemlenmesi için genellikle uzun bir süre boyunca, farklı tekniklerle, farklı formatlarda sağlanan farklı ölçeklerde bilgi sağlar. Bu nedenle hacimler çok büyüktür, veriler kusurlu ve gürültülü olabilir. Ek olarak, uzamsal veriler arasındaki ilişkiler genellikle örtüktür: bu uzmanlaşmada küme , topolojik , yönlü ve metrik ilişkiler sıklıkla karşılaşılır. Mekansal veri madenciliği bu nedenle özellikle zordur.

Mekansal veri madenciliği keşfetmek için kullanılan yer bilimleri verilerini, suç harita verilerini, sayım verileri , yol trafiği , kanser salgınları , vb

Gelecekte

Veri madenciliğinin geleceği, dijital verilerin geleceğine bağlıdır. Web 2.0 , bloglar , wiki'ler ve bulut hizmetlerinin ortaya çıkmasıyla birlikte, dijital veri hacminde bir patlama meydana geldi ve bu nedenle veri madenciliği için hammadde birikintileri önemli hale geldi.

Birçok alan kendi ihtiyaçları için veri madenciliğinden hala çok az yararlanmaktadır. Blogosferden gelen verilerin analizi hala erken aşamalarındadır. Örneğin, İnternet medyasının nasıl çalıştığını analiz etmek için "bilgi ekolojisi" ni anlamak yeni başlıyor.

Bireylerin mahremiyetiyle ilgili sorunlar çözüldüğü sürece, veri madenciliği tıp alanındaki ve özellikle hastane risklerinin önlenmesindeki soruların ele alınmasına yardımcı olabilir.

Azınlık Raporu'nun bilim kurgusuna kadar gitmeden, önsel olmadan profil oluşturma teknikleri , bazı yeni etik sorunlar ortaya çıkarabilecek veri madenciliği ile mümkün hale getirilmiştir. Bir BBC Horizon belgeseli bu soruların bazılarını özetliyor.

Son olarak, yeni verilerin ve yeni alanların ortaya çıkmasıyla teknikler gelişmeye devam ediyor.

Notlar ve referanslar

(fr) Bu makale kısmen veya tamamen Wikipedia makalesinden alınmıştır İngilizce başlıklı " Veri madenciliği " ( yazarların listesini görmek ) .

Notlar

Terim tavsiye Kanada'da OQLF ve Fransa'daki tarafından DGLFLF ( Resmi Gazete'de 27 Şubat 2003) tarafından FranceTerme
Aynı örneği takip ederek, "Bir ayda ciro ne olabilir?" Sorusuna cevap vermeyi sağlar. "
. Bu dağılımların hesaplanması kolaydır ve aralarında zaten yaygın olarak kullanılan yasaları (normal yasa, negatif üstel dağılım, Zipf ve Mandelbrot yasaları ...), onları oluşturanlarla ilgisi olmayan yöntemlerle buluyoruz. Artık entropinin hesaplanmasının "Psi testi" modeline bir dağılımın uygunluk testi , asimptotik olarak χ² Yasasına eşdeğerdir .
Bu belgedeki endüstrisi tarafından yapılan standardizasyon ve birlikte çalışabilirlik çabaları görüyoruz (in) Arati KADAV Aya Kawale ve Pabitra Mitra, " Veri Madenciliği Standartları " [PDF] üzerine datamininggrid.org (erişilen 13 Mayıs 2011 tarihinde )
Örneğin, bir e-posta yöneticisi programı bir e-postayı yasal e-posta veya istenmeyen posta olarak sınıflandırmaya çalışabilir . Yaygın olarak kullanılan algoritmalar arasında karar ağaçları , en yakın komşular , Naif Bayes sınıflandırması , sinir ağları ve geniş marj ayırıcıları (SVM'ler) bulunur.
Bazıları burada açıklanabilir: Guillaume Calas, " Ana veri madenciliği algoritmalarının çalışmaları " [PDF] , gu Guillaume.calas.free.fr adresinde ,2009(erişim tarihi 14 Mayıs 2011 )
gibi CART , CHAID , ECHAID , QUEST , C5 , C4.5 ve karar ağacı ormanları
Mesela tek veya çok katmanlı algılayıcıların olan veya olmayan hataların geri yayılım
olarak böyle doğrusal , çoklu doğrusal , lojistik , PLS , ANOVA , MANOVA , ANCOVA veya MANCOVA regresyon .
"Sağlamlık" ve "kesinlik" tanımları için Veri madenciliği sözlüğüne bakın .
IaaS , Amazon'da Amazon Elastic Compute Cloud adlı bir hizmet olarak Altyapı anlamına gelir
Veri madenciliği modelleri, kişisel verilerin atıldığı toplu verilerle ilgili olduğundan.
Göre Tim Finin Anupam Joshi, Pranam Kolari, Akshay Java, Anubhav Kale ve Amit Karandikar, “ sosyal medya ve çevrimiçi toplulukların bilgi ekoloji, ” en aisl.umbc.edu (erişilen 19 Haziran 2011 ) .

Özel kitaplar

Tufféry 2010 , s. 506
Nisbet, Elder and Miner 2009 , s. 733
Tufféry 2010 , s. 44
Tufféry 2010 , s. 161
Tufféry 2010 , s. 198
Tufféry 2010 , s. 244
Tufféry 2010 , s. 297
Nisbet, Elder and Miner 2009 , s. 235
Tufféry 2010 , s. 518
Tufféry 2010 , s. 121
Tufféry 2010 , s. 158
Kargupta ve ark. 2009 , s. 283
Kargupta ve diğerleri. 2009 , s. 357
Kargupta ve diğerleri. 2009 , s. 420
Kargupta ve ark. 2009 , s. 471
Kargupta ve ark. 2009 , s. 1-281

diğer referanslar

" Veri Madenciliği Veri Madenciliğinin Tanımı "
"13 Ekim 2011 tarihi Atölye Etalab: Datajournalisme" ( 4 th online video ile Etalab arasında Workshop 2011 70 katılımcı 13 Ekim), 8 Ekim 2013 erişti.
(in) Kurt Thearling, " Veri Madenciliği An Introduction " üzerine thearling.com (erişildi 2 May 2011 ) .
Jean-Claude Oriol, " İstatistiklere tarihsel bir yaklaşım " [PDF] , statistix.fr'de (erişim tarihi 12 Mayıs 2011 )
(içinde) Myron Tribus, Rasyonel açıklamalar, kararlar ve tasarımlar ,1969, 478 p. ( çevrimiçi okuyun ).
(in) Nikhil Pal ve Lakhmi Jain , bilgi keşfi ve veri madenciliğinde teknik gelişmiş , Springer,2005, 254 s. ( ISBN 978-1-85233-867-1 )
(in) , Carole Albouy'dan " Bir zaman ... veri madenciliği Once upon " üzerine lafouillededonnees.blogspirit.com (erişilen 23 Ekim 2011 )
(in) Patricia Cerrito, " Matematik Bölümünde Veri Madenciliği Uygulamaları Alanı " [PDF] , math.louisville.edu'da ( 31 Mayıs 2011'de erişildi )
(in) Maryann Lawlor, " Akıllı Şirketler Dig Veri " üzerine afcea.org (erişilen 31 Mayıs 2011 )
Christine Frodeau, " Veri madenciliği, Tüketici Davranışı Tahmin Aracı " [PDF] , creg.ac-versailles.fr'de ( 12 Mayıs 2011'de erişildi )
(içinde) Colleen McCue , Veri Madenciliği ve Tahmine Dayalı Analiz: istihbarat toplama ve suç analizi , Amsterdam / Boston, Elsevier,2007, 313 s. ( ISBN 978-0-7506-7796-7 )
Frank Audet ve Malcolm Moore, " Bir Çağrı Merkezinde Kalite İyileştirme " [PDF] , jmp.com'da ( 12 Mayıs 2011'de erişildi )
(in) Henry Abarbanel Curtis Callan, William Dally, Freeman Dyson , Terence Hwa, Steven Koonin Herbert Levine, Oscar Rothaus Roy Schwitters Christopher Stubbs ve Peter Weinberger, " Veri madenciliği ve insan genomu " [PDF] üzerine fas. org ( 12 Mayıs 2011'de erişildi ) , s. 7
(in) " Sektörler / 2010 yılında Analitik / Veri Madenciliği Alanları " ile ilgili kdnuggets.com ,Ekim 2010( 12 Mayıs 2011'de erişildi )
(in) Yi Peng , Gang Kou , Yong Shi ve Zhengxin Chen , " Veri Madenciliği ve Bilgi Keşfi Alanı için Tanımlayıcı Bir Çerçeve " , International Journal of Information Technology and Decision Making , Cilt. 7, n, o , 4,2008, s. 639 ile 682 (10.1142 / S0219622008003204)
(in) " SIGKDD : Resmi Web Sitesi " üzerinde sigkdd.org (erişilen 13 Mayıs 2011 tarihinde )
(in) " : ACM SIGKDD Konferanslar " üzerine kdd.org (erişilen 13 Mayıs 2011 )
(in) ACM, New York , " SIGKDD Explorations " üzerine kdd.org (erişilen 13 Mayıs 2011 )
(in) " 5th (2009) " , dmin--2009.com'da (erişim tarihi 13 Mayıs 2011 )
(in) " 4th (2008) " , dmin-2008.com'da (erişim tarihi 13 Mayıs 2011 )
(in) " 3rd (2007) " , dmin-2007.com'da ( 13 Mayıs 2011'de erişildi )
(in) " 2 of (2006) " , dmin-2006.com'da ( 13 Mayıs 2011'de erişildi )
(içinde) " 1st (2005) " , informatik.uni-trier.de (erişim tarihi 13 Mayıs 2011 )
(in) " ICDM : Resmi Web Sitesi " üzerinde cs.uvm.edu (erişilen 13 Mayıs 2011 tarihinde )
(in) " Veri Madenciliği üzerinde IEEE Uluslararası Konferansı " üzerine informatik.uni-trier.de (erişilen 13 Mayıs 2011 )
(in) " ICDM09, Miami, FL " üzerine cs.umbc.edu (erişilen 13 Mayıs 2011 )
(in) " ICDM08, Pisa (İtalya) " üzerine icdm08.isti.cnr.it (erişilen 13 Mayıs 2011 )
(in) " ICDM07, Omaha, NE " üzerine ist.unomaha.edu (erişilen 13 Mayıs 2011 )
(in) " ICDM06, Hong Kong " ile ilgili comp.hkbu.edu.hk (erişilen 13 Mayıs 2011 )
(in) " ICDM05, Houston, TX " üzerine cacs.ull.edu (erişilen 13 Mayıs 2011 )
(in) " ICDM04, Brighton (UK) " üzerine icdm04.cs.uni-dortmund.de (erişilen 13 Mayıs 2011 )
(inç) " ICDM01, San Jose, CA. » , On cs.uvm.edu (erişim tarihi 13 Mayıs 2011 )
(en) " CRoss Industry Standard Process for Data Mining : Process Model " , crisp-dm.org adresinde ,2007(erişim tarihi 14 Mayıs 2011 )
(in) Usama Fayyad'ın Gregory Piatetsky-Shapiro ve PADHRAIC Smyth, " Veritabanlarında Bilgi Keşfi Veri Madenciliği itibaren " [PDF] üzerine kdnuggets.com ,1996(erişim tarihi 14 Mayıs 2011 )
(in) " STATISTICA, Statistics Glossary, Models for Data Mining " on statsoft.com (erişim tarihi 13 Mayıs 2011 )
(in) " SAS SEMMA " üzerine sas.com (erişilen 13 Mayıs 2011 )
(inç) Ana Azevedo ve Manuel Filipe Santos , " KDD SEMMA ve CRISP-DM: paralel bir genel bakış " [PDF] , IADIS,2008( ISBN 978-972-8924-63-8 , erişim tarihi 14 Mayıs 2011 ) ,s. 184
isixsigma, “ Altı Sigma Nedir? » , İsixsigma.com'da ( 15 Mayıs 2011'de erişildi )
StatSoft, " Six Sigma DMAIC " , statsoft.com'da ( 15 Mayıs 2011'de erişildi )
(in) " Six Sigma on line " , Aveta Business Institute ( 15 Mayıs 2011'de erişildi )
(inç) " Çapraz doğrulama ve önyükleme nedir? » , Faqs.org'da ( 15 Mayıs 2011'de erişildi )
(in) Jing Gao Jiawei Han ve Wei Fan, " : Denetimli ve denetimsiz Yöntemleri Uzlaştırılan Birlikte Gücü Açık " üzerine ews.uiuc.edu (erişilen 15 Mayıs 2011 )
(in) Meryem McGlohon, " Veri Madenciliği Afetler: Bir erteleme " [PDF] üzerine cs.cmu.edu (erişilen 14 Mayıs 2011 ) , s. 2
(in) " Ensemble Yöntemleri An Introduction " üzerine DRC (erişilen 14 Mayıs 2011 )
(inç) Dorian Pyle , Veri Madenciliği için Veri Hazırlama , Morgan Kaufmann,1999, 560 p. ( ISBN 978-1-55860-529-9 , çevrimiçi okuyun )
(in) Kurt Thearling, " ' ' Veri Madenciliğine Giriş » , On thearling.com ( 14 Mayıs 2011'de erişildi ) ,s. 17
Stéphane Tufféry, " Tanımlayıcı Teknikler " [PDF] , data.mining.free.fr'de ,2007(erişim tarihi 14 Mayıs 2011 ) ,s. 5
Jacques Baillargeon, " Keşfedici Faktör Analizi " [PDF] , uqtr.ca'da ,2003(erişim tarihi 14 Mayıs 2011 ) ,s. 4
Philippe Besse ve Alain Baccini, " İstatistiksel Araştırma " [PDF] , math.univ-toulouse.fr'de ,Haziran 2010(erişim tarihi 14 Mayıs 2011 ) ,s. 7 ve sonraki.
Alexandre Aupetit, " Yapay sinir ağları: küçük bir giriş " , labo.algo.free.fr adresinde ,Mayıs 2004(erişim tarihi 14 Mayıs 2011 )
(in) Nikhil R. Pal, Pal Kuhu James M. Keller ve James C. Bezdek, comp.ita.br'de " Fuzzy C-Means Clustering of Incomplete Data " [PDF] , comp.ita.br ,Ağustos 2005(erişim tarihi 14 Mayıs 2011 )
(in) " ICDM Top 10 algoritmaları veri madenciliği " [PDF] üzerine cs.uvm.edu (erişilen 14 Mayıs 2011 )
(in) Wei-Yin Loh ve Shih Yu-Shan, " Sınıflandırma Ağaçlar Bölünmüş Seçim Yöntemleri " [PDF] üzerine math.ccu.edu.tw ,1997(erişim tarihi 14 Mayıs 2011 )
(in) Leo Breiman , " Rastgele Ormanları " [PDF] üzerine springerlink.com ,2001(erişim tarihi 14 Mayıs 2011 )
Ricco Rakotomalala, " Karar Ağaçları " [PDF] , www-rocq.inria.fr adresinde ,2005(erişim tarihi 14 Mayıs 2011 )
(in) Simon Haykin , Sinir Ağları: Kapsamlı bir Vakıf , Prentice Hall ,1998, 842 s. ( Mayıs ISBN 978-0-13-273350-2 )
M. Boukadoum, " Radial Base Neural Networks " [ppt] , on labunix.uqam.ca (erişim tarihi: 14 Mayıs 2011 )
Jean-Marc Trémeaux, " Bayes ağlarının yapısal tanımlanması için genetik algoritmalar " [PDF] , naku.dohcrew.com adresinde ,2006(erişim tarihi 14 Mayıs 2011 )
Thomas Vallée ve Murat Yıldızoğlu, “ Genetik algoritmaların sunumu ve ekonomideki uygulamaları ” [PDF] , sc-eco.univ-nantes.fr'de ,2003(erişim tarihi 14 Mayıs 2011 ) ,s. 15
Olivier Parent ve Julien Eustache, " Les Réseaux Bayésiens " [PDF] , liris.cnrs.fr'de ,2006(erişim tarihi 14 Mayıs 2011 )
Gilles Balmisse, " Bayes Ağları " [PDF] , gillesbalmisse.com'da ,2006(erişim tarihi 14 Mayıs 2011 )
Samos, " Bayes Ağları " [PDF] , samos.univ-paris1.fr'de ,2003(erişim tarihi 14 Mayıs 2011 )
" Belirsizlikten kurtulmak için Bayes ağları çağına girin " , Bayesia (erişim tarihi 14 Mayıs 2011 )
Valérie Monbet, " Eksik veriler " , perso.univ-rennes1.fr'de ( 14 Mayıs 2011'de başvurulmuştur ) , s. 27
Didier Durand, " Google PageRank: algoritma 200 parametreyi hesaba katıyor! » , Media-tech.blogspot.com'da ,2008(erişim tarihi 14 Mayıs 2011 )
Bertrand Liaudet, " Cours de Data Mining 3: Modelisation Presentation Générale " [PDF] , bliaudet.free.fr'de (erişim tarihi: 14 Mayıs 2011 )
(in) David Opitz ve Richard Macklin, " Popular Ensemble Methods: Ampirical Study " [PDF] , d.umn.edu'da ,1999(erişim tarihi 14 Mayıs 2011 )
(in) " Veri Madenciliği, Analytics ve Bilgi Keşfi için Yazılım Suites " ile ilgili KDNuggets (erişilen 15 Mayıs 2011 )
" sanal evren editörler için Datamining platformu " üzerinde, marketingvirtuel.fr (erişilen May 15, 2011 )
(in) Dekan W. Abbott, Philip I. Matkovsky ve Elder John IV " Sistemlerinde 1998 IEEE Uluslararası Konferansı, Man ve Sibernetik, San Diego, CA " [PDF] üzerine datamininglab.com ,14 Ekim 1998( 15 Mayıs 2011'de erişildi )
(in) " Veri Madenciliği Araçları Anket Kullanılan " üzerine kdnuggets.com ,2009( 15 Mayıs 2011'de erişildi )
(in) Rexer Analytics , " 2010 Veri Miner Anketi " ile ilgili rexeranalytics.com (erişilen 19 Haziran 2011 )
(inç) " Rexer Analytics " , Rexer Analytics ( 19 Haziran 2011'de erişildi )
Dave Wells, “ Cloud Analytics'te Neler Oluyor? » , B- eye-network.com'da ( 2 Haziran 2011'de erişildi )
John Smiley ve Bill Hodak “ : Amazon EC2 Oracle Database Kahini White Paper, ” en oracle.com (erişilen 4 Haziran 2011 )
Drew Conway, " Python ve R'de bilimsel bilgi işlem için Amazon EC2 yapılandırması " , kdnuggets.com'da ( 4 Haziran 2011'de erişildi )
ipleanware.com
" In2Clouds Solutions " , In2Cloud (erişim tarihi 5 Haziran 2011 )
Predixion, " Cloud Predixion Solutions " , predixionsoftware.com adresinde ( 5 Haziran 2011'de erişildi )
" Cloud9 Solution Overview " , Cloud9 ( 14 Haziran 2011'de erişildi )
(in) Jeffrey Seifer, " Kongre için CRS ertelemesi " [PDF] biotech.law.lsu.edu üzerinde ,2007( 15 Mayıs 2011'de erişildi )
Laetitia Hardy, “ Şirket içinde veri kalitesi neden önemli hale geliyor? » , Decideo'da ,2007( 15 Mayıs 2011'de erişildi )
(in) Jeffrey Seifert, " Kongre için CRS ertelemesi " [PDF] biotech.law.lsu.edu üzerinde ,2007( 15 Mayıs 2011'de erişildi ) ,s. 27
(in) " Uluslararası Çalıştay Pratik Kişisel Gizlilik Veri Madenciliği üzerinde " üzerine cs.umbc.edu ,2008( 15 Mayıs 2011'de erişildi )
(in) , Martin Meint ve Jan Möller " Gizlilik Veri Arama korunması " [PDF] üzerine fidis.net (erişilen 15 Mayıs 2011 tarihinde )
(in) , Kirsten Wahlström John F. Roddick Rick Sarre Vladimir Estivill-Castro ve Denise de Vries " Yasal ve veri madenciliği Gizlilik Koruma Teknik Sorunlar " üzerine irma-international.org ,2007( 15 Mayıs 2011'de erişildi )
(in) Rakesh Agrawal ve Ramakrishnan Sikrant , " gizlilik Veri Arama " [PDF] üzerine cs.utexas.edu (erişilen 15 Mayıs 2011 )
(in) , Murat Kantarcıoğlu " Gizlilik Giriş Veri Madenciliği Dağıtık koruyarak " [PDF] üzerine wiki.kdubiq.org (erişilen 15 Mayıs 2011 tarihinde )
Patrick Gros, " AS görüntü madenciliğinden haberler ve anlamsal özelliklerin ortaya çıkışı " [PDF] , liris.cnrs.fr adresinde ,16 Temmuz 2003( 15 Mayıs 2011'de erişildi )
(in) Mohamed Medhat Gaber , Arkady Zaslavsky ve Shonali Krishnaswamy " Veri Akışları: Bir Gözden Geçirme " [PDF] üzerine sigmod.org ,2005( 15 Mayıs 2011'de erişildi )
(in) Chih-Hsiang Li, Ding Ying Chiu Yi-Hung Wu ve Arbee LP Chen , " Madencilik Bir Zaman-Duyarlı Sürme Pencere ile Veri Akımlar sık itemsets " [PDF] üzerine siam.org ,2005( 15 Mayıs 2011'de erişildi )
(in) Hillol Kargupta, Ruchita Bhargava, Kun Liu, Michael Powers, Patrick Blair , Samuel Bushra James Mat, Kakali Sarkar Martin Klein, Mitesh Vasa ve David Handy, " Vedalar: Mobil ve Real için Veri Akış Madencilik Sistemi Dağıtılmış - Zamanlı Araç İzleme ” [PDF] , siam.org'da ,2004( 15 Mayıs 2011'de erişildi )
(in) " Mekansal Veri Tabanı ve Mekansal Veri Madenciliği Araştırma Grubu : Resmi Web Sitesi " ile ilgili spatial.cs.umn.edu ,2011( 15 Mayıs 2011'de erişildi )
(in) Shashi Shekhar ve pusheng Zhang, " Mekansal Veri Madenciliği: Başarıları ve Araştırma İhtiyaçları " [PDF] üzerine spatial.cs.umn.edu ,2004( 15 Mayıs 2011'de erişildi )
" IDC , 10 yıl içinde dünya çapında üretilen veri hacminde bir patlama öngörüyor " , lemagit.fr'de (erişim tarihi 21 Mayıs 2011 )
(in) , Joseph A Bernstein, " Büyük Fikir: gerçekleşmeden önce Suçlarla görünce " üzerine discovermagazine.com ,23 Ocak 2012(erişim tarihi 23 Eylül 2020 ) .
(in) " FBI terör soruşturmalarında profilleme kullanabilir " üzerine msnbc.com ,2 Temmuz 2008(erişim tarihi 23 Eylül 2020 ) .
Büyük Veri Çağı

Ayrıca görün

İlgili Makaleler

İstatistik

Çok değişkenli analiz
Veri analizi
Büyük veri
Segmentasyon (pazarlama)
Nielsen PRIZM (tüketici kategorizasyon sistemi)

Yapay zeka

Makine öğrenme
Otomatik doğal dil işleme
Hesaplamalı dilbilimleri
Kendinden uyarlamalı kart (Sinir ağı örneği: Kohonen kartı (SOM / TOM))

Karar için yardım

Başvurular

Kaynakça

(en) Robert Nisbet , John Elder ve Gary Miner , Handbook of Statistical Analysis & Data Mining Applications , Amsterdam / Boston, Academic Press,2009, 823 s. ( Mayıs ISBN 978-0-12-374765-5 )
(tr) Hillol Kargupta , Jiawei Han , Philip Yu , Rajeev Motwani ve Vipin Kumar , Yeni Nesil Veri Madenciliği , CRC Press,2009, 3 e ed. , 605 s. ( Mayıs ISBN 978-1-4200-8586-0 )
Stéphane Tufféry , Veri Madenciliği ve karar verme istatistikleri: veri zekası , Paris, Technip sürümleri,2010, 705 s. ( ISBN 978-2-7108-0946-3 , çevrimiçi okuyun )
(tr) Phiroz Bhagat , Örüntü Tanıma inndustry , Amsterdam / Boston / Londra, Elsevier,2005, 200 p. ( Mayıs ISBN 978-0-08-044538-0 )
(en) (en) Richard O. Duda, Peter E. Hart, David G. Stork, Örüntü Sınıflandırması , Wiley-Interscience,2001( ISBN 0-471-05669-3 ) [ basımların ayrıntıları ]
(en) Yike Guo ve Robert Grossman , High Performance Data Mining: Scaling Algorithms, Applications and Systems , Berlin, Springer,200, 112 s. ( ISBN 978-0-7923-7745-0 , çevrimiçi okuyun )
(en) Ingo Mierswa, Michael Wurst, Ralf Klinkenberg, Martin Scholz ve Tim Euler, " YALE: Karmaşık Veri Madenciliği Görevleri için Hızlı Prototipleme " , 12. ACM SIGKDD Uluslararası Bilgi Keşfi ve Veri Madenciliği Konferansı Bildirileri (KDD-06) , ACM,2006, s. 935-940 ( ISBN 1595933395 , DOI 10.1145 / 1150402.1150531 , çevrimiçi sunum )
Daniel Larose ( ticaret. Thierry Vallaud), Veriden bilgiye: Veri madenciliğine giriş (1Cédérom) , Vuibert,2005, 223 s. ( ISBN 978-2-7117-4855-6 )
René Lefébure ve Gilles Venturi , Veri Madenciliği: Müşteri ilişkileri yönetimi: web sitesi özelleştirmeleri , Eyrolles,2001, 392 s. ( Mayıs ISBN 978-2-212-09176-2 )
(en) Pascal Poncelet , Florent Masseglia ve Maguelonne Teisseire , Veri Madenciliği Modelleri: Yeni Yöntemler ve Uygulamalar , Fikir Grubu Referansı,2007, 307 s. ( ISBN 978-1-59904-162-9 )
(en) Pang-Ning Tan , Michael Steinbach ve Vipin Kumar , Veri Madenciliğine Giriş , Pearson Addison Wesley,2007, 769 s. ( ISBN 978-0-321-32136-7 ve 0-321-32136-7 , OCLC 58729322 )
(tr) Ian Witten ve Eibe Frank , Veri Madenciliği: Pratik Makine Öğrenimi Araçları ve Teknikleri , Morgan Kaufmann,1999, 371 s. ( ISBN 978-1-55860-552-7 , çevrimiçi okuyun )
(tr) Stéphane Tufféry , Veri Madenciliği ve Karar Verme İstatistikleri , John Wiley & Sons,2011, 716 s. ( ISBN 978-0-470-68829-8 )
(tr) B. Efron , İstatistik Annals: Bootstrap yöntemlerle: jackknife Başka bir bakış , Matematiksel İstatistik Enstitüsü,1973( ISSN 0090-5364 )
(tr) Leo Breiman , Makine Öğrenimi: torbalama belirleyicileri , Kluwer Academic Publishers Hingham,1996( ISSN 0885-6125 )