Bir model, açıklanacak bir veya daha fazla değişkeni Y = F (X) fonksiyonel bir ilişki ile açıklayıcı X değişkenlerine bağlar.
İstatistiksel modellerin en yaygın kullanılanıdır.
P değişkenlerinin n gözlemine ( i = 1,…, n ) sahibiz . Regresyon denklemi yazılır
veya
Gözlemlerden a j katsayılarının ve model hatasının hesaplanması, iyi anlaşılmış bir sorundur (bkz. Çoklu doğrusal regresyon ).
Modele giren değişkenlerin seçimi daha zordur. Uygulanabilir veya uygulanamaz.
Önceki modelde, yalnızca katsayılar "veriler tarafından yönlendirilir", modelin polinom yapısı, a priori varsayımını yapan kullanıcı tarafından (problem konusundaki uzmanlığına göre) empoze edilir:
İki açıklayıcı değişkene sahip bir polinom modeline örnek:
Açıklayıcı değişkenlerin sayısı fazla olduğunda, bazı değişkenler birbiriyle ilişkili olabilir. Bu durumda kopyaları ortadan kaldırmak gerekir. Bunu yapmak için, yazılım adım adım seçim yöntemlerini kullanır (artan, azalan veya karışık).
Gerçek şu ki, nihai modelin kalitesi büyük ölçüde değişkenlerin seçimine ve polinomun derecesine bağlıdır.
Aksine, "varsayılmayan" model , hem matematiksel yapısı hem de katsayıları bakımından tamamen " veriye dayalıdır ".
Açıklayıcı değişkenlerin seçimi, model hakkında önceden bilgi sahibi olmayı gerektirmez: aşağıdakileri içeren çok geniş bir değişkenler kümesi arasında gerçekleşir:
Seçim, aşağıdaki prensibe göre regresyon katsayılarının hesaplanmasından önce yapılır :
Azalan önem sırasına göre sıralanmış bulunan liste, bilinmeyenlerden ( n ) daha fazla terime sahip olamaz . Modelde yalnızca bir terim tutulursa, listedeki ilk terim olmalıdır. Yalnızca ikisi tutulursa, ilk ikisi olur vb.
Aslında, listedeki terimlerin her biri, öncekiler tarafından açıklanmayan artığı "açıkladığından", ikincisi belki de yalnızca "gürültüyü" açıklamaktadır. Hangi durdurma kriteri seçilmeli?
Modelde tutulan terimlerin sayısı, örneğin, tahmin standart hatasını SEP (Standart Tahmin hatası) en aza indiren veya Fisher F'yi maksimize eden terim olabilir . Bu terim sayısı, kullanıcı tarafından fiziksel faktörlerden de seçilebilir.
Bu " cimri " model , yani birkaç terim (burada üç) içerir, 5 değişken içerir ve fiziksel gerçekliğe polinom modelinden daha iyi yapışır. Aslında, "E ve G güçlü" anlamına gelen "E ve G" birleşimi, fiziksel gerçeklikte (örneğin: kimyada kataliz) EG tipi bir polinom teriminden daha sık karşılaşılır.
Öngörülmemiş bir model, serinin harmonik ayrışmasında da etkili olacaktır.
Aslında bu ilke, düzensiz örneklemede de geçerlidir ( hareketli ortalama türü , ARIMA veya Box ve Jenkins yöntemlerinin hatalı olduğu durumlarda), durağan olmayan durumlarda ( Fourier analizinin geçerli olmadığı ) olduğu gibi . . "Merdiven basamakları", "V", "lojistik kırılmalar", periyodik modeller ve izole edilmiş tepeler veya "dalga parçaları" gibi kazara meydana gelen olaylardaki eğilim kırılmalarıyla çeşitli döngülerin ve mevsimselliğin engellemelerinin tespit edilmesini ve çözülmesini sağlar.
Bu örneğin verileri internette mevcuttur (bkz. Colas Promosyon Fiyat Etkisi [1] )
Büyük bir kutu mağazasında iki ürün satışa sunulmaktadır. Gondollar öne çıkarılabilir veya gösterilmeyebilir, fiyatlar değişebilir ve katılım depoya dahil edilebilir.
İki ürünün her biri için elde edilen varsayılmamış modeller şunlardır:
1 SATIŞ = 311,6 - 1386. Pri] 1GondolaForward + 492.4 Frekans ve 2Fiyat R2a = 0,849, Q2 = 0,841, F = 220,4, SEP = 86,28Bu denklemlerin terimleri azalan önemle sıralanmıştır ve bunların olumlu veya olumsuz etkileri katsayıların işaretine bağlıdır.
Bu nedenle, mantıksal etkileşimlerin sembollerinin anlamını hesaba katarak şunu çıkarırız:
Modelleri , korelasyonların ikonografisi türünün bir veri analizi ile ilişkilendirmek genellikle yararlıdır :
Bir yandan, ürün 1'in satışının olumlu bağlantılarını görüyoruz :
Öte yandan, ürün 1'in satışının negatif bağlantıları :
Burada kullanılan Kaçkar'ın (1985) verileri, çeşitli veri işleme teknikleri için örnek teşkil etmiştir. D. Collombier: Deney tasarımı ve endüstriyel kalitenin iyileştirilmesi. Taguchi yöntemine bir alternatif. RSA, cilt 40, n ° 2 (1992), sayfa 31-43. [2]
Kamyonların süspansiyonu için kullanılan yaprak yayların bükülmesini iyileştirmek istiyoruz. Slaytlar bir fırında ısıtılır, bir preste bükülür ve daha sonra bir yağ banyosunda soğutulur. 8 inç'e yakın bir bükme oku elde etmek istiyoruz.
İki seviyede (düşük bir değer ve yüksek bir değer) kontrollü üretim faktörleri şunlardır:
8 test (imalat faktörleri için) içeren seçilen deneysel tasarım bu nedenle soğutma sıcaklıklarının her biri için iki kez tekrarlanır. Bu 16 testtir.
Ek olarak, kontrolsüz gürültü kaynaklarını hesaba katmak için testlerin her biri 3 kez tekrarlanır. Yani toplam 48 test.
Deneyin cevapları
Aşağıdaki tabloda, imalat faktörlerinin seviyeleri zayıf için -1 ve güçlü için 1 olarak belirtilmiştir. Soğutma sıcaklığı seviyesi zayıf için 1 ve güçlü için 2 olarak belirtilmiştir.
T ° Fırın | ısıtma | tTransfer FourPress | tSubPress | Soğutma T ° | Ymoy | Sinyal / Gürültü | |
---|---|---|---|---|---|---|---|
1 | -1 | -1 | -1 | -1 | 1 | 7.79 | 5.426739 |
2 | -1 | -1 | -1 | -1 | 2 | 7.29 | 5.426739 |
3 | 1 | -1 | -1 | 1 | 1 | 8.07 | 11.6357 |
4 | 1 | -1 | -1 | 1 | 2 | 7.733 | 11.6357 |
5 | -1 | 1 | -1 | 1 | 1 | 7.52 | 6.360121 |
6 | -1 | 1 | -1 | 1 | 2 | 7.52 | 6.360121 |
7 | 1 | 1 | -1 | -1 | 1 | 7.63 | 8.658226 |
8 | 1 | 1 | -1 | -1 | 2 | 7.647 | 8.658226 |
9 | -1 | -1 | 1 | 1 | 1 | 7,94 | 7.337677 |
10 | -1 | -1 | 1 | 1 | 2 | 7.4 | 7.337677 |
11 | 1 | -1 | 1 | -1 | 1 | 7.947 | 10.44231 |
12 | 1 | -1 | 1 | -1 | 2 | 7.623 | 10.44231 |
13 | -1 | 1 | 1 | -1 | 1 | 7.54 | 3,700976 |
14 | -1 | 1 | 1 | -1 | 2 | 7.203 | 3,700976 |
15 | 1 | 1 | 1 | 1 | 1 | 7.687 | 8,860563 |
16 | 1 | 1 | 1 | 1 | 2 | 7.633 | 8,860563 |
Ymoy oku ve Sinyal / Gürültü oranı için elde edilen varsayılmamış modeller şunlardır:
Bu denklemlerin terimleri azalan önemle sıralanmıştır (her biri öncekilerle açıklanmayan kalıntıyı açıklar) ve bunların olumlu veya olumsuz etkileri katsayıların işaretine bağlıdır.
Bu nedenle, mantıksal etkileşimlerin sembollerinin anlamını hesaba katarak şunu çıkarırız:
Bu modeller (faktörleri değiştirerek çoklu çekimlerle), yüksek Sinyal / gürültü oranı ile ortalama 8 inçlik bir Y sapması için optimum uzlaşmayı bulmaya izin verir. Bunun için, arzu edilirlik eğrilerini tanımlayabiliriz (genel arzu, ikisinin bir uzlaşmasıdır):
Aşağıdaki tablo, "Seçim" sütununda, bu uzlaşmayı destekleyen değerleri vermektedir. Bir doğrulama testinin konusu olabilirler.
Düşük | Yüksek | Tercih | |
---|---|---|---|
T ° Fırın | -1 | 1 | 0,99 |
ısıtma | -1 | 1 | -0,92 |
tTransferForPress | -1 | 1 | 0 |
tSubPress | -1 | 1 | 0.17 |
Soğutma T ° | 1 | 2 | 1.03 |
Ymoy | 7.203 | 8.07 | 7,98 |
Sinyal / Gürültü | 3.701 | 11.636 | 11.04 |
Olgunun daha sentetik bir görünümü için modelleri , korelasyonların ikonografisi gibi bir veri analizi ile birleştirebiliriz :
Şekil 2 , bağlantı analizi.Kesintisiz çizgiler: dikkat çekici pozitif korelasyonlar.Noktalı çizgiler: dikkat çekici negatif korelasyonlar.Bir yandan, Ymoy'un (yayların oku) pozitif bağlantılarını görüyoruz:
Öte yandan, olumsuz Ymoy'u şunlarla ilişkilendirir:
Sinyal / Gürültü oranına gelince, değişir
Öngörülmemiş çoklu regresyon modellerine izin veren araçlar arasında Corico yazılımından bahsedebiliriz .
[3] Lesty M. (1999) Etkileşimler ve eşdoğrusallıkların varlığında çoklu regresyon regresörü seçiminde yeni bir yaklaşım. Modulad'ın incelemesi, n ° 22,Ocak 1999, pp. 41-77
[4] Lesty M. (2002) CORICO yazılımının yeni bir işlevi olan harmonik arayışı. Modulad'ın incelemesi, n ° 29,Haziran 2002, pp. 39-77