Öngörülen ve varsayılmayan çoklu regresyon modelleri

Modeli

Bir model, açıklanacak bir veya daha fazla değişkeni Y = F (X) fonksiyonel bir ilişki ile açıklayıcı X değişkenlerine bağlar.

Çoklu regresyon

İstatistiksel modellerin en yaygın kullanılanıdır.

 P değişkenlerinin n gözlemine ( i = 1,…, n ) sahibiz . Regresyon denklemi yazılır

veya

Gözlemlerden a  j katsayılarının ve model hatasının hesaplanması, iyi anlaşılmış bir sorundur (bkz. Çoklu doğrusal regresyon ).

Modele giren değişkenlerin seçimi daha zordur. Uygulanabilir veya uygulanamaz.

Başvurulan model

Önceki modelde, yalnızca katsayılar "veriler tarafından yönlendirilir", modelin polinom yapısı, a priori varsayımını yapan kullanıcı tarafından (problem konusundaki uzmanlığına göre) empoze edilir:

İki açıklayıcı değişkene sahip bir polinom modeline örnek:

Açıklayıcı değişkenleri seçme sorunu

Açıklayıcı değişkenlerin sayısı fazla olduğunda, bazı değişkenler birbiriyle ilişkili olabilir. Bu durumda kopyaları ortadan kaldırmak gerekir. Bunu yapmak için, yazılım adım adım seçim yöntemlerini kullanır (artan, azalan veya karışık).

Gerçek şu ki, nihai modelin kalitesi büyük ölçüde değişkenlerin seçimine ve polinomun derecesine bağlıdır.

Model varsayılmadı

Aksine, "varsayılmayan" model  , hem matematiksel yapısı hem de katsayıları bakımından tamamen "  veriye dayalıdır ".

Açıklayıcı değişkenlerin seçimi, model hakkında önceden bilgi sahibi olmayı gerektirmez: aşağıdakileri içeren çok geniş bir değişkenler kümesi arasında gerçekleşir:


Seçim, aşağıdaki prensibe göre regresyon katsayılarının hesaplanmasından önce yapılır :

Yanıtla en iyi ilişkili olan faktörü veya "etkileşimi" veya işlevi arıyoruz. Onu bulduktan sonra, önceki korelasyonla açıklanmayan kalıntıyla en iyi ilişkili olan faktörü veya etkileşimi ararız ; vb. Bu yöntem, faktörler ilişkilendirildiğinde aynı etkiyi iki kez saymamayı ve önemi azaltarak sıralamayı amaçlamaktadır.

Azalan önem sırasına göre sıralanmış bulunan liste, bilinmeyenlerden ( n ) daha fazla terime sahip olamaz . Modelde yalnızca bir terim tutulursa, listedeki ilk terim olmalıdır. Yalnızca ikisi tutulursa, ilk ikisi olur vb.

Aslında, listedeki terimlerin her biri, öncekiler tarafından açıklanmayan artığı "açıkladığından", ikincisi belki de yalnızca "gürültüyü" açıklamaktadır. Hangi durdurma kriteri seçilmeli?

Modelde tutulan terimlerin sayısı, örneğin, tahmin standart hatasını SEP (Standart Tahmin hatası) en aza indiren veya Fisher F'yi maksimize eden terim olabilir . Bu terim sayısı, kullanıcı tarafından fiziksel faktörlerden de seçilebilir.


Örnek  : aday "açıklayıcı değişkenler" kümesinin {A, B, C, D, E, F, G} olduğunu ve elde edilen modelin:Y = sabit + aA + b. ("E ve G") + c. ("D ve F anlamı")Biz bunu fark ederiz * ilgisiz değişkenler B ve C modelde görünmez * A değişkeni basit bir terim olarak göründü, * bir yandan E ve G, diğer yandan D ve F değişkenleri yalnızca " mantıksal etkileşimler  " olarak görünür  .


Bu " cimri  " model  , yani birkaç terim (burada üç) içerir, 5 değişken içerir ve fiziksel gerçekliğe polinom modelinden daha iyi yapışır. Aslında, "E ve G güçlü" anlamına gelen "E ve G" birleşimi, fiziksel gerçeklikte (örneğin: kimyada kataliz) EG tipi bir polinom teriminden daha sık karşılaşılır.

Harmonik ayrışma

Öngörülmemiş bir model, serinin harmonik ayrışmasında da etkili olacaktır.

Aslında bu ilke, düzensiz örneklemede de geçerlidir ( hareketli ortalama türü , ARIMA veya Box ve Jenkins yöntemlerinin hatalı olduğu durumlarda), durağan olmayan durumlarda ( Fourier analizinin geçerli olmadığı ) olduğu gibi . . "Merdiven basamakları", "V", "lojistik kırılmalar", periyodik modeller ve izole edilmiş tepeler veya "dalga parçaları" gibi kazara meydana gelen olaylardaki eğilim kırılmalarıyla çeşitli döngülerin ve mevsimselliğin engellemelerinin tespit edilmesini ve çözülmesini sağlar.

Örnekler

Pazarlamaya Başvuru

Bu örneğin verileri internette mevcuttur (bkz. Colas Promosyon Fiyat Etkisi [1] )

Büyük bir kutu mağazasında iki ürün satışa sunulmaktadır. Gondollar öne çıkarılabilir veya gösterilmeyebilir, fiyatlar değişebilir ve katılım depoya dahil edilebilir.

İki ürünün her biri için elde edilen varsayılmamış modeller şunlardır:

1 SATIŞ = 311,6 - 1386. Pri] 1GondolaForward + 492.4 Frekans ve 2Fiyat R2a = 0,849, Q2 = 0,841, F = 220,4, SEP = 86,28


2 SATIŞ = 396.1 - 1701. (2Pri-2GondolaEnAvant) + 346.0 Frekans] 1Fiyat R2a = 0,854, Q2 = 0,851, F = 229,3, SEP = 81,27

Bu denklemlerin terimleri azalan önemle sıralanmıştır ve bunların olumlu veya olumsuz etkileri katsayıların işaretine bağlıdır.

Bu nedenle, mantıksal etkileşimlerin sembollerinin anlamını hesaba katarak şunu çıkarırız:


Modelleri , korelasyonların ikonografisi türünün bir veri analizi ile ilişkilendirmek genellikle yararlıdır  :


Şekil 1 , bağlantı analizi.Kesintisiz çizgiler: dikkat çekici pozitif korelasyonlar.Noktalı çizgiler: dikkat çekici negatif korelasyonlar.


Bir yandan, ürün 1'in satışının olumlu bağlantılarını görüyoruz :

Öte yandan, ürün 1'in satışının negatif bağlantıları :

Endüstriyel kalitenin iyileştirilmesi

Burada kullanılan Kaçkar'ın (1985) verileri, çeşitli veri işleme teknikleri için örnek teşkil etmiştir. D. Collombier: Deney tasarımı ve endüstriyel kalitenin iyileştirilmesi. Taguchi yöntemine bir alternatif. RSA, cilt 40, n ° 2 (1992), sayfa 31-43. [2]


Kamyonların süspansiyonu için kullanılan yaprak yayların bükülmesini iyileştirmek istiyoruz. Slaytlar bir fırında ısıtılır, bir preste bükülür ve daha sonra bir yağ banyosunda soğutulur. 8 inç'e yakın bir bükme oku elde etmek istiyoruz.

İki seviyede (düşük bir değer ve yüksek bir değer) kontrollü üretim faktörleri şunlardır:


8 test (imalat faktörleri için) içeren seçilen deneysel tasarım bu nedenle soğutma sıcaklıklarının her biri için iki kez tekrarlanır. Bu 16 testtir.

Ek olarak, kontrolsüz gürültü kaynaklarını hesaba katmak için testlerin her biri 3 kez tekrarlanır. Yani toplam 48 test.

Deneyin cevapları


Aşağıdaki tabloda, imalat faktörlerinin seviyeleri zayıf için -1 ve güçlü için 1 olarak belirtilmiştir. Soğutma sıcaklığı seviyesi zayıf için 1 ve güçlü için 2 olarak belirtilmiştir.


T ° Fırın ısıtma tTransfer FourPress tSubPress Soğutma T ° Ymoy Sinyal / Gürültü
1 -1 -1 -1 -1 1 7.79 5.426739
2 -1 -1 -1 -1 2 7.29 5.426739
3 1 -1 -1 1 1 8.07 11.6357
4 1 -1 -1 1 2 7.733 11.6357
5 -1 1 -1 1 1 7.52 6.360121
6 -1 1 -1 1 2 7.52 6.360121
7 1 1 -1 -1 1 7.63 8.658226
8 1 1 -1 -1 2 7.647 8.658226
9 -1 -1 1 1 1 7,94 7.337677
10 -1 -1 1 1 2 7.4 7.337677
11 1 -1 1 -1 1 7.947 10.44231
12 1 -1 1 -1 2 7.623 10.44231
13 -1 1 1 -1 1 7.54 3,700976
14 -1 1 1 -1 2 7.203 3,700976
15 1 1 1 1 1 7.687 8,860563
16 1 1 1 1 2 7.633 8,860563


Ymoy oku ve Sinyal / Gürültü oranı için elde edilen varsayılmamış modeller şunlardır:

Ymoy = 7.636 - 0.5687 tCha ^ T ° Soğutma + 0.3174 (T ° Fo + tSubPress) - 0.3127 T ° Re & -T ° Fırın R2a = 0,934, Q2 = 0,918, F = 71,59, SEP = 0,7446E-01 Sinyal / Gürültü = 7.803 + 7.449 (T ° Fo-tSıtırma) + 4.201 T ° Fo ^ tSubPress + 1.874 tCha] -T ° Fırın R2a = 0,969, Q2 = 0,964, F = 155,3, SEP = 0,5413

Bu denklemlerin terimleri azalan önemle sıralanmıştır (her biri öncekilerle açıklanmayan kalıntıyı açıklar) ve bunların olumlu veya olumsuz etkileri katsayıların işaretine bağlıdır.

Bu nedenle, mantıksal etkileşimlerin sembollerinin anlamını hesaba katarak şunu çıkarırız:


Bu modeller (faktörleri değiştirerek çoklu çekimlerle), yüksek Sinyal / gürültü oranı ile ortalama 8 inçlik bir Y sapması için optimum uzlaşmayı bulmaya izin verir. Bunun için, arzu edilirlik eğrilerini tanımlayabiliriz (genel arzu, ikisinin bir uzlaşmasıdır):

Aşağıdaki tablo, "Seçim" sütununda, bu uzlaşmayı destekleyen değerleri vermektedir. Bir doğrulama testinin konusu olabilirler.

Düşük Yüksek Tercih
T ° Fırın -1 1 0,99
ısıtma -1 1 -0,92
tTransferForPress -1 1 0
tSubPress -1 1 0.17
Soğutma T ° 1 2 1.03
Ymoy 7.203 8.07 7,98
Sinyal / Gürültü 3.701 11.636 11.04

Olgunun daha sentetik bir görünümü için modelleri , korelasyonların ikonografisi gibi bir veri analizi ile birleştirebiliriz  :

Şekil 2 , bağlantı analizi.Kesintisiz çizgiler: dikkat çekici pozitif korelasyonlar.Noktalı çizgiler: dikkat çekici negatif korelasyonlar.


Bir yandan, Ymoy'un (yayların oku) pozitif bağlantılarını görüyoruz:

Öte yandan, olumsuz Ymoy'u şunlarla ilişkilendirir:

Sinyal / Gürültü oranına gelince, değişir

Araçlar

Öngörülmemiş çoklu regresyon modellerine izin veren araçlar arasında Corico yazılımından bahsedebiliriz .

Referanslar

[3] Lesty M. (1999) Etkileşimler ve eşdoğrusallıkların varlığında çoklu regresyon regresörü seçiminde yeni bir yaklaşım. Modulad'ın incelemesi, n ° 22,Ocak 1999, pp. 41-77

[4] Lesty M. (2002) CORICO yazılımının yeni bir işlevi olan harmonik arayışı. Modulad'ın incelemesi, n ° 29,Haziran 2002, pp. 39-77