Gelen matematik bir benzeşik uygun bir belirlenmesidir hattı en yaklaşan bir nokta bulutunu olarak düzlem .
Özellikle veri analizinde iki istatistiksel değişken arasındaki afin ilişkinin ilişkisini değerlendirmek ve böyle bir ilişkinin katsayılarını tahmin etmek için kullanılır. Aynı zamanda mümkün bir üretmeyi mümkün kılmaktadır trend çizgisi formüle etmek tahminleri yakın gelecekte davranış ya da bir üzerinde interpolasyon alınan iki ölçüm arasındaki.
Afin ayarlama, doğrusal regresyonla , özellikle en küçük kareler yöntemiyle veya örneğin, yumuşatma fenomenini kullanmak için değerlerin bir segmentasyonuna dayanan başka yöntemlerle elde edilebilir . Bu yöntemler, verileri elde etme bağlamına ( gürültülü deneysel ölçümler , kronolojik seriler , ampirik dağılım işlevi , kısmi sonuçların toplanması, vb.) Ve hesaplama süresi veya bellek alanında bulunan kaynaklara bağlı olarak aşağı yukarı uygundur .
Bu yöntemlerden bazıları, çoklu doğrusal regresyon ve temel bileşen analizi ile ikiden fazla değişken için genelleme yapar .
Biz ile ifade ( M I ( x i , y i )) bir çizgi ile uygun istediğiniz nokta bulutu ( d ): y = ax + b .
Doğrusal bir regresyon yöntemi , artıkların, y i - a x i - b , yani her M i noktasından y ekseni yönündeki d çizgisine olan mesafenin en aza indirilmesinden oluşur . Ancak noktalar genellikle halihazırda hizalı olmadığından, tüm bu mesafeleri aynı anda en aza indirmek mümkün değildir. Bu nedenle, bu mesafelerin nasıl toplandığına bağlı olarak birkaç yöntemi ayırt edebiliriz.
Bu yöntem, aşağıdaki şekilde tanımlanan kalıntıların karelerinin toplamını en aza indirmekten oluşur:
Noktaların dağılımı ne olursa olsun, katsayıları yazılan S'yi en aza indiren benzersiz bir çizgi vardır. burada x , x koordinatlarının ortalamasıdır y , y koordinatlarının ortalamasıdır: ; V ( x ) , x koordinatlarının varyansıdır ve Cov ( x , y ) olduğu kovaryans koordinat çiftleri .
Y-dinleme ekspresyonu B hattı böylece içinden geçer tanımlanan gösterir isobarycenter koordinatlarının, bir nokta ( x , y ) .
Dikkate alınarak bunlardan biri, bu değerlerin haklı çıkarmak için çok sayıda olası deliller vardır S için, bir verilen bir ikinci dereceden bir fonksiyonu olarak, bir b biz az belirleyebilir ki, o zaman bu B bir fonksiyonu olarak değeri ile ifade edilen a içinde ikinci dereceden fonksiyonun minimum bulmak bir .
Gösteriİçin bir sabit, S bir fonksiyonu olarak yazılabilir b Ab 2 + Bb + C biçimindeki bu ikinci dereceden fonksiyon, b - B / 2 A'ya eşit olduğunda minimuma ulaşır, bu nedenle Şimdi değiştirirseniz, içinde S , b bir fonksiyonu olarak değeri ile bir , biz bir kuadratik fonksiyon elde bir : Ua 2 + Va + W biçimindeki bu ikinci dereceden fonksiyon, a eşit olduğunda minimuma ulaşır - V / 2 U bu nedenle
Asgari o zaman
Afin uyumun kalitesi daha sonra doğrusal korelasyon katsayısı ile ölçülür. burada σ x ve σ y olan standart sapmalar , iki istatistiksel değişkenlerin. Kalanların karelerinin toplamının değerlendirilmesinde yer alır:
Korelasyon katsayısı 1 veya -1'e ne kadar yakınsa, artıkların karelerinin toplamı da o kadar yakın 0'dır. Bu nedenle, korelasyon katsayısı afin uyumun geçerliliğinin iyi bir göstergesidir.
Ortalama nokta (koordinatların ( x , y ) ) üzerinde ortalanmış grafiği gözlemleyerek korelasyon katsayısının gösterge rolünü de anlayabiliriz . Afin uyum meşru değilse, kadranların her birinde kabaca o kadar çok nokta olacak ve ürünler ( x i - x ) ( y i - y ) farklı işaretlere sahip olacak ve aynı şeyi yaptığımızda birbirini telafi edecek. böylece mutlak değerde küçük bir r'ye yol açan toplam . Afin uyum meşru olsa da, ortalama noktanın her iki tarafında, noktaların çoğunu içerecek iki kadran olacaktır ve bu nedenle karşılık gelen noktalar, çarpımdaki aynı işaretle tanımlanacaktır ( x i - x ) ( y i - y ) , böylece çok büyük ölçüde çoğunluk olacak ve bunların toplamında hangisinin bulacağı , mutlak değerde büyük bir r değerine yol açan işaret .
Son olarak, Cauchy-Schwarz eşitsizliği şunu belirtmemize izin verir:
eşitlikle ancak y i - y x i - x ile orantılıysa . Yani | r | Sadece eşitlikle ≤ 1 , tüm i için , y i - y = a ( x i - x ) olacak şekilde bir gerçek a varsa . Böylece daha fazla | r | 1'e yakınsa, afin ayarlama o kadar meşru görünür.
Korelasyon katsayısının oynadığı rolü yorumlamanın başka bir yöntemi, Y'nin ortalama etrafındaki dalgalanmalarını gözlemlemektir . Bu dalgalanmaları açıklayan iki fenomen var. Bir yandan, Y'nin X'in doğrusal fonksiyonuna yakın olduğunu biliyoruz . Zaman X, bir varyans ile ortalama etrafında inip V ( X ) , ax + b olarak ortalama yaklaşık değişiklik gösterir y olan bir değişmesi olan bir 2 V ( X ) , bu miktar olarak adlandırılır açıkladığı . Y dalgalanmasının diğer nedeni , dağılım grafiğinin uyum çizgisinde yer almamasıdır: y i ve ax i + b değerleri farklı olabilir. Önceki S ifadesinden , varyans, kalıntının açıklanan varyans ve varyansının toplamı, yani (1 / n ) S gösterilmektedir .
Korelasyon oranı, açıklanan varyasyon ( X dalgalandığından kaçınılmaz ) ile toplam varyans arasındaki orandır . Bu korelasyon oranı, r 2 korelasyon katsayısının karesine eşittir . Korelasyon oranı 1'e ne kadar yakınsa, açıklanan varyans toplam varyansa o kadar yakın olur ve artık varyans ne kadar küçükse afin uyum o kadar iyidir.
Ayrıca ile nokta bulutunu ayarlayabilir açıklayan X ile Y hattı bakarak, yani, ( d ' ) denklemi x = cY + d mesafeleri karelerinin toplamını en aza indirecek M i R i burada R' ı bir projeksiyonu M i ile ( d ' ) , x-eksenine paralel uzanmaktadır.
C ve d katsayıları daha sonra şu şekilde verilir:
Bu düz çizgi de orta noktadan geçer ancak her zaman öncekiyle aynı eğime sahip değildir. Çizgiler, a ve c birbirine zıtsa aynı eğime sahiptir , yani ac 1 ise veya ac , r 2'ye karşılık gelirse . Böylelikle, sonuç bulmak: ayarlanması X ile Y arasında bir düzenlemeyle aynı hat verir Y ile X korelasyon katsayısı 1 ya da -1 eşit olması halinde.
Kanonik skaler çarpım ile sağlanan uzayda , koordinatların X vektörünü ( x 1 , x 2 , ..., x n ) , koordinatların Y vektörünü ( y 1 , y 2 , ..., y n ) , koordinatların U vektörü (1, 1, ..., 1).
Bunu fark edebiliriz
Artıkların karelerinin toplamını minimize çizgisini bulma yüz real bulmaktır bir ve b öyle ki çok az. Bu norm ancak ve ancak az olacaktır ax + bU ortogonal projeksiyonu Y tarafından üretilen vektör uzayında X ve U olarak, bu nedenle en kısa sürede,
İlk eşitlik sonuçlanır
b için önceden bulunan değeri verir . İkinci eşitlik daha sonra şu şekilde çevrilir:
kendisi için iyi verir gelmiştir değer daha önce gördük.
Y - y U ve X - x U vektörleri arasında oluşan θ açısının kosinüsünü aşağıdaki formülle belirleyebiliriz
.Bu eşitlik, daha önce Cauchy-Schwarz eşitsizliğinin verdiği sonuç açısından anlamlıdır. Korelasyon katsayısı, iki vektör X ve Y arasındaki açının kosinüsü olabilir . Korelasyon katsayısı 1, bu iki vektör arasındaki açının sıfır olduğu (mükemmel hizalama), –1 katsayısının iki vektör arasında (aynı yöndeki ancak zıt yönlerin vektörü) geometrik bir π açısı verdiği anlamına gelir. korelasyon katsayısı mutlak değerde √ 3 / 2'den büyükse , iki vektör tarafından oluşturulan geometrik açı π / 6'dan küçük veya 5π / 6'dan büyüktür .
Noktaların karelerinin toplamından ziyade doğruya olan uzaklıklarının toplamını en aza indirmeye çalışmak daha kolay görünebilir. Bu yöntem, en küçük kareler yönteminden önce de geliştirilmiştir. Ama o zaman optimal çizginin benzersiz olması gerekmez ve katsayıların belirlenmesi çok daha az kolaydır.
Böyle bir optimal çizgi her zaman dikkate alınan noktalardan ikisinden geçer.
Bulut noktalarının ikişer ikişer farklı apsislere sahip olması durumunda, özellikle zaman serileri durumunda , bazı ayarlama yöntemleri, daha temsili olduğu varsayılan belirli noktaların seçimine veya tüm noktaların bölünmesine dayanır. apsis üzerinde iki veya üç ardışık parça.
Basit ama hesaplamadan uygulanması kolay bir yöntem, örneğin grafiksel bir sunum üzerine elle bir trend çizgisi çizmek, iki noktayı diğerleriyle gözle görülür şekilde birleştiren çizgiyi çizmekten ibarettir .
Bir öncekinden daha sistematik bir yöntem, minimum ve maksimum apsis olmak üzere iki noktayı birleştirmekten ibarettir.
Bu ayarlama yönteminin kurulması daha kolaydır. Leonhard Euler ve Tobias Mayer tarafından kullanılmış gibi görünüyor . Çiftleri ( x i , y i ) artan x i sırasına göre düzenledikten sonra , bulutu eşit büyüklükte iki buluta bölerek, alt bulutların her birinin ortalama noktasını belirlemede ve Bu iki ortalama noktayı birleştiren çizgiyi çizmek.
Çiftleri ( x i , y i ) artan x i sırasına göre düzenlemeyi , ardından popülasyonu aynı büyüklükte (bir birim içinde) üç alt popülasyona bölmeyi ve her popülasyonda ortancayı bulmayı içerir. x i ve bu y i . Bu, üç noktayı tanımlayan üç çift medyanın yol açar: P 1 ( m 1, x , m 1, y ) , P 2 ( m 2, x , m 2, y ) ve P 3 ( m 3, x , m 3, y ) . Uyum çizgisi, bu üç noktanın izobarmerkezinden geçen çizgiye paralel geçen çizgidir ( P 1 P 3 ) .
Düzlemin bir nokta ailesi verildiğinde, apsis ve ordinat arasındaki kovaryansın sıfır olmaması veya apsis varyansının olması koşuluyla, noktaların kare mesafelerinin toplamını en aza indiren tek bir düzlem çizgisi vardır. koordinatlardan farklıdır. Bu düz çizgi daha sonra noktaların izobary merkezinden geçer .
Daha genel olarak, vektörlerin, bir aile verilen , mesafelerin karelerinin toplamını en aza indiren bir benzeşik alt uzay seçimi aşağı gelir ana bileşen analizi : kovaryans matrisi olan simetrik pozitif , köşegenleştirilebilir ve toplam bir öz alt En büyük özdeğerlerle ilişkili boşluklar , noktaların izobary merkezinden geçen afin bir altuzayın yönünü verir.
Bu yöntem yalnızca koordinatlar homojen ise, örneğin aynı birimle ifade edilen miktarları temsil ediyorlarsa anlamlıdır. Aksi takdirde, varyansların aynı olması için her bir koordinatı isteğe bağlı olarak önceden standartlaştırabiliriz.
Doğrusal regresyon bağlamında, afin uyum, iki değişken arasında doğrusal bir korelasyonun varlığını test etmeyi mümkün kılar.
Nokta bulutunda temsil edilmeyen apsis üzerindeki bir değer için, afin ayarlama ile elde edilen afin fonksiyonunu uygulayarak ordinat üzerindeki bir değeri tahmin etmek mümkündür.
Örneğin, yandaki grafik, 1992-2006 döneminde 15-44 yaş aralığında esrar içmiş kişilerin yüzdesine ilişkin olarak gerçekleştirilen anketlere verilen yanıtları temsil etmektedir. Her nokta, x eksenindeki tarihi ve y eksenindeki deneycilerin yüzdesi ile bir ankete karşılık gelir. Dağılım grafiği, 2008'deki bir anketin% 42 olumlu yanıt vereceğini ve 1994'teki bir anketin yaklaşık% 20 olumlu yanıt vereceğini tahmin etmeyi mümkün kılan düz bir çizgi üzerinde organize edilmiş gibi görünüyor.
Bir ayarlama çizgisinin çizilmesi, ölçülen iki fenomen arasında bir neden sonuç ilişkisi olduğu anlamına gelmez ve birinin gerçekleştirmeye meyilli olduğu ekstrapolasyonların nokta bulutuna yakın mahallelerle sınırlı olması gerekir. incelendiğinde, iki değişkenin göreceli davranışı artık pek de rafine edilemeyebilir.
Dağılım grafiği üstel bir işlevi gösteriyorsa , X'e göre ln ( Y ) koordinatlarının doğal logaritmasının hassas bir şekilde ayarlanmasını deneyebiliriz . Gerçekten de, eğer ln ( Y ) = ax + b sonra , Y = E b x e ax
Dağılım grafiği bir güç fonksiyonunu gösteriyor gibi görünüyorsa, ln ( Y ) ve ln ( X ) üzerinde afin uyum denenecektir çünkü ln ( Y ) = a ln ( X ) + b sonra Y = e b × X a