st2(wspolliniowosc)-03, PSYCHOLOGIA, I ROK, semestr II, podstawy metodologii badań psychologicznych ...

[ Pobierz całość w formacie PDF ]
Problem współliniowości w regresji wielokrotnej
Dana jest pewna zbiorowość i w niej określone są wartości n zmiennych statystycznych.
Załóżmy, że nie ma przypadków braku informacji o wartości jakiejkolwiek zmiennej dla
któregokolwiek obiektu należącego do zbiorowości. W takiej sytuacji wyznacznik macierzy korelacji
obliczonych dla tych n zmiennych na pewno mieć będzie wartość nieujemną. Wyznacznik ten będzie
dokładnie równy 0, gdy (co najmniej) jedna z tych n zmiennych będzie w badanej zbiorowości liniową
funkcją pozostałych. Może tak być z powodów naturalnych, gdyż taki jest badany świat lub
technicznych. Powodem technicznym może być umieszczenie na liście n korelowanych zmiennych np.
trzech zmiennych zerojedynkowych zdających sprawę zdających sprawę koloru skóry (biały, czarny,
żółty); których suma dla każdego badanego jest równa 1, co prowadzi do tego, że każda z tych trzech
zmiennych jest liniową funkcją dwu pozostałych w postaci
(wartość jednej) = 1 – 1*(wartość drugiej) – 1*(wartość trzeciej).
Warto zauważyć, że jeżeli jakaś zmienna jest liniową funkcją pewnych zmiennych, to także
każda zmienna, które w tej funkcji występuje z niezerową wartością parametru nachylenia jest liniową
funkcją innych zmiennych. Możemy zatem mówić o istnieniu w zbiorze n zmiennych pewnego
liczącego co najwyżej m zmiennych (minimalnego) podzbioru zmiennych liniowo zależnych.
W przypadku, gdy taka macierz korelacji o zerowym wyznaczniku stanowi podstawę dla
regresji wielokrotnej możemy napotkać na rozmaite trudności. Dla uproszczenia przyjmijmy, że
w naszym zbiorze n zmiennych występuje jeden tylko minimalny podzbiór zmiennych liniowo
zależnych.
Jeżeli zmienna zależna w naszej regresji należy do podzbioru zmiennych liniowo zależnych
kłopoty związane z ewentualnymi problemami rachunkowymi będą nagrodzone przez możliwość
przedstawienia równania regresji, które pozwoli bezbłędnie (R
2
= 1) odtwarzać, a być może
i przewidywać, wartości zmiennej zależnej.
Jeżeli natomiast zmienna zależna nie jest liniową funkcją (podzbioru) pozostałych zmiennych,
to będziemy mieli same kłopoty; których powaga zależy od celu, do którego osiągnięcia ma służyć
nasze równanie regresji.
W takiej sytuacji możemy się spodziewać istnienia nieskończenie wielu równie dobrych
( z naciskiem na słowo „równie” a nie „dobrych”) rozwiązań, których znajdywanie jest w istocie
rozwiązywaniem niejednoznacznego układu równań liniowych. Nie ma jednak powodu byśmy się
wgłębiali w kwestie algebraiczne.
Rozważmy prosty przypadek trzech zmiennych X, Y i Z. Chcemy znaleźć regresję wielokrotną
pozwalającą na odtwarzanie wartości zmiennej Z na podstawie znajomości wartości zmiennych Y i Z.
Czyli mamy trójwymiarową przestrzeń, w niej rozmieszczone są punktu reprezentujące nasze
obserwacje. Wartości zmiennych X i Y każdej obserwacji są widoczne jako rzuty tych punktów
przestrzeni trójwymiarowej na płaszczyznę o współrzędnych X,Y. Poszukujemy płaskiej powierzchni
w przestrzeni trójwymiarowej, której wzniesienie nad punktem o współrzędnych (x
i
,y
i
) byłoby
najlepszą aproksymacją wartości z
i
zmiennej Z dla i-tego obiektu. Najlepszość polega na tym, że suma
kwadratów różnic między prawdziwą wartością zmiennej Z dla obiektu j-tego a aproksymacją tej
wartości, czyli wzniesieniem (wysokością) płaszczyzny regresji nad punktem o współrzędnych (x
j
,y
j
)
obliczona dla wszystkich punktów byłaby minimalna.
Wróćmy do naszego problemu. Co by było z kwestią wyznaczana równani regresji, czyli
odnajdywania położenia owej najlepszej płaszczyzny w przestrzeni trójwymiarowej, gdyby miała
miejsce liniowa zależność między zmiennymi X i Y. Oczywiście ta liniowa zależność może mieć
dowolny charakter, byle istniała (jakakolwiek) taka para liczb (a, b), że dla każdego obiektu między
jego wartościami zmiennych X i Y zachodziłaby zależność X = a +b*Y. Wyobraźmy sobie, że
zmienne X i Y są liniowo zależne wedle równania Y=1+2*X, a zmienna Z jest z nimi skorelowana jak
na wykresie:
Zmienne niezależne są liniowo zależne (Y=1+2*X)
przewidywane wartości zmiennej zależnej Z leżą na prostej
współrzdne obserwacji leżą na pionowej płaszczyźnie
wartości
przewidywane
wartości zmiennych
niezależnych
współrzędne
obserwacji
Istnieje taka płaszczyzna (pionowa na tym rysunku) , na której leżą
wszystkie
punkty
reprezentujące obserwacje w przestrzeni trójwymiarowej XYZ i punkty reprezentujące tylko wartości
zmiennych niezależnych (XY) tych obserwacji. W konsekwencji na tej samej płaszczyźnie leżeć
muszą punktu reprezentujące rzeczywiste wartości zmiennych XY i oszacowane za pomocą regresji
wartości zmiennej Z wszystkich obserwacji. Jeżeli tak, to regresja wielokrotna jednej zmiennej (Z)
z dwiema (X,Y) sprowadza się do regresji liniowej zmiennej Z z jedną zmienną „techniczną” będącą
funkcją zarówno zmiennej X jak i Y. (Na wykresie leżą na niej punkty oznaczone jako „wartości
zmiennych niezależnych”)
Jeżeli w danym problemie regresji zmienne niezależne są liniowo zależne, to istnieje
nieskończenie wiele równie dobrych równań regresji jednej zmiennej Z z dwiema zmiennymi X i Y,
które dają dokładnie te same oszacowania wartości zmiennej zależnej przy różnych parametrach
nachylenia przyporządkowanych poszczególnym zmiennym niezależnym. W naszym przykładzie
płaszczyzny wszystkich tych regresji przecinają ze sobą wzdłuż jednej prostej, którą wyznaczają
punkty reprezentujące rzeczywiste wartości zmiennych XY i oszacowane za pomocą tych regresji
wartości zmiennej Z
Kolejne wykresy przedstawiają przykładowe regresje
Zmienne niezależne są liniowo zależne (Y=1+2*X)
Regresja ma postać Z=0.5+2*X+eps
wartości zmiennych
niezależnych
Zmienne niezależne są liniowo zależne (Y=1+2*X)
Regresja ma postać Z=X+0.5*Y+eps
wartości zmiennych
niezależnych
Zmienne niezależne są liniowo zależne (Y=1+2*X)
Regresja ma postać Z=-0.25 + 0.5*X + 0.75*Y+eps
wartości zmiennych
niezależnych
Zmienne niezależne są liniowo zależne (Y=1+2*X)
Regresja ma postać Z=-3/8 +0.25*X +(7/8)*Y+eps
wartości zmiennych
niezależnych
Zmienne niezależne są liniowo zależne (Y=1+2*X)
Regresja ma postać Z=-.5+Y+eps
wartości zmiennych
niezależnych
Wszystkie te regresje równie dobrze pozwalają szacować wartości zmiennej Z. Po prostu dają
dokładnie te same oszacowania.
W przypadku liniowej zależności między zmiennymi niezależnym istnieje nieskończenie
wiele rozwiązań problemu regresji (kompletów równie dobrych parametrów) i jednocześnie są
trudności w znalezieniu (jakiegokolwiek z równie dobrych kompletów) parametrów równania
regresji.
Zwykle stosowane metody wyznaczania tych parametrów nie akceptują sytuacji, gdy zerowy
jest wyznacznik podmacierzy korelacji, którą to podmacierz uzyskamy z macierzy korelacji
wszystkich n zmiennych przez usunięcie z niej wiersza i kolumny korelacji zmiennej zależnej.
Trudność z wyznaczeniem jakiegokolwiek, spośród nieskończenie wielu równie dobrych,
równań regresji można pokonać dzięki zastosowaniu odpowiedniej metody (np. SVD –Singular
Value Decomposition), która w tej sytuacji poprawnie wyliczy jakiś jeden komplet parametrów
równania.
Trzeba jednak pamiętać, że w tym przypadku, poprawne wyliczenie parametrów oznacza,
że nie istnieje inny układ parametrów równania, który dałby lepsze oszacowania wartości zmiennej
zależnej, lecz mogą, a w omawianym przypadku, istnieją inne równie dobre układy parametrów. Na
naszych rysunkach przedstawiono kilka równie dobrych równań regresji:
Z = 0.5+ 2.00*X + eps
Z = X + 0.50*Y + eps
Z =-0.25 + 0.50*X + 0.75*Y + eps
Z =-3/8 + 0.25*X +(7/8)*Y + eps
Z =-.5 + Y + eps
Jeżeli naszym celem jest skuteczne szacowanie wartości zmiennej Z, to mamy całkowitą
swobodę w wyborze jednego z tych równań i nasz kłopot ze współliniowością polega tylko na tym, że
musimy znaleźć metodę numeryczną, która dokładnie wyliczy parametry którejkolwiek
z równoważnych postaci równania.
Jeżeli naszym celem jest nie tyle oszacowanie wartości zmiennej Z, co udzielenie odpowiedzi
na pytanie o udział poszczególnych zmiennych niezależnych w podwyższaniu tej dokładności, to
w przypadku niezależnych zmiennych, które są ze sobą liniowo zależne, jest to pytanie, na które
odpowiedzieć się nie da. W naszym przykładzie kwestia odpowiedzi na pytanie, czy Z bardziej jest
[ Pobierz całość w formacie PDF ]