stata lekcja3 part3, I rok, STATA

[ Pobierz całość w formacie PDF ]
LEKCJA 3 – ostatnia lekcja statystyki :)
(część 3/3 – ostatnia :) )
Szybkimi krokami zbliżamy się do końca nauki statystyki :) . W międzyczasie kilka osób poruszyło
ciekawe wątki i przypomniało mi się jeszcze kilka rzeczy, o które możecie być zapytani na
egzaminie.
Na początek mała powtórka :)
ZMIENNE ZALEŻNE/NIEZALEŻNE
W statystyce występują dwa rodzaje zmiennych – zależne i niezależne. Fachową definicją zmiennej
zależnej jest:
Zmienna, którą badacz chce wyjaśnić, nazywamy zmienną zależną. Jest nią bezpośredni lub
pośredni skutek oddziaływania zmiennych niezależnych. Jest to zjawisko, które badacz wyjaśnia,
lub którego poszukuje.
Natomiast zmienna niezależna to:
Zmienna, za pomocą której badacz chce wyjaśnić zmiany w wartościach zmiennej zależnej
nazywany zmienną niezależną. Zmienną niezależną jest ta, która wyjaśnia badane zjawisko i która
powoduje zmiany w wartościach zmiennych zależnych. Jest zakładaną przyczyną zmian wartości
zmiennej zależnej. Uchodzi za przyczynę zmiennej zależnej, która jest jej skutkiem.
Trudno to wyjaśnić definicyjnie, łatwo zrozumieć w praktyce :)
Krótko mówiąc:
Jeśli badamy „czy
poczucie szczęścia
zależy od
ilości posiadanych pieniędzy
”, t o:
- „poczucie szczęścia” to zmienna zależna
- a „ilość posiadanych pieniędzy” to zmienna niezależna :)
Ta k t o n a jłatwiej zrozumieć. Jeśli będziecie o to zapytani, odpowiadajcie własnymi słowami – tak,
jak rozumiecie.
EFEKT GŁÓWNY
Czasem pada pytanie o to, czym jest efekt główny. Definicja poniżej:
w schemacie badawczym 2x2 wpływ, jaki jedna zmienna niezależna ma na zmienną zależną, bez
względu na drugą zmienną niezależną lub interakcję obu zmiennych
czyli gdybyśmy badali „poczucie szczęścia i empatyczność w zależności od ilości pieniędzy i płci”, to
efekt główny to np. to jak ilość posiadanych pieniędzy wpływa na empatyczność osoby (bez
względu na to, jak wpływa na to płeć) :)
PRZEDZIAŁ UFNOŚCI
Przedział ufności to coś zupełnie innego niż poziom istotności. Te dwa pojęcia najczęściej się ze
sobą mylą. Poziom istotności wytłumaczony został w lekcji 3 (część 1, strona 2). Przedział ufności
jest natomiast pojęciem związanym z estymacją przedziałową. Krótkie powtórzenie:
Jeśli mamy jakąś próbę (np. 100 osób), każdej z tych osób zrobimy np. test na IQ i wyciągniemy
średnią ze wszystkich 100 wyników, to otrzymamy średnią całej naszej próby. Ale co z tego? ;)
Nadal nie będziemy wiedzieli w jaki sposób nasza próba ma się do populacji (czyli średniego IQ
całej planety). I właśnie po to wymyślono przedziały ufności. Dzięki nim można określić, że np.
1 / 6
 „z 95% dokładnością, średnia populacji znajduje się pomiędzy IQ=98,34 a IQ=101,66”. Oczywiście
możemy zakładać różne przedziały, pojawia się jednak wówczas zjawisko, które warto zapamiętać:
- im przedział ma większą dokładność (im bliżej 100%), tym będzie szerszy
Jest to logiczne, bo jeśli chcemy znać średnią z dokładnością 99,99% to będziemy mieli szerszą
„ramkę” w której ta średnia może być (np. gdzieś pomiędzy 85 a 115). Przy założeniu tak
wyśrubowanej dokładności mamy 0,01% szansy na to, że średniej tam jednak nie będzie. Gdy
zakładamy dokładność równą 90%, to przedział może być węższy np. <98; 102> ale za to już jest
10% szansy na to, że średnia jednak umknie poza przedział ;)
I to tak z grubsza tyle :)
Przedziały ufności wyznaczamy wzorem:
μ

< X – z * S
x
; X + z * S
x
>
lub:
X – z * S
x

μ

X + z * S
x
Ten wzór oznacza to samo, tylko jest inaczej zapisany. Można z niego wywnioskować to, że
przedział ufności jest
symetrycznie ułożony po obu stronach średniej
:)
z
, którego używamy w tym wzorze odpowiada za dokładność, którą chcemy uzyskać:
z = 1

dokładność
68%
1,44

dokładność
85%
1,64

dokładność
90%
1,96

dokładność
95%
2,58

dokładność
99%
(dobrze jest się tego nauczyć na pamięć – procenty biorą się z odchyleń standardowych od
średniej – uproszczony wykres tego był w lekcji 1 na stronie 7).
S
x
to
błąd standardowy
(wzór jest w lekcji 2 na stronie 10)
X
to średnia z naszej próby
STANDARYZACJA
Na wszelki wypadek dobrze jest wiedzieć, czym jest standaryzacja :) .
Aby to zrozumieć wyobraźmy sobie taką historyjkę:
Jesteśmy znanymi naukowcami i bierzemy udział w międzygalaktycznej konferencji dla
psychologów. Właśnie występuje znany prelegent i opowiada historię swojego niezwykłego
pacjenta (możesz wymyślić ją jak chcesz ;) ). Na zakończenie mówi o wyniku testu IQ, który
osiągnął tenże pacjent – 140. Wszyscy biją brawo. Każdy wie, gdzie w populacji go to plasuje.
Teraz nadchodzi nasza kolej – po super atrakcyjnym zaprezentowaniu historii przypadku przed
międzygalaktycznym audytorium, nadchodzi czas na podsumowanie. I mówimy wszystkim, że w
naszym własnym teście empatyczności EA-x1 pacjent otrzymał wynik 67,84. Nikt nie wie co to
oznacza, ani czy to dobrze, czy źle ;) . Mówimy dalej – w tym teście średnia wynosi 58,16 a
odchylenie standardowe 6,79. Nadal nikt nie wie o co chodzi. Zanim ktoś policzy ile odchyleń
standardowych od średniej jest nasz pacjent, miną wieki.
Tutaj z ratunkiem przychodzi standaryzacja.
Standaryzacja
to metoda polegająca na zamianie
surowych wyników (IQ= 115, EA-x1=71,74 itp.) na ilość odchyleń standardowych od średniej
(z=1, z=2...). Dzięki temu, po przeliczeniu nasz zagmatwany wynik będzie zrozumiały dla każdego
2 / 6
(„pacjent ma empatyczność w trzecim odchyleniu standardowym”).
Wzór na standaryzację – lekcja 2, strona 10 :) . Znajdź go i przepisz poniżej:
z =
Jeśli padnie polecenie narysowania rozkładu normalnego wystandaryzowanego, to po prostu
rysujemy rozkład normalny:
Zero na środku oznacza, że na środku wypada średnia (brak odchyleń standardowych).
Gdyby rozkład miał być niewystandaryzowany, wtedy zamiast zera byłby średni wynik surowy (np.
IQ=100).
OBSZAR KRYTYCZNY
Otwórz notatki na lekcji 3 (część 1, dół pierwszej strony) i przypomnij sobie co to jest
wartość
krytyczna
.
Obszar krytyczny
to po prostu obszar w którym musi znaleźć się wynik naszego testu, aby móc
odrzucić hipotezę zerową. Przykładowo – jeśli nasze t jest większe od t krytycznego (odczytanego
z tablic), to znaczy, że nasze t znalazło się w obszarze krytycznym. Graficznie ilustruje się to tak:

a tutaj X do
zamknięcia okienka ;)
3 / 6
KORELACJA (Test r-Pearsona)
To mój ulubiony temat :D . Wierzę, że Ty też go polubisz :)
Korelacja to dość użyteczna metoda służąca do sprawdzenia, czy dwie zmienne mają ze sobą jakiś
związek. Możemy sprawdzać dzięki niej wszystko, co nam przyjdzie do głowy, jeśli zmienna jest
mierzalna (czyli znajduje się w skali przedziałowej lub stosunkowej, czyli jest ciągłymi cyframi) –
np. sprawdzamy czy jest wpływ między wzrostem, a ilością godzin spędzonych przed TV, albo
między rozmiarem buta, a długością.. nogi. I tak dalej ;) . Możesz badać, co tylko chcesz i co Cię
interesuje :)
Aby to zbadać musimy oczywiście mieć odpowiednio liczną (reprezentatywną) próbę, którą
zbadamy :) . W naszym przykładzie będziemy badać, czy jest korelacja między ilością zjedzonych
batoników i wagą oraz ilością zjedzonych batoników i stanem portfela.
Wyobraźmy sobie, że zrobiliśmy badania i nałożyliśmy je na wykres. W idealnej formie powinien
nam wyjść nam któryś z takich przypadków:
Na osi X (poziomej) piszemy jedną badaną rzecz (np. ilość jedzonych batoników dziennie), na osi Y
(pionowej) zapisujemy drugą badaną rzecz – np. wagę osoby, lub stan jej portfela.
W rzeczywistości wykresy nie są tak czytelne i wyglądają mniej więcej tak:
Tera z, m ając zbadane osoby wszystkie dane podstawilibyśmy do wzoru na r-Pearsona (inaczej
mówiąc „ro” Pearsona). Wzór ten jest podany w lekcji 2 na stronie 2.
4 / 6
Wynik, który uzyskamy może mieć wartości tylko z przedziału
<-1; 1>
. Czyli może mieć i -1, i 0, i
0,2, i 0,4532. Pamiętaj, że nie może być ani mniejszy, ani większy od wartości granicznych <-1;1>.
R mówi nam o trzech bardzo istotnych rzeczach – o tym,
czy jest jakiś związek
między oboma
badanymi cechami,
o tym czy związek jest dodatni, czy ujemny
(o tym za chwilę) i mówi nam też
o
sile związku
.
Jeśli
r=0
wtedy korelacja nie występuje. Oznaczałoby to, że wykres wyglądałby tak:
Czyli wszystkie wartości byłyby rozproszone równomiernie, nie da się przeciągnąć nigdzie prostej
korelacji (prostej, która obrazowałaby jakoś tę zależność) nie byłoby między nimi związku. W
przypadku batoników oznaczałoby to, że ilość zjadanych codziennie batoników nie ma wpływu na
wagę człowieka :)
Jeśli
r>0
wtedy mówimy o korelacji dodatniej. Oznacza to, że jest zależność między oboma
wartościami. Wykres wyglądałby wtedy tak:
Waga osoby
Ilość zjedzonych batoników
Możemy z niego odczytać, że
im więcej
ktoś je batoników w ciągu dnia,
tym więcej
waży.
Jeśli
r<0
, wtedy mamy do czynienia z korelacją ujemną. Wykres:
Ilość $
Ilość kupowanych batoników
Mówi nam to o tym, że
im więcej
kupujesz batoników,
tym mniej
masz pieniędzy.
5 / 6
[ Pobierz całość w formacie PDF ]