Hoofdstuk 6 De normale verdeling

advertisement
Hoofdstuk 6
De normale verdeling
6.1 Normal plots met Explore, EXAMINE [dV 31.6]
Veel statistische analyses hebben als voorwaarde/aanname dat de afhankelijke variabele
normaal verdeeld is. Statistische tests kijken vaak naar de gemiddelden van verschillende
experimentele groepen. Daarbij wordt in het bijzonder gekeken naar de onzekerheid in de
gemiddelden ten opzichte van het verschil tussen de gemiddelden. Nu weet je al dat bij een
scheve verdeling het gemiddelde niet de ideale maat is om een groep waarnemingen samen te
vatten. Toch gaan statistische toetsen daar wel vaak vanuit. Daarom is het van belang dat je
als onderzoeker in staat bent om kritisch naar de verdeling van de gebruikte variabelen te
kijken, om eventueel een andere test of oplossing te zoeken.
Open weer je bestand ‘VB02.sav’. Zorg dat de missende data (RT=0) als zodanig gemarkeerd
worden. Met het commando EXAMINE kan ook nog een ander soort uitvoer geproduceerd
worden. Je kunt de geobserveerde verdeling van een variabele afzetten tegen een normale
verdeling (P&D §7.4: let op dat daar, anders dan in SPSS, de geobserveerde waarde verticaal
staat).
[Data Editor] Kies Analyze > Descriptive Statistics > Explore..., dan knop Plots.. Je komt
in een invulscherm waar je de optie Normality plots with tests moet aanvinken.
[Syntax] Met het commando:
(6.1)
EXAMINE / VARIABLES RT
/ PLOT= NPPLOT.
Dit commando levert twee figuren op. In de eerste plot (Normal Q-Q Plot) staat iedere
geobserveerde waarde (horizontaal) uit tegen de waarde die je zou verwachten als de
reactietijden RT precies normaal verdeeld zou zijn (in Z-scores, vertikaal). Q-Q slaat op
quantile-quantile plot, wat erop duidt dat gekeken wordt naar het cumulatieve percentage
waarnemingen dat je op een punt gehad hebt en wat je volgens de normale verdeling gehad
zou moeten hebben.
26
In geval van normaliteit moeten bijvoorbeeld de mediaan en het gemiddelde samenvallen. Nu
is de mediaan van de reactietijden 589 ms en het gemiddelde 698 ms (dus rechts scheef, of
positively skewed). Dat voorspelt niet veel goeds. Omdat we bij RT=589 al 50% van de
gegevens hebben gehad, zouden we volgens een normale verdeling op het gemiddelde van
698 ms moeten zitten (denk daarover na!).
Bij een echte normale verdeling zouden de punten in de Normal Q-Q Plot op de getekende
rechte lijn liggen. Die lijn snijdt bij xgem=698 ms de lijn z = 0, omdat bij een echte normale
verdeling het gemiddelde bij z=0 ligt. De helling van de lijn wordt bepaald door s=307 ms
(ontleend aan de steekproef, n = 93).
Voor ons bestand is de lijn echter gekromd. Ons bestand heeft al bij 589 ms de 50% bereikt
die met z=0 correspondeert.
> Welke percentages van de gegevens verwacht je te vinden bij plus of min een
standaarddeviatie? En welke RT waarden verwacht je bij normaal verdeelde gegevens daar
dan bij te vinden bij? Lees dat bij benadering af uit de Q-Q plot.
We gaan kijken wat er echt gevonden wordt in de tabel met de cumulatieve verdeling:
[Data editor] Analyze > Descriptive Statistics > Frequencies en dan Display frequency
tables aanvinken (je krijgt veel meer dan alleen de cumulatieve frequentie verdeling).
[Syntax]
(6.2)
FREQUENCIES / VARIABLES=RT
/ORDER=ANALYSIS.
> Kun je deze datapunten in de Normal Q-Q Plot aanwijzen?
De variabele RT is dus vermoedelijk niet normaal verdeeld. Ben je het hier mee eens? Dit kan
je bestuderen door andere bronnen van informatie te gebruiken. Het kan bijvoorbeeld ook
blijken uit de boxplot en het histogram die je ook kunt opvragen met EXPLORE/EXAMINE.
De afwijking van ieder punt t.o.v. de verwachte rechte lijn in de Normal Q-Q plot wordt
weergegeven in de tweede plot, de Detrended Normal Probability Q-Q Plot. Als de reactietijden
RT precies normaal verdeeld zou zijn, dan moeten de punten random verspreid liggen rond
een horizontale lijn met Y = 0. In dit geval is de spreiding rond die nullijn echter helemaal niet
random, maar vertoont een golfpatroon. De variabele RT lijkt dus niet normaal verdeeld.
27
De statistische maten die SPSS bij de plots geeft, toetsen of de verdeling van RT afwijkt van
de normaalverdeling (Kolmogorov-Smirnov-toets (KS-toets), met Lilliefors significantie-nivo).
Dat is hier inderdaad het geval: de variabele RT is niet normaal verdeeld omdat uit de
significantie niveaus [Sig.] blijkt dat de kans dat RT wel normaal is verdeeld kleiner is dan
0,001. In het algemeen als de kans kleiner is dan 0,05 dan mag je aannemen dat de
verdeling niet normaal is. Maar we lopen hier eigenlijk vooruit.
Een manier om een verdeling die rechts scheef is te normaliseren is het toepassen van een
logaritmische transformatie. Als we voor de logaritme bijvoorbeeld het gebruikelijke grondtal
10 nemen, dan is
10
log(1000) = 3,
10
log(100) = 2,
10
log(10) = 1 en
10
log(1) = 0. Je ziet dat de
verschillen in de uitkomst van de logaritme veel kleiner zijn (van 3 tot 0, waar de
oorspronkelijke waarden van 1000 tot 1 varieerden). De hoge uitschieters die kenmerkend zijn
voor een rechts scheve verdeling worden er door de logaritmische transformatie beter bij
getrokken. Je kunt deze transformatie (met Arithmetic > Lg10) doen via
Transform>Compute Variable. Binnen het venster dat opent zorg je ervoor dat je een
goede nieuwe naam kiest voor de nieuwe variabele bijvoorbeeld: ‘LogRT’.
> Wat zijn de descriptives van LogRT? Controleer LogRT ook op normaliteit. Kijk goed naar de
plots van EXPLORE of de verdeling erop vooruit is gegaan.
In plaats van de
10
log kun je ook de natuurlijke logaritme (LN) nemen, die heeft als grondtal
e = 2,718…. Een transformatie met de wortelfunctie (SQRT) heeft eenzelfde soort effect als
een logaritmische transformatie. Verklaar dat.
6.2
De standaard-normale verdeling in SPSS
Je kunt de kansen uit de kansverdeling van de standaard-normaalverdeling bepalen met
behulp van de tabellen in het boek. Maar het kan ook in SPSS, met de functies
CDF.NORMAL(quant,mean,sd) (Cumulative Density Function, quant = RT hier) en
IDF.NORMAL(p,mean,sd) (Inverse Density Function), die je aanroept via het commando
COMPUTE. De uitvoer van deze functie moet je dan bewaren in een nieuwe variabele (kolom).
Je kunt bijvoorbeeld in Vb02.sav op basis van RT een nieuwe variabele PRT maken waarin je
de kans zet op een waarde kleiner of gelijk aan RT (als RT normaal verdeeld zou zijn!).
[Data editor] Transform > Compute en kies dan de juiste functies en vul in.
28
[Syntax]
(6.3)
COMPUTE PRT = CDF.NORMAL(RT,698,308).
> Welke waarde van PRT krijg je bij RT = 474 ms? En welk percentage vond je eerder in de
cumulatieve frequentie verdeling van RT bij 474? Klopt dat met de grafiek van de Normal Q-Q
plot?
De inverse functie werkt precies andersom, probeer nu maar eens IDF.NORMAL(PRT,698,308)
uit.
[optioneel] Zou je kunnen bedenken wat er uit de opdrachten in dit hoofdstuk zou komen
wanneer we waren uitgegaan van een verdeling die links scheef was?
29
Download