Hoofdstuk 6 De normale verdeling 6.1 Normal plots met Explore, EXAMINE [dV 31.6] Veel statistische analyses hebben als voorwaarde/aanname dat de afhankelijke variabele normaal verdeeld is. Statistische tests kijken vaak naar de gemiddelden van verschillende experimentele groepen. Daarbij wordt in het bijzonder gekeken naar de onzekerheid in de gemiddelden ten opzichte van het verschil tussen de gemiddelden. Nu weet je al dat bij een scheve verdeling het gemiddelde niet de ideale maat is om een groep waarnemingen samen te vatten. Toch gaan statistische toetsen daar wel vaak vanuit. Daarom is het van belang dat je als onderzoeker in staat bent om kritisch naar de verdeling van de gebruikte variabelen te kijken, om eventueel een andere test of oplossing te zoeken. Open weer je bestand ‘VB02.sav’. Zorg dat de missende data (RT=0) als zodanig gemarkeerd worden. Met het commando EXAMINE kan ook nog een ander soort uitvoer geproduceerd worden. Je kunt de geobserveerde verdeling van een variabele afzetten tegen een normale verdeling (P&D §7.4: let op dat daar, anders dan in SPSS, de geobserveerde waarde verticaal staat). [Data Editor] Kies Analyze > Descriptive Statistics > Explore..., dan knop Plots.. Je komt in een invulscherm waar je de optie Normality plots with tests moet aanvinken. [Syntax] Met het commando: (6.1) EXAMINE / VARIABLES RT / PLOT= NPPLOT. Dit commando levert twee figuren op. In de eerste plot (Normal Q-Q Plot) staat iedere geobserveerde waarde (horizontaal) uit tegen de waarde die je zou verwachten als de reactietijden RT precies normaal verdeeld zou zijn (in Z-scores, vertikaal). Q-Q slaat op quantile-quantile plot, wat erop duidt dat gekeken wordt naar het cumulatieve percentage waarnemingen dat je op een punt gehad hebt en wat je volgens de normale verdeling gehad zou moeten hebben. 26 In geval van normaliteit moeten bijvoorbeeld de mediaan en het gemiddelde samenvallen. Nu is de mediaan van de reactietijden 589 ms en het gemiddelde 698 ms (dus rechts scheef, of positively skewed). Dat voorspelt niet veel goeds. Omdat we bij RT=589 al 50% van de gegevens hebben gehad, zouden we volgens een normale verdeling op het gemiddelde van 698 ms moeten zitten (denk daarover na!). Bij een echte normale verdeling zouden de punten in de Normal Q-Q Plot op de getekende rechte lijn liggen. Die lijn snijdt bij xgem=698 ms de lijn z = 0, omdat bij een echte normale verdeling het gemiddelde bij z=0 ligt. De helling van de lijn wordt bepaald door s=307 ms (ontleend aan de steekproef, n = 93). Voor ons bestand is de lijn echter gekromd. Ons bestand heeft al bij 589 ms de 50% bereikt die met z=0 correspondeert. > Welke percentages van de gegevens verwacht je te vinden bij plus of min een standaarddeviatie? En welke RT waarden verwacht je bij normaal verdeelde gegevens daar dan bij te vinden bij? Lees dat bij benadering af uit de Q-Q plot. We gaan kijken wat er echt gevonden wordt in de tabel met de cumulatieve verdeling: [Data editor] Analyze > Descriptive Statistics > Frequencies en dan Display frequency tables aanvinken (je krijgt veel meer dan alleen de cumulatieve frequentie verdeling). [Syntax] (6.2) FREQUENCIES / VARIABLES=RT /ORDER=ANALYSIS. > Kun je deze datapunten in de Normal Q-Q Plot aanwijzen? De variabele RT is dus vermoedelijk niet normaal verdeeld. Ben je het hier mee eens? Dit kan je bestuderen door andere bronnen van informatie te gebruiken. Het kan bijvoorbeeld ook blijken uit de boxplot en het histogram die je ook kunt opvragen met EXPLORE/EXAMINE. De afwijking van ieder punt t.o.v. de verwachte rechte lijn in de Normal Q-Q plot wordt weergegeven in de tweede plot, de Detrended Normal Probability Q-Q Plot. Als de reactietijden RT precies normaal verdeeld zou zijn, dan moeten de punten random verspreid liggen rond een horizontale lijn met Y = 0. In dit geval is de spreiding rond die nullijn echter helemaal niet random, maar vertoont een golfpatroon. De variabele RT lijkt dus niet normaal verdeeld. 27 De statistische maten die SPSS bij de plots geeft, toetsen of de verdeling van RT afwijkt van de normaalverdeling (Kolmogorov-Smirnov-toets (KS-toets), met Lilliefors significantie-nivo). Dat is hier inderdaad het geval: de variabele RT is niet normaal verdeeld omdat uit de significantie niveaus [Sig.] blijkt dat de kans dat RT wel normaal is verdeeld kleiner is dan 0,001. In het algemeen als de kans kleiner is dan 0,05 dan mag je aannemen dat de verdeling niet normaal is. Maar we lopen hier eigenlijk vooruit. Een manier om een verdeling die rechts scheef is te normaliseren is het toepassen van een logaritmische transformatie. Als we voor de logaritme bijvoorbeeld het gebruikelijke grondtal 10 nemen, dan is 10 log(1000) = 3, 10 log(100) = 2, 10 log(10) = 1 en 10 log(1) = 0. Je ziet dat de verschillen in de uitkomst van de logaritme veel kleiner zijn (van 3 tot 0, waar de oorspronkelijke waarden van 1000 tot 1 varieerden). De hoge uitschieters die kenmerkend zijn voor een rechts scheve verdeling worden er door de logaritmische transformatie beter bij getrokken. Je kunt deze transformatie (met Arithmetic > Lg10) doen via Transform>Compute Variable. Binnen het venster dat opent zorg je ervoor dat je een goede nieuwe naam kiest voor de nieuwe variabele bijvoorbeeld: ‘LogRT’. > Wat zijn de descriptives van LogRT? Controleer LogRT ook op normaliteit. Kijk goed naar de plots van EXPLORE of de verdeling erop vooruit is gegaan. In plaats van de 10 log kun je ook de natuurlijke logaritme (LN) nemen, die heeft als grondtal e = 2,718…. Een transformatie met de wortelfunctie (SQRT) heeft eenzelfde soort effect als een logaritmische transformatie. Verklaar dat. 6.2 De standaard-normale verdeling in SPSS Je kunt de kansen uit de kansverdeling van de standaard-normaalverdeling bepalen met behulp van de tabellen in het boek. Maar het kan ook in SPSS, met de functies CDF.NORMAL(quant,mean,sd) (Cumulative Density Function, quant = RT hier) en IDF.NORMAL(p,mean,sd) (Inverse Density Function), die je aanroept via het commando COMPUTE. De uitvoer van deze functie moet je dan bewaren in een nieuwe variabele (kolom). Je kunt bijvoorbeeld in Vb02.sav op basis van RT een nieuwe variabele PRT maken waarin je de kans zet op een waarde kleiner of gelijk aan RT (als RT normaal verdeeld zou zijn!). [Data editor] Transform > Compute en kies dan de juiste functies en vul in. 28 [Syntax] (6.3) COMPUTE PRT = CDF.NORMAL(RT,698,308). > Welke waarde van PRT krijg je bij RT = 474 ms? En welk percentage vond je eerder in de cumulatieve frequentie verdeling van RT bij 474? Klopt dat met de grafiek van de Normal Q-Q plot? De inverse functie werkt precies andersom, probeer nu maar eens IDF.NORMAL(PRT,698,308) uit. [optioneel] Zou je kunnen bedenken wat er uit de opdrachten in dit hoofdstuk zou komen wanneer we waren uitgegaan van een verdeling die links scheef was? 29