Statistiek extra college 2 Behandeling vraag 3 uit Quiz 3: Je wilt d.m.v. een t-toets een schatting maken van de gemiddelde laadtijd voor webstekken onder gebruik van flash-animaties. Je controleert de drukte van het netwerkverkeer, en laat 15 aselect gekozen webstekken toetsen. Met welke t-waarde moet je verder werken om met een significantieniveau α=0,05 te werken? 1,341 - 1,345 - 1,761 - 1,753 Uitleg: Uiteraard moet men in de rij kijken waar 14 df (vrijheidsgraden) staat. Voor de omrekening op basis van df voor een t toets mag je in het boek kijken naar de kolommen achterin. Let op dat je goed kijkt of iets één-/ tweezijdig is. Deze vraag is tweezijdig, want je wil een schatting maken. Je wil een gemiddelde van de populatie op basis van steekpoefmetingen schatten. Effectgrootte en significantie: - Significant zijn p-waarden kleiner dan 0.05/ 0.01, het resultaat is waarschijnlijk geen toeval. Bij 0.05 is er 5% kans op toeval, en dit is afhankelijk van een grootte van een steekproef. - Effectgrootte is het gemeten verschil tussen de gemiddelden in de steekproeven. In termen van standaardafwijkingen is dit Cohens-d. Dus niet de standaardfout. Gemiddeldenverschil delen door standaard afwijkingen, dus de Cohens-d. vanaf ongeveer 0.4 Cohens-d is een redelijke effectgrote, boven 0.8 is groot. Notulen vorige keer: Verschil standaard fout en standaard afwijking: standaard fout om steekproeven te interpreteren, standaardafwijking om individuele scoren te interpreteren. Degrees of freedom: df voor een enkelvoudige t-toets is het aantal n – 1. Voor Chi kwadraat is de formule van df belangrijk: (Aantal rijen-1) x (aantal kolommen -1)= DF Percentielen: Je weet de percentiel score pas als je een z-score hebt. Daarna kun je de percentielen in de tabel van de normaal verdeling zien. Het tentamen is een meerkeuze tentamen en de antwoorden liggen genoeg uit elkaar om duidelijk de goede te vinden. Als je de begrippen snapt en ermee kan werken is het goed genoeg. Opdrachten 04-03: Vraag 5: (vorige keer) Top 5% van een totaal. Je gebruikt een tabel (achterin boek) voor het verbinden van percentages met z-waarden. 5b: Hiervoor moet je weer in de tabel kijken, nu naar waar de bovenste 5% is, dus 0.05 (1.64 of 1.65 rij) daar is de z-waarde 1.65, met die waarde kan je verder rekenen(zie antwoorden). Van een z-waarde naar de ruwe score: De z-waarde is het aantal standaard afwijkingen weg van het gemiddelde. Dus ruwe score min gem. en dan dat resultaat delen door de standaardafwijking is de zwaarde. Oefeningen 2 Opdracht 1 Gestandaardiseerde toets, het sigma is bekend. M= 18.6, standaardafwijking 5.9, N 81. Wat verwacht je als steekproef gem. en standaardafwijking (van de steekproefverdeling)? Verwachting is dat er schommelingen zijn om het populatie gemiddelde. De steekproefverdeling heeft hetzelfde gemiddelde als de populatie. Dus hier ook een zelfde gemiddelde (18.6). Steekproeven zijn altijd normaal verdeeld, zelfs als populaties dat niet zijn. Standaardfout is er ook, dat bereken je door: standaard afwijking (in pop.)/ wortel van N. Dus: standaard fout 5.9 / 9 (wortel van N 81) = 0.66 In populatie van steekproeven is iets dat twee keer groter/ kleiner is redelijk afwijkend. Opdracht 2a (21 - 18.6) / 5.9 = z-score 0.41 5.9 standaard afwijking gebruikt omdat het om individuen gaat Dan in de tabel kijken achterin het boek: ‘smaller portion’ omdat je boven gemiddeld bent en je wilt omhoog. Kans dat een z-waarde groter of gelijk is aan 0.41 is 0.34 (34%). Opdracht 2b Kans van een groep dus de afstand tot het pop. gem. delen door standaard fout (.66). z = (20.4 – 18.6) / 0.66 = 1.8/0.66 = 2.73 (z-score) (p 27,273) - De kans dat de z-score zo hoog is of hoger is maar 0.3% . De kans op iets stijgt als de groep kleiner wordt. Opdracht 3 A. 34 mean, 10 standaardfout. (zie uitgewerkte oefening) B. 37 mean, 12 standaardfout. +/- 2 sd is 95%. Dus bijzondere gevallen vallen hier buiten. Methode a: Normale verdeling moet het zijn, het gemiddelde van alle steekproefgemiddelden moet dus ook 34 (zelfde als populatiegem.). De spreiding van die steekproefgemiddeldenverdeling(omdat het groepen zijn is er een standaard fout die meetelt) Goed onthouden hier dat gemiddelden van steekproefgem. en populaties gelijk zijn. Sd 10 / wortel van 25 mensen = 5 , standaardfout is dus 2. N(34, 2). Methode b: gemiddelde 37, standaardafwijking is 12. Standaard afwijking delen door wortel. 12 / wortel 16 (= 4) dus N(37,3). Sigma / wortel (N) is de SE. Bij een individu kan N maar 1 zijn dus zelfs als je de verkeerde formule neemt voor een individu (i.p.v. groep), kan de uitkomst nog juist zijn, want wortel (1) =1. Vragen overige: Verschil Engelse en Nederlandse termen: sheets in Engels, quizzen in Nederlands. Verduidelijking: standaard fout = standaard error, doosdiagram = boxplot/ box and whiskers, normaalquantiel plot = Q-Q, One-tailed vs. two-tailed = eenzijdig vs. tweezijdig. In het tentamen is alles in het Nederlands. Als er nog vragen zijn dan graag mailen aan meneer Nerbonne, voor de volgende extra colleges is dat handig zodat er alvast wat vragen kunnen worden voorbereid. Belangrijk is verschil :standaardafwijking voor individuen, voor groepen dus echt de standaardfout.