K = aantal fouten in de totale populatie N = grootte van de totale populatie k = aantal fouten in de steekproef n = grootte van de steekproef µ α σ s = populatiegemiddelde = steekproefgemiddelde = onbetrouwbaarheid = populatiestandaardafwijking = steekproefstandaardafwijking > Motiveer altijd waarom je een bepaalde verdeling gebruikt a.d.h.v. de voorwaarden!!! > Als df niet precies in de tabel staat, neem dan een lagere waarde (bv. df = 51, neem df = 50) H 2.6 + 2.7: steekproeven (toetsen op basis van percentage) = kwalitatieve toets (toetsen op basis van gemiddelde) = kwantitatieve toets 1. Hypergeometrische verdeling 1. Student t-verdeling (tabel 13.4) (nauwkeurigste) n/N > 0,1 n < 200 Df = n-1 (aantal vrijheidsgraden) Nadeel: - max. 69! (=69 faculteit) - veel rekenwerk T vinden: - gegevens invullen in bovenstaande formule - m.b.v. overschrijdingskans en df opzoeken in tabel Als 1 niet gaat, dan ↓ Als t al bekend is, en df of overschrijdingskans ook, dan kun je ook het ontbrekende gegeven (df of overschrijdingskans) opzoeken in tabel. 2. Binomiale verdeling 2. Normale verdeling (tabel 13.3) n Voorwaarde: N < 0,1 Voorwaarde: n ≥ 200 Z vinden: - gegevens invullen in bovenstaande formule - m.b.v. gegeven α opzoeken in tabel (namelijk door α-1 te nemen) 3. Poisson verdeling (onnauwkeurigst) n Voorwaarden: N < 0,1 en n ≥20 en en e = 2,71828 (ex1) Wat zijn vrijheidsgraden? Vrijheidsgraden worden aangeduid met ‘df’ ofwel degrees of freedom. Het aantal vrijheidsgraden kun je berekenen door de steekproefomvang – 1 te doen, dus n – 1. Stel, n = 5 waarvan de som 50 is. Je hebt dus 5 getallen die samen 50 vormen. Je hebt n-1=4 vrijheidsgraden. Dit zijn getallen die kunnen zijn wat ze willen, je kunt nemen wat je wilt. Hier nemen we bijvoorbeeld 12, 6, 8 en 11. Deze vrijheidsgraden zijn onafhankelijk van elkaar. Het 5e getal mag is geen vrijheidsgraad, want dit getal moet ervoor zorgen dat de som van de 5 getallen bij elkaar op 50 uitkomt. Het 5e getal is in dit geval dus 50 – (12+6+8+11) = 13. Dit is geen vrijheidsgraad, want dit getal moet in dit geval 13 zijn om 50 te vormen. Chi-kwadraatverdeling (χ = chi, χ²) Als de populatievariantie σ onbekend is, kan de chi-kwadraatverdeling gebruikt worden om een boven- en ondergrens te schatten waartussen σ ligt. Hiervoor gebruiken we de steekproefvariantie s. S geeft de spreiding van de steekproef aan, en wordt ook wel de standaardafwijking van de steekproef genoemd. Omdat de steekproef normaal verdeeld is en dus 2 kanten heeft, is de totale spreiding dus s². (bijv: = 3, steekproefresultaten 1,2,3,4,5 en dus n = 5) S² = Σ(steekproefresultaat n-1 )² = ((1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)²) 5-1 =2.5 Vervolgens heb je df nodig (n-1) en α om de χ² af te lezen in tabel 13.7. Meer hierover in H 9, 10 en 11. F-verdeling Deze wordt gebruikt om te kijken of twee steekproeven dezelfde varianties hebben. S² van elke steekproef kan berekend worden zoals hierboven of al gegeven zijn. Dan berekenen we F = waarbij de hoogste variantie (grootste getal) altijd boven staat. Als we F hebben berekend, zoeken we in tabel 13.8 aan de hand van de vrijheidsgraden df en het gegeven significantieniveau α op welke F-waarde erbij hoort. Verschilt deze van de berekende Fwaarde, dan verschillen de varianties. Een negatieve F-waarde bestaat niet, omdat de varianties kwadraten zijn, en die zijn nooit negatief. Interpoleren Betekenis: Bij een serie waarnemingen een tussenliggende waarde schatten. Stel, je hebt een t-waarde van t= 2,96 maar die staat niet in de tabel. Je wilt de overschrijdingskans weten. T-waarde (t) Overschrijdingskans (α) 2,821 0,010 Overschrijdingskans voor t=2,96 > 2,960 x 3,250 0,005 2,96 – 2,821 3,250 – 2,821 x (0,005 – 0,010) + 0,010 = 0,0084 de steekproef tweezijdig is en symmetrisch, dus elke kant de helft van α.