Statistiek I Werkcollege 1 Populatie: De gehele groep elementen waarover informatie wordt gewenst. Steekproef: Gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren. Eenheden: De elementen van de steekproef waaruit gegevens worden verzameld. Variabele: Eigenschap van een element uit de steekproef die wordt bepaald. Kwantitatieve variabele: Kenmerken die in getallen kunnen worden uitgedrukt. Continu – Aaneengesloten interval (bijv. Lengte, gewicht etc.) Discreet – Losse waarden (aantal) Kwalitatieve variabele: Geeft eigenschappen aan. Nominaal – Geen vaste of zinvolle rangorde Ordinaal – Wel vaste of zinvolle rangorde Enkelvoudige Aselecte Steekproef (EAS): Een aantal eenheden worden op volstrekt willekeurige manier uit de populatie genomen. Dit voorkomt vertekening. Werkcollege 2 Gemiddelde: Gevoelig voor uitbijters Standaardafwijking: (=standaarddeviatie=s=√variantie) Variantie= Dus variantie=standaardafwijking2 Gevoelig voor uitbijters Mediaan: Middelste getal(/middelste 2 getallen) wanneer alle resultaten zijn gerangschikt van laag naar hoog. Niet gevoelig voor uitbijters Interkwartielafstand (IKA): Q3-Q1 Q1 – 1e kwartiel = 25e percentiel = 25%-punt = 0.25-punt Q3 – 3e kwartiel = 75e percentiel = 75%-punt = 0,72-punt Niet gevoelig voor uitbijters 5-getallen samenvatting: - Minimum - Eerste kwartiel (Q1) - Mediaan (tweede kwartiel) - Derde kwartiel (Q3) - Maximum 68-95-99.7-regel (Empirical Rule): Vuistregel voor een normale verdeling - Ongeveer 68% van de waarnemingen ligt in het interval (µ-σ,µ+σ) - Ongeveer 95% van de waarnemingen ligt in het interval (µ-2σ, µ+2σ) - Ongeveer 99.7% van de waarnemingen ligt in het interval (µ-3σ, µ+3σ) Wet van de grote aantallen: Relatieve frequentie stabiliseert zich als men een experiment vele malen herhaalt. Kans: Relatieve frequentie op lange termijn. Principe van Laplace: Als een toevalsverschijnsel k mogelijke uitkomsten heeft, die alle even waarschijnlijk zijn, geldt: P(gebeurtenis A)=aantal uitkomsten in A/totaal aantal mogelijke uitkomsten Gebeurtenissen: P(A) P(-A) (streepje boven A) uitkomsten die niet in A voorkomen. P(A∪B) uitkomsten die alleen in A, alleen in B of in A en B tegelijk voorkomen (als A en B geen gemeenschappelijke uitkomst hebben, zijn ze disjunct. P(A∩B) uitkomsten die zowel in A als in B voorkomen. Basisregels van kansen: 0 ≤ P(A) ≤ 1 P(S) = 1 Complementregel: P(-A) = 1-P(A) voor elke gebeurtenis A (S is de uitkomstenruimte) voor elke gebeurtenis A Werkcollege 3 Productregel voor onafhankelijke gebeurtenissen: P(A∩B) = P(A) x P(B) Gebeurtenissen A en B zijn onafhankelijk als de wetenschap dat A gebeurt niet de kans verandert dat B gebeurt. Optelregel voor disjuncte gebeurtenissen: Gebeurtenissen die nooit samen voorkomen, zijn elkaar uitsluitende of disjuncte gebeurtenissen. P(A∪B) = P(A) + P(B) Algemene optelregel: P(A∪B) = P(A) + P(B) – P(A∩B) Als A en B disjunct zijn, geld (PA∩B) = 0 Binomiaal coëfficiënt: (bijv. 5!=5x4x3x2x1, 3!=3x2x1, NB 0!=1) Binomiale situatie – algemeen: - n waarnemingen - waarnemingen zijn onafhankelijk - uitkomst van de waarneming: succes of mislukking - kans op succes, π, is voor elke waarneming hetzelfde Binomiale verdeling: Het aantal succesen y van de n waarnemingen in de binomiale situatie heeft een Binomiale verdeling: y is B(n, π) P(y=k)= πk(1-π)n-k Met GR: Binompdf(n,π,k) wanneer P(y=k) of Binomcdf(n,π,k) wanneer P(y≤k) Werkcollege 4 Normale verdeling: - Symmetrisch - Eéntoppig - Klokvormig - Notatie: N(µ,σ) Standaard normale verdeling: Z~N(0,1) Transformatie y~N(µ,σ) tot Z~N(0,1): y=µ+σZ of Z=(y-µ)/σ µ en σ van discrete toevalsvariabele y: Voor een variabele y met mogelijke uitkomsten y1, y2, y3… en bijbehorende kansen p1, p2, p3… geldt het volgende. De verwachting van y is µ=E(y)=∑y1p1=∑uitkomst x kans De variantie van y is σ2=Var(y)=∑(y1-µ)2p1 Werkcollege 5 Regels voor verwachtingen: - Regel 1, als y een toevalsvariabele is en a en b vaste getallen zijn geldt: µa+by=a+bµy - Regel 2, als x en y toevalsvariabelen zijn, dan geldt: µx+y=µ x+µy - Regel 1&2 gecombineerd, als x en y toevalsvariabelen zijn en a, b en c vaste getallen dan geldt: µax+by+c=aµ x+bµy+c Regels voor variantie: - Regel 1, als y een toevalsvariabele is en a en b vaste getallen zijn, dan geldt: σa+by=|b|σy - Regel 2, als x en y onafhankelijke toevalsvariabelen zijn, dan geldt: σ2x+y=σ2x+σ2y σ2x-y=σ2x+σ2y - Regel 1&2 gecombineerd, als x en y onafhankelijke toevalsvariabelen zijn, en a, b en c vaste getallen, dan geldt: σ2ax+by+c=a2σ2x+b2σ2y Som van onafhankelijke trekkingen uit zelfde verdeling: Voor de som van n aselecte trekking uit een zelfde verdeling met verwachting µy en standaardafwijking σy volgt m.b.v. de rekenregels: - ∑y=y1+…+yn - µ∑y=nµy - σ∑y=√n x σy In het algmeen: - y~N(µy,σy) - n aselecte trekkingen uit deze normale verdeling: y1…yn - ∑y=y1+…+yn - Verdeling som: ∑y~N(nµy,√n x σy) Verwachting&standaardafwijking steekproefgemiddelde: Verwachting steekproef=gemiddelde Standaardafwijking steekproef=σy/√n In het algemeen: - y~N(µy,σy) - n aselecte trekkingen uit deze normale verdeling: y1…yn - steekproefgemiddelde=(y1+…+yn)/n=1/n∑y1 - Verdeling gemiddelde: steekproefgemiddelde~N(µy,σy/√n) Werkcollege 6 Statistische toets: Met een statistische toets kan sterkte van bewijs tegen nulhypothese worden vastgestled. Nulhypothese (H0): Bewering die wordt getoetst, gewoonlijk van de vorm ‘geen effect’ of ‘geen verschil’. Alternatieve hypothese (Ha): Bewering waarvan men hoopt of vermoedt dat die juist is in plaats van H0. Statistische notatie: H0: π=0.5 Ha: π>0.5 Toetsingsgrootheid: Op de toetsingsgrootheid wordt de beslissing t.a.v. de aannemelijkheid van H0 gebaseerd, y = bepaald aantal. P-waarde: De P-waarde is de overschrijdingskans. Als de P-waarde kleiner is dan het vooraf afgesproken significantieniveau α mag de nulhypothese worden verworpen en de alternatieve hypothese worden aangenomen. H0 verwerpen en Ha aannemen voor P-waarde≤α Significantieniveau α: Als H0 waar is, is er een kans van (ten hoogste) α dat we H0 toch (ten onrecte verwerpen en (ten onrechte) concluderen dat Ha juist is. Deze waarde wordt vóór het onderzoek vastgesteld en is meestal 0.05. Alternatieve hypothese: Bij de toets op een kans met H0: π=π0 zijn er drie mogelijkheden voor de alternatieve hypothese: - Ha: π>π0 Rechter P-waarde: P(TG≥uitkomst) - Ha: π<π0 Linker P-waarde: P(TG≤uitkomst) - Ha: π≠π0 Tweezijdige P-waarde Werkcollege 7 Tweezijdige P-waarde: Algemene regel voor symmetrische verdelingen: - Tweezijdige P-waarde = 2 x eenzijdige P-waarde - De eenzijdige P-waarde is altijd de ‘kleinste’ P-waarde, dus: - als uitkomst y0>µy=nπ0 is de tweezijdige P-waarde 2 x P(y≥y0 voor π=π0) - als uitkomst y0<µy=nπ0 is de tweezijdige P-waarde 2 x P(y≥y0 voor π=π0) Verwachting&variantie Binomiale verdeling: Als het aantal successen y~Bin(n,π) verdeel is, dan geldt: - µy = nπ - σ2y= nπ(1-π) σy = √nπ(1-π) Voor de steekproeffractie ^π=y/n geldt: - µπ=µ(1/n)y=(1/n)µy=(1/n)nπ=π σπ=√(π(1-π))/n - σ2(1/n)y=(1/n)2σ2y=(1/n)2nπ(1-π)=π(1-π)/n Normale benadering van aantallen&fracties: In een EAS van om omvang n uit een grote populatie (waar π de fractie successen in de populatie is) is: - De steekproeffractie successen ^π=y/n bij benadering (b.b.) verdeeld. - Het steekproefaantal successen y b.b. verdeeld. Vuistregel voor geldigheid benaderingen: nπ≥5 en n(1-π)≥5 Continuïteitscorrectie: De continuïteitscorrectie verbetert de benadering van een discrete verdeling met een continue verdeling. Werkcollege 8 Toetsen met z-toets (normale benadering): - Niet exact - Binomiale verdeling benaderen door normale verdeling Normale benadering van fracties: In een EAS van omvang n uit een grote populatie (waar π de fractie successen in de populatie is) is: ^π=y/n - De steekproeffractie successen ^π=y/n bij benadering (b.b.) verdeeld. Benaderende z-toets voor populatiefractie ‘successen’ π: Via benadering met Normale verdeling (ALS: nπ0≥5 en n(1-π0)≥5) - H0: π=π0 en Ha: π>/</≠π0 opstellen - Toetsingsgrootheid: z= (^π-π0)/√(π0(1-π0)/n) - Als H0 waar is, is z bij benaderin N(0,1) verdeeld. P-waarde z-toets: P(z≥TG)