Statistiek I

advertisement
Statistiek I
Werkcollege 1
Populatie:
De gehele groep elementen waarover informatie wordt gewenst.
Steekproef:
Gedeelte van de populatie dat feitelijk wordt onderzocht om informatie te vergaren.
Eenheden:
De elementen van de steekproef waaruit gegevens worden verzameld.
Variabele:
Eigenschap van een element uit de steekproef die wordt bepaald.
Kwantitatieve variabele:
Kenmerken die in getallen kunnen worden uitgedrukt.
Continu – Aaneengesloten interval (bijv. Lengte, gewicht etc.)
Discreet – Losse waarden (aantal)
Kwalitatieve variabele:
Geeft eigenschappen aan.
Nominaal – Geen vaste of zinvolle rangorde
Ordinaal – Wel vaste of zinvolle rangorde
Enkelvoudige Aselecte Steekproef (EAS):
Een aantal eenheden worden op volstrekt willekeurige manier uit de populatie
genomen. Dit voorkomt vertekening.
Werkcollege 2
Gemiddelde:
Gevoelig voor uitbijters
Standaardafwijking:
(=standaarddeviatie=s=√variantie)
Variantie=
Dus variantie=standaardafwijking2
Gevoelig voor uitbijters
Mediaan:
Middelste getal(/middelste 2 getallen) wanneer alle resultaten zijn gerangschikt van
laag naar hoog.
Niet gevoelig voor uitbijters
Interkwartielafstand (IKA):
Q3-Q1
Q1 – 1e kwartiel = 25e percentiel = 25%-punt = 0.25-punt
Q3 – 3e kwartiel = 75e percentiel = 75%-punt = 0,72-punt
Niet gevoelig voor uitbijters
5-getallen samenvatting:
- Minimum
- Eerste kwartiel (Q1)
- Mediaan (tweede kwartiel)
- Derde kwartiel (Q3)
- Maximum
68-95-99.7-regel (Empirical Rule):
Vuistregel voor een normale verdeling
- Ongeveer 68% van de waarnemingen ligt in het interval (µ-σ,µ+σ)
- Ongeveer 95% van de waarnemingen ligt in het interval (µ-2σ, µ+2σ)
- Ongeveer 99.7% van de waarnemingen ligt in het interval (µ-3σ, µ+3σ)
Wet van de grote aantallen:
Relatieve frequentie stabiliseert zich als men een experiment vele malen herhaalt.
Kans:
Relatieve frequentie op lange termijn.
Principe van Laplace:
Als een toevalsverschijnsel k mogelijke uitkomsten heeft, die alle even waarschijnlijk
zijn, geldt: P(gebeurtenis A)=aantal uitkomsten in A/totaal aantal mogelijke
uitkomsten
Gebeurtenissen:
P(A)
P(-A) (streepje boven A) uitkomsten die niet in A voorkomen.
P(A∪B) uitkomsten die alleen in A, alleen in B of in A en B tegelijk voorkomen (als A
en B geen gemeenschappelijke uitkomst hebben, zijn ze disjunct.
P(A∩B) uitkomsten die zowel in A als in B voorkomen.
Basisregels van kansen:
0 ≤ P(A) ≤ 1
P(S) = 1
Complementregel: P(-A) = 1-P(A)
voor elke gebeurtenis A
(S is de uitkomstenruimte)
voor elke gebeurtenis A
Werkcollege 3
Productregel voor onafhankelijke gebeurtenissen:
P(A∩B) = P(A) x P(B)
Gebeurtenissen A en B zijn onafhankelijk als de wetenschap dat A gebeurt niet de
kans verandert dat B gebeurt.
Optelregel voor disjuncte gebeurtenissen:
Gebeurtenissen die nooit samen voorkomen, zijn elkaar uitsluitende of disjuncte
gebeurtenissen.
P(A∪B) = P(A) + P(B)
Algemene optelregel:
P(A∪B) = P(A) + P(B) – P(A∩B)
Als A en B disjunct zijn, geld (PA∩B) = 0
Binomiaal coëfficiënt:
(bijv. 5!=5x4x3x2x1, 3!=3x2x1, NB 0!=1)
Binomiale situatie – algemeen:
- n waarnemingen
- waarnemingen zijn onafhankelijk
- uitkomst van de waarneming: succes of mislukking
- kans op succes, π, is voor elke waarneming hetzelfde
Binomiale verdeling:
Het aantal succesen y van de n waarnemingen in de binomiale situatie heeft een
Binomiale verdeling: y is B(n, π)
P(y=k)=
πk(1-π)n-k
Met GR: Binompdf(n,π,k) wanneer P(y=k) of Binomcdf(n,π,k) wanneer P(y≤k)
Werkcollege 4
Normale verdeling:
- Symmetrisch
- Eéntoppig
- Klokvormig
- Notatie: N(µ,σ)
Standaard normale verdeling:
Z~N(0,1)
Transformatie y~N(µ,σ) tot Z~N(0,1): y=µ+σZ of Z=(y-µ)/σ
µ en σ van discrete toevalsvariabele y:
Voor een variabele y met mogelijke uitkomsten y1, y2, y3… en bijbehorende kansen
p1, p2, p3… geldt het volgende.
De verwachting van y is µ=E(y)=∑y1p1=∑uitkomst x kans
De variantie van y is σ2=Var(y)=∑(y1-µ)2p1
Werkcollege 5
Regels voor verwachtingen:
- Regel 1, als y een toevalsvariabele is en a en b vaste getallen zijn geldt:
µa+by=a+bµy
- Regel 2, als x en y toevalsvariabelen zijn, dan geldt:
µx+y=µ x+µy
- Regel 1&2 gecombineerd, als x en y toevalsvariabelen zijn en a, b en c vaste
getallen dan geldt:
µax+by+c=aµ x+bµy+c
Regels voor variantie:
- Regel 1, als y een toevalsvariabele is en a en b vaste getallen zijn, dan geldt:
σa+by=|b|σy
- Regel 2, als x en y onafhankelijke toevalsvariabelen zijn, dan geldt:
σ2x+y=σ2x+σ2y
σ2x-y=σ2x+σ2y
- Regel 1&2 gecombineerd, als x en y onafhankelijke toevalsvariabelen zijn, en
a, b en c vaste getallen, dan geldt:
σ2ax+by+c=a2σ2x+b2σ2y
Som van onafhankelijke trekkingen uit zelfde verdeling:
Voor de som van n aselecte trekking uit een zelfde verdeling met verwachting µy en
standaardafwijking σy volgt m.b.v. de rekenregels:
- ∑y=y1+…+yn
- µ∑y=nµy
- σ∑y=√n x σy
In het algmeen:
- y~N(µy,σy)
- n aselecte trekkingen uit deze normale verdeling: y1…yn
- ∑y=y1+…+yn
- Verdeling som: ∑y~N(nµy,√n x σy)
Verwachting&standaardafwijking steekproefgemiddelde:
Verwachting steekproef=gemiddelde
Standaardafwijking steekproef=σy/√n
In het algemeen:
- y~N(µy,σy)
- n aselecte trekkingen uit deze normale verdeling: y1…yn
- steekproefgemiddelde=(y1+…+yn)/n=1/n∑y1
- Verdeling gemiddelde: steekproefgemiddelde~N(µy,σy/√n)
Werkcollege 6
Statistische toets:
Met een statistische toets kan sterkte van bewijs tegen nulhypothese worden
vastgestled.
Nulhypothese (H0):
Bewering die wordt getoetst, gewoonlijk van de vorm ‘geen effect’ of ‘geen verschil’.
Alternatieve hypothese (Ha):
Bewering waarvan men hoopt of vermoedt dat die juist is in plaats van H0.
Statistische notatie:
H0: π=0.5
Ha: π>0.5
Toetsingsgrootheid:
Op de toetsingsgrootheid wordt de beslissing t.a.v. de aannemelijkheid van H0
gebaseerd, y = bepaald aantal.
P-waarde:
De P-waarde is de overschrijdingskans. Als de P-waarde kleiner is dan het vooraf
afgesproken significantieniveau α mag de nulhypothese worden verworpen en de
alternatieve hypothese worden aangenomen.
H0 verwerpen en Ha aannemen voor P-waarde≤α
Significantieniveau α:
Als H0 waar is, is er een kans van (ten hoogste) α dat we H0 toch (ten onrecte
verwerpen en (ten onrechte) concluderen dat Ha juist is. Deze waarde wordt vóór het
onderzoek vastgesteld en is meestal 0.05.
Alternatieve hypothese:
Bij de toets op een kans met H0: π=π0 zijn er drie mogelijkheden voor de alternatieve
hypothese:
- Ha: π>π0
Rechter P-waarde: P(TG≥uitkomst)
- Ha: π<π0
Linker P-waarde: P(TG≤uitkomst)
- Ha: π≠π0
Tweezijdige P-waarde
Werkcollege 7
Tweezijdige P-waarde:
Algemene regel voor symmetrische verdelingen:
- Tweezijdige P-waarde = 2 x eenzijdige P-waarde
- De eenzijdige P-waarde is altijd de ‘kleinste’ P-waarde, dus:
- als uitkomst y0>µy=nπ0 is de tweezijdige P-waarde 2 x P(y≥y0 voor
π=π0)
- als uitkomst y0<µy=nπ0 is de tweezijdige P-waarde 2 x P(y≥y0 voor
π=π0)
Verwachting&variantie Binomiale verdeling:
Als het aantal successen y~Bin(n,π) verdeel is, dan geldt:
- µy = nπ
- σ2y= nπ(1-π)
σy = √nπ(1-π)
Voor de steekproeffractie ^π=y/n geldt:
- µπ=µ(1/n)y=(1/n)µy=(1/n)nπ=π
σπ=√(π(1-π))/n
- σ2(1/n)y=(1/n)2σ2y=(1/n)2nπ(1-π)=π(1-π)/n
Normale benadering van aantallen&fracties:
In een EAS van om omvang n uit een grote populatie (waar π de fractie successen in
de populatie is) is:
-
De steekproeffractie successen ^π=y/n bij benadering (b.b.)
verdeeld.
-
Het steekproefaantal successen y b.b.
verdeeld.
Vuistregel voor geldigheid benaderingen: nπ≥5 en n(1-π)≥5
Continuïteitscorrectie:
De continuïteitscorrectie verbetert de benadering van een discrete verdeling met een
continue verdeling.
Werkcollege 8
Toetsen met z-toets (normale benadering):
- Niet exact
- Binomiale verdeling benaderen door normale verdeling
Normale benadering van fracties:
In een EAS van omvang n uit een grote populatie (waar π de fractie successen in de
populatie is) is: ^π=y/n
-
De steekproeffractie successen ^π=y/n bij benadering (b.b.)
verdeeld.
Benaderende z-toets voor populatiefractie ‘successen’ π:
Via benadering met Normale verdeling (ALS: nπ0≥5 en n(1-π0)≥5)
- H0: π=π0 en Ha: π>/</≠π0 opstellen
- Toetsingsgrootheid: z= (^π-π0)/√(π0(1-π0)/n)
- Als H0 waar is, is z bij benaderin N(0,1) verdeeld.
P-waarde z-toets:
P(z≥TG)
Download