Deel 1: Beschrijvende statistiek

advertisement
Deel I
Beschrijvende Statistiek
Hoofdstuk 2 : visualiseren van data
2.1 Onderzoek naar raciale voorkeur
2.1.1 De onderzoeksvraag
‘Verkiezen mensen hun eigen ras?’
2.1.2 De populatie en de steekproef

Representatieve steekproef = steekproef die een goede afspiegeling is van de
populatie

Aselecte steekproef = op willekeurige wijze 90 Amerikanen selecteren uit de
populatie

Vrijwillige respons
2.1.3 Het IAT-experiment
= methode om impliciete voorkeur te meten
2.1.4 De data
Illustratie in R
2.2 Cirkeldiagram
= grafische voorstelling die voornamelijk gebruikt wordt voor variabelen van nominaal
meetniveau
 Absolute frequentie: aantal keer dat de waarde x in de steekproef voorkomt
 Absolute frequentieverdeling: tabel met 2 rijen  1ste rij = mogelijke waarden van X ;
2e rij = overeenkomstige absolute frequenties
 Relatieve frequentie: absolute frequentie gedeeld door de steekproefgrootte (som =
1)
 Steekproefgrootte (n): aantal elementen in de steekproef
 Verdeling van een variabele: het geheel van mogelijke waarden, samen met de
absolute of relatieve frequenties
Data visualiseren obv relatieve frequenties  cirkeldiagram: relatieve oppervlaktes =
relatieve frequenties
2.3 Staafdiagram
 Waarden van variabelen: horizontaal weergegeven
 Rechthoek tekenen bij elke waarde: hoogte = relatieve frequentie
 Alle rechthoeken = even breed
 Afstand tussen rechthoeken =
 Variabelen van nominaal of ordinaal meetniveau
Illustratie in R
2.4 Histogram
 eerst: data groeperen (vb. 8 groepen = klassen)
Gegroepeerde frequentieverdeling: tabel met 2 kolommen waar de 1ste kolom de klassen
van X weergeeft en de 2e de overeenkomstige frequenties.






Hangt af van de keuze van de klassen  subjectief
Waarden: liggen op horizontale as
Verticale as: relatieve frequentie
Breedte rechthoek = breedte klasse
Hoogte rechthoek = relatieve frequentie gedeeld door de breedte van de klasse
Oppervlakte rechthoek = relatieve frequentie
Als klassen = breedte hebben  mogelijk om histogram te maken obv absolute frequentie.
Verschillen tussen staafdiagram en histogram
Histogram
Rechthoeken raken elkaar
Breedtes van rechthoeken kunnen
verschillen
Wordt vooral gebruikt voor interval- en
ratioschaal variabelen (groot # waarden)
Staafdiagram
Wordt vooral gebruikt voor ordinale en
nominale variabelen (beperkt # waarden)
Hoe data opdelen in klassen?
 Liefst klassen van dezelfde breedte
 Als uiterste klassen lage frequentie hebben  samenvoegen
 Aantal klassen bepalen door: √𝑛 klassen
Illustratie in R
2.5 Cumulatieve frequentiecurve
2.5.1 Ongegroepeerde data
Cumulatieve absolute frequentie: aantal elementen in de steekproef die kleiner of gelijk zijn
aan x  absolute frequenties optellen (symbool = 𝐹(𝑥) )
Cumulatieve absolute frequentieverdeling: tabel met 2 kolommen  1ste kolom: waarden
van de variabele X ; 2e kolom: overeenkomstige cumulatieve absolute frequenties
 Horizontale as: leeftijden
 Verticale as: cumulatieve (absolute) frequenties
Hoe cumulatieve frequentiecurve opstellen?
1. Alle waarden van de cumulatieve frequentieverdeling aanduiden
2. Punten uit (1) trapsgewijs verbinden
3. Voor alle (vb.) leeftijden kleiner dan 16 een horizontale lijn tekenen bij een
cumulatieve frequentie
4. Voor alle (vb.) leeftijden boven 74 jaar een horizontale lijn tekenen bij een
cumulatieve frequentie van 90
Illustratie in R
2.5.2 Gegroepeerde data
Cumulatieve absolute frequentie: aantal elementen in de klasse + aantal elementen in
lagere klassen
Cumulatieve absolute gegroepeerde frequentieverdeling: tabel met 2 kolommen  1ste
kolom: klassen van X ; 2e kolom: overeenkomstige cumulatieve absolute frequenties
𝑥
 Rekenregel: vermenigvuldigen met 10
Hoe cumulatieve frequentiediagram maken?
1.
2.
3.
4.
Horizontale as: ter hoogte van de klassengrenzen punten tekenen
Punten met rechten verbinden
Voor alle (vb.) leeftijden onder 15 jaar een horizontale lijn tekenen
Voor alle (vb.) leeftijden boven 90 jaar een horizontale lijn tekenen
Hoofdstuk 3: Samenvatten van data
= numeriek samenvatten om inzicht in de gegevens te vergroten
3.1 Centrummaten
= maat voor het centrum van een verdeling (waarden van een variabele samenvatten in 1
getal)
3.1.1 Het gemiddelde
 berekenen op basis van de waarden van een variabele, frequentieverdeling of
gegroepeerde data
1. Het gemiddelde op basis van de waarden van een variabele
 Rekenkundig gemiddelde: berekenen door alle waarden van een variabele op te
tellen en te delen door de steekproefgrootte
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
Meetniveau: enkel zinnig voor interval- en ratiovariabelen
 Harmonisch gemiddelde:
𝑛
1
∑𝑛
𝑖=1𝑥
𝑖
=
𝑛
1
1
1
+ + …+
𝑥1 𝑥2
𝑥𝑛
 Meetkundig gemiddelde : 𝑛√𝑥1 . 𝑥2 … . 𝑥𝑛
Illustratie in R
2. Het gemiddelde berekenen op basis van de frequentieverdeling




𝑥𝑖𝑢 = 𝑢𝑛𝑖𝑒𝑘𝑒 𝑤𝑎𝑎𝑟𝑑𝑒𝑛 𝑣𝑎𝑛 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙𝑒 𝑋 𝑖𝑛 𝑑𝑒 𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓
𝑓𝑖 = 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑒 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑡𝑖𝑒 ℎ𝑜𝑟𝑒𝑛𝑑𝑒 𝑏𝑖𝑗 𝑥𝑖𝑢
𝑝 = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑢𝑛𝑖𝑒𝑘𝑒 𝑤𝑎𝑎𝑟𝑑𝑒𝑛 𝑖𝑛 𝑑𝑒 𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓
Nieuwe formule:
𝑥̅ =
1
𝑛
∑𝑝𝑖=1 𝑓𝑖 𝑥𝑖𝑢 (makkelijker berekenen door met kolommen te werken)
3. Het gemiddelde voor gegroepeerde data
= formule toepassen (3.2) en de waarden 𝑥𝑖𝑢 vervangen door hun klassenmiddens
Klassenmidden : klassenmidden van interval =
𝑝
𝑎+𝑏
2
1
(𝑎𝑖 + 𝑏𝑖 )
𝑥̅ = ∑
𝑛
2
𝑖=1
3.1.2 De mediaan
= middelste waarde nadat we de waarden van een variabele van klein naar groot geordend
hebben (𝑠𝑦𝑚𝑏𝑜𝑜𝑙 = 𝑚𝑑𝑥 )
 Niet meer dan de helft van de elementen mag een waarde kleiner dan mediaan
hebben
 Niet meer dan de helft van de elementen mag een waarde groter dan de mediaan
hebben
Meetniveau: mediaan is enkel zinnig voor ordinale, interval- en ratiovariabelen. Indien
bekomen door rekenkundig gemiddelde, enkel zinnig voor interval- en ratiovariabelen.
Gegroepeerde data
Rekenregel gebruiken!
1. klasse bepalen waartoe mediaan behoort (=mediane klasse)
2. Formule: 𝑚𝑑𝑥 = 𝑎 +
𝑛
2
( −𝑐)(𝑏−𝑎)
𝑑
Illustratie in R
3.1.3 De modus
= klasse of waarde met de grootste frequentie (symbool mo)
 1 modus: unimodaal
 2 modi: bimodaal
Meetniveau: modus is afhankelijk van de variabelen en het aantal keer dat een waarde
voorkomt  zinnig voor nominale, ordinale,interval- en ratiovariabelen
 Wordt vooral gebruikt bij discrete of gegroepeerde variabelen
Illustratie in R
3.1.4 Gevoeligheid aan outliers
= waarden die ver verwijderd zijn van de overige waarden van een variabele
 Kunnen bepaalde centrummaten sterk beïnvloeden (gemiddelde)
3.2 Spreidingsmaten
Spreiding = de mate waarin de waarden onderling verschillen (breedte histogram hangt af
van de spreiding van de waarden)
3.2.1 De variatiebreedte (𝑣𝑥 )
 = de grootste min de kleinste waarde voor ongegroepeerde data
 = de bovengrens van de laatste klasse min de ondergrens van de eerste klasse voor
gegroepeerde data
Meetniveau: afstand tussen 2 waarden  zinnig voor interval- en ratiovariabelen
Illustratie in R
3.2.2 De gemiddelde absolute afwijking
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )  hoe groter deze verschillen, hoe meer spreiding
 Geen goede maat voor spreiding: positieve en negatieve verschillen zullen elkaar
opheffen (som zal altijd nul zijn)
Hoe oplossen? Absolute waarden nemen
∑𝑛𝑖=1 ǀ𝑥𝑖 − 𝑥̅ ǀ MAAR hoe groter n, hoe groter de som (ook als spreiding = blijft)
Hoe oplossen? Som delen door n
1
𝑔𝑎𝑥 = 𝑛 ∑𝑛𝑖=1 ǀ𝑥𝑖 − 𝑥̅ ǀ
Meetniveau: enkel zinnig voor interval- en ratiovariabelen
Illustratie in R
3.2.3 De variantie en de standaarddeviatie
Variantie : 𝑠𝑑²𝑥 =
1
𝑛
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )² OF 𝑠²𝑥 =
1
𝑛−1
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )²
Meetniveau: zinnig voor interval- en ratiovariabelen
Standaarddeviatie : 𝑠𝑑𝑥 = √𝑠𝑑²𝑥 OF 𝑠𝑥 = √𝑠²𝑥
 = meeteenheid als variabele (niet voor variantie)
Illustratie in R
3.2.4 De interkwartielafstand
= maat voor de spreiding op basis van percentielen : 𝑄 = 𝑃75 − 𝑃25
𝐹(𝑃𝑘 )
𝑘
=
𝑛
100
Mediaan = 𝑃50
 Percentielen aflezen via de cumulatieve frequentiecurve
Interkwartielafstand (Q): 𝑃75 − 𝑃25
Interkwartielinterval: [𝑃25 , 𝑃75 ]  bevat 50% van alle waarden
Meetniveau: zinnig voor interval- en ratiovariabelen
Illustratie in R
3.2.5 De spreidingsmaat d
𝑓
1 − 𝑚𝑜
𝑛
𝑑=
1
1−𝑝
Meetniveau: nominale, ordinale, interval- en ratiovariabalen
3.2.6 Gevoeligheid aan outliers
 Spreidingsmaat d en interkwartielafstand Q ongevoelig voor outliers
 Variatiebreedte 𝑣𝑥 , gemiddelde absolute afwijking 𝑔𝑎𝑥 , variantie 𝑠²𝑥 en
standaarddeviatie 𝑠𝑥 zijn wel gevoelig aan outliers
3.3 Boxplot
 Maken obv van de kwartielen en interkwartielafstand
 Data hoeven niet gegroepeerd te worden  niet gebruikersafhankelijk
 Verdeling van data en outliers visueel vaststellen
Hoe weten of waarde van een variabele outlier is?
1. 𝑃25 − 1.5 𝑋 𝑄  alle waarden die kleiner zijn dan dit verschil = outliers
2. 𝑃75 + 1.5 𝑋 𝑄  alle waarden die groter zijn dan deze som = outliers
Boxplot tekenen
1.
2.
3.
4.
5.
6.
7.
Bolletje tekenen bij leeftijd (voor alle personen)
Horizontale streep bij 1ste observatie die geen outlier is
Horizontale streep ter hoogte van de kwartielen
Doos tekenen
Witte bolletjes wegdoen
Stippellijn tekenen
Mediaan tekenen
Boxplot bevat: mediaan (horizontale lijn in rechthoek), de interkwartielafstand (hoogte van
de rechthoek) en de outliers (observaties die door bolletjes zijn aangeduid).
Illustratie in R
Hoodstuk 4 : samenhang tussen 2 variabelen
1 variabele per keer bekijken = univariate statistiek
2 variabelen gezamenlijk bekijken = bivariate statistiek (samenhang bestuderen)
4.1 Onderzoek naar intelligentie en hersengrootte
4.1.1 De onderzoeksvraag
Is er een verband tussen intelligentie en hersengrootte?
4.1.2 De populatie en de steekproef
 Populatie: niet expliciet beschreven
 Steekproef: wel uitvoerig besproken
4.1.3 De data
Illustratie in R
4.2 Bivariate frequentieverdeling
-
Hersengrootte  3 groepen
Plaats waar rij en kolom elkaar kruisen = frequentie
Uit bivariate verdeling kunnen we steeds de univariate verdeling afleiden (per rij alle
getallen optellen of per kolom alle frequenties optellen)
Univariate verdelingen bepalen op basis van de bivariate verdeling = marginale
verdelingen
Meer informatie dan univariate (marginale) verdeling WANT univariate verdelingen
kunnen afgeleid worden uit bivariate, maar niet omgekeerd
Geeft ons inzicht in samenhang tussen bv. hersengrootte en intelligentie
Conclusies kunnen wijzigen door data te hergroeperen  beter spreidingsdiagram en
correlatiecoëfficiënten gebruiken
4.3 Spreidingsdiagram
= figuur die ons zal toelaten de samenhang tussen 2 variabelen te visualiseren
Hoe tekenen?
1. Horizontale as: Hersengrootte
2. Verticale as: Verbaal IQ
3. Punt tekenen ter hoogte van … (kruising horizontale en verticale as)
4. Herhalen tot einde
Verschillende soorten samenhang
 Perfect positieve samenhang: punten gaan van linksonder tot rechtsboven en liggen
op een rechte
 Perfect negatieve samenhang: punten gaan van linksboven naar rechtsonder en
liggen op een rechte
 Geen samenhang: geen patroon, de punten zijn willekeurig verspreid (=puntenwolk)
MAAR punten hoeven niet op een rechte te liggen om spreiding te hebben.
Interpreteren van spreidingsdiagram = subjectief  belangrijk om samenhang te
kwantificeren via maten van samenhang.
Illustratie in R
4.4 Maten van samenhang
 De covariantie
 De correlatiecoëfficiënt
 Kendall’s Ʈ
4.4.1 De covariantie
𝑛
𝑐𝑜𝑣𝑋𝑌
1
=
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − ̅̅̅
𝑦)
𝑛−1
𝑖=1
Meetniveau: De covariantie maakt gebruik van verschillen en gemiddelden en is bijgevolg
enkel zinnig als beide variabelen van tenminste intervalniveau zijn.
 𝑐𝑜𝑣𝑋𝑌 > 0 (𝑏𝑖𝑗 𝑝𝑜𝑠. 𝑠𝑎𝑚𝑒𝑛ℎ𝑎𝑛𝑔)
 𝑐𝑜𝑣𝑋𝑌 < 0 (𝑏𝑖𝑗 𝑛𝑒𝑔. 𝑠𝑎𝑚𝑒𝑛ℎ𝑎𝑛𝑔)
 𝑐𝑜𝑣𝑋𝑌 ≈ 0 (𝑔𝑒𝑒𝑛 𝑠𝑎𝑚𝑒𝑛ℎ𝑎𝑛𝑔)
Hoe komt dit?  spreidingsdiagram opsplitsen in kwadranten op basis van gemiddelden
Besluit : De covariantie is interessant, maar niet optimaal (hangt af van de eenheden).
Grootte van de covariantie hangt af van de sterkte van de samenhang en van de
meeteenheid.  interessant om maat te hebben die niet afhankelijk is van de meeteenheid
(= correlatiecoëfficiënt)
Illustratie in R
4.4.2 De correlatiecoëfficiënt (geeft lineair verband weer)
-
bekomen door covariantie te delen door de standaarddeviaties :
𝑟𝑋𝑌 =
-
𝑐𝑜𝑣𝑋𝑌
𝑠𝑋 𝑠𝑌
Altijd tussen -1 en 1!  −1 ≤ 𝑟𝑋𝑌 ≤ 1
Standaarddeviatie = altijd positief DUS correlatiecoëfficiënt heeft = teken als
covariantie
 𝑟𝑋𝑌 =1 (perfect pos. samenhang)
 𝑟𝑋𝑌 = −1 (perfect neg. samenhang)
 𝑟𝑋𝑌 ≈ 0 (geen samenhang)
Illustratie in R
4.4.3 Kendall’s Ʈ (ook voor ordinale variabelen)
2 (𝑎𝑎𝑛𝑡𝑎𝑙 𝑐𝑜𝑛𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒 𝑝𝑎𝑟𝑒𝑛 − 𝑎𝑎𝑛𝑡𝑎𝑙 𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒 𝑝𝑎𝑟𝑒𝑛)
𝑛(𝑛 − 1)
Ʈ=
= wordt berekend door concordante en discordante paren te tellen
𝑦 −𝑦
! concordant : 𝑥𝑗−𝑥 𝑖 > 0
𝑗
𝑖
𝑦 −𝑦
! discordant : : 𝑥𝑗 −𝑥 𝑖 < 0
𝑗
𝑖
Als 𝑥𝑗 = 𝑥𝑖 of 𝑦𝑗 = 𝑦𝑖  niet concordant en niet discordant
Altijd tussen −1 ≤ Ʈ ≤ 1
Meetniveau : Men gebruikt enkel de volgorde van de variabelen.  ordinale, interval- en
ratiovariabelen
 Voorbeeld p.122
We kunnen concordante en discordante paren ook visueel voorstellen door alle punten in
het spreidingsdiagram te verbinden door rechten.
 Ʈ =1 (perfect pos. samenhang)
 Ʈ= −1 (perfect neg. samenhang)
 Ʈ ≈ 0 (geen samenhang)
Illustratie in R
4.4.4 Lineaire en niet-lineaire verbanden
Lineaire functie: functie die kan voorgesteld worden door een rechte
lijn. Vb. correlatiecoëfficiënt en covariantie
Monotone functie: functie die de orde bewaart  functie moet stijgen
of dalen, maar niet beide. Vb. Kendall’s Ʈ
Een lineaire functie is een monotone functie, maar een monotone functie is niet altijd een
lineaire functie.
4.4.4 Gevoeligheid aan outliers
 Covariantie en correlatiecoëfficiënt: gevoelig aan outliers  maken gebruik van de
waarden van de variabelen
 Kendall’s Ʈ: niet gevoelig aan outliers  maakt gebruik van de volgorde van de
variabelen
4.5 De regressielijn
= stelt ons in staat om de correlatiecoëfficiënt te visualiseren op een spreidingsdiagram
 Perfect lineair verband: precies 1 rechte door alle punten
 𝑏1 = regressiecoëfficiënt (=richtingscoëfficiënt) : kan berekend worden door 2
willekeurige punten te kiezen in de formule (bij perfect lineair verband)
𝑏1 =
𝑦𝑗 −𝑦𝑖
𝑥𝑗 −𝑥𝑖
𝑏0 = 𝑦𝑖 − 𝑏1 𝑥𝑖
b1 = helling van de rechte
b0 = snijpunt met de verticale as
 Niet-perfecte samenhang: onmogelijk om rechte te tekenen die door alle punten
gaat. Opl? Rechte tekenen die het best door puntenwolk gaat
2
 vergelijking: ∑𝑛
𝑖=1(𝑦𝑖 − (𝑏0 + 𝑏𝑖 𝑥𝑖 )) = kleinste-kwadratenmethode
Oplossing : 𝑏1 = 𝑟𝑋𝑌
𝑠𝑦
𝑠𝑥
en
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅
Besluit
De regressiecoëfficiënt wordt bekomen door de correlatiecoëfficiënt te vermenigvuldigen
met de standaarddeviatie van Y en te delen door de standaarddeviatie van X.
Standaarddeviaties zijn nooit negatief, dus b1 altijd = teken als rXY.
Meetniveau: alleen zinnig als beide variabele van tenminste intervalniveau zijn (door
gemiddelden en correlatiecoëfficiënt)
4.6 Samenhang en causaliteit
Samenhang ≠ causaal verband  samenhang kan veroorzaakt worden door 3e variabele
4.7 Een voorbeeld: samenvatten en grafisch voorstellen van onderzoek naar
intelligentie en hersengrootte
4.8 Samenvatting




Biavariate frequentieverdeling
Spreidingsdiagram
Maten van samenhang: covariantie, correlatiecoëfficiënt, Kendall’s Ʈ
regressielijn
Download