Deel I Beschrijvende Statistiek Hoofdstuk 2 : visualiseren van data 2.1 Onderzoek naar raciale voorkeur 2.1.1 De onderzoeksvraag ‘Verkiezen mensen hun eigen ras?’ 2.1.2 De populatie en de steekproef Representatieve steekproef = steekproef die een goede afspiegeling is van de populatie Aselecte steekproef = op willekeurige wijze 90 Amerikanen selecteren uit de populatie Vrijwillige respons 2.1.3 Het IAT-experiment = methode om impliciete voorkeur te meten 2.1.4 De data Illustratie in R 2.2 Cirkeldiagram = grafische voorstelling die voornamelijk gebruikt wordt voor variabelen van nominaal meetniveau Absolute frequentie: aantal keer dat de waarde x in de steekproef voorkomt Absolute frequentieverdeling: tabel met 2 rijen 1ste rij = mogelijke waarden van X ; 2e rij = overeenkomstige absolute frequenties Relatieve frequentie: absolute frequentie gedeeld door de steekproefgrootte (som = 1) Steekproefgrootte (n): aantal elementen in de steekproef Verdeling van een variabele: het geheel van mogelijke waarden, samen met de absolute of relatieve frequenties Data visualiseren obv relatieve frequenties cirkeldiagram: relatieve oppervlaktes = relatieve frequenties 2.3 Staafdiagram Waarden van variabelen: horizontaal weergegeven Rechthoek tekenen bij elke waarde: hoogte = relatieve frequentie Alle rechthoeken = even breed Afstand tussen rechthoeken = Variabelen van nominaal of ordinaal meetniveau Illustratie in R 2.4 Histogram eerst: data groeperen (vb. 8 groepen = klassen) Gegroepeerde frequentieverdeling: tabel met 2 kolommen waar de 1ste kolom de klassen van X weergeeft en de 2e de overeenkomstige frequenties. Hangt af van de keuze van de klassen subjectief Waarden: liggen op horizontale as Verticale as: relatieve frequentie Breedte rechthoek = breedte klasse Hoogte rechthoek = relatieve frequentie gedeeld door de breedte van de klasse Oppervlakte rechthoek = relatieve frequentie Als klassen = breedte hebben mogelijk om histogram te maken obv absolute frequentie. Verschillen tussen staafdiagram en histogram Histogram Rechthoeken raken elkaar Breedtes van rechthoeken kunnen verschillen Wordt vooral gebruikt voor interval- en ratioschaal variabelen (groot # waarden) Staafdiagram Wordt vooral gebruikt voor ordinale en nominale variabelen (beperkt # waarden) Hoe data opdelen in klassen? Liefst klassen van dezelfde breedte Als uiterste klassen lage frequentie hebben samenvoegen Aantal klassen bepalen door: √𝑛 klassen Illustratie in R 2.5 Cumulatieve frequentiecurve 2.5.1 Ongegroepeerde data Cumulatieve absolute frequentie: aantal elementen in de steekproef die kleiner of gelijk zijn aan x absolute frequenties optellen (symbool = 𝐹(𝑥) ) Cumulatieve absolute frequentieverdeling: tabel met 2 kolommen 1ste kolom: waarden van de variabele X ; 2e kolom: overeenkomstige cumulatieve absolute frequenties Horizontale as: leeftijden Verticale as: cumulatieve (absolute) frequenties Hoe cumulatieve frequentiecurve opstellen? 1. Alle waarden van de cumulatieve frequentieverdeling aanduiden 2. Punten uit (1) trapsgewijs verbinden 3. Voor alle (vb.) leeftijden kleiner dan 16 een horizontale lijn tekenen bij een cumulatieve frequentie 4. Voor alle (vb.) leeftijden boven 74 jaar een horizontale lijn tekenen bij een cumulatieve frequentie van 90 Illustratie in R 2.5.2 Gegroepeerde data Cumulatieve absolute frequentie: aantal elementen in de klasse + aantal elementen in lagere klassen Cumulatieve absolute gegroepeerde frequentieverdeling: tabel met 2 kolommen 1ste kolom: klassen van X ; 2e kolom: overeenkomstige cumulatieve absolute frequenties 𝑥 Rekenregel: vermenigvuldigen met 10 Hoe cumulatieve frequentiediagram maken? 1. 2. 3. 4. Horizontale as: ter hoogte van de klassengrenzen punten tekenen Punten met rechten verbinden Voor alle (vb.) leeftijden onder 15 jaar een horizontale lijn tekenen Voor alle (vb.) leeftijden boven 90 jaar een horizontale lijn tekenen Hoofdstuk 3: Samenvatten van data = numeriek samenvatten om inzicht in de gegevens te vergroten 3.1 Centrummaten = maat voor het centrum van een verdeling (waarden van een variabele samenvatten in 1 getal) 3.1.1 Het gemiddelde berekenen op basis van de waarden van een variabele, frequentieverdeling of gegroepeerde data 1. Het gemiddelde op basis van de waarden van een variabele Rekenkundig gemiddelde: berekenen door alle waarden van een variabele op te tellen en te delen door de steekproefgrootte 𝑛 1 𝑥̅ = ∑ 𝑥𝑖 𝑛 𝑖=1 Meetniveau: enkel zinnig voor interval- en ratiovariabelen Harmonisch gemiddelde: 𝑛 1 ∑𝑛 𝑖=1𝑥 𝑖 = 𝑛 1 1 1 + + …+ 𝑥1 𝑥2 𝑥𝑛 Meetkundig gemiddelde : 𝑛√𝑥1 . 𝑥2 … . 𝑥𝑛 Illustratie in R 2. Het gemiddelde berekenen op basis van de frequentieverdeling 𝑥𝑖𝑢 = 𝑢𝑛𝑖𝑒𝑘𝑒 𝑤𝑎𝑎𝑟𝑑𝑒𝑛 𝑣𝑎𝑛 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙𝑒 𝑋 𝑖𝑛 𝑑𝑒 𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓 𝑓𝑖 = 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑒 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑡𝑖𝑒 ℎ𝑜𝑟𝑒𝑛𝑑𝑒 𝑏𝑖𝑗 𝑥𝑖𝑢 𝑝 = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑢𝑛𝑖𝑒𝑘𝑒 𝑤𝑎𝑎𝑟𝑑𝑒𝑛 𝑖𝑛 𝑑𝑒 𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓 Nieuwe formule: 𝑥̅ = 1 𝑛 ∑𝑝𝑖=1 𝑓𝑖 𝑥𝑖𝑢 (makkelijker berekenen door met kolommen te werken) 3. Het gemiddelde voor gegroepeerde data = formule toepassen (3.2) en de waarden 𝑥𝑖𝑢 vervangen door hun klassenmiddens Klassenmidden : klassenmidden van interval = 𝑝 𝑎+𝑏 2 1 (𝑎𝑖 + 𝑏𝑖 ) 𝑥̅ = ∑ 𝑛 2 𝑖=1 3.1.2 De mediaan = middelste waarde nadat we de waarden van een variabele van klein naar groot geordend hebben (𝑠𝑦𝑚𝑏𝑜𝑜𝑙 = 𝑚𝑑𝑥 ) Niet meer dan de helft van de elementen mag een waarde kleiner dan mediaan hebben Niet meer dan de helft van de elementen mag een waarde groter dan de mediaan hebben Meetniveau: mediaan is enkel zinnig voor ordinale, interval- en ratiovariabelen. Indien bekomen door rekenkundig gemiddelde, enkel zinnig voor interval- en ratiovariabelen. Gegroepeerde data Rekenregel gebruiken! 1. klasse bepalen waartoe mediaan behoort (=mediane klasse) 2. Formule: 𝑚𝑑𝑥 = 𝑎 + 𝑛 2 ( −𝑐)(𝑏−𝑎) 𝑑 Illustratie in R 3.1.3 De modus = klasse of waarde met de grootste frequentie (symbool mo) 1 modus: unimodaal 2 modi: bimodaal Meetniveau: modus is afhankelijk van de variabelen en het aantal keer dat een waarde voorkomt zinnig voor nominale, ordinale,interval- en ratiovariabelen Wordt vooral gebruikt bij discrete of gegroepeerde variabelen Illustratie in R 3.1.4 Gevoeligheid aan outliers = waarden die ver verwijderd zijn van de overige waarden van een variabele Kunnen bepaalde centrummaten sterk beïnvloeden (gemiddelde) 3.2 Spreidingsmaten Spreiding = de mate waarin de waarden onderling verschillen (breedte histogram hangt af van de spreiding van de waarden) 3.2.1 De variatiebreedte (𝑣𝑥 ) = de grootste min de kleinste waarde voor ongegroepeerde data = de bovengrens van de laatste klasse min de ondergrens van de eerste klasse voor gegroepeerde data Meetniveau: afstand tussen 2 waarden zinnig voor interval- en ratiovariabelen Illustratie in R 3.2.2 De gemiddelde absolute afwijking ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) hoe groter deze verschillen, hoe meer spreiding Geen goede maat voor spreiding: positieve en negatieve verschillen zullen elkaar opheffen (som zal altijd nul zijn) Hoe oplossen? Absolute waarden nemen ∑𝑛𝑖=1 ǀ𝑥𝑖 − 𝑥̅ ǀ MAAR hoe groter n, hoe groter de som (ook als spreiding = blijft) Hoe oplossen? Som delen door n 1 𝑔𝑎𝑥 = 𝑛 ∑𝑛𝑖=1 ǀ𝑥𝑖 − 𝑥̅ ǀ Meetniveau: enkel zinnig voor interval- en ratiovariabelen Illustratie in R 3.2.3 De variantie en de standaarddeviatie Variantie : 𝑠𝑑²𝑥 = 1 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )² OF 𝑠²𝑥 = 1 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )² Meetniveau: zinnig voor interval- en ratiovariabelen Standaarddeviatie : 𝑠𝑑𝑥 = √𝑠𝑑²𝑥 OF 𝑠𝑥 = √𝑠²𝑥 = meeteenheid als variabele (niet voor variantie) Illustratie in R 3.2.4 De interkwartielafstand = maat voor de spreiding op basis van percentielen : 𝑄 = 𝑃75 − 𝑃25 𝐹(𝑃𝑘 ) 𝑘 = 𝑛 100 Mediaan = 𝑃50 Percentielen aflezen via de cumulatieve frequentiecurve Interkwartielafstand (Q): 𝑃75 − 𝑃25 Interkwartielinterval: [𝑃25 , 𝑃75 ] bevat 50% van alle waarden Meetniveau: zinnig voor interval- en ratiovariabelen Illustratie in R 3.2.5 De spreidingsmaat d 𝑓 1 − 𝑚𝑜 𝑛 𝑑= 1 1−𝑝 Meetniveau: nominale, ordinale, interval- en ratiovariabalen 3.2.6 Gevoeligheid aan outliers Spreidingsmaat d en interkwartielafstand Q ongevoelig voor outliers Variatiebreedte 𝑣𝑥 , gemiddelde absolute afwijking 𝑔𝑎𝑥 , variantie 𝑠²𝑥 en standaarddeviatie 𝑠𝑥 zijn wel gevoelig aan outliers 3.3 Boxplot Maken obv van de kwartielen en interkwartielafstand Data hoeven niet gegroepeerd te worden niet gebruikersafhankelijk Verdeling van data en outliers visueel vaststellen Hoe weten of waarde van een variabele outlier is? 1. 𝑃25 − 1.5 𝑋 𝑄 alle waarden die kleiner zijn dan dit verschil = outliers 2. 𝑃75 + 1.5 𝑋 𝑄 alle waarden die groter zijn dan deze som = outliers Boxplot tekenen 1. 2. 3. 4. 5. 6. 7. Bolletje tekenen bij leeftijd (voor alle personen) Horizontale streep bij 1ste observatie die geen outlier is Horizontale streep ter hoogte van de kwartielen Doos tekenen Witte bolletjes wegdoen Stippellijn tekenen Mediaan tekenen Boxplot bevat: mediaan (horizontale lijn in rechthoek), de interkwartielafstand (hoogte van de rechthoek) en de outliers (observaties die door bolletjes zijn aangeduid). Illustratie in R Hoodstuk 4 : samenhang tussen 2 variabelen 1 variabele per keer bekijken = univariate statistiek 2 variabelen gezamenlijk bekijken = bivariate statistiek (samenhang bestuderen) 4.1 Onderzoek naar intelligentie en hersengrootte 4.1.1 De onderzoeksvraag Is er een verband tussen intelligentie en hersengrootte? 4.1.2 De populatie en de steekproef Populatie: niet expliciet beschreven Steekproef: wel uitvoerig besproken 4.1.3 De data Illustratie in R 4.2 Bivariate frequentieverdeling - Hersengrootte 3 groepen Plaats waar rij en kolom elkaar kruisen = frequentie Uit bivariate verdeling kunnen we steeds de univariate verdeling afleiden (per rij alle getallen optellen of per kolom alle frequenties optellen) Univariate verdelingen bepalen op basis van de bivariate verdeling = marginale verdelingen Meer informatie dan univariate (marginale) verdeling WANT univariate verdelingen kunnen afgeleid worden uit bivariate, maar niet omgekeerd Geeft ons inzicht in samenhang tussen bv. hersengrootte en intelligentie Conclusies kunnen wijzigen door data te hergroeperen beter spreidingsdiagram en correlatiecoëfficiënten gebruiken 4.3 Spreidingsdiagram = figuur die ons zal toelaten de samenhang tussen 2 variabelen te visualiseren Hoe tekenen? 1. Horizontale as: Hersengrootte 2. Verticale as: Verbaal IQ 3. Punt tekenen ter hoogte van … (kruising horizontale en verticale as) 4. Herhalen tot einde Verschillende soorten samenhang Perfect positieve samenhang: punten gaan van linksonder tot rechtsboven en liggen op een rechte Perfect negatieve samenhang: punten gaan van linksboven naar rechtsonder en liggen op een rechte Geen samenhang: geen patroon, de punten zijn willekeurig verspreid (=puntenwolk) MAAR punten hoeven niet op een rechte te liggen om spreiding te hebben. Interpreteren van spreidingsdiagram = subjectief belangrijk om samenhang te kwantificeren via maten van samenhang. Illustratie in R 4.4 Maten van samenhang De covariantie De correlatiecoëfficiënt Kendall’s Ʈ 4.4.1 De covariantie 𝑛 𝑐𝑜𝑣𝑋𝑌 1 = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − ̅̅̅ 𝑦) 𝑛−1 𝑖=1 Meetniveau: De covariantie maakt gebruik van verschillen en gemiddelden en is bijgevolg enkel zinnig als beide variabelen van tenminste intervalniveau zijn. 𝑐𝑜𝑣𝑋𝑌 > 0 (𝑏𝑖𝑗 𝑝𝑜𝑠. 𝑠𝑎𝑚𝑒𝑛ℎ𝑎𝑛𝑔) 𝑐𝑜𝑣𝑋𝑌 < 0 (𝑏𝑖𝑗 𝑛𝑒𝑔. 𝑠𝑎𝑚𝑒𝑛ℎ𝑎𝑛𝑔) 𝑐𝑜𝑣𝑋𝑌 ≈ 0 (𝑔𝑒𝑒𝑛 𝑠𝑎𝑚𝑒𝑛ℎ𝑎𝑛𝑔) Hoe komt dit? spreidingsdiagram opsplitsen in kwadranten op basis van gemiddelden Besluit : De covariantie is interessant, maar niet optimaal (hangt af van de eenheden). Grootte van de covariantie hangt af van de sterkte van de samenhang en van de meeteenheid. interessant om maat te hebben die niet afhankelijk is van de meeteenheid (= correlatiecoëfficiënt) Illustratie in R 4.4.2 De correlatiecoëfficiënt (geeft lineair verband weer) - bekomen door covariantie te delen door de standaarddeviaties : 𝑟𝑋𝑌 = - 𝑐𝑜𝑣𝑋𝑌 𝑠𝑋 𝑠𝑌 Altijd tussen -1 en 1! −1 ≤ 𝑟𝑋𝑌 ≤ 1 Standaarddeviatie = altijd positief DUS correlatiecoëfficiënt heeft = teken als covariantie 𝑟𝑋𝑌 =1 (perfect pos. samenhang) 𝑟𝑋𝑌 = −1 (perfect neg. samenhang) 𝑟𝑋𝑌 ≈ 0 (geen samenhang) Illustratie in R 4.4.3 Kendall’s Ʈ (ook voor ordinale variabelen) 2 (𝑎𝑎𝑛𝑡𝑎𝑙 𝑐𝑜𝑛𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒 𝑝𝑎𝑟𝑒𝑛 − 𝑎𝑎𝑛𝑡𝑎𝑙 𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒 𝑝𝑎𝑟𝑒𝑛) 𝑛(𝑛 − 1) Ʈ= = wordt berekend door concordante en discordante paren te tellen 𝑦 −𝑦 ! concordant : 𝑥𝑗−𝑥 𝑖 > 0 𝑗 𝑖 𝑦 −𝑦 ! discordant : : 𝑥𝑗 −𝑥 𝑖 < 0 𝑗 𝑖 Als 𝑥𝑗 = 𝑥𝑖 of 𝑦𝑗 = 𝑦𝑖 niet concordant en niet discordant Altijd tussen −1 ≤ Ʈ ≤ 1 Meetniveau : Men gebruikt enkel de volgorde van de variabelen. ordinale, interval- en ratiovariabelen Voorbeeld p.122 We kunnen concordante en discordante paren ook visueel voorstellen door alle punten in het spreidingsdiagram te verbinden door rechten. Ʈ =1 (perfect pos. samenhang) Ʈ= −1 (perfect neg. samenhang) Ʈ ≈ 0 (geen samenhang) Illustratie in R 4.4.4 Lineaire en niet-lineaire verbanden Lineaire functie: functie die kan voorgesteld worden door een rechte lijn. Vb. correlatiecoëfficiënt en covariantie Monotone functie: functie die de orde bewaart functie moet stijgen of dalen, maar niet beide. Vb. Kendall’s Ʈ Een lineaire functie is een monotone functie, maar een monotone functie is niet altijd een lineaire functie. 4.4.4 Gevoeligheid aan outliers Covariantie en correlatiecoëfficiënt: gevoelig aan outliers maken gebruik van de waarden van de variabelen Kendall’s Ʈ: niet gevoelig aan outliers maakt gebruik van de volgorde van de variabelen 4.5 De regressielijn = stelt ons in staat om de correlatiecoëfficiënt te visualiseren op een spreidingsdiagram Perfect lineair verband: precies 1 rechte door alle punten 𝑏1 = regressiecoëfficiënt (=richtingscoëfficiënt) : kan berekend worden door 2 willekeurige punten te kiezen in de formule (bij perfect lineair verband) 𝑏1 = 𝑦𝑗 −𝑦𝑖 𝑥𝑗 −𝑥𝑖 𝑏0 = 𝑦𝑖 − 𝑏1 𝑥𝑖 b1 = helling van de rechte b0 = snijpunt met de verticale as Niet-perfecte samenhang: onmogelijk om rechte te tekenen die door alle punten gaat. Opl? Rechte tekenen die het best door puntenwolk gaat 2 vergelijking: ∑𝑛 𝑖=1(𝑦𝑖 − (𝑏0 + 𝑏𝑖 𝑥𝑖 )) = kleinste-kwadratenmethode Oplossing : 𝑏1 = 𝑟𝑋𝑌 𝑠𝑦 𝑠𝑥 en 𝑏0 = 𝑦̅ − 𝑏1 𝑥̅ Besluit De regressiecoëfficiënt wordt bekomen door de correlatiecoëfficiënt te vermenigvuldigen met de standaarddeviatie van Y en te delen door de standaarddeviatie van X. Standaarddeviaties zijn nooit negatief, dus b1 altijd = teken als rXY. Meetniveau: alleen zinnig als beide variabele van tenminste intervalniveau zijn (door gemiddelden en correlatiecoëfficiënt) 4.6 Samenhang en causaliteit Samenhang ≠ causaal verband samenhang kan veroorzaakt worden door 3e variabele 4.7 Een voorbeeld: samenvatten en grafisch voorstellen van onderzoek naar intelligentie en hersengrootte 4.8 Samenvatting Biavariate frequentieverdeling Spreidingsdiagram Maten van samenhang: covariantie, correlatiecoëfficiënt, Kendall’s Ʈ regressielijn