Hoofdstuk 7: Bivariante Statistiek

advertisement
Statistiek 1 – Prof. Marchant
1. Beschrijvende statistiek
Hoofdstuk 1 : 3 Voorbeelden over het nut van statistiek.
We bekijken dit jaar 3 grote onderdelen van de statistiek



Beschrijvende statistiek
Kansrekening
Inductieve statistiek
Vb 1 :Beschrijvende Statistiek

met Histogram loon van arbeiders
o bespreekt het belang van de juiste visuele presentatie van een onderzoek
 onze ogen ‘bedriegen’ ons vaak, hoewel er soms geen wiskundige fouten
worden gemaakt bij het opstellen van een histogram, zal onze indruk toch
fout zijn aangezien onze ogen vooral kijken naar de oppervlakte.

het is belangrijk dat bij een onderzoek de categorieën gelijk verdeeld zijn, dit
maakt het opstellen van een grafiek en het lezen ervan makkelijker

De correcte histogram kan men vinden door tee zorgen dat het
aantal (arbeiders in dit geval) gelijk staat aan de oppervlakte.

𝑜𝑝𝑝 = 𝑙 . 𝑏
dus
𝑜𝑝𝑝 = 𝑐𝑎𝑡𝑏𝑟𝑒𝑒𝑑𝑡𝑒 .
𝑎𝑎𝑛𝑡𝑎𝑙 𝑎𝑟𝑏𝑒𝑖𝑑𝑒𝑟𝑠
𝑐𝑎𝑡𝑏𝑟𝑒𝑒𝑑𝑡𝑒
Vb 2 : Kansrekenen

Is melk gevaarlijk voor de gezondheid?
o Toont het belang aan van verbanden leggen, in dit geval was er geen sprake van een
‘logisch’ verband
o
Men moet altijd twee verschillende proporties (=kansen) vergelijken om een
conclusie te trekken en zo een risico te berekenen van iets.
1
Vb. 3 Inductieve statistiek

Observatie steekproef naar populatie: nieuwe leerstrategie
o Toont aan dat men na het uitvoeren van een onderzoek, een referentiepunt
(vergelijking) moet hebben om beslissingen te trekken
o
Een onderzoek kan pas representatief zijn als de steekproef groot genoeg is, hoe
groter de steekproef hoe zekerder men is over de kans, hoe kleiner des te groter het
risico dat eventuele beslissingen inhoud die volgen uit het onderzoek.
o
Veralgemening en vergelijking is cruciaal bij het uitvoeren van een goed onderzoek.
Hoofdstuk 2 : Basisbegrippen
Basisbegrippen

Populatie is de gehele groep objecten of personen waarover informatie wordt gewenst. De
individuele leden van de populatie worden elementen/individuen genoemd.

De steekproef is een gedeelte van de populatie dat feitelijk onderzocht wordt om informatie
te vergaren, het is belangrijk dat deze groot genoeg is om een representatief resultaat te
krijgen

Variabele is een eigenschap die bij de elementen van populatie of van de steekproef variëert
(haarkleur, loon: hoog of middelmatig of laag, man of vrouw…) . Bij een numerieke waarde
zijn dit getallen. (IQ, loon, man of vrouw dat wordt voorgesteld als 0 en 1)
o
o
o
Kwantitatieve variabele beelden een hoeveelheid uit en zijn dus kwantitatief
 Gezinsgrootte, loon,…
Kwalitatieve variabele: kunnen wel voorgesteld worden als getallen, maar kunnen
niet als getallen worden uitgedrukt (bv mijn haarkleur is 3.. maar 3 kan wel bv rost
voorstellen als 1=blond, 2=bruin en 3=rost)
 Haarkleur: rost, bruin of blond
 Geslacht: man of vrouw..
Continue variabelen zijn variabelen die constant variëren, tussen twee waarden kan
men altijd een derde vinden (bv leeftijd) er zijn ook ‘bijna continue’ variabelen zoals
bv loon, aangezien de wet een limiet stelt op het rekenen met geld tot 0.001 van een
2
euro.
o
Discrete variabelen zijn niet continu, het is het een of het ander, tussen twee
waarden kan men geen derde vinden bv. Geslacht of aantal kinderen
Hoofdstuk 3 : Budget voor boeken
3.1 : Orienteringstechnieken



Technieken om gegevens bruikbaar en overzichtelijk te maken
o
Frequentietabel is een tabel waarin alle waarin de variabelen gerangschikt worden
en de frequentie (waarde) van elke variabele ook weergegeven wordt.
o
Lijndiagram geeft in een grafiek een lijn voor elke geobserveerde waarde weer, de
hoogte van de lijn geeft de frequentie van die waarde aan.
 Geen klassen elke waarde wordt getoond
 Soms onduidelijk
o
We kunnen ook met categorieën/klassen werken zo wordt er meer overzicht
gecreëerd. De klassen moeten niet te groot zijn, anders gaat het overzicht verloren.
o
Via de klassen kan men een histogram gaan opstellen deze geeft een goede visuele
voorstelling en is goed afleesbaar (men kan ipv met de gewone frequentie ook met
de relatieve frequentie (%) werken om een beter overzicht te krijgen, dit wordt vaak
gedaan als twee steekproefgroottes niet gelijk zijn.)
Absolute frequentie: is het aantal van een bepaalde variabele
Relatieve frequentie is de proportie, vaak procentueel of decimaal weergegeven
3.2 Reductietechnieken

Technieken om gegevens samen te vatten, worden gebruikt om vergelijkingen van verdeling
te maken in hun geheel
o
o
De modus
 Meest frequente variabele in een verdeling
 Geen goede centrale tendentiemaat aangezien ze zeer gevoelig is voor
verandering en ook de verdeling niet goed weergeeft
De modale klasse
 De meest frequente categorie/klasse in een verdeling
 Betere centrale tendentiemaat dan de modus, aangezien ze minder gevoelig
is voor verandering, toch nog steeds geen goede weergave van de verdeling.
3
o
Het Rekenkundig gemiddelde
 Een optelling van alle variabelen vermenigvuldigd met hun frequentie,
gedeeld door he grootte van de steekproef
1 𝑛
∑ 𝑥
𝑛 𝑖=1 𝑖

Formule=

 n = totaal aantal elementen van de steekproef
 Xi = het i-de element
 X= de variabele (eigenschap die varieert van individu tot individu)
Dankzij het gemiddelde kunnen we twee verdelingen in hun geheel met
elkaar vergelijken
Maar het rekenkundig gemiddelde is gevoelig voor uitschieters, maar is al bij
al een goede reductietechniek

𝑦̅ =
o
Variatiebreedte
 Verschil tussen grootst geobserveerde waarde en de kleinste
 Is ook zeer beïnvloedbaar, vooral voor uitschieters
o
Gemiddelde van de afwijkingen (t.o.v. het gemiddelde)
 We komen steeds opnieuw 0 uit aangezien de elementen links van het
gemiddelde (zijn negatief) evenveel van het gemiddelde afwijken als de
elementen die er rechts van liggen (positief).
o
o

1 𝑛
∑ (𝑥
𝑛 𝑖=1 𝑖

De gemiddelde afwijking is dus geen goede spreidingsmaat
− 𝑥̅ ) = 0
De gemiddelde absolute afwijking
 We lossen het probleem van de gemiddelde afwijking op door de absolute
waarde te nemen van de negatieve afwijkingen .

1 𝑛
∑ |𝑥
𝑛 𝑖=1 𝑖


Goede spreidingsmaat, hoe groter de uitkomst des te groter de afwijking
MAAR
 Absolute waarden niet makkelijk te behandelen
 Wiskundigen houden er niet van
− 𝑥̅ | = 0
Variantie (s²)
 In plaats van de absolute waarde van de gemiddelde afwijking te nemen,
gaan we de afwijkingen kwadrateren zodat ze positief worden
 Hoe groter de uitkomst des te groter de spreiding
 Het is een goede spreidingsmaat en reductietechniek
4
o
Standaardafwijking
 De standaardafwijking is de vierkantswortel van de variantie
 Symbool = S
Hoofdstuk 4 : Pas op de wielrenners
4.1 Tchmil en Spruch (wielrenners uit 1999)

3 journalisten bekijken de uitslagen van de wielrenners Tchmil en Spruch, ze concluderen alle
drie iets anders naargelang hun manier van rekenen, ze telkens het gemiddelde
o Conclusie
 De plaatsen die de renners behaalden hebben geen rekenkundige betekenis,
de 3de was 3 keer zo slecht als de eerste, en de 2de was niet 4 keer beter dan
de 8ste
 De plaatsen die ze behaalden zijn dus ordinalen

Ordinalen
o getallen die een weerschijn zijn van de variabelen, ze hebben geen rekenkundige
betekenis
o enkel de volgorde is hier van belang
o 1e is beter dan de 2de is beter dan de 3de enz…
o In geval van ordinalen is het nuttig om centrale tendentiematen te gebruiken waarbij
niet gerekend moet worden
 Modus
 Mediaan (md)
 Het vergelijken van medianen bij ordinale variabelen is zinvol
4.2 Inleiding tot de meettheorie

Meten:
het toekennen van getallen aan voorwerpen om een specifieke empirische
eigenschap te representeren

Empirisch: zonder een meettechniek te gebruiken een bepaling doen (bv student 1 is
groter dan student 2 namelijk omdat je ziet dat er een verschil in hoogte is)
4.2.1 enkele meettechnieken , types variabelen en schaalfamilies

Absolute schaal
o Een getal aan iets toekennen puur door het te tellen
 Bv de grootte van een kudde koeien
o Het is mogelijk om twee bekomen waarde te combineren
5

Ratioschaal
o Eerst een meeteenheid kiezen en dan tellen
 Keuze van meeteenheid is willekeurig
 bv 1 centimeter, 1 meter, 1 kilogram, 1 ton (massa en lengte)
o we kunnen deze combineren met elkaar

Intervalschalen
o Er is een referentiepunt nodig anders is het onmogelijk te tellen ookal
hebben we een meeteenheid
o De oorsprong en de meeteenheid moeten willekeurig gekozen worden
o Bv bij temperatuur: 0°C = vriespunt water, 1°C is een hondertse deel van het
interval tussen het kook en vriespunt van water (temperatuur en tijd)
o We kunnen deze niet met elkaar combineren
 We kunnen wel twee intervallen tussen twee momenten
combineren maar dan komen deze op de RATIOschaal

Ordinale schaal
o Enkel de volgorde is van belang, alle andere wijzigingen zijn mogelijk
o Kunnen moeilijk of onmogelijk gecombineed worden
 Bv dominatn gedrag bij gorilla’s
 Eindplaatsen bij een wielerkoers

Nominale schaal
o De getallen die worden toegekend aan bepaalde variabelen zijn labels en
hebben geen enkele rekenkundige betekenis, zelfs de volgorde is niet van
belang
o Bv speelgedrag bij kinderen
 1=kind speelt alleen
 2=kind speelt samen
 3= kind wordt gepest enz…
4.2.2 schaalfamilies


Het is dus duidelijk dat een schaal kiezen arbitrair is
Voor elke karakteristiek die we willen meten is er een mogelijke familie van schalen
Waarheidswaarde

Soms kan het gebeuren dat een bepaalde bewering juist is in de een schaal maar fout is in de
andere schaal. Het al dan niet waar zijn van een bewering noemen we de waarheidswaarde.
o
Zinvol
 Een zinvolle bewering is een bewering waarvan de waarheidswaarde
onafhankelijk van de schaal dezelfde blijft met alle schalen uit de
geassocieerde familie
6
o
Zinloos
 Een zinloze bewering is een bewering waarvan de waarheidswaarde wel
afhankelijk is van de schaal en dus niet waar is bij andere schalen uit
diezelfde familie
 Hoe aantonen of een bewering zinvol of zinloos is
 Hoe aantonen of een bewering zinloos of zinvol is?
o Zinvol: aantonen door uit te werken
o Zinloos: aantonen door numeriek voorbeeld uit te werken
4.2.3 De verschillende meetniveaus
hoogste
meetniveau
• Absolute schaal
• Ratioschaal
• Intervalschaal
• Ordinale schaal
Laagste
meetniveau
• Nominale schaal

Absolute schaal
o Als geen andere schaal mogelijk is omdat meeteenheid en oorsprong vast zijn
o Getallen die we bekomen door te tellen
o Altijd discreet
o Alle beweringen zijn zinvol
o Combinatie is mogelijk

Ratio schaal
o Enige mogelijke wijziging is de meeteenheidsverandering
o x = x’ * a
o oorsprong staat vast
o altijd continu
o zie pagina 44 en 45 voor zinvol of zinloze beweringen

Intervalschaal
o Mogelijke wijzigingen zijn eenheid en oorsprongsveranderingen
o x = x’ * a + b
o combineren is mogelijk mits bewerking
7

Ordinale schaal
o Alle wijzigingen mogelijk enkel de volgorde moet dezelfde blijven
o Er is geen formule, bewerkingen op de ordinale schaal zijn ingewikkeld en worden
beter vermeden
o Enkel zinvol indien >, < enz..

Nominale schaal
o Alle veranderingen mogelijk getallen hebben totaal geen numerieke waarde
o Kunnen niet opgeteld worden, geen bewerkingen mogelijk
Kort samengevat


Bewijs zinloosheid = numeriek voorbeeld
Bewijs zinvolheid = bewerking uitvoeren



Ratioschaal: x,y,z, vervangen door ax’,ay’,az’
Intervalschaal: x,y,z, vervangen door ax’ + b, ay’ + b en az’ + b
Ordinale schaal: geen sytematische methode, niet + en *, enkel volgorde om
waarheidswaarde te bepalen
Nominale schaal: geen systematische methode, +, * en vergelijken is verboden

Hoofdstuk 5: Ordeningstechnieken


Een steekproef = reeks elementen vanuit een populatie.
In het algemeen, als we een variabele X in een steekproef met grootte n observeren
bekomen we een reeks van waarden van die variabele. Dit wordt de data genoemd.
o De eerste waarde is vaak x1, de tweede x2 enz…



De geordende reeks van waarden schrijven we als volgt
De kolomvector wordt met het symbool X aangeduid
Er bestaat ook een rijvector X= (x1,x2,….,xi)
o Vet = vectoren
Het omzetten van rij naar kolomvector noemt men transponeren

8
Frequentieverdelingen



Als x een van de mogelijk variabelen van X is, dan noemen we ‘frequentie van x) het aantal
keer dat x in de steekproef voorkomt
Frequentie is een natuurlijk getal
Definitie
o Frequentieverdeling van X is een tabel met twee kolommen (of twee rijen), in de
eerste kolom vind je de waarde van X in een steekproef en in de tweede kolom de
overeenkomende frequenties
o
De gegroepeerde frequentieverdeling van X is een tabel met twee kolommen of twee
rijen, in de eerste kolom vind je de klassen van X en in de tweede kolom de
overeenkomstige frequenties

Variabelen van ten minste ordinaal meetniveau
o We moeten klassen toeveoegen die de outliers bevatten
 Bovengrens = ui
 Ondergrens = li
o Bij decimale getallen moeten de klassen aangepast worden
o De klasbreedte blijft best gelijk bij elke klasse
o Indien nodig uiterste klassen voor outliers

Cummulatieve frequentieverdeling
o Het aantal elementen in een steekproef die de waarde x of kleiner hebben wordt
cummulatieve frequentie van x genoemd en wordt aangeduid door het symbool F (x)
o Cummulatief: de som van alle voorgaande
o
De cummulatieve frequentieverdeling van X is een tabel met twee kolommen of
rijen, in de eerste kolom vind je de waarden van de X variabele in de steekproef en in
de tweede de overeenkomende cummulatieve frequentie
o
De cummulatieve gegroepeerde frequentie is hetzelfde als de gewone cummulatieve
frequentieverdeling maar we hebben het probleem als we niet volgens de klassen
werken en een andere waarde vragen
 Dan verdelen we het aantal over de klasse en berekenen zo de oplossing
9

Relatieve frequentieverdeling
o Verschillende soorten
 Gewone relatieve frequentie : waarde van X gedeeld door n
 Gegroepeerde relatieve frequentie : Fi/n waarbij Fi de frequentie van de
klasse ki is
 Cummulatieve relatieve frequentie: som van voorgaande relatieve
frequenties
 Relatieve frequenties zijn procentueel of decimaal
Grafische voorstelling

Gewone data in een leesbare vorm stellen zodat het overzichtelijk wordt

Soorten niet cumulatieve frequentieverdelingen
o Lijndiagram
 Niet gegroepeerde verdeling voorstellen, elke lijn is de waarde van een
variabele
o
Staafdiagram of kolommendiagram
 Meetniveau moet ordinaal nominaal of absoluut zijn
 Hoogte is gelijk aan overeenkomstige frequentie
 Breedte en tussenruimte moet steeds gelijk zijn
o
Cirkeldiagram
 Nominaal meetniveau
10
o

Histogram
 Gegroepeerde frequentieverdeling
 Breedte rechthoek = breedte klasse
 De rechthoeken raken elkaar aan
Soorten cumulatieve frequentieverdelingen
o Histogram
 Gaat steeds stijgen
 Hoogte is de cumulatieve frequentie van de klasse
o
Cumulatieve frequentiecurve
 Niet gegroepeerde data
 Eerst punten aanduiden
 Aparte streepjes trekken en kijken hoeveel waarden er steeds
minder zijn

Gegroepeerde data
 Aangezien we de frequentie ‘uitsmeren’ over een klasse zullen we
een vloeiende lijn krijgen
 Chocopastatheorie
11
o
Lijndiagram en kolommendiagram worden niet gebruikt bij cummulatieve
frequenties
Hoofdstuk 6 : Reductietechnieken

Reductietechnieken
o Technieken om de in de frequentieverdeling bevatte informatie samen te vatten in 1
getal

Maten van Centrale tendentie
o
Het rekenkundig gemiddelde
 Meest populaire centrale tendentiemaat



Meetniveau: interval-, ratio- en absolute schaal
Is zeer gevoelig aan outliers

Vectornotatie
 Scalaire product van twee vectoren (altijd rij * kolom)
12

Bij gegroepeerde data gebruikt men ipv xi het midden van de klassen
 (Ui+li)/2

o
o
Mediaan
 Is de waarde van de variabele waarvoor geldt dat het aantal observaties
kleinder dan md gelijk is aan het aantal observaties dat groter is dan md
 Het middenste element
 Indien het om een even aantal observaties gaat nemen we het
gemiddelde van de middenste twee observaties

Gegroepeerde data
 Zelfde probleem, we weten niet precies waar de observaties binnen
een klasse liggen
 Daarom doen we F(mdx)/n=1/2

Meetniveau
 Ordinale en hogere schalen, enkel volgorde van belang
Modus




Klasse met de grootste frequentie
Er kunnen verschillende Modi zijn
Niet gevoelig aan outliers
Niet zo een goede centrale tendentiemaat
13

Maten van spreiding (spreidingsmaten)
o
Variantie
 Meest populaire spreidingsmaat
 Hoe groter de variantie hoe groter de spreiding

Formule:

Meetniveau: interval, ratio en absolute schaal (want er wordt afgetrokken en
gerekend)
Is gevoelig aan outliers zelfs meer dan het gemiddelde


Vectornotatie
 Som van twee vectoren
o
De som van twee vectoren is dus nog steeds een vector die dezelfde dementie heeft als de
vectoren die opgeteld werden
o
Scalaire vermenigvuldiging
14
o
Nu we dit weten kunnen we een nieuwe formule voor de variantie opstellen
Percentielen


Het percentiel k is dus de waarde van Pk van die variabele waarvoor geldt dat k procenten
van de observaties kleinder dan Pk zijn
P50 = Mediaan
15
Interkwartielafstand
o
o
Meetniveau: niet met ordinale of nominale schalen
De interkwartielafstand is niet gevoelig aan outliers aangezien deze buiten de
interkwartielafstand liggen
Variatiebreedte
o
o
Meetniveau: niet met ordinale of nominale schaal aangezien afstand hier zinloos is
Zeer gevoelig aan outliers
Het getal d
o
o
o
Meestal met nominale variabelen maar niet uitsluitend
Nominale variabele is altijd discreet, met eindig aantal waarden aangeduid door p
o Bv p=3 (wat is jouw haarkleur: blond, zwart, of rost)
o Bv p=2 (geslacht?)
Fmo is de frequentie van de modale klasse
o
Interpretatie
o indien Fmo= n dan is de spreiding minimaal en is d 0
o indien elke waarde maar 1 keer voorkomt is de spreiding maximaal= 1
o
we gebruiken d op elk meetniveau en is niet gevoelig aan outliers
16
Hoofdstuk 7: Bivariante Statistiek
We hebben al gezien hoe we één variabele bespreken. Maar soms komen we in een onderzoek meer
dan een variabele tegen. Dan is het makkelijk om deze samen te bespreken en ze samen in een
grafiek te plaatsen. In dit hoofdstuk houden we het bij bi-variabelen (twee variabelen)
Marginale frequentieverdeling

Een variabele apart, niet samen
Bivariante verdelingen


We nemen twee variabelen samen in een grafiek en in een frequentietabel. Zowel X als Y
dus. We kunnen deze natuurlijk ook gewoon apart analyseren
We presenteren bivariante data op volgende manier
Het spreidingsdiagram


Grafische voorstelling voor bivariante verdelingen
Elk punt op de diagram is dus een geobserveerd paar (x,y)
o Hoe dikker het punt hoe frequenter het paar voorkwam
o Waar er geen punt is werd er geen waarden paar geobserveerd

De positie van de punten wijst op een bepaalde tendentie, we noemen de verzameling
van al deze punten een puntenwolk.
o Zien we een stijgende tendentie van links naar rechts
 Positieve correlatie
o Dalende tendentie
 Negatieve correlatie
17
o

Zien we helemaal geen tendentie noch verband
 Geen correlatie
Twee marginale verdelingen geven veel details, maar zeggen niks over het verband
tussen beide. Daarom zijn bivariante verdelingen zeer handig.
Associatietechnieken
 Technieken om een verband tussen twee variabelen te meten
o Allereerst duiden we op de spreidingsdiagram twee rechten aan
 Een die het gemiddelde van de X variabele weergeeft
 Een die het gemiddelde van de Y variabele weergeeft
 Zo kunnen we de diagram in 4 delen opsplitsen, deel I, II, III en IV
o Staat het punt boven het x gemiddelde en boven het y gemiddelde
 In gebied I
 Dan is de afwijking altijd positief (+ x + = +)
o Staat het punt onder het x gem en onder het y gem
 In gebied II
 Dan is de afwijking positief (- x – = +)
o Staat het punt boven het x gem en onder het y gem
 In gebied IV
 Dan is de afwijking negatief ( + x - = -)
o Staat het punt boven het y gem en onder het x gem
 In gebied III
 Dan is de afwijking negatief (- x + = - )
18
Covariantie:
 De covariantie is precies de maat die we besproken maar dan gedeeld door n om de maat
onafhankelijk van de steekproef te maken
Meetniveau: niet met ordinale en nominale, tenmiste van intervalniveau zijn
(aangezien we aftrekken en optellen)
 Gevoeligheid aan outliers: ja alle termen worden opgeteld ook de outliers
 Vectornotatie:
Correlatiecoëfficiënt






Correlatiecoëfficiënt van pearson is een populaire associatiemaat enis gebasseerd op de
covariantie
Covariantie was dan wel onafhankelijk van steekproefgrootte maar bleef afhankelijk van de
meeteenheid (van de varianties binnen een variabele dus)
Het product SxSy is sowieso een positief getal (aangezien de standaarddeviatie positief is) het
correlatiecoëfficiënt heeft dus hetzelfde teken als de covariantie
De trend zal dus stijgend (r > 1) of dalen zijn (r < 1) omdat hij genormaliseerd wordt door
SxSy is het een waarde tussen -1 en +1
De waarde 0 komt overeen met een ongecoreleerde data
Wat van belang is, is hoe dicht de punten bij de rechte liggen, niet hoe stijl deze is
 De correlatiecoëfficiënt en de covariantie zijn maten voor een lineair verband
19

Soms zijn er ook andere verbanden die bv curvilineair zijn (als een curve)
Regressielijn





De regressielijn meet de helling van de trend
Regressielijn van Y op X
We weten dat bij sterke correlatie de punten bijna op een lijn liggen, maar wat is de helling
van deze lijn? En wat is de vergelijking van deze lijn?
We zoeken een lijn die als ideaal heeft dat elk punt even ver van deze lijn ligt
De vergelijking van deze lijn is

We moeten dus de afwijking tussen een punt en de lijn meten (deze wordt verticaal gemeten

We gebruiken volgende formules om de afstand te minimaliseren


Het getal b1 noemt men het regressiecoëfficient, dit is de helling van de rechte (rico)
o B1>0 dan stijgt de rechte
o B1<0 dan daalt de rechte
Het getal b0 is de snijlijn met de y-as

Er is ook de regressielijn van X op Y, dan worden de afstanden horizontaal gemeten
20






Meetniveau: niet met ordinale of nominaal meetniveau aangezien ze op de
correlatiecoëfficiënt gebaseerd is
Kendall’s 𝜏 associaties maat
o Niet alle verbanden zijn lineair, kendall’s T geeft de mate van een verband tussen
twee variabelen
o Een verband is monotoon als de richting (stijgend of dalend) niet verandert
o We kunnen de T berekenen door steeds +1 als de waarde van de eerste groter is dan
de tweede
o We schrijven -1 als de waarde van de tweede groter is dan de eerste
Nadat we voor alle paren een +1 of -1 of 0 schreven berekenen we het product in de derde
kollom
Dan nemen we het gemiddelde van de derde kollom dit is kendalls T
Interpretatie:
o is het verband perfect stijgend dan is kendalls T = +1
o is het verband perfect dalend dan is kendalls T= -1
o is er er niet echt een verband dan is kendalls T = 0
meetniveau: alles hoger dan het ordinale meetniveau (aangezien er geen waarden gevruikt
worden enkel groter en kleiner dan)
21
o
o
o
o
CONCLUSIE:
o Er bestaan verschillende soorten verbanden tusse, variabelen, lineair en curvilineair
(monotoon of niet monotoon)
 Lineair: correlatiecoëfficiënt en regressielijn
 Curvilineair monotoon: Kendall’s T (rangcoëfficient Rs van Spearman)
Als men een onderzoek doet moet men altijd een visuele analyse doen om foute conclusies
te vermijden
Zorg ook dat je geen foute conclusies trekt omwille van een derde variabele
o Bv op plaatsen waar meer telefooncellen zijn komt meer kanker voor
 Fout want op plaatsen waar meer telefooncellen zijn wonen meer mensen
en zullen der dus automatisch meer mensen met kanker zijn.
Soms is er dus een associatie maar geen causaliteit en is je conclusie dus niet gegrond
22
2. Kansrekenen
Hoofdstuk 8: Toevalsvariabelen en kansverdeling
Basisbegrippen

Een toevalsproces
Een proces waarvan de uitkomst onvoorspelbaar is (bv munt opwerpen

Een gebeurtenis
een verzameling van alle mogelijke uitkomsten voor dat toevalsproces, (gebeurtenis A
realiseert zich als een van de elementen van A zich realiseert)
o Bv. Gooien met een dobbelsteen: gebeurtenis even = verzameling (2,4,6)
Bewerkingen met een gebeurtenis
De Unie


De unie van twee gebeurtenissen A en B is de verzameling van alle elementen die in A of in B
of in beiden zijn
U betekend ‘A of B’ in de wiskunde wil dit zeggen : A of B of Beide
o Bv: A U B
= (4,5,6) U (2,4,6) = (2,4,5,6)
De Doorsnede



De doorsnede van twee gebeurtenissen A en B is de verzameling van alle elementen die in A
en in B zijn
Het teken ∩ betekend EN
Bv.
23
De complementaire gebeurtenis


A* is de complementaire gebeurtenis van A
Het is de gebeurtenis die zich voordoet als en slechts als A zich niet voordoet, doet A* zich
voor dan doet A zich niet voor en omgekeerd

De complementaire gebeurtenis van een complementaire gebeurtenis is de oorsprongelijke
gebeurtenis: (A*)* = A
De Toevalsvariabele
Een toevalsvariabele is een variabele waarvan de waardein een toevalsproces onvoorspelbaar is.
Bv bij trekking van een persoon is zijn IQ onvoorspelbaar, daarom is de variabele IQ een
toevalsvariabele. Er zijn


Continue toevalsvariabelen
Discrete toevalsvariabelen
Toevalsvariabelen kunnen van verschillende meetniveaus zijn: nominaal, ordinaal, interval, ratio of
absoluut
Kansen
De kans dat gebeurtenis A (symbool= P(A)) bij een toevalsproces wordt gedefinieerd als de relatieve
frequentie van deze gebeurtenis als we het toevalsproces eindeloos zouden herhalen.
F(A) is de frequentie van A

Bv als we A munt laten zijn en we n keer gooien dan is de relatieve frequentie fA/n (indien f
oneindig zou zijn maar dat kan dus niet.
Kans van twee Unie gebeurtenissen

Stel dat A en B gebeurtenissen zijn waarvoor geld dat de doorsnede = ∅
o Dit betekent dat A∩B = ∅
o en dat
24
P(A∪B) = P(A) + P(B)
o

Als we een toevalsproces herhalen is de frequentie van de gebeurtenis A U B de som
van de frequenties van A en B afzonderlijk. Hetzelfde geldt voor de kans.
Stel dat A en B gebeurtenissen zijn waarvoor geldt dat de doorsnede = ∅.
o Dus A∩B 6= ∅
o Dan
P(A∪B) = P(A) + P(B)−P(A∩B)
De kans van doorsnede van A en B moet afgetrokken worden om haar niet twee keer op te
tellen
Afhankelijke gebeurtenissen


Twee gebeurtenissen A en B zijn afhankelijk als de realisatie van de ene gebeurtenis de kans
van de andere gebeurtenis beïnvloedt.
Twee gebeurtenissen zijn onafhankelijk als ze niet afhankelijk zijn van elkaar.
Voorbeeld:

Afhankelijk:
A = {1,2,3} en B = {5,6}. Als A zich voordoet dan is de kans dat B zich ook voordoet nul omdat
het onmogelijk is dat beide zich realiseren. We zeggen bijgevolg dat A en B afhankelijk zijn.
Laat C = {1,2}. Als C zich realiseert dan is de kans dat A zich ook voordoet gelijk aan 1 omdat
we zeker zijn dat A zich ook voordoet. A en C zijn dus hier ook afhankelijk.

Onafhankelijk:
Laat A = {1,2,3,4} en B = {2,4,6} =“even”. P(B) = 1/2. Stel nu dat ik een dobbelsteen opnieuw
gooi. U ziet het niet. Ik zeg u dat A zich realiseerde. U weet nog niet of B zich ook realiseerde.
Wat is nu de kans van B, de kans van B gegeven (of op voorwaarde dat) A zich voordoet? Het
is nog hetzelfde. Er zijn vier uitkomsten in A; twee van die uitkomsten zijn even. De kans van
B is dus nog 1/2. De gebeurtenissen A en B zijn derhalve onafhankelijk.
We noteren dit als :
P(A|B) (kans van A op voorwaarde B). Als B zich voordoet wat is dan de kans van A
P(A|B) = P(A) voor onafhankelijke A en B
P(A|B) 6= P(A) voor afhankelijke A en B.
Formule om te berekenen:
Voorwaardelijke kans van A op voorwaarde B:
P(A|B) = P(A∩B) / P(B)
.
25
De kans van de doorsnede van twee gebeurtenissen
We kunnen nu gemakkelijk de kans van de doorsnede afleiden.

P(A∩B) = P(A|B)P(B)
= P(B|A)P(A) (omdat A∩B = B∩A).
In het geval van onafhankelijke gebeurtenissen is dit

P(A|B) = P(A)
en dus P(A∩B) = P(A)P(B).
Voorbeeld:
laat A = {1,2,3,4} en B = {2,4,6} bij de worp van een dobbelsteen (zoals in het bovenstaand
voorbeeld). We hebben al P(B|A) berekend: het is 1/2.
P(B∩A) = P({2,4}) = P(B|A)P(A) = 1 /2 . 4/6 = 1/3.
Kans van een complementaire gebeurtenis
Stel dat A en A* complementaire gebeurtenissen zijn bij een bepaald proces.
dan is P(A*)= 1-P(A) of
P(A)+ P(A*) = P(AUA*)= 1
Kansverdeling
Discrete variabele
Als X een discrete toevalsvariabele is met een eindig aantal mogelijke waarden dat door p wordt
aangeduid en x1, x2,…, xp de mogelijke waarden van X zijn. Dan is de verdeling van toevalsvariabele X
een tabel met twee kolommen of rijen. De tweede kolom bevat de kansen.
Aantal Ogen
1
2
3
4
5
5
Kans
1/6
1/6
1/6
1/6
1/6
1/6
26
P= #individuen in een steekproef
n= #mogelijke verschillende woorden van de
toevalsvariabele

In kansrekenen is Fx(x) de kans dat de waarde van
de toevalsvariabele X in een toevalsproces kleiner
dan of gelijk is aan x
FX(x) = P(X ≤ x).
FX(x) Dit is de cumulatieve verdelingsfunctie.
Kansverdeling van de continue variabelen
Continue= oneindig veel mogelijkheden daarom moeten we onze notatie aanpassen. Hier
representeren x1 of x’ , x2 of x’’ gewoon willekeurige waarden. Zoals bij discrete toevalsvariabelen
X=x is een gebeurtenis P(X=x).
P(X=x) = 0 want stel ik trek 1 persoon wat is de kans dat deze 78,55548 kg weegt? Deze kan is 0.
Het is bijgevolg onmogelijk om een kansverdeling op te stellen. Maar andere gebeurtenissen wel. Bv
de kans dat iemand meer of minder weegt dan 75 kg. De cumulatieve verdelingsfunctie wordt dan
ook gedefinieerd door FX(x) = P(X≤x)
Hier gaat het niet om een trapsgewijze functie
De kans dat b >0
= P(x ≤ x ≤ x+b)
=P(x ≤ x+b) – P(X ≤ x)
=F(x+b) – F(x)
De Dichtheidsfunctie
Als we de intervallen oneindig verkleinen dan wordt de waarschijnlijkheid de afgeleide van F(X)x
27
Dit noemt men de dichtheidsfunctie van de variabele X, zijn symbool is FX(x). fX(x) is niet de kans dat
X=x aangezien deze nul is. Het is de kans dat X binnen een klein interval valt. Het is eigenlijk kans
gedeeld door lengte. Het geeft ons toch een idee van de waarschijnlijkheid.
Eigenschappen:
De kans dat de variabele X zich in het interval [x1,x2]bevindt is de oppervlakte onder de
dichtheidsfunctie, tussen de twee waarden x1 en x2. Een dichtheidsfunctie is steeds positief! De
oppervlakte onder een dichtheidsfunctie is steeds gelijk aan 1.
Voor continue variabelen maat het niet uit of men < of ≤ gebruikt
voor discrete variabelen moet men wel nauwkeurig zijn
Reductietechnieken

Discrete toevalsvariabelen
o We kunnen alle technieken uit hoofdstuk 6 gebruiken. Maar sommige formules
zullen we moeten aanpassen.
o
De verwachting
 = het gemiddelde van de steekproef X met n oneindig.
 De som van alle verschillende waarden van X vermenigvuldigd me hun
relatieve waarde.
28
o
De variantie
De vierkantswortel van de variantie noemt men hier de standaardfout

Continue toevalsvariabelen
o De verwachting
𝑝
 𝐸(𝑋) = ∑𝑖=1(𝑃(𝑋) = 𝑥𝑖) 𝑥𝑖


o
Deze kunnen we niet gebruiken aangezien het aantal mogelijke
waarden oneindig is, daarom gebruiken we de integralen
+∞
𝐸(𝑋) = ∫−∞ 𝑓𝑋 (𝑥) 𝑥 𝑑𝑥
De variantie
 De variantie van een continue toevalsvariabele X is
29
De Bivariante kansverdeling
Als we meer dan één toevalsvariabele tegelijk willen bekijken.
Discreten toevalsvariabelen
30
Gewoon een speciale Bivariante relatieve frequentieverdeling met 𝑛 → ∞ en kan in de vorm van
een tabel voorgesteld worden zoals deze hierboven, één cel stelt altijd de kans op een
overeenkomstige gebeurtenis voor zoals P(X=1 en Y=3)
De som van alle gebeurtenissen is gelijk aan 1.
De som van de waarde op een rij geeft ons de kans op de overeenkomstige waarde van X.
De som van de waarden in een kolom geeft ons de kans op de overeenkomende waarde van Y
Continue toevalsvariabelen
 Kansverdeling kan niet in de vorm van een tabel gepresenteerd worden. Want
voor alle P(X=x en Y=y) = 0

We kunnen wel de bivariante verdelingsfunctie definiëren
Afhankelijke toevalsvariabelen


Aanpassing van het begrip afhankelijke gebeurtenis
Twee toevalsvariabelen X en Y zijn onafhankelijk als de gebeurtenissen
o ‘’x < X ≤x” en ‘’y < Y ≤ y’ ‘’ onafhankelijk zijn voor alle mogelijke keuze. Is dit niet zo
dan zijn ze afhankelijk
In praktijk gaan we kijken of :
P(X=x en Y=y) = P(X=x) P(Y=y)
 Kijken welke waarde er in de cel staat, dan nagaan of deze het product is van de
X kans en Y kans
 Dit moet gelden voor alle mogelijke combinaties
31
Voorwaardelijke verwachting
De verwachting van toevalsvariabele X op voorwaarde
dat de gebeurtenis A zich voordoet.
Bv. Bij bovenstaande tabel, de kans dat iemand bist
als hij 1 broer of zus heeft, we berekenen dit door
dit werd berekent via de formule
Associatietechnieken
We bestuderen hier enkel het Lineaire verband tussen twee variabelen.

Discrete toevalsvariabelen



Is het verband stijgend dan > 1
Is het verband dalend dan < 1
Is het verband gelijk aan 0 dan is er geen verband
o We moeten altijd eerst de verwachting berekenen en dan de varianties dan pas de
covariantie

Continue toevalsvariabelen
32
De definitie van de covariantie wordt aangepast
die van het correlatiecoëfficiënt blijft dezelfde. De interpretatie is ook dezelfde als voor discrete
variabelen.
Correlatie en afhankelijkheid
o
o
Covariantie van onafhankelijke toevalsvariabelen is altijd nul dus ook hun
correlatiecoëfficiënt
Zijn ze onafhankelijk dan is het correlatiecoëfficiënt dus nul, het kan WEL zijn dat er een
ander verband is dat niet lineair is.
BELANGRIJK BEWIJS DAT COVARIANTIE VAN ONAFHANKELIJKE TOEVALSVARIABELE ALTIJD NUL IS
Enkele nuttige stellingen
Verwachting van een constante maal een variabele
33
Als Z een toevalsvariabele aX is mat a als constante dan is de verwachting van een constante maal
een variabele de verwachting van de variabele E(Z)=aE(X)
De verwachting van een som
o
Toepassing
We willen weten wat de verwachting van een loon is bij hetero echtparen, dit is de som van
het loon van de man en dat van de vrouw
Verwachting van een product
34
o
Als X en Y onafhankelijk zijn en Z=XY dan is het product van de verwachtingen van X en Y
gelijk aan de verwachting van Z
E(Z) = E(X) E(Y)
De verwachting van een product van onafhankelijke toevalsvariabelen is het product van de
verwachtingen
Verwachting van een product is afhankelijk van het feit dat de variabelen al dan niet afhankelijk zijn.
De variantie van een som
35
Toepassing: de variantie van het loon van een hetero echtpaar is groter dan de som van de varianties
van vrouwen en mannen. Rijke mannen trouwen met rijke vrouwen ze zijn dus positief gecorreleerd
𝑉(𝑋 − 𝑌) = 𝑉(𝑋) + 𝑉(𝑌) − 2 𝑐𝑜𝑣 (𝑋, 𝑌)
𝑉(𝑋 + 𝑌) = 𝑉(𝑋) + 𝑉(𝑌) + 2 𝑐𝑜𝑣 (𝑋, 𝑌)
Hoofdstuk 9: bijzondere kansverdeling
Binominale variabele
In het algemeen schrijven we de kansverdeling van de variabele B(n,𝜋) is
Π is de kans van een gebeurtenis A dat n keer herhaald wordt
36
Gebruiksvoorwaarden

Π moet altijd gelijk blijven (met teruglegging dus) of de populatie moet zeer groot zijn dan
maakt het niet uit
Normale variabele




De dichtheidsfunctie is nergens 0
De som van twee onafhankelijke variabelen is nog een normale variabele
Een normale variabele plus een getal is een normale variabele met dezelfde variantie
Een normale variabele maal een getal is een normale variabele met dezelfde verwachting
Het algemene geval
37
Eens we de oplossing vonden zoeken we dit op in de tabel
Tabel normaalverdeling
38
39
Tabel X² verdeling
40
Student of T – verdeling
41
42
De steekproefverdeling
De steekproevenverdeling van het gemiddelde MET TERUGLEGGING

Verwachting van een som is de som van de verwachingen
De variantie van een steekproefgrootheid


Intuitief zijn we geneigd te denken dat V (X) = V (X). En dat is niet correct.
De variantie van de steekproefgrootheid X is niet gelijk aan de variantie van X; het is gelijk
aan de variantie van X, gedeeld door n. Ze is dus kleiner dan de variantie van X.
43
44
De Steekproevenverdeling van de variantie, met teruglegging
45
Voor toepassingen zie cursus p 180-186
46
3. Inductieve statistiek
Hoofdstuk 10 : Inleiding tot inductieve statistiek

De inductieve statistiek bestaat uit methodes om
o Te besluiten, op basis van observaties en experimenten, of een theorie weerlegd
moet worden of niet
o Om een theorie, op basis van observaties en experimenten te verfijnen.


Puntschatting => Hier wil men een bepaalde parameter door een waarde schatten
Intervalschatting => Hier wil men een interval vinden waarin de parameter zich waarschijnlijk
bevindt
Hoofdstuk 11: Puntschatting

Voorbeeldoefening ‘wat is de proportie van de twijfelaars’?
o Men wil de proportie = 𝜋 vinden van jongeren die twijfelen aan een baan later, ze
nemen een steekproef van 10 jongeren: n = 10
o 4 jongeren twijfelen 6 jongeren niet
 Men wil specifieker zijn, is 𝜋 werkelijk gelijk aan 0.4? waarschijnlijk niet, stel
dat dit 0.9 was, hoe groot is de kans dan dat men 4 twijfelaars trok
We nemen aan dat de variabele X= aantal jongeren dat twijfelt een binomiale variabele is, we
moeten dus P(B(10,0.9)=4) berekenen, dit doen we met de formule:
Berekenen we dit dan is de uitkomst = 0.0001, dit is zeer klein

Door in het wilde weg te gokken is de kans dat we de hoogste 𝜋 gokken zeer klein, daarom is
het beter om de berekening algemeen te houden.

Als ook de steekproefgrootte onbekend is een we werken dit uit dan bekomen we
47
o
𝜋̂ =
𝑏1
𝑛
Definitie:





Soms zullen we andere parameters schatten (bv 𝜇 𝑒𝑛 𝜎 𝑖𝑛 𝑒𝑒𝑛 𝑛𝑜𝑟𝑚𝑎𝑙𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙𝑒)
De parameter die we schatten zullen we dus altijd 𝜃 noemen, om deze te vinden berekenen
we steeds de steekproefgrootheid
In het algemeen noemen we deze een schatter = S die dus een steekproefverdeling hebben.
Schatter is een toevalsvariabele, we weten nooit wat zijn waarde zal zijn.
schattING is een waarde van de schattER in een bepaalde steekproef
Eigenschappen goede schatter:
De schatter zal dus zelden een perfecte schatting geven , soms zal deze te groot zijn, soms zal deze te
klein zijn maar we willen wel dat ze gelijk is aan de parameter
We proberen de afwijking zo klein mogelijk te houden.
Grootste aannemelijke methode


willen we θ van een bepaalde kansverdeling schatten dan moeten we over schatter S
beschikken
om de schatter te vinden gebruiken we de grootste aannemelijke methode.
Zie pagina 195 en 196 voor een voorbeeld! (belangrijk)
48
Enkele Schatters
De verwachting
Variantie
= is niet nuttig ( S² ) daarom gebruiken we deze formule
Proportie
Correlatiecoëfficiënt
De grootste aannemelijke schatter van de correlatiecoëfficiënt is Pxy is de overeenkomende
correlatiecoëfficiënt in de steekproef.
49
Download