Statistiek 1 – Prof. Marchant 1. Beschrijvende statistiek Hoofdstuk 1 : 3 Voorbeelden over het nut van statistiek. We bekijken dit jaar 3 grote onderdelen van de statistiek Beschrijvende statistiek Kansrekening Inductieve statistiek Vb 1 :Beschrijvende Statistiek met Histogram loon van arbeiders o bespreekt het belang van de juiste visuele presentatie van een onderzoek onze ogen ‘bedriegen’ ons vaak, hoewel er soms geen wiskundige fouten worden gemaakt bij het opstellen van een histogram, zal onze indruk toch fout zijn aangezien onze ogen vooral kijken naar de oppervlakte. het is belangrijk dat bij een onderzoek de categorieën gelijk verdeeld zijn, dit maakt het opstellen van een grafiek en het lezen ervan makkelijker De correcte histogram kan men vinden door tee zorgen dat het aantal (arbeiders in dit geval) gelijk staat aan de oppervlakte. 𝑜𝑝𝑝 = 𝑙 . 𝑏 dus 𝑜𝑝𝑝 = 𝑐𝑎𝑡𝑏𝑟𝑒𝑒𝑑𝑡𝑒 . 𝑎𝑎𝑛𝑡𝑎𝑙 𝑎𝑟𝑏𝑒𝑖𝑑𝑒𝑟𝑠 𝑐𝑎𝑡𝑏𝑟𝑒𝑒𝑑𝑡𝑒 Vb 2 : Kansrekenen Is melk gevaarlijk voor de gezondheid? o Toont het belang aan van verbanden leggen, in dit geval was er geen sprake van een ‘logisch’ verband o Men moet altijd twee verschillende proporties (=kansen) vergelijken om een conclusie te trekken en zo een risico te berekenen van iets. 1 Vb. 3 Inductieve statistiek Observatie steekproef naar populatie: nieuwe leerstrategie o Toont aan dat men na het uitvoeren van een onderzoek, een referentiepunt (vergelijking) moet hebben om beslissingen te trekken o Een onderzoek kan pas representatief zijn als de steekproef groot genoeg is, hoe groter de steekproef hoe zekerder men is over de kans, hoe kleiner des te groter het risico dat eventuele beslissingen inhoud die volgen uit het onderzoek. o Veralgemening en vergelijking is cruciaal bij het uitvoeren van een goed onderzoek. Hoofdstuk 2 : Basisbegrippen Basisbegrippen Populatie is de gehele groep objecten of personen waarover informatie wordt gewenst. De individuele leden van de populatie worden elementen/individuen genoemd. De steekproef is een gedeelte van de populatie dat feitelijk onderzocht wordt om informatie te vergaren, het is belangrijk dat deze groot genoeg is om een representatief resultaat te krijgen Variabele is een eigenschap die bij de elementen van populatie of van de steekproef variëert (haarkleur, loon: hoog of middelmatig of laag, man of vrouw…) . Bij een numerieke waarde zijn dit getallen. (IQ, loon, man of vrouw dat wordt voorgesteld als 0 en 1) o o o Kwantitatieve variabele beelden een hoeveelheid uit en zijn dus kwantitatief Gezinsgrootte, loon,… Kwalitatieve variabele: kunnen wel voorgesteld worden als getallen, maar kunnen niet als getallen worden uitgedrukt (bv mijn haarkleur is 3.. maar 3 kan wel bv rost voorstellen als 1=blond, 2=bruin en 3=rost) Haarkleur: rost, bruin of blond Geslacht: man of vrouw.. Continue variabelen zijn variabelen die constant variëren, tussen twee waarden kan men altijd een derde vinden (bv leeftijd) er zijn ook ‘bijna continue’ variabelen zoals bv loon, aangezien de wet een limiet stelt op het rekenen met geld tot 0.001 van een 2 euro. o Discrete variabelen zijn niet continu, het is het een of het ander, tussen twee waarden kan men geen derde vinden bv. Geslacht of aantal kinderen Hoofdstuk 3 : Budget voor boeken 3.1 : Orienteringstechnieken Technieken om gegevens bruikbaar en overzichtelijk te maken o Frequentietabel is een tabel waarin alle waarin de variabelen gerangschikt worden en de frequentie (waarde) van elke variabele ook weergegeven wordt. o Lijndiagram geeft in een grafiek een lijn voor elke geobserveerde waarde weer, de hoogte van de lijn geeft de frequentie van die waarde aan. Geen klassen elke waarde wordt getoond Soms onduidelijk o We kunnen ook met categorieën/klassen werken zo wordt er meer overzicht gecreëerd. De klassen moeten niet te groot zijn, anders gaat het overzicht verloren. o Via de klassen kan men een histogram gaan opstellen deze geeft een goede visuele voorstelling en is goed afleesbaar (men kan ipv met de gewone frequentie ook met de relatieve frequentie (%) werken om een beter overzicht te krijgen, dit wordt vaak gedaan als twee steekproefgroottes niet gelijk zijn.) Absolute frequentie: is het aantal van een bepaalde variabele Relatieve frequentie is de proportie, vaak procentueel of decimaal weergegeven 3.2 Reductietechnieken Technieken om gegevens samen te vatten, worden gebruikt om vergelijkingen van verdeling te maken in hun geheel o o De modus Meest frequente variabele in een verdeling Geen goede centrale tendentiemaat aangezien ze zeer gevoelig is voor verandering en ook de verdeling niet goed weergeeft De modale klasse De meest frequente categorie/klasse in een verdeling Betere centrale tendentiemaat dan de modus, aangezien ze minder gevoelig is voor verandering, toch nog steeds geen goede weergave van de verdeling. 3 o Het Rekenkundig gemiddelde Een optelling van alle variabelen vermenigvuldigd met hun frequentie, gedeeld door he grootte van de steekproef 1 𝑛 ∑ 𝑥 𝑛 𝑖=1 𝑖 Formule= n = totaal aantal elementen van de steekproef Xi = het i-de element X= de variabele (eigenschap die varieert van individu tot individu) Dankzij het gemiddelde kunnen we twee verdelingen in hun geheel met elkaar vergelijken Maar het rekenkundig gemiddelde is gevoelig voor uitschieters, maar is al bij al een goede reductietechniek 𝑦̅ = o Variatiebreedte Verschil tussen grootst geobserveerde waarde en de kleinste Is ook zeer beïnvloedbaar, vooral voor uitschieters o Gemiddelde van de afwijkingen (t.o.v. het gemiddelde) We komen steeds opnieuw 0 uit aangezien de elementen links van het gemiddelde (zijn negatief) evenveel van het gemiddelde afwijken als de elementen die er rechts van liggen (positief). o o 1 𝑛 ∑ (𝑥 𝑛 𝑖=1 𝑖 De gemiddelde afwijking is dus geen goede spreidingsmaat − 𝑥̅ ) = 0 De gemiddelde absolute afwijking We lossen het probleem van de gemiddelde afwijking op door de absolute waarde te nemen van de negatieve afwijkingen . 1 𝑛 ∑ |𝑥 𝑛 𝑖=1 𝑖 Goede spreidingsmaat, hoe groter de uitkomst des te groter de afwijking MAAR Absolute waarden niet makkelijk te behandelen Wiskundigen houden er niet van − 𝑥̅ | = 0 Variantie (s²) In plaats van de absolute waarde van de gemiddelde afwijking te nemen, gaan we de afwijkingen kwadrateren zodat ze positief worden Hoe groter de uitkomst des te groter de spreiding Het is een goede spreidingsmaat en reductietechniek 4 o Standaardafwijking De standaardafwijking is de vierkantswortel van de variantie Symbool = S Hoofdstuk 4 : Pas op de wielrenners 4.1 Tchmil en Spruch (wielrenners uit 1999) 3 journalisten bekijken de uitslagen van de wielrenners Tchmil en Spruch, ze concluderen alle drie iets anders naargelang hun manier van rekenen, ze telkens het gemiddelde o Conclusie De plaatsen die de renners behaalden hebben geen rekenkundige betekenis, de 3de was 3 keer zo slecht als de eerste, en de 2de was niet 4 keer beter dan de 8ste De plaatsen die ze behaalden zijn dus ordinalen Ordinalen o getallen die een weerschijn zijn van de variabelen, ze hebben geen rekenkundige betekenis o enkel de volgorde is hier van belang o 1e is beter dan de 2de is beter dan de 3de enz… o In geval van ordinalen is het nuttig om centrale tendentiematen te gebruiken waarbij niet gerekend moet worden Modus Mediaan (md) Het vergelijken van medianen bij ordinale variabelen is zinvol 4.2 Inleiding tot de meettheorie Meten: het toekennen van getallen aan voorwerpen om een specifieke empirische eigenschap te representeren Empirisch: zonder een meettechniek te gebruiken een bepaling doen (bv student 1 is groter dan student 2 namelijk omdat je ziet dat er een verschil in hoogte is) 4.2.1 enkele meettechnieken , types variabelen en schaalfamilies Absolute schaal o Een getal aan iets toekennen puur door het te tellen Bv de grootte van een kudde koeien o Het is mogelijk om twee bekomen waarde te combineren 5 Ratioschaal o Eerst een meeteenheid kiezen en dan tellen Keuze van meeteenheid is willekeurig bv 1 centimeter, 1 meter, 1 kilogram, 1 ton (massa en lengte) o we kunnen deze combineren met elkaar Intervalschalen o Er is een referentiepunt nodig anders is het onmogelijk te tellen ookal hebben we een meeteenheid o De oorsprong en de meeteenheid moeten willekeurig gekozen worden o Bv bij temperatuur: 0°C = vriespunt water, 1°C is een hondertse deel van het interval tussen het kook en vriespunt van water (temperatuur en tijd) o We kunnen deze niet met elkaar combineren We kunnen wel twee intervallen tussen twee momenten combineren maar dan komen deze op de RATIOschaal Ordinale schaal o Enkel de volgorde is van belang, alle andere wijzigingen zijn mogelijk o Kunnen moeilijk of onmogelijk gecombineed worden Bv dominatn gedrag bij gorilla’s Eindplaatsen bij een wielerkoers Nominale schaal o De getallen die worden toegekend aan bepaalde variabelen zijn labels en hebben geen enkele rekenkundige betekenis, zelfs de volgorde is niet van belang o Bv speelgedrag bij kinderen 1=kind speelt alleen 2=kind speelt samen 3= kind wordt gepest enz… 4.2.2 schaalfamilies Het is dus duidelijk dat een schaal kiezen arbitrair is Voor elke karakteristiek die we willen meten is er een mogelijke familie van schalen Waarheidswaarde Soms kan het gebeuren dat een bepaalde bewering juist is in de een schaal maar fout is in de andere schaal. Het al dan niet waar zijn van een bewering noemen we de waarheidswaarde. o Zinvol Een zinvolle bewering is een bewering waarvan de waarheidswaarde onafhankelijk van de schaal dezelfde blijft met alle schalen uit de geassocieerde familie 6 o Zinloos Een zinloze bewering is een bewering waarvan de waarheidswaarde wel afhankelijk is van de schaal en dus niet waar is bij andere schalen uit diezelfde familie Hoe aantonen of een bewering zinvol of zinloos is Hoe aantonen of een bewering zinloos of zinvol is? o Zinvol: aantonen door uit te werken o Zinloos: aantonen door numeriek voorbeeld uit te werken 4.2.3 De verschillende meetniveaus hoogste meetniveau • Absolute schaal • Ratioschaal • Intervalschaal • Ordinale schaal Laagste meetniveau • Nominale schaal Absolute schaal o Als geen andere schaal mogelijk is omdat meeteenheid en oorsprong vast zijn o Getallen die we bekomen door te tellen o Altijd discreet o Alle beweringen zijn zinvol o Combinatie is mogelijk Ratio schaal o Enige mogelijke wijziging is de meeteenheidsverandering o x = x’ * a o oorsprong staat vast o altijd continu o zie pagina 44 en 45 voor zinvol of zinloze beweringen Intervalschaal o Mogelijke wijzigingen zijn eenheid en oorsprongsveranderingen o x = x’ * a + b o combineren is mogelijk mits bewerking 7 Ordinale schaal o Alle wijzigingen mogelijk enkel de volgorde moet dezelfde blijven o Er is geen formule, bewerkingen op de ordinale schaal zijn ingewikkeld en worden beter vermeden o Enkel zinvol indien >, < enz.. Nominale schaal o Alle veranderingen mogelijk getallen hebben totaal geen numerieke waarde o Kunnen niet opgeteld worden, geen bewerkingen mogelijk Kort samengevat Bewijs zinloosheid = numeriek voorbeeld Bewijs zinvolheid = bewerking uitvoeren Ratioschaal: x,y,z, vervangen door ax’,ay’,az’ Intervalschaal: x,y,z, vervangen door ax’ + b, ay’ + b en az’ + b Ordinale schaal: geen sytematische methode, niet + en *, enkel volgorde om waarheidswaarde te bepalen Nominale schaal: geen systematische methode, +, * en vergelijken is verboden Hoofdstuk 5: Ordeningstechnieken Een steekproef = reeks elementen vanuit een populatie. In het algemeen, als we een variabele X in een steekproef met grootte n observeren bekomen we een reeks van waarden van die variabele. Dit wordt de data genoemd. o De eerste waarde is vaak x1, de tweede x2 enz… De geordende reeks van waarden schrijven we als volgt De kolomvector wordt met het symbool X aangeduid Er bestaat ook een rijvector X= (x1,x2,….,xi) o Vet = vectoren Het omzetten van rij naar kolomvector noemt men transponeren 8 Frequentieverdelingen Als x een van de mogelijk variabelen van X is, dan noemen we ‘frequentie van x) het aantal keer dat x in de steekproef voorkomt Frequentie is een natuurlijk getal Definitie o Frequentieverdeling van X is een tabel met twee kolommen (of twee rijen), in de eerste kolom vind je de waarde van X in een steekproef en in de tweede kolom de overeenkomende frequenties o De gegroepeerde frequentieverdeling van X is een tabel met twee kolommen of twee rijen, in de eerste kolom vind je de klassen van X en in de tweede kolom de overeenkomstige frequenties Variabelen van ten minste ordinaal meetniveau o We moeten klassen toeveoegen die de outliers bevatten Bovengrens = ui Ondergrens = li o Bij decimale getallen moeten de klassen aangepast worden o De klasbreedte blijft best gelijk bij elke klasse o Indien nodig uiterste klassen voor outliers Cummulatieve frequentieverdeling o Het aantal elementen in een steekproef die de waarde x of kleiner hebben wordt cummulatieve frequentie van x genoemd en wordt aangeduid door het symbool F (x) o Cummulatief: de som van alle voorgaande o De cummulatieve frequentieverdeling van X is een tabel met twee kolommen of rijen, in de eerste kolom vind je de waarden van de X variabele in de steekproef en in de tweede de overeenkomende cummulatieve frequentie o De cummulatieve gegroepeerde frequentie is hetzelfde als de gewone cummulatieve frequentieverdeling maar we hebben het probleem als we niet volgens de klassen werken en een andere waarde vragen Dan verdelen we het aantal over de klasse en berekenen zo de oplossing 9 Relatieve frequentieverdeling o Verschillende soorten Gewone relatieve frequentie : waarde van X gedeeld door n Gegroepeerde relatieve frequentie : Fi/n waarbij Fi de frequentie van de klasse ki is Cummulatieve relatieve frequentie: som van voorgaande relatieve frequenties Relatieve frequenties zijn procentueel of decimaal Grafische voorstelling Gewone data in een leesbare vorm stellen zodat het overzichtelijk wordt Soorten niet cumulatieve frequentieverdelingen o Lijndiagram Niet gegroepeerde verdeling voorstellen, elke lijn is de waarde van een variabele o Staafdiagram of kolommendiagram Meetniveau moet ordinaal nominaal of absoluut zijn Hoogte is gelijk aan overeenkomstige frequentie Breedte en tussenruimte moet steeds gelijk zijn o Cirkeldiagram Nominaal meetniveau 10 o Histogram Gegroepeerde frequentieverdeling Breedte rechthoek = breedte klasse De rechthoeken raken elkaar aan Soorten cumulatieve frequentieverdelingen o Histogram Gaat steeds stijgen Hoogte is de cumulatieve frequentie van de klasse o Cumulatieve frequentiecurve Niet gegroepeerde data Eerst punten aanduiden Aparte streepjes trekken en kijken hoeveel waarden er steeds minder zijn Gegroepeerde data Aangezien we de frequentie ‘uitsmeren’ over een klasse zullen we een vloeiende lijn krijgen Chocopastatheorie 11 o Lijndiagram en kolommendiagram worden niet gebruikt bij cummulatieve frequenties Hoofdstuk 6 : Reductietechnieken Reductietechnieken o Technieken om de in de frequentieverdeling bevatte informatie samen te vatten in 1 getal Maten van Centrale tendentie o Het rekenkundig gemiddelde Meest populaire centrale tendentiemaat Meetniveau: interval-, ratio- en absolute schaal Is zeer gevoelig aan outliers Vectornotatie Scalaire product van twee vectoren (altijd rij * kolom) 12 Bij gegroepeerde data gebruikt men ipv xi het midden van de klassen (Ui+li)/2 o o Mediaan Is de waarde van de variabele waarvoor geldt dat het aantal observaties kleinder dan md gelijk is aan het aantal observaties dat groter is dan md Het middenste element Indien het om een even aantal observaties gaat nemen we het gemiddelde van de middenste twee observaties Gegroepeerde data Zelfde probleem, we weten niet precies waar de observaties binnen een klasse liggen Daarom doen we F(mdx)/n=1/2 Meetniveau Ordinale en hogere schalen, enkel volgorde van belang Modus Klasse met de grootste frequentie Er kunnen verschillende Modi zijn Niet gevoelig aan outliers Niet zo een goede centrale tendentiemaat 13 Maten van spreiding (spreidingsmaten) o Variantie Meest populaire spreidingsmaat Hoe groter de variantie hoe groter de spreiding Formule: Meetniveau: interval, ratio en absolute schaal (want er wordt afgetrokken en gerekend) Is gevoelig aan outliers zelfs meer dan het gemiddelde Vectornotatie Som van twee vectoren o De som van twee vectoren is dus nog steeds een vector die dezelfde dementie heeft als de vectoren die opgeteld werden o Scalaire vermenigvuldiging 14 o Nu we dit weten kunnen we een nieuwe formule voor de variantie opstellen Percentielen Het percentiel k is dus de waarde van Pk van die variabele waarvoor geldt dat k procenten van de observaties kleinder dan Pk zijn P50 = Mediaan 15 Interkwartielafstand o o Meetniveau: niet met ordinale of nominale schalen De interkwartielafstand is niet gevoelig aan outliers aangezien deze buiten de interkwartielafstand liggen Variatiebreedte o o Meetniveau: niet met ordinale of nominale schaal aangezien afstand hier zinloos is Zeer gevoelig aan outliers Het getal d o o o Meestal met nominale variabelen maar niet uitsluitend Nominale variabele is altijd discreet, met eindig aantal waarden aangeduid door p o Bv p=3 (wat is jouw haarkleur: blond, zwart, of rost) o Bv p=2 (geslacht?) Fmo is de frequentie van de modale klasse o Interpretatie o indien Fmo= n dan is de spreiding minimaal en is d 0 o indien elke waarde maar 1 keer voorkomt is de spreiding maximaal= 1 o we gebruiken d op elk meetniveau en is niet gevoelig aan outliers 16 Hoofdstuk 7: Bivariante Statistiek We hebben al gezien hoe we één variabele bespreken. Maar soms komen we in een onderzoek meer dan een variabele tegen. Dan is het makkelijk om deze samen te bespreken en ze samen in een grafiek te plaatsen. In dit hoofdstuk houden we het bij bi-variabelen (twee variabelen) Marginale frequentieverdeling Een variabele apart, niet samen Bivariante verdelingen We nemen twee variabelen samen in een grafiek en in een frequentietabel. Zowel X als Y dus. We kunnen deze natuurlijk ook gewoon apart analyseren We presenteren bivariante data op volgende manier Het spreidingsdiagram Grafische voorstelling voor bivariante verdelingen Elk punt op de diagram is dus een geobserveerd paar (x,y) o Hoe dikker het punt hoe frequenter het paar voorkwam o Waar er geen punt is werd er geen waarden paar geobserveerd De positie van de punten wijst op een bepaalde tendentie, we noemen de verzameling van al deze punten een puntenwolk. o Zien we een stijgende tendentie van links naar rechts Positieve correlatie o Dalende tendentie Negatieve correlatie 17 o Zien we helemaal geen tendentie noch verband Geen correlatie Twee marginale verdelingen geven veel details, maar zeggen niks over het verband tussen beide. Daarom zijn bivariante verdelingen zeer handig. Associatietechnieken Technieken om een verband tussen twee variabelen te meten o Allereerst duiden we op de spreidingsdiagram twee rechten aan Een die het gemiddelde van de X variabele weergeeft Een die het gemiddelde van de Y variabele weergeeft Zo kunnen we de diagram in 4 delen opsplitsen, deel I, II, III en IV o Staat het punt boven het x gemiddelde en boven het y gemiddelde In gebied I Dan is de afwijking altijd positief (+ x + = +) o Staat het punt onder het x gem en onder het y gem In gebied II Dan is de afwijking positief (- x – = +) o Staat het punt boven het x gem en onder het y gem In gebied IV Dan is de afwijking negatief ( + x - = -) o Staat het punt boven het y gem en onder het x gem In gebied III Dan is de afwijking negatief (- x + = - ) 18 Covariantie: De covariantie is precies de maat die we besproken maar dan gedeeld door n om de maat onafhankelijk van de steekproef te maken Meetniveau: niet met ordinale en nominale, tenmiste van intervalniveau zijn (aangezien we aftrekken en optellen) Gevoeligheid aan outliers: ja alle termen worden opgeteld ook de outliers Vectornotatie: Correlatiecoëfficiënt Correlatiecoëfficiënt van pearson is een populaire associatiemaat enis gebasseerd op de covariantie Covariantie was dan wel onafhankelijk van steekproefgrootte maar bleef afhankelijk van de meeteenheid (van de varianties binnen een variabele dus) Het product SxSy is sowieso een positief getal (aangezien de standaarddeviatie positief is) het correlatiecoëfficiënt heeft dus hetzelfde teken als de covariantie De trend zal dus stijgend (r > 1) of dalen zijn (r < 1) omdat hij genormaliseerd wordt door SxSy is het een waarde tussen -1 en +1 De waarde 0 komt overeen met een ongecoreleerde data Wat van belang is, is hoe dicht de punten bij de rechte liggen, niet hoe stijl deze is De correlatiecoëfficiënt en de covariantie zijn maten voor een lineair verband 19 Soms zijn er ook andere verbanden die bv curvilineair zijn (als een curve) Regressielijn De regressielijn meet de helling van de trend Regressielijn van Y op X We weten dat bij sterke correlatie de punten bijna op een lijn liggen, maar wat is de helling van deze lijn? En wat is de vergelijking van deze lijn? We zoeken een lijn die als ideaal heeft dat elk punt even ver van deze lijn ligt De vergelijking van deze lijn is We moeten dus de afwijking tussen een punt en de lijn meten (deze wordt verticaal gemeten We gebruiken volgende formules om de afstand te minimaliseren Het getal b1 noemt men het regressiecoëfficient, dit is de helling van de rechte (rico) o B1>0 dan stijgt de rechte o B1<0 dan daalt de rechte Het getal b0 is de snijlijn met de y-as Er is ook de regressielijn van X op Y, dan worden de afstanden horizontaal gemeten 20 Meetniveau: niet met ordinale of nominaal meetniveau aangezien ze op de correlatiecoëfficiënt gebaseerd is Kendall’s 𝜏 associaties maat o Niet alle verbanden zijn lineair, kendall’s T geeft de mate van een verband tussen twee variabelen o Een verband is monotoon als de richting (stijgend of dalend) niet verandert o We kunnen de T berekenen door steeds +1 als de waarde van de eerste groter is dan de tweede o We schrijven -1 als de waarde van de tweede groter is dan de eerste Nadat we voor alle paren een +1 of -1 of 0 schreven berekenen we het product in de derde kollom Dan nemen we het gemiddelde van de derde kollom dit is kendalls T Interpretatie: o is het verband perfect stijgend dan is kendalls T = +1 o is het verband perfect dalend dan is kendalls T= -1 o is er er niet echt een verband dan is kendalls T = 0 meetniveau: alles hoger dan het ordinale meetniveau (aangezien er geen waarden gevruikt worden enkel groter en kleiner dan) 21 o o o o CONCLUSIE: o Er bestaan verschillende soorten verbanden tusse, variabelen, lineair en curvilineair (monotoon of niet monotoon) Lineair: correlatiecoëfficiënt en regressielijn Curvilineair monotoon: Kendall’s T (rangcoëfficient Rs van Spearman) Als men een onderzoek doet moet men altijd een visuele analyse doen om foute conclusies te vermijden Zorg ook dat je geen foute conclusies trekt omwille van een derde variabele o Bv op plaatsen waar meer telefooncellen zijn komt meer kanker voor Fout want op plaatsen waar meer telefooncellen zijn wonen meer mensen en zullen der dus automatisch meer mensen met kanker zijn. Soms is er dus een associatie maar geen causaliteit en is je conclusie dus niet gegrond 22 2. Kansrekenen Hoofdstuk 8: Toevalsvariabelen en kansverdeling Basisbegrippen Een toevalsproces Een proces waarvan de uitkomst onvoorspelbaar is (bv munt opwerpen Een gebeurtenis een verzameling van alle mogelijke uitkomsten voor dat toevalsproces, (gebeurtenis A realiseert zich als een van de elementen van A zich realiseert) o Bv. Gooien met een dobbelsteen: gebeurtenis even = verzameling (2,4,6) Bewerkingen met een gebeurtenis De Unie De unie van twee gebeurtenissen A en B is de verzameling van alle elementen die in A of in B of in beiden zijn U betekend ‘A of B’ in de wiskunde wil dit zeggen : A of B of Beide o Bv: A U B = (4,5,6) U (2,4,6) = (2,4,5,6) De Doorsnede De doorsnede van twee gebeurtenissen A en B is de verzameling van alle elementen die in A en in B zijn Het teken ∩ betekend EN Bv. 23 De complementaire gebeurtenis A* is de complementaire gebeurtenis van A Het is de gebeurtenis die zich voordoet als en slechts als A zich niet voordoet, doet A* zich voor dan doet A zich niet voor en omgekeerd De complementaire gebeurtenis van een complementaire gebeurtenis is de oorsprongelijke gebeurtenis: (A*)* = A De Toevalsvariabele Een toevalsvariabele is een variabele waarvan de waardein een toevalsproces onvoorspelbaar is. Bv bij trekking van een persoon is zijn IQ onvoorspelbaar, daarom is de variabele IQ een toevalsvariabele. Er zijn Continue toevalsvariabelen Discrete toevalsvariabelen Toevalsvariabelen kunnen van verschillende meetniveaus zijn: nominaal, ordinaal, interval, ratio of absoluut Kansen De kans dat gebeurtenis A (symbool= P(A)) bij een toevalsproces wordt gedefinieerd als de relatieve frequentie van deze gebeurtenis als we het toevalsproces eindeloos zouden herhalen. F(A) is de frequentie van A Bv als we A munt laten zijn en we n keer gooien dan is de relatieve frequentie fA/n (indien f oneindig zou zijn maar dat kan dus niet. Kans van twee Unie gebeurtenissen Stel dat A en B gebeurtenissen zijn waarvoor geld dat de doorsnede = ∅ o Dit betekent dat A∩B = ∅ o en dat 24 P(A∪B) = P(A) + P(B) o Als we een toevalsproces herhalen is de frequentie van de gebeurtenis A U B de som van de frequenties van A en B afzonderlijk. Hetzelfde geldt voor de kans. Stel dat A en B gebeurtenissen zijn waarvoor geldt dat de doorsnede = ∅. o Dus A∩B 6= ∅ o Dan P(A∪B) = P(A) + P(B)−P(A∩B) De kans van doorsnede van A en B moet afgetrokken worden om haar niet twee keer op te tellen Afhankelijke gebeurtenissen Twee gebeurtenissen A en B zijn afhankelijk als de realisatie van de ene gebeurtenis de kans van de andere gebeurtenis beïnvloedt. Twee gebeurtenissen zijn onafhankelijk als ze niet afhankelijk zijn van elkaar. Voorbeeld: Afhankelijk: A = {1,2,3} en B = {5,6}. Als A zich voordoet dan is de kans dat B zich ook voordoet nul omdat het onmogelijk is dat beide zich realiseren. We zeggen bijgevolg dat A en B afhankelijk zijn. Laat C = {1,2}. Als C zich realiseert dan is de kans dat A zich ook voordoet gelijk aan 1 omdat we zeker zijn dat A zich ook voordoet. A en C zijn dus hier ook afhankelijk. Onafhankelijk: Laat A = {1,2,3,4} en B = {2,4,6} =“even”. P(B) = 1/2. Stel nu dat ik een dobbelsteen opnieuw gooi. U ziet het niet. Ik zeg u dat A zich realiseerde. U weet nog niet of B zich ook realiseerde. Wat is nu de kans van B, de kans van B gegeven (of op voorwaarde dat) A zich voordoet? Het is nog hetzelfde. Er zijn vier uitkomsten in A; twee van die uitkomsten zijn even. De kans van B is dus nog 1/2. De gebeurtenissen A en B zijn derhalve onafhankelijk. We noteren dit als : P(A|B) (kans van A op voorwaarde B). Als B zich voordoet wat is dan de kans van A P(A|B) = P(A) voor onafhankelijke A en B P(A|B) 6= P(A) voor afhankelijke A en B. Formule om te berekenen: Voorwaardelijke kans van A op voorwaarde B: P(A|B) = P(A∩B) / P(B) . 25 De kans van de doorsnede van twee gebeurtenissen We kunnen nu gemakkelijk de kans van de doorsnede afleiden. P(A∩B) = P(A|B)P(B) = P(B|A)P(A) (omdat A∩B = B∩A). In het geval van onafhankelijke gebeurtenissen is dit P(A|B) = P(A) en dus P(A∩B) = P(A)P(B). Voorbeeld: laat A = {1,2,3,4} en B = {2,4,6} bij de worp van een dobbelsteen (zoals in het bovenstaand voorbeeld). We hebben al P(B|A) berekend: het is 1/2. P(B∩A) = P({2,4}) = P(B|A)P(A) = 1 /2 . 4/6 = 1/3. Kans van een complementaire gebeurtenis Stel dat A en A* complementaire gebeurtenissen zijn bij een bepaald proces. dan is P(A*)= 1-P(A) of P(A)+ P(A*) = P(AUA*)= 1 Kansverdeling Discrete variabele Als X een discrete toevalsvariabele is met een eindig aantal mogelijke waarden dat door p wordt aangeduid en x1, x2,…, xp de mogelijke waarden van X zijn. Dan is de verdeling van toevalsvariabele X een tabel met twee kolommen of rijen. De tweede kolom bevat de kansen. Aantal Ogen 1 2 3 4 5 5 Kans 1/6 1/6 1/6 1/6 1/6 1/6 26 P= #individuen in een steekproef n= #mogelijke verschillende woorden van de toevalsvariabele In kansrekenen is Fx(x) de kans dat de waarde van de toevalsvariabele X in een toevalsproces kleiner dan of gelijk is aan x FX(x) = P(X ≤ x). FX(x) Dit is de cumulatieve verdelingsfunctie. Kansverdeling van de continue variabelen Continue= oneindig veel mogelijkheden daarom moeten we onze notatie aanpassen. Hier representeren x1 of x’ , x2 of x’’ gewoon willekeurige waarden. Zoals bij discrete toevalsvariabelen X=x is een gebeurtenis P(X=x). P(X=x) = 0 want stel ik trek 1 persoon wat is de kans dat deze 78,55548 kg weegt? Deze kan is 0. Het is bijgevolg onmogelijk om een kansverdeling op te stellen. Maar andere gebeurtenissen wel. Bv de kans dat iemand meer of minder weegt dan 75 kg. De cumulatieve verdelingsfunctie wordt dan ook gedefinieerd door FX(x) = P(X≤x) Hier gaat het niet om een trapsgewijze functie De kans dat b >0 = P(x ≤ x ≤ x+b) =P(x ≤ x+b) – P(X ≤ x) =F(x+b) – F(x) De Dichtheidsfunctie Als we de intervallen oneindig verkleinen dan wordt de waarschijnlijkheid de afgeleide van F(X)x 27 Dit noemt men de dichtheidsfunctie van de variabele X, zijn symbool is FX(x). fX(x) is niet de kans dat X=x aangezien deze nul is. Het is de kans dat X binnen een klein interval valt. Het is eigenlijk kans gedeeld door lengte. Het geeft ons toch een idee van de waarschijnlijkheid. Eigenschappen: De kans dat de variabele X zich in het interval [x1,x2]bevindt is de oppervlakte onder de dichtheidsfunctie, tussen de twee waarden x1 en x2. Een dichtheidsfunctie is steeds positief! De oppervlakte onder een dichtheidsfunctie is steeds gelijk aan 1. Voor continue variabelen maat het niet uit of men < of ≤ gebruikt voor discrete variabelen moet men wel nauwkeurig zijn Reductietechnieken Discrete toevalsvariabelen o We kunnen alle technieken uit hoofdstuk 6 gebruiken. Maar sommige formules zullen we moeten aanpassen. o De verwachting = het gemiddelde van de steekproef X met n oneindig. De som van alle verschillende waarden van X vermenigvuldigd me hun relatieve waarde. 28 o De variantie De vierkantswortel van de variantie noemt men hier de standaardfout Continue toevalsvariabelen o De verwachting 𝑝 𝐸(𝑋) = ∑𝑖=1(𝑃(𝑋) = 𝑥𝑖) 𝑥𝑖 o Deze kunnen we niet gebruiken aangezien het aantal mogelijke waarden oneindig is, daarom gebruiken we de integralen +∞ 𝐸(𝑋) = ∫−∞ 𝑓𝑋 (𝑥) 𝑥 𝑑𝑥 De variantie De variantie van een continue toevalsvariabele X is 29 De Bivariante kansverdeling Als we meer dan één toevalsvariabele tegelijk willen bekijken. Discreten toevalsvariabelen 30 Gewoon een speciale Bivariante relatieve frequentieverdeling met 𝑛 → ∞ en kan in de vorm van een tabel voorgesteld worden zoals deze hierboven, één cel stelt altijd de kans op een overeenkomstige gebeurtenis voor zoals P(X=1 en Y=3) De som van alle gebeurtenissen is gelijk aan 1. De som van de waarde op een rij geeft ons de kans op de overeenkomstige waarde van X. De som van de waarden in een kolom geeft ons de kans op de overeenkomende waarde van Y Continue toevalsvariabelen Kansverdeling kan niet in de vorm van een tabel gepresenteerd worden. Want voor alle P(X=x en Y=y) = 0 We kunnen wel de bivariante verdelingsfunctie definiëren Afhankelijke toevalsvariabelen Aanpassing van het begrip afhankelijke gebeurtenis Twee toevalsvariabelen X en Y zijn onafhankelijk als de gebeurtenissen o ‘’x < X ≤x” en ‘’y < Y ≤ y’ ‘’ onafhankelijk zijn voor alle mogelijke keuze. Is dit niet zo dan zijn ze afhankelijk In praktijk gaan we kijken of : P(X=x en Y=y) = P(X=x) P(Y=y) Kijken welke waarde er in de cel staat, dan nagaan of deze het product is van de X kans en Y kans Dit moet gelden voor alle mogelijke combinaties 31 Voorwaardelijke verwachting De verwachting van toevalsvariabele X op voorwaarde dat de gebeurtenis A zich voordoet. Bv. Bij bovenstaande tabel, de kans dat iemand bist als hij 1 broer of zus heeft, we berekenen dit door dit werd berekent via de formule Associatietechnieken We bestuderen hier enkel het Lineaire verband tussen twee variabelen. Discrete toevalsvariabelen Is het verband stijgend dan > 1 Is het verband dalend dan < 1 Is het verband gelijk aan 0 dan is er geen verband o We moeten altijd eerst de verwachting berekenen en dan de varianties dan pas de covariantie Continue toevalsvariabelen 32 De definitie van de covariantie wordt aangepast die van het correlatiecoëfficiënt blijft dezelfde. De interpretatie is ook dezelfde als voor discrete variabelen. Correlatie en afhankelijkheid o o Covariantie van onafhankelijke toevalsvariabelen is altijd nul dus ook hun correlatiecoëfficiënt Zijn ze onafhankelijk dan is het correlatiecoëfficiënt dus nul, het kan WEL zijn dat er een ander verband is dat niet lineair is. BELANGRIJK BEWIJS DAT COVARIANTIE VAN ONAFHANKELIJKE TOEVALSVARIABELE ALTIJD NUL IS Enkele nuttige stellingen Verwachting van een constante maal een variabele 33 Als Z een toevalsvariabele aX is mat a als constante dan is de verwachting van een constante maal een variabele de verwachting van de variabele E(Z)=aE(X) De verwachting van een som o Toepassing We willen weten wat de verwachting van een loon is bij hetero echtparen, dit is de som van het loon van de man en dat van de vrouw Verwachting van een product 34 o Als X en Y onafhankelijk zijn en Z=XY dan is het product van de verwachtingen van X en Y gelijk aan de verwachting van Z E(Z) = E(X) E(Y) De verwachting van een product van onafhankelijke toevalsvariabelen is het product van de verwachtingen Verwachting van een product is afhankelijk van het feit dat de variabelen al dan niet afhankelijk zijn. De variantie van een som 35 Toepassing: de variantie van het loon van een hetero echtpaar is groter dan de som van de varianties van vrouwen en mannen. Rijke mannen trouwen met rijke vrouwen ze zijn dus positief gecorreleerd 𝑉(𝑋 − 𝑌) = 𝑉(𝑋) + 𝑉(𝑌) − 2 𝑐𝑜𝑣 (𝑋, 𝑌) 𝑉(𝑋 + 𝑌) = 𝑉(𝑋) + 𝑉(𝑌) + 2 𝑐𝑜𝑣 (𝑋, 𝑌) Hoofdstuk 9: bijzondere kansverdeling Binominale variabele In het algemeen schrijven we de kansverdeling van de variabele B(n,𝜋) is Π is de kans van een gebeurtenis A dat n keer herhaald wordt 36 Gebruiksvoorwaarden Π moet altijd gelijk blijven (met teruglegging dus) of de populatie moet zeer groot zijn dan maakt het niet uit Normale variabele De dichtheidsfunctie is nergens 0 De som van twee onafhankelijke variabelen is nog een normale variabele Een normale variabele plus een getal is een normale variabele met dezelfde variantie Een normale variabele maal een getal is een normale variabele met dezelfde verwachting Het algemene geval 37 Eens we de oplossing vonden zoeken we dit op in de tabel Tabel normaalverdeling 38 39 Tabel X² verdeling 40 Student of T – verdeling 41 42 De steekproefverdeling De steekproevenverdeling van het gemiddelde MET TERUGLEGGING Verwachting van een som is de som van de verwachingen De variantie van een steekproefgrootheid Intuitief zijn we geneigd te denken dat V (X) = V (X). En dat is niet correct. De variantie van de steekproefgrootheid X is niet gelijk aan de variantie van X; het is gelijk aan de variantie van X, gedeeld door n. Ze is dus kleiner dan de variantie van X. 43 44 De Steekproevenverdeling van de variantie, met teruglegging 45 Voor toepassingen zie cursus p 180-186 46 3. Inductieve statistiek Hoofdstuk 10 : Inleiding tot inductieve statistiek De inductieve statistiek bestaat uit methodes om o Te besluiten, op basis van observaties en experimenten, of een theorie weerlegd moet worden of niet o Om een theorie, op basis van observaties en experimenten te verfijnen. Puntschatting => Hier wil men een bepaalde parameter door een waarde schatten Intervalschatting => Hier wil men een interval vinden waarin de parameter zich waarschijnlijk bevindt Hoofdstuk 11: Puntschatting Voorbeeldoefening ‘wat is de proportie van de twijfelaars’? o Men wil de proportie = 𝜋 vinden van jongeren die twijfelen aan een baan later, ze nemen een steekproef van 10 jongeren: n = 10 o 4 jongeren twijfelen 6 jongeren niet Men wil specifieker zijn, is 𝜋 werkelijk gelijk aan 0.4? waarschijnlijk niet, stel dat dit 0.9 was, hoe groot is de kans dan dat men 4 twijfelaars trok We nemen aan dat de variabele X= aantal jongeren dat twijfelt een binomiale variabele is, we moeten dus P(B(10,0.9)=4) berekenen, dit doen we met de formule: Berekenen we dit dan is de uitkomst = 0.0001, dit is zeer klein Door in het wilde weg te gokken is de kans dat we de hoogste 𝜋 gokken zeer klein, daarom is het beter om de berekening algemeen te houden. Als ook de steekproefgrootte onbekend is een we werken dit uit dan bekomen we 47 o 𝜋̂ = 𝑏1 𝑛 Definitie: Soms zullen we andere parameters schatten (bv 𝜇 𝑒𝑛 𝜎 𝑖𝑛 𝑒𝑒𝑛 𝑛𝑜𝑟𝑚𝑎𝑙𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙𝑒) De parameter die we schatten zullen we dus altijd 𝜃 noemen, om deze te vinden berekenen we steeds de steekproefgrootheid In het algemeen noemen we deze een schatter = S die dus een steekproefverdeling hebben. Schatter is een toevalsvariabele, we weten nooit wat zijn waarde zal zijn. schattING is een waarde van de schattER in een bepaalde steekproef Eigenschappen goede schatter: De schatter zal dus zelden een perfecte schatting geven , soms zal deze te groot zijn, soms zal deze te klein zijn maar we willen wel dat ze gelijk is aan de parameter We proberen de afwijking zo klein mogelijk te houden. Grootste aannemelijke methode willen we θ van een bepaalde kansverdeling schatten dan moeten we over schatter S beschikken om de schatter te vinden gebruiken we de grootste aannemelijke methode. Zie pagina 195 en 196 voor een voorbeeld! (belangrijk) 48 Enkele Schatters De verwachting Variantie = is niet nuttig ( S² ) daarom gebruiken we deze formule Proportie Correlatiecoëfficiënt De grootste aannemelijke schatter van de correlatiecoëfficiënt is Pxy is de overeenkomende correlatiecoëfficiënt in de steekproef. 49