Bedrijfsstatistiek TEW 2e fase Mieke Simons H1: Statistiek en kansrekenen Definitie van Statistiek Statistiek De (hulp)wetenschap die zich bezig houdt met informatie of gegevens => analyseren, interpreteren, voorstellen, verzamelen, classificeren,... Enkele voorbeelden Systeem voor vochtigheid P: alle ogenblikken | Var: vochtigheid Informatie vliegpassagiers P: alle passagiers | Var: bagage, tijdstip, passagiers,... Vulmachine P: dozen | Var: rijst | Pr: vulproces Nitraatgehalte groenten P: groenten | Var: nitraatgehalte Kwaliteit tennisballen P: tennisballen | Var: diameter | Pr: productiepr Risico van bep aandelen P: rendementen | Var: tijd Karakteristieken klanten P: klanten | Var: betalingswijze, keuze,... Gegevens zijn beschikbaar of moeten verzameld worden o Rechtstreeks beschikbaar o Verkregen via experimenten o Verkregen via enquetes Onderwerp van de Statistiek Over de populatie van elementen of objecten Over een proces van elementen of objecten (=> zie voorbeelden: P (populatie) en Pr (proces) en Var (variabele)) Gegevens via variabelen: verschilt bij elk element Steekproef: slechts een deel wordt bekeken Beschrijvende Statistiek = descriptieve statistiek Overzichtelijk beeld Overzichtelijke beschrijving Verklarende Statistiek = inferentiële statistiek = steekproeftheorie Analyseren en interpreteren Hypothesen testen en waarde toetsen Antwoorden en conclusies veralgemenen naar populatie = inferentie Uitspraak niet 100% zeker! o Betrouwbaarheidsgraad => kansuitspraak => kansrekenen 2 Opletten met steekproeven Moet voldoende groot zijn Moet relevant en representatief zijnµ De Kansrekening Kansrekening Bestudeert processen of experimenten waarbij de uitkomst onzeker is. Het gooien van een dobbelsteen, de toekomstige prijs van een product,... Statistiek vs Kansrekenen o Statistiek: uitspraken via steekproefgegevens o Kansrekenen: rechtstreekse uitspraken via onderstellingen Onderstelling noodzakelijk o Vb dobbelsteen moet homogeen zijn o In de praktijk moeilijk of niet te verifiëren Zie voorbeelden HBp 7 voor verschillen bij statistische studie (is) en kansrekening (zal) !! Statistiek: beperkte steekproefinformatie: geen absoluut correcte uitspraken!! 3 H2: Data en hun voorstelling Proces of Populatie Elementen Census van de populatie (volledige populatie) Steekproef uit de populatie Variabelen SOORTEN GEGEVENS Kwalitatieve (categorische) variabelen Nominale variabele Een nominale variabele laat toe de elementen te classificeren, het element krijgt een “etiket”. Slechts om te categoriseren Berekeningen zinloos (behalve percentages) Codenummers, codeletters,... (cijfers impliceren dan geen volgorde en/of hoeveelheid!) Kleur, merk, verpakking,... Ordinale variabele Een ordinale variabele laat toe de elementen te ordenen. Om te waarderen, te beoordelen Geen vaste meeteenheid (∆ restaurant * en restaurant ** ≠ ∆ restaurant ** en restaurant ***) Berekeningen zinloos Zeer goed/ goed/ slecht/ zeer slecht, 1 ster/2 sterren,... Kwantitatieve variabele Intervalvariabele Geen natuurlijk nulpunt 16h is niet 2x zo laat als 8h Tijd op de klok, temperatuur op de Celsiusschaal (nulpunt hebben we zelf gekozen),… Ratiovariabele Wel een natuurlijk nulpunt 6cm is wel 2x 3cm Lengte, volume,Kelvinschaal ,... Discrete variabele Eindig: aantal passagiers dat opdaagt, aantal kinderen in een gezin,... Oneindig: de aantal worpen nodig om een zes te gooien Gehele getallen Continue variabele Elk getal tussen de boven en ondergrens: lengte, duurtijd, inhoud,... Verdelen in klassen Reële getallen 4 DE DATAMATRIX Waarneming Gewicht Vulkop Uur Analist O1 50,56 1 8 A1 O2 51,58 2 8 A2 Rij: elementen/ waarnemingen = observatievector O Kolom: variabelen Gewicht: continue variabele (kwantitatief) Vulkop, analist: nominale variabele (kwalitatieve) Uur: intervariabele/ nominale variabele Univariate voorstelling Betrekking op 1 variabele Bivariate voorstelling Betrekking op 2 variabelen Frequentie Frequentie ve klasse: # elementen vd klasse Relatieve frequentie: # elementen vd klasse/ totaal # elementen vd proef HET VOORSTELLEN VAN UNIVARIATE KWALITATIEVE VARIABELEN Het staafdiagram Het cirkeldiagram = sectordiagram Het Pareto diagram Klassen volgens dalende frequentie Cumulatief voorgesteld Kijken naar de klassen met de hoogste frequenties Excel (HBp14-15) Frequentie: AANTAL.ALS(celbereik;criterium) HET VOORSTELLEN VAN UNIVARIATE KWANTITATIEVE VARIABELEN Discrete kwantitatieve variabelen Gehele getallen Naalddiagram Continue kwantitatieve variabelen Reële getallen: verdelen in klassen! Histogram o Klassenbreedte niet altijd gelijk 5 o # klassen staat niet vast (tip: √𝑛) o Maximaal 15 à 20 o Som van de oppervlakten = 1 Polygoon o Middens van de rechthoeken verbinden o Oppervlakte onder polygoon = 1 Het stam- en bladdiagram Stam: eerste cijfer van elke waarneming Blad: tweede cijfer van elke waarneming Excel (HBp19-21) Frequentie: INTERVAL(celbereik,bovengrenzen) HET VOORSTELLEN VAN BIVARIATE VARIABELEN Kwalitatieve variabelen Kruistabel Meervoudige staafdiagram Kwantitatieve variabelen Kruistabel Puntenwolk/ puntendiagram Gemengd Kruistabel met kwalitatieve en kwantitatieve variabele Excel (HBp19-21) Kruistabel: DRAAITABEL 6 H3: Beschrijvende Kengetallen van Steeproefgegevens BESCHRIJVENDE KENGETALLEN (steekproef) statistieken = (steekproef) kengetallen Kenmerkende maten die de gegevens van de steekproef samenvattend beschrijven => functies Parameters Kengetallen die betrekking hebben op een volledige populatie/ proces UNIVARIATE KWANTITATIEVE VARIABELEN Kengetallen van centrale ligging Zowel voor discrete als continue variabelen Het gemiddelde Streekproefgemiddelde 𝑥̅ Populatiegemiddelde 𝜇 𝑓𝑖 : frequentie | Eigenschappen 𝑓𝑖 𝑛 : gewichten = relatieve frequentie o ∑ 𝑥𝑖 = 𝑛𝑥̅ o ∑(𝑥𝑖 − 𝑥̅ ) = 0 bewijs zie slides Gevoelig aan extreme waarden De mediaan Ongeveer 50% vd waarnemingen zijn groter, 50% kleiner Hoe groter de steekproef, hoe nauwkeuriger Niet gevoelig aan extreme waarden => robuust De modus Waarneming met de grootste frequentie Histogram: modale klasse => unimodaal / bimodaal Maatstaven van relatieve ligging Geven de positie van een waarneming relatief tot de andere waarnemingen ie ordekengetal = ie ordestatistiek = ie observatie na rangschikking van klein naar groot Percentielen: Cp = waarde zodat p100% (0<p<1) van de gerangschikte waardes kleiner is Vb C0,76 = X => 76% van de waarnemingen kleiner dan X (en 24% groter) Kwartielen o 1e kwartiel: Q1 = c0.25 | 2e kwartiel: Q2 = c0.5 (mediaan) | 3e kwartiel: Q3 = c0.75 o Ongeveer ¼ is < Q1 | ongeveer ½ is < Q2 | ongeveer ¾ is < Q3 Percentiel Cp = pde kwantiel Vb C0,76 => 0,76ste kwantiel Vb C0,80 => 0,80ste kwantiel => 8e deciel 7 Maatstaven van spreiding Meten de spreiding van de gegevens rond een centrale waarde Want zo kunnen 2 reeksen gegevens hetzelfde gemiddelde hebben, maar toch sterk verschillen! Afwijking = (𝑥𝑖 − 𝑥̅ ) De variatiebreedte = spreidingsbreedte = ‘range’ Grootste – kleinste waarneming Nadeel: hangt alleen af grootste en kleinste Nadeel: moeilijk steekproeven met ongelijk # observaties te vgl’en (kan alleen maar stijgen als n stijgt) De interkwartielbreedte = IKB Q3 – Q1 = c0,75 – c0,25 De gemiddelde absolute afwijking GAA Niet 0 want werken met absolute waarden!!! De gemiddelde gekwadrateerde afwijking GGA Niet 0 want werken met kwadraten!!! De variantie Steekproefvariantie 𝑠² Populatievariantie 𝜎² Altijd positief 0 bij cte waarden, dus geen variantie Populatievariantie is dus een GGA, Steekproefvariantie is geen GGA De standaarddeviatie 𝑠 𝜎 Variatiecoëfficiënt 𝑣𝑐 Om de relatieve variabiliteit te bekomen Maatstaven van scheefheid Pearson-coëfficiënt −3 ≤ 𝑆𝑃 ≤ +3 Scheefheidscoëfficiëntie o Derde moment m3 Symmetrisch: gemiddelde = mediaan = modus SP = 0 m3 = 0 Links scheef: SP < 0 m3 < 0 staart aan de linkerzijde gemiddelde < mediaan < modus Rechts scheef: gemiddelde > mediaan > modus SP > 0 m3 > 0 staart aan de rechterzijde 8 Transformatie en standaardisatie van gegevens Lineaire transformaties o yi = axi + b met a en b cte => eenvoudige formules: gelden alleen als LINEAIRE transformaties!!! Standaardiseren o De gestandaardiseerde waarneming zi Meet de afstand, uitgedrukt in standaarddeviaties, die xi verwijderd liggen van 𝑥̅ o Belangrijk voorbeeld van lineaire transformatie o Waarbij 𝑎 = 1/𝑠 en 𝑏 = −𝑥̅ /𝑠 o 𝑧̅ = 0 | 𝑠𝑧2 = 1 | 𝑥𝑖 = 𝑥̅ + 𝑧𝑖 . 𝑠 Extreme waarden, uitbijters (outliers) Uitzonderlijk grote of kleine steekproefwaarneming Valt buiten het patroon Oorzaak moeilijk te achterhalen o Toch mogelijk: corrigeren of weglaten o Niet mogelijk: gekwalificeerd oordeel onderzoeker Histogram klokvormig symmetrisch o Waarneming extreem als zi < -3 of als zi > +3 Histogram niet klokvormig symmetrisch: boxplot Doos met snorharen = boxplot Centrale deel: box o Begrensd door Q1 en Q3 o Mediaan: verticale lijn o Gemiddelde: Naast de snorharen: de mogelijke extreme waarden o of 𝑥𝑖 > 𝑄3 + 1.5 ∗ 𝐼𝐾𝐵 Nog verder naast de snorharen: de werkelijke extreme waarden o 𝑥𝑖 < 𝑄1 − 1.5 ∗ 𝐼𝐾𝐵 𝑥𝑖 < 𝑄1 − 3 ∗ 𝐼𝐾𝐵 of 𝑥𝑖 > 𝑄3 + 3 ∗ 𝐼𝐾𝐵 Positie mediaan en gemiddelde (+ snorharen) Kan je uit afleiden of ze scheef is of niet en hoe UNIVARIATE KWALITATIEVE VARIABELEN Nominale variabel o Modus Ordinale variabele o Modus en mediaan o Soms gemiddelde: schaal moet intervalschaal benaderen 9 BIVARIATE (KWANTITATIEVE) VARIABELEN Covariantie Steekproefcovariantie sXY Populatiecovariantie 𝜎XY Kan – en + zijn: hangt af van de dominantie van de positieve of negatieve termen Termen (𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) in de covariantie o (+) : kleine waarde voor X en Y / grote waarde voor X en Y (-)(-) of (+)(+) o (-) : kleine waarde voor X en grote waarde voor Y (e.o.) (-)(+) of (+)(-) Puntenwolk: assen rond de gemiddelden 𝑥̅ en 𝑦̅ o Positieve term: 1e en 3e kwadrant => domineren: positieve samenhang o Negatieve term: 2e en 4e kwadrant => domineren: negatieve samenhang Kruistabel van X en Y o Marginale frequenties van X en Y => relatieve frequenties van X en Y Nadeel: afhankelijk van meeteenheid Variantie van een variabele is dus de covariantie met zichzelf: 𝑠𝑥2 = 𝑠𝑥𝑥 𝑒𝑛 𝜎𝑥2 = 𝜎𝑥𝑥 Correlatie Steekproefcorrelatie rXY Populatiecorrelatie 𝜌XY Niet afhankelijk van meeteenheid Belangrijke eigenschappen o -1 < rXY < +1 o -1 < 𝜌XY < +1 o Voor lineaire verband: zie formules Puntenwolken op rechte perfecte correlatie Rechte met positieve helling Rechte met negatieve helling r = -1 ‘perfect’ negatief Perfect horizontaal/ verticaal s = 0 geen lineair verband r = +1 ‘perfect’ positief Covarianties zeggen intuïtief niet veel, correlatie wel Correlatie meet enkel de graad van lineair verband tussen 2 variabelen EXCEL FORMULES s² : VAR(bereik) 𝜎² : VARP(bereik) GAA: GEM.DEVIATIE(bereik) Vc : STDEV(bereik) / GEMIDDELDE(bereik) SCHEEFHEID(celbereik) 𝑁 COVARIANTIE(bereik1;bereik2) 𝑁−1 s : STDEV(bereik) 𝜎 : STDEVP(bereik) GGA: DEV.KWAD(bereik) PEARSON(bereik1;bereik2) CORRELATIE(bereik1;bereik2) 10 H4: Kansrekening BEGRIP KANS Benaderend deterministisch Resultaat zal met zekerheid worden voorspeld Als aan voorwaarden voldaan Slechts in theorie deterministisch want altijd kleine afwijkingen Vb. bij druk van 760mm en t° van 100°C (vwen) zal water koken (resultaat) Probabilistisch of stochastisch Onzekerheid over de uitkomst Kansprocessen = kansexperimenten = stochastische processen ‘erg waarschijnlijk dat…’ Uitkomst kan je interpreteren als steekproefgegevens voor populatie/ proces KANSEXPERIMENTEN EN VERZAMELINGENLEER Uitkomstenruimte Uitkomstenruimte = steekproefruimte Ω Verzameling van alle uitkomsten waarvoor 𝜔 geldt Eindig, oneindig, continu, numeriek, niet-numeriek,… Eenzelfde experiment kan meerdere uitkomstenruimten hebben Kijken welke vragen gesteld worden over het experiment Gebeurtenis (herbekijk vb HBp58) G: een deelverzameling van Ω Verzameling van uitkomsten waarbij ook ∅ en Ω als gebeurtenis worden beschouwd Elementaire gebeurtenis: een G die zich naar een uitkomst zelf herleid Gebeurtenis G doet zich voor als o Bij uitvoering van het experiment de uitkomst 𝜔 ∈ 𝐺 o Bij uitvoering dus 1 van de uitkomsten van G zich voordoet Definities, operaties en relaties Unie of vereniging: 𝐺 = 𝐴 ∪ 𝐵 (A of B of beide) o 𝐺 = 𝐺1 ∪ 𝐺2 ∪ … =∪𝑖 𝐺𝑖 => dan bevat G alle uitkomsten die behoren tot minsten 1 vd gebeurtenissen G1,G2,… o G is exhaustief (volledig) als ∪𝑖 𝐺𝑖 = Ω Doorsnede: 𝐺 = 𝐴 ∩ 𝐵 (A en B) o Lege doorsnede: disjunct: sluiten elkaar uit o 𝐺 = 𝐺1 ∩ 𝐺2 ∩ … =∩𝑖 𝐺𝑖 => dan bevat G alle uitkomsten die behoren tot al de gebeurtenissen G1,G2,… 11 Verschil: 𝐺 = 𝐴 − 𝐵 (A maar niet B) Deelverzameling: 𝐴 ⊆ 𝐵 (B bevat A) Complement: 𝐺 𝐶 = Ω − 𝐺 (niet in G) o 𝐺𝐶 ∪ 𝐺 = Ω o 𝐺𝐶 ∩ 𝐺 = ∅ Partitie van Ω (of…of…of…) o Als ze exhaustief zijn o Als ze elkaar uitsluiten 𝐺 = 𝐺𝑖 ∩ 𝐺𝑗 = ∅ 𝐺 = 𝐺1 ∪ 𝐺2 ∪ … 𝑃(𝐺1 ∪ 𝐺2 ∪ … ) = ∑𝑛𝑖=1 𝑃(𝐺𝑖 ) DEFINITIE VAN KANS Kans op gebeurtenis G De kans definiëren dat een gebeurtenis 𝐺 ⊆ Ω zich voordoet, dus dat de uitkomst een element is van G Frequentiedefinitie Functie P(G) Frequentie van G: 𝑓𝑛 (𝐺) => relatieve frequentie van G: 𝑓𝑛 (𝐺)/𝑛 Kans dat deze zal stabiliseren voor grote n: P(G) Als 𝐺 = Ω dan is 𝑓𝑛 (𝐺) 𝑛 =1 en dus 𝑃(Ω) = 1 Als 𝐺 = ∅ dan is 𝑓𝑛 (𝐺) 𝑛 =0 en dus 𝑃(∅) = 0 Hoe groot moet n zijn? We zouden n onbeperkt kunnen laten toenemen: 𝑃(𝐺) = lim 𝑛→∞ 𝑓𝑛 (𝐺) 𝑛 => is in praktijk moeilijk of zelfs onmogelijk Axiomatische definitie 1. 𝑃(𝐺) ≥ 0 2. 𝑃(Ω) = 1 3. 𝑃(𝐺1 ∪ 𝐺2 ∪ 𝐺3 … = ∑𝑖 𝑃(𝐺𝑖 ) waarbij G1,G2,… elkaar uitsluiten (dus alleen of…) Nadeel: wordt niets gezegd over de bepaling van P(...) voor een concreet experiment Klassieke definitie van Laplace 𝑛𝐺 𝑛 Alle mogelijke uitkomsten zijn even waarschijnlijk 𝑃(𝐺) = Slechts mogelijk voor eindig # mogelijke uitkomsten die alle gelijkwaardig zijn Klassieke definitie tov frequentiedefinitie Frequentiedefinitie => empirische verdeling Klassieke definitie => theoretische verdeling = kansverdeling Subjectieve definitie Persoonlijke inschatting Verschillende personen zullen dus verschillende inschattingen van de kans hebben 12 REKENREGELS VOOR KANSEN Formules gelden voor elk experiment en willekeurige gebeurtenissen G1,G2,G3, … SIMULATIE IN EXCEL Doel Goed inzicht krijgen Kan vaak herhaald worden (op basis van de frequentiedefinitie) Systemen optimaliseren Programma’s Voor de ingewikkelde processen specifieke simulatietalen ontwikkeld: GPSS, Slam,… Excel: ASELECT( ) o Lukraak een getal genereren tussen 0 en 1 o Pseudolukrake getallen… VOORWAARDELIJKE KANS Begrip Voorwaardelijke kans De kans berekenen op een gebeurtenis, rekening houdend met een andere gebeurtenis, die de kans op de eerste in belangrijke mate zou kunnen veranderen Formule voorwaardelijke kans: P(G2) > 0 𝑃(𝐺1 ) onvoorwaardelijke kans = a priori kans 𝑃(𝐺1 |𝐺2 ) voorwaardelijke kans = a posteriori kans = herziene kans Vermenigvuldigingsregel 𝑃(𝐺1 ∩𝐺2 ∩𝐺3 ) 𝑃(𝐺1 ∩𝐺2 ) Voor 3 gebeurtenissen: 𝑃(𝐺3 |𝐺1 ∩ 𝐺2 ) = Dus: 𝑃(𝐺1 ∩ 𝐺2 ∩ … ∩ 𝐺𝑘 ) = 𝑃(𝐺1 ) ∗ 𝑃(𝐺2 |𝐺1 ) ∗ 𝑃(𝐺3 |𝐺1 ∩ 𝐺2 ) ∗ … ∗ 𝑃(𝐺𝑘 |𝐺1 ∩ 𝐺2 ∩ … ∩ 𝐺𝐾 ) Onafhankelijke en afhankelijke gebeurtenissen Onafhankelijk: 2e gebeurtenis heeft geen invloed op de eerste: info is neutraal Vb. de kans om 1 te gooien met 4 eerlijke dobbelstenen: 𝑃(𝐺) = ( ∗ ∗ ∗ ) = ( )4 Elkaar uitsluitende gebeurtenissen ≠ onafhankelijke gebeurtenissen!!!! Informatie in G2 is 1 6 o Positief : 𝑃(𝐺1 |𝐺2 ) > 𝑃(𝐺1 ) o Negatief: 𝑃(𝐺1 |𝐺2 ) < 𝑃(𝐺1 ) o Neutraal: 𝑃(𝐺1 |𝐺2 ) = 𝑃(𝐺1 ) 1 6 1 6 1 6 1 6 Totale kans en de kansregel van Bayes Partitie: exhaustief en disjunct! Bayes: indien totale kans gekend, zoeken waar de kans welke grootte heeft 13 H5: Univariate kansvariabelen KANSVARIABELEN EN VERDELINGSFUNCTIE Kansvariabele Kansvariabele Een functie X(𝜔) die een reëel getal associeert met elke uitkomst (𝜔) van een experiment Kansvariabele = stochastische variabele Grote letters gebruiken: meestal X,Y of Z Kleine letters: verwijzen naar een bepaalde reële waarde voor de kansvariabele Betrekking op eigenschap van de elementen of een proces o Univariaat: kansvariabele betrekking op 1 eigenschap o Bivariaat: kansvariabele betrekking op 2 eigenschappen samen o Kansvector: kansvariabele op meerdere eigenschappen samen Kansen kansvariabelen kan je afleiden uit kansen gebeurtenissen 𝑃(𝑋 = 𝑥) = 𝑃(𝐺𝑥 ) vb. 𝑃(𝑋 = 3) = 𝑃(𝐺3 ) = 2/36 met G3 = {(1,2), (2,1)} Verdelingsfunctie Verdelingsfunctie = cumulatieve verdelingsfunctie 𝐹𝑥 (𝑥) o Niet dalend want kans is altijd positief o 0 < 𝑃 < 1 dus ook 0 < 𝐹𝑥 < 1 Overlevingsfunctie: 𝑃(𝑋 > 𝑥) = 1 − 𝐹𝑋 (𝑥) DISCRETE KANSVARIABELE EN KANSVERDELING Kansverdeling 𝑝𝑋 (𝑥𝑖 ) Discrete kansvariabele o Als # mogelijke waarden voor X eindig aftelbaar zijn o Als # mogelijke waarden voor X oneindig aftelbaar zijn (opgooien tot uitkomst 6 is) (som van # ogen) Kansverdeling: niet exact in praktijk: onderstellingen maken Empirische verdeling wel (rechtstreeks uit steekproefgegevens) Ook steeds positief Kansverdeling ≠ verdelingsfunctie! o (Zie HB p88) Kansverdeling: Waarde dat bij variabele hoort Gedefinieerd voor reëel getal dat bij variabele hoort o Verdelingsfunctie: (cumulatief!) tussen welke waarden het ligt gedefinieerd voor elk reëel getal 14 CONTINUE KANSVARIABELE EN KANSDICHTHEID Kansdichtheid 𝑓𝑋 (𝑥) 𝑓𝑋 (𝑥) = 𝑔(𝑥) 𝑎𝑙𝑠 𝑎 ≤ 𝑥 ≤ 𝑏 𝑓𝑋 (𝑥) = 0 𝑒𝑙𝑑𝑒𝑟𝑠 Tegenhanger van de kansverdeling Continue kansvariabele o In klassen verdelen! Benadering voor de kans (via relatieve frequentie) o Geeft zelf dus geen kans weer!!! Oppervlakte onder polygoon tussen a en b benadert de kans van een waarde tussen a en b Indien zeer groot => klassenbreedte zeer klein => limiet: continue curve Waarde onder polygoon = 1 => waarde onder F ook Om na te gaan je een dichtheid hebt o Aanduiden dat 𝑓𝑋 (𝑥) ≥ 0 o En dat ∫𝑎 𝑓𝑋 (𝑥) = 1 𝑏 Verdelingsfunctie 𝐹𝑥 (𝑥) Afleiden en dan heb je de kansdichtheid Stijgend tot 1 𝐹𝑋 (𝑥) = 0 𝑎𝑙𝑠 𝑥 < 𝑎 𝐹𝑋 (𝑥) = 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥 = [𝑓(𝑎) − 𝑓(𝑏)] 𝐹𝑋 (𝑥) = 1 𝑎𝑙𝑠 𝑎 ≤ 𝑥 ≤ 𝑏 𝑎𝑙𝑠 𝑥 > 𝑏 𝑏 𝑥 𝑛+1 Uitwerken integraal: ∫𝑎 𝑥 𝑛 𝑑𝑥 = [ ] 𝑛+1 𝑏 𝑎 GRAFISCH OVERZICHTJE Discreet Kansverdeling : naalddiagram Verdelingsfunctie: trapvorm Continu Kansdichtheid: klokvormig Verdelingsfunctie: stijgende tot aan 1 15 Simuleren van continue kansvariabelen 𝐹𝑋 (𝑥) = 𝑟 o Met r = ASELECT( ) o Functie herleiden tot x FUNCTIE VAN EEN KANSVARIABELE Algemeen Kansvariabele 𝑋 𝑋=𝑥 Functie 𝑌 = 𝑔(𝑋) 𝑌 = 𝑦 = 𝑔(𝑥) Discreet Waarde van 𝑦 zoeken Functie 𝑌 = 𝑔(𝑋) gewoon invullen met de gevonden 𝑥-waarden Of formule aanpassen door 𝑥 te substitueren door 𝑦 𝑝𝑌 (𝑦) gewoon zoeken door oorspronkelijke kansverdeling 𝑝𝑋 (𝑥) toe te passen met y Continu Via de verdelingsfunctie 1. Bepaal het nieuwe domein 2. Bereken de nieuwe verdelingsfunctie 𝐹𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦) 3. Leid deze af tot je 𝑓𝑌 (𝑦) krijgt (domein niet vergeten!) Via de differentiaalanalyse 1. Bepaal het nieuwe domein 2. Los de nieuwe functie op naar 𝑥 en bepaal de afgeleide 3. Vul deze inverse functie in in de oorspronkelijke en vermenigvuldig met de afgeleide Herbekijk voorbeelden HBp98-99 16 H6: Kengetallen van populaties en processen VERWACHTE WAARDE VAN EEN KANSVARIABELE Verwachte waarde 𝜇𝑋 of 𝐸(𝑥) Wordt ook het gemiddelde van 𝑋 genoemd Verwachte waarde 𝜇𝑋 voor de populatie of het proces = Steekproefgemiddelde 𝑥̅ voor steekproefgegevens Discrete kansvariabele o Continue kansvariabele o Met kansverdeling 𝑝𝑋 (𝑥𝑖 ) Met kansdichtheid 𝑓𝑋 (𝑥) Verwachte waarde kan een waarde zijn die niet door de kansvariabele kan aangenomen worden VERWACHTE WAARDE VAN EEN FUNCTIE VAN EEN KANSVARIABELE Algemeen Methode 1 (met substititie) 1. Bereken 𝑝𝑌 (𝑦) als discreet of 𝑓𝑌 (𝑦) als continu van de nieuwe variabele 𝑌 = 𝑔(𝑋) 2. Pas nu de definitie van de verwachte waarde toe Methode 2 (direct) 1. Gebruik de kansverdeling of kansdichtheid van 𝑋 zelf en de functie 𝑔(𝑋) 2. Pas nu de definitie van de verwachte waarde toe St Petersburg Paradox o Voor 1x te mogen spelen niet bereid veel in te zetten o Verwachte waarde van de opbrengst is oneindig groot Speciale gevallen Lineaire functies => bewijs HBp106 Constante => 𝐸(𝑐) = 𝑐 𝐸(𝑋 − 𝜇𝑋 ) = (𝜇𝑋 − 𝜇𝑋 ) = 0 VARIANTIE EN STANDAARDDEVIATIE VAN EEN KANSVARIABELE Variantie en standaarddeviatie Nu gedefinieerd voor elke mogelijke kansvariabele (discreet/continu) Ook gebruikt als maatstaf van spreiding Hoe groter 𝜎𝑋2 of 𝜎𝑋 , hoe groter de spreiding rond de verwachte waarde 17 Var(lineaire functie) Bewijs zie HBp109 Constant b heeft geen invloed op 𝜎𝑋2 of 𝜎𝑋 𝜎𝑏2 = 0 en 𝜎𝑏 = 0 Gestandaardiseerde kansvariabele Heeft altijd verwachte waarde 0 en variantie 1!!! Zie ook hoofdstuk 3 (p9) ANDERE KENGETALLEN Modus Bestaat niet als er geen maximum bestaat Zeer zwakke maat van centrale ligging Mediaan Discreet: zie formule 0.5 Continue: 𝑃(𝑋 ≤ 𝛾0.5 ) = 𝑃(𝑋 ≥ 𝛾0.5 ) = ∫−∞ 𝑓𝑋 (𝑥)𝑑𝑥 = ∫𝛾 Ook maat voor centrale ligging want minder gevoelig aan extreme waarden dan 𝐸(𝑋) 𝛾 +∞ 0.5 𝑓𝑋 (𝑥)𝑑𝑥 = 1/2 Kwantielen, parcentielen en kwartielen 100*pde percentiel = 10*pde deciel = pde kwantiel Vb. 0,25e kwantiel = 2,5e deciel = 25e percentiel 1e kwartiel 𝛾0.25 | 2e kwartiel 𝛾0.5 | 3e kwartiel 𝛾0.75 Voor continue kansvariabelen: zie formules Voor discrete kansvariabelen: slechts een benadering! Scheefheidscoëfficiënten Pearson populatiecoëfficiënt −3 ≤ 𝑆𝑃𝑝𝑜𝑝 ≤ +3 Scheefheidscoëfficiëntie o Vergeljkbaar met derde moment m3 Symmetrisch: gemiddelde = mediaan = modus SP = 0 m3 = 0 Links scheef: SP < 0 m3 < 0 staart aan de linkerzijde gemiddelde < mediaan < modus Rechts scheef: gemiddelde > mediaan > modus SP > 0 m3 > 0 staart aan de rechterzijde 18 H7: Belangrijke discrete kansvariabelen FAMILIE VAN KANSVERDELINGEN/ KANSDICHTHEDEN Verzameling van verdelingen/ dichtheden Geïndexeerd door 1 of meerdere grootheden => parameters Elke waarde die de parameter aanneemt (in een bepaald domein) resulteert in een kansverdeling/ kansdichtheid DE BERNOULLI VERDELING Parameter 𝜋 stelt hier een kans voor => 0 ≤ 𝜋 ≤ 1 Succes: 𝑋 = 1 met kans 𝜋 Faling: 𝑋 = 0 met kans (1 − 𝜋) Bernoulli-experiment = kanproces voor 1 element DE BINOMIALE KANSVERDELING Voorwaarden Bestaat uit n opeenvolgende Bernoulli experimenten => succes of faling Met parameter 𝜋 telkens dezelfde waarde Experimenten worden onafhankelijk van elkaar uitgevoerd! Kans op succes 𝑋 = 1,2,3, … , 𝑛 en stelt het aantal successen voor o Kans op 𝑥 succes o Kans op (𝑛 − 𝑥) faling Parameters 𝝅 en 𝒏 𝑛 ≥ 0 en geheeltallig 0≤𝜋≤1 Scheefheid Symmetrisch: 𝜋 = 0,5 Links scheef: Rechts scheef: 𝜋 ≤ 0,5 𝜋 ≥ 0,5 (figuur 𝜋=0.2) Excel Binomiale kans 𝑝𝑋 (𝑥; 𝑛, 𝜋) Cumulatieve kans ∑𝑥𝑥=0 𝑝(𝑥; 𝑛, 𝜋) ∗ 𝑥∗ => (𝑋 = 𝑥) =BINOMIALE.VERD(𝑥, 𝑛, 𝜋, 0) => (𝑋 ≤ 𝑥) = 𝐹𝑋 (𝑥) =BINOMIALE.VERD(𝑥, 𝑛, 𝜋, 1) Kleinste waarde 𝑥 ∗ zodanig dat ∑𝑥=0 𝑝(𝑥; 𝑛, 𝜋) ≥ 𝛼 Herbekijk voorbeelden HBp117-120 =CRIT.BINOM(𝑛, 𝜋, 𝛼) 19 DE POISSON VERDELING Voorwaarden Is een specifiek geval van een binomiale verdeling => succes of faling Met 𝜋 per klein interval telkens dezelfde waarde en zeer klein In 1 deelinterval kan maximum 1 gebeurtenis voorkomen Gebeurtenissen zijn onafhankelijk van elkaar! Van Binomiaal naar Poisson verdeeld Stel 𝑋 binomiaal verdeeld o Indien 𝑛 → ∞ en 𝜋 → 0 o Dan tendeert de kansverdeling 𝑋 naar de Poisson verdeling met 𝜆 = 𝑛𝜋 Voorbeeld: # fouten in stof als we weten dat gemiddeld 5 fouten per 10m o Zeer veel intervallen => 𝑛 = 10.000 o Zeer kleine fout per m => 𝜋 = 0.0005 o En dit tendeert dus naar => 𝑛𝜋 = 5 = 𝜆 Excel Poisson kans 𝑝𝑋 (𝑥; 𝜆) 𝑥∗ Cumulatieve kans ∑𝑥=0 𝑝(𝑥; 𝜆) Herbekijk voorbeelden HBp125 => 𝑃(𝑋 = 𝑥) =POISSON(𝑥, 𝜆, 0) => 𝑃(𝑋 ≤ 𝑥) = 𝐹𝑋 (𝑥) =POISSON(𝑥, 𝜆, 1) DE GEOMETRISCHE VERDELING Bestaat uit n opeenvolgende Bernoulli experimenten => succes of faling Na 𝑥 experimenten een eerste succes 0≤𝜋≤1 Excel Geometrische kans => 𝑃(𝑋 = 𝑥) =NEG.BINOM.VERD(𝑥 − 1,1, 𝜋) DE NEGATIEF BINOMIALE OF PASCAL VERDELING Veralgemening van de geometrische Na 𝑥 experimenten een 𝑟-de succes en dus aantal falingen = (𝑥 − 𝑟) Bij geometrische: 𝑟 = 1 0≤𝜋≤1 Excel Pascal kans => 𝑃(𝑋 = 𝑥) =NEG.BINOM.VERD(𝑥 − 𝑟, 𝑟, 𝜋) Om grootheden van bepaalde verdeling te bewijzen Formules van H6 gewoon invullen met de gepaste waarden Gepaste waarden: waarden die de bepaalde verdeling kan aannemen 20 KORT OVERZICHT Bernoulli verdeling Binair (0/1) Faling/succes, ja/nee, geslaagd/niet geslaagd,… 𝑋 = 1/0 Binomiale verdeling Reeks van Bernoulli 20 mensen dagen op/dagen niet op, 100 producten falen/zijn succes,… 𝑋 = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑢𝑐𝑐𝑒𝑠𝑠𝑒𝑛 Poisson verdeling Gebeurtenis doet zich lukraak voor Binomiaal met 𝑛 → ∞ en 𝜋 → 0 # klanten per u in apotheker, # brieven in de brievenbus na 2 dagen,… 𝑋 = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑔𝑒𝑏𝑒𝑢𝑟𝑡𝑒𝑛𝑖𝑠𝑠𝑒𝑛 𝑝𝑒𝑟 𝑒𝑒𝑛ℎ𝑒𝑖𝑑 Geometrische verdeling Reeks van Bernoulli Aantal experimenten nodig voor 1e succes Kans om een eerste 6 te gooien, kans om een juiste bloeddonor te vinden,… 𝑋 = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑒𝑛 𝑡𝑜𝑡 1𝑒 𝑠𝑢𝑐𝑐𝑒𝑠 Negatief binomiale of Pascal verdeling Veralgemening van de geometrische Aantal experimenten nodig voor 𝑟 e succes Kans om een r-de 6 te gooien, kans om r gepaste kleedjes te vinden,… 𝑋 = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑒𝑛 𝑡𝑜𝑡 𝑟′𝑑𝑒 𝑠𝑢𝑐𝑐𝑒𝑠 21 H8: Belangrijke continue kansvariabelen INLEIDING Problemen ivm met continue kansvariabele In praktijk niet altijd volwaardig continu! o Niet perfect te meten o Benadering o Eindig in aantal… Grote eindige populatie o Eigenschap soms continue verondersteld o Slecht een benadering! o Vb gewicht producten grote voorraad DE (CONTINUE) UNIFORME DICHTHEID Excel Genereren van een lukraak getal tussen 2 grenzen 𝛼 + (𝛽 − 𝛼) ∗ ASELECT( ) Wielertoerist Zie slides Slechte week referentie bepalen Afstand ligt binnen interval Formule toepassen DE EXPONENTIËLE DICHTHEID Algemeen 𝜆>0 Stel dat 𝑌 = 𝑋 + 𝛼, dan zal de kansvariabele enkel waarden aannemen ≥ 𝛼 Eigenschap zonder geheugen Zie formule: vb loketten Verband exponentiële en Poisson Poisson verdeeld met aankomstenfrequentie 𝜆 ⇔ Tijd tussen opeenvolgende aankomsten exponentieel verdeeld met paramater 𝜆 Voorbeeld stof Bewijs: 𝐹𝑇 (𝑡) = 1 − 𝑃(𝑇 > 𝑡) = 1 − 𝑃(𝑋 = 0) = 1 − 𝑒 −𝜆𝑡 (𝜆𝑡)0 0! = 1 − 𝑒 −𝜆𝑡 Excel Kansdichtheid 𝑓𝑋 (𝑥) => 𝑃(𝑋 = 𝑥) =EXPON.VERD(𝑥, 𝜆, 0) Verdelingsfunctie 𝐹𝑋 (𝑥) => 𝑃(𝑋 ≤ 𝑥) =EXPON.VERD(𝑥, 𝜆, 1) 22 Duidt aan: 𝑓(2) 𝐹(2) 23 H9: De Normale dichtheid DE NORMALE DICHTHEID Voordelen van de normale dichtheid Heel wat processen in praktijk genereren normaal verdeelde gegevens Belangrijke functies van normaal verdeelde kansvariabelen zijn normaal verdeeld Belangrijke functies van niet normaal verdeelde kansvariabelen zijn benaderend normaal verdeeld Belangrijke eigenschappen Voor elke 𝜇 en voor elke 𝜎 > 0, is het een dichtheid Klokvormig met asymptoot naar 0 voor 𝑥 → ±∞ Symmetrisch rond 𝜇 of 𝑓𝑋 (𝜇 + 𝑥; 𝜇, 𝜎) = 𝑓𝑋 (𝜇 − 𝑥; 𝜇, 𝜎) Modus = mediaan = verwachte waarde = 𝜇 Buigpunten: 𝑥 = 𝜇 ± 𝜎 DE NORMALE VERDELINGSFUNCTIE 𝐹𝑋 (𝑥) Moeilijk te berekenen Voor elke waarden anders Normale verdeling gebruiken! NORMAAL EN STANDAARDNORMAAL Standaardnormaal 𝐹𝑍 (𝑧) = 𝜙(𝑧) Als 𝜇 = 0 en 𝜎 = 1 Lineaire transformatie Kansvariabele is normaal verdeeld 𝑁(𝜇, 𝜎) Lineaire functie 𝑌 = 𝑎𝑋 + 𝑏 𝐸(𝑌) = 𝑎𝜇 + 𝑏 𝑣𝑎𝑟(𝑌) = 𝑎2 𝜎 2 𝑌 is dan ook normaal verdeeld 𝑁(𝑎𝜇 + 𝑏, |𝑎|𝜎) Verband normaal en standaardnormaal kansvariabelen: tabel Voor tabel standaardnormaal: 𝑁(𝜇, 𝜎) Alleen de positieve waarden van z Altijd tekenen!! Meeste elementen bevinden zich dicht bij het gemiddelde Als 𝜇 meer dan 3𝜎 boven 0 ligt, dan zak de normale verdeling zelden negatieve waarden opleveren 24 EXCEL NORM.VERD(𝑥, 𝜇, 𝜎, 0) STAND.NORM.VERD(𝑧) NORM.INV(𝐴𝑆𝐸𝐿𝐸𝐶𝑇( ), 𝜇, 𝜎) en en NORM.VERD(𝑥, 𝜇, 𝜎, 1) STAND.NORM.INV(𝐴𝑆𝐸𝐿𝐸𝐶𝑇( )) 𝑃(𝑍 < 𝑧(𝛼)) = 𝛼 𝑧(𝛼): grenzen o Eerst kolom o Dan rij aflezen 𝛼: de uiteindelijk waarde 25 SOM VAN ONAFHANKELIJKE KANSVARIABELEN Gewoon kansrekenen toepassen Zie slides om op te frissen Som van 2 onafhankelijke kansvariabelen Met 𝑋1 en 𝑋2 normaal verdeeld Som 𝑌 = 𝑋1 + 𝑋2 ook normaal verdeeld met: o 𝜇𝑌 = 𝜇1 + 𝜇2 (𝜇𝑌 = 𝜇1 − 𝜇2 𝑣𝑜𝑜𝑟 𝑣𝑒𝑟𝑠𝑐ℎ𝑖𝑙) o 𝜎𝑌 ² = 𝜎1 ² + 𝜎2 ² (𝜎𝑌 ² = 𝜎1 ² + 𝜎2 ² 𝑣𝑜𝑜𝑟 𝑣𝑒𝑟𝑠𝑐ℎ𝑖𝑙‼!) Som van meerdere onafhankelijke kansvariabelen Met 𝑋1 , 𝑋2 ,…, 𝑋𝑛 normaal verdeeld Met allemaal dezelfde verwachte waarde en dezelfde variantie: 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ook normaal verdeeld met: o 𝐸(𝑌) = 𝜇𝑌 = 𝑛𝜇 o 𝑣𝑎𝑟(𝑌) = 𝜎𝑌 ² = 𝑛𝜎² Met 𝑌 een lineaire functie: 𝑌 = 𝑎0 + 𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑛 𝑋𝑛 𝑌 = 𝑎0 + 𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑛 𝑋𝑛 ook normaal verdeeld met: Formule hoofdstuk 11 o 𝜇𝑌 = 𝑎0 + 𝑎1 𝜇1 + 𝑎2 𝜇2 + ⋯ + 𝑎𝑛 𝜇𝑛 o 𝜎𝑌 ² = 𝑎1 ²𝜎1 ² + 𝑎2 ²𝜎2 ² + ⋯ + 𝑎𝑛 ²𝜎𝑛 ² Met allemaal een verschillende verwachte waarde en verschillende variantie: De centrale limietstelling! Wat wordt de kansverdeling/ dichtheid indien we een groot # onafhankelijke variabelen optellen? Tenderen naar een normale verdeling/dichtheid! Ongeacht de kansverdeling/ dichtheid van de oorspronkelijke kansvariabelen! 𝑌 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 benaderend normaal verdeeld Voorwaarden: o Geen extreem afwijkende 𝜎𝑖2 o N moet voldoende groot zijn Kansdichtheid 𝑋𝑖 ± normaal verdeeld => 𝑛 = 5 Kansdichtheid 𝑋𝑖 niet normaal, maar geen pieken => 𝑛 = 12 Voor andere gevallen => 𝑛 = 100 Aangezien Y dan benaderend normaal => Z(Y) benaderend standaardnormaal Met 𝑋 binomiaal verdeeld met 𝑛 𝑒𝑛 𝜋 Dan 𝑋 ook benaderend normaal verdeeld Bewijs doordat de binomiale kans overal hetzelfde is (dus de varianties en verwachte waardes ook) n groot => 𝑛𝜋 en 𝑛(1 − 𝜋) minimum 5 continuïteitscorrectie: 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) benaderen via 𝑃(𝑎 − 0.5 ≤ 𝑋 ≤ 𝑏 + 0.5) 26 H10: Multivariate kansvariabelen BEGRIPPEN Univariate kasvariabele 1 reëel getal wordt geassocieerd met elke uitkomst van het experiment Vb dobbelsteen 5x opgooien Multivariate kansvariabelen Meerdere reële getallen worden geassocieerd met elke mogelijke uitkomst Vb witte en zwarte dobbelsteen tegelijkertijd 5x opgooien Multivariaat = gezamenlijk = tegelijkertijd!! Gezamenlijke kansverdeling Voor discrete bivariate kansvector Geld samen als een kans dus voorwaarden: o 0 ≤ 𝑝(𝑥, 𝑦) ≤ 1 o ∑ 𝑝(𝑥, 𝑦) = 1 MARGINALE KANSVERDELING Kansverdeling van 𝑋 afleiden uit de gezamenlijke kansverdeling (𝑋, 𝑌) Kansverdeling 𝑋 = marginale kansverdeling 𝑋 o “marginaal” om aan te tonen dat ze werd afgeleid uit de gezamenlijke o Telkens de totalen optellen o Moet samen 1 geven! De 2e kansvariabele wordt buiten beschouwing gelaten Marginale kansverdelingen kunnen afgeleid worden uit de gezamenlijke MAAR de gezamenlijke kan alleen afgeleid worden uit de marginale als onafhankelijk!!! VOORWAARDELIJKE KANSVERDELINGEN De voorwaardelijke kansverdeling van 𝑋 gegeven 𝑌 = 𝑦 en De voorwaardelijke kansverdeling van 𝑌 gegeven 𝑋 = 𝑥 Wanneer 𝑋 en 𝑌 onafhankelijke kansvariabelen: o Voorwaardelijke kansverdeling van 𝑋 gegeven 𝑌 = 𝑦 = marginale kansverdeling van 𝑋 o Voorwaardelijke kansverdeling van 𝑌 gegeven 𝑋 = 𝑥 = marginale kansverdeling van 𝑌 27 H11: Functies van meerdere kansvariabelen FUNCTIE VAN MEERDERE KANSVARIABELEN 𝑌 = 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) We willen de reeds gevonden resultaten veralgemenen VERWACHTE WAARDE VAN EEN FUNCTIE VAN MEERDERE KANSVARIABELEN Verwachte waarde 𝑬[𝒈(𝑿𝟏 , 𝑿𝟐 )] Zie formule Verwachte waarde 𝑬(𝑿) ∑ 𝑥𝑖 ∗ 𝑚𝑎𝑟𝑔𝑖𝑛𝑎𝑙𝑒 𝑘𝑎𝑛𝑠𝑣𝑒𝑟𝑑𝑒𝑙𝑖𝑛𝑔 𝐸(𝑋 + 𝑌) = 𝐸(𝑋) + 𝐸(𝑌) 𝐸(𝑋 − 𝑌) = 𝐸(𝑋) − 𝐸(𝑌) 𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌) 𝐸(𝑋/𝑌) ≠ 𝐸(𝑋)/𝐸(𝑌) 𝐸(𝑋/𝑌) = 𝐸(𝑋)𝐸(1/𝑌) als onafhankelijk!!! als onafhankelijk!!! VOORWAARDELIJKE VERWACHTE WAARDEN Hetzelfde als hierboven Voorwaardelijke kansverdeling/dichtheid gebruik ipv de gewone afzonderlijke (marginale) Eerst voorwaardelijke kansverdeling/dichtheid berekenen, daarna pas verwachte waarde KANSVERDELING/KANSDICHTHEID VAN FUNCTIES VAN KANSVARIABELEN Op dezelfde manier als in hoofdstuk 5 o Berekeningen gewoon uitvoeren o Met deze resultaten verder werken Stellingen en gevolgen reeds gezien in Hoofdstuk 9 28 H12: Covariantie - Correlatie - Variantie van lineaire functies COVARIANTIE EN CORRELATIE Begrippen Hetzelfde als in hoofdstuk 3 Formule voor covariantie hier veralgemeend Variantie hier opnieuw een speciaal geval van covariantie Covariantie van X met zichzelf is de variantie van X! Als 𝑋 en 𝑌 onafhankelijk, dan is 𝑐𝑜𝑣(𝑋, 𝑌) = 0 Omgekeerde niet altijd waar!!! Lineair verband Voor lineaire verband: 𝑌 = 𝑎𝑋 + 𝑏 o Rechte met positieve helling (𝑎 > 0) 𝑐𝑜𝑟𝑟(𝑋, 𝑌) = +1 ‘perfect’ positief o Rechte met negatieve helling (𝑎 < 0) 𝑐𝑜𝑟𝑟(𝑋, 𝑌) = −1 ‘perfect’ negatief o Perfect horizontaal/ verticaal (𝑎 = 0) 𝑐𝑜𝑟𝑟(𝑋, 𝑌) = 𝑜𝑛𝑏𝑒𝑝𝑎𝑎𝑙𝑑 geen lineair verband Het omgekeerde geldt ook! 𝑐𝑜𝑟𝑟(𝑋, 𝑌) en 𝑐𝑜𝑣(𝑋, 𝑌) geven enkel de graad van lineair verband!!! o Hoe meer de correlatie afwijkt van |1|, hoe minder lineair Correlatie zegt iets over de sterkte van het verband, covariantie niet Excel COVARIANTIE(celbereik X , celbereik Y) CORRELATIE(celbereik X , celbereik Y) of PEARSON(celbereik X , celbereik Y) VARIANTIE VAN EEN LINEAIRE FUNCTIE VAN KANSVARIABELEN Formule Herbekijk bewijsje HBp179 Gevolg o 𝑣𝑎𝑟(𝑋 + 𝑌) = 𝑣𝑎𝑟(𝑋) + 𝑣𝑎𝑟(𝑌) + 2𝑐𝑜𝑣(𝑋, 𝑌) o 𝑣𝑎𝑟(𝑋 − 𝑌) = 𝑣𝑎𝑟(𝑋) + 𝑣𝑎𝑟(𝑌) − 2𝑐𝑜𝑣(𝑋, 𝑌) Je kan de variantie natuurlijk ook gewoon bereken via de methode van substitutie zoals in H11 Voorbeeld belegging Standaard deviatie als maatstaf voor risico van een portefeuille o Hoe hoger de 𝑠𝑡. 𝑑𝑒𝑣(𝑃𝑜𝑟𝑡𝑒𝑓𝑒𝑢𝑖𝑙𝑙𝑒), hoe groter het risisco Gediversifieerde, gedomineerde en efficiënte portefeuilles Covariantiematrix Symmetrisch + positief semi-definiet Stel de covariantiematrix van het vb van de belegging opnieuw! 29