Statistiek deel 1: Theorie: 1. Inleiding Statistiek heeft drie objectieven: Verzamelen van gegevens d.m.v. proefopzetten Gegevens beschrijven; methode ontwerpen om aspecten van gegevens te beschrijven = beschrijvende statistiek = exploratory data analysis (Tukey) Inductieve statistiek: methoden ontwerpen om vanuit gegevens algemenere informatie te induceren 1.2 verzamelen van gegevens om - vragen te beantwoorden - gegevens verzamelen om een efficiënt antwoord te vinden - geschikt onderzoeksplan of proefopzet (experimental design) kiezen experimenteel onderzoek: manipuleren van de onafhankelijke variabelen om het effect te meten op de afhankelijke variabelen. Correlationeel onderzoek: verband nagaan tussen variabelen die van nature variëren zonder manipulatie Niet noodzakelijk correlatie berekenen 1.3 Beschrijven van gegevens Taken/vragen van de beschrijvende statistiek: - Kloppen de gegevens? Gegevens inzichtelijk maken (methodische wijze ordenen en presenteren) Reveleren van ongewone observaties en patronen en relaties. Gegevens samenvatten, communiceerbaar maken Grafische representatie! Die correct wordt afgebeeld 1.4 Induceren van algemenere informatie - Gegevens waarmee een onderzoeker werkt en waarover hij conclusie trekt zijn altijd specifiek (n aantal specifieke metingen); personen, situaties, … Algemenere conclusies trekken naar mensen, naar situaties,… = overstijgen van de gegevens = inductie kanstheorie voor het formaliseren Inductie: van het bijzondere naar het algemene (x, y, s hebben een bril en zijn mannen, alle mannen hebben brillen) Deductie: van het algemene naar het bijzondere (mannen hebben brillen, x heeft een bril, x is dus een man) 1 Deductieve afleidingen zijn doorgaans zeker. Voor inductieve afleidingen is dat meestal niet het geval en speelt het begrip kans/waarschijnlijkheid een belangrijke rol De inductieve statistiek verschaft hulpmiddelen om op basis van gegevens inductieve redeneringen te maken Opmerkingen: 1) Bij het realiseren van de 3 objectieven worden vragen gesteld a. Hoe en welke gegevens worden verzameld b. Welke aspecten van de observaties worden geregistreerd c. Hoe worden de gegevens beschreven d. Welke grafieken en samenvattingen worden gekozen e. … f. Inspiratie om het proces te beïnvloeden? 2) De 3 objectieven hangen inherent samen a. Problemen indien de statisticus pas na gegevensverzameling wordt geconsulteert b. Problemen bij gegevensverzameling zonder vragen c. De problemen: i. Gegevensbijschrijving ii. Inductie iii. Manier van gegevensverzameling 2. Noties uit de verzamelingenleer Verzameling: geheel van objecten (entiteiten) die tot een verzameling behoren. Object: algemene term, bv personen, getallen, vormen van psychotherapie, … Voor elk object kan bepaald worden of het een element is van een verzameling (bv A) x A, x A Een verzameling kan op twee manieren gedefinieerd worden: Door opsomming van de elementen ervan Door een regel te geven die de kenmerkende eigenschappen van de elementen omschrijft. Grafische voorstelling (Venn diagram) Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen ( ). De lege verzameling en de verzameling zelf is altijd een deelverzameling van een verzameling. Indien je alle mogelijke deelverzamelingen verzamelt krijg je een machtsverzameling van een verzameling (bv. 2A). Indien je het kardinaalgetal van een macht wilt weten verhef je het kardinaalgetal van de verzameling tot de macht. Bewerkingen op verzamelingen: Doorsnede: Unie: : A B= {x | x A of x B} (met of in de betekenis van en/of) Verschil: \ : A \ B = {x| x A en x B} Complement: c : Ac = \A :A B= {x | x A en x B} 2 Enkele eigenschappen: A A A A (A B=B A B=B A Ø=Ø Ø=A B)c = Ac Bc A A A A (A (B C) = (A (B C) = (A (B C) = (A (B C) = (A B)c = Ac Bc B) B) B) B) C C (A (A C) C) Partitie: opsplitsing van een verzameling in een stel niet-lege en niet-overlappende deelverzamelingen Cartesiaans product: productverzameling: verzameling van alle geordende koppels LET OP: een verzameling wordt aangeduid met {}, een geordend koppel met () Bij geordende koppels is de volgorde binnen de haakjes van belang. Kardinaal getal van zulk een verzameling: #(A1 x A2) = #A1 x #A2 Relatie tussen twee verzamelingen: R A1 x A2 = de relatie tussen de elementen van de twee verzamelingen, kan je grafisch voorstellen a.d.h.v. een pijlendiagram (en venn diagrammen) Functie (f) is dan het beeldpunt van een van die elementen. Bv. Element x is 2, de relatie tot het element van verzameling twee is x², dan is het beeldpunt 4. Bij een functie heeft elk element van de eerste verzameling slechts één beeldpunt in de tweede verzameling. Andersom is het wel mogelijk dat de tweede verzameling tot meerdere punten van de eerste verzameling in verband staat. Notatie= f: A1 A2 a1 f(a1) Indien andersom toch elk element van de tweede verzameling het beeldpunt is van slechts één element uit de eerste verzameling spreken we over een bijectie. A1 is het domein van de functie, f(A1) A2 is het bereik van de functie. f(a1) is het beeldpunt of functiewaarde van a1. Dit kan je grafisch voorstellen op een assenstelsel. We spreken van een domein (waar je naar toe gaat), het bereik (waar je vertrekt) en het beeldpunt of functiewaarde Inversie van een functie: het inverse van een functie f van A1 naar A2 = f-1, is de relatie R A2 x A1, dus van verzameling twee naar verzameling één. De inverse van een functie hoeft niet noodzakelijk een functie te zijn. Kardinaalgetal van een oneindig grote verzameling A: A is aftelbaar ∞ bijectie f: A Bv.: {0, 1, ½, 1/3, ¼, …}, maar ook , zelfs volgnummer kunnen geven ² en zijn aftelbaar ∞(zonder bewijs) 3 Deel 1: beschrijvende statistiek Gegevens of data komen tot stand als resultaat van een proef experiment. Slechts een gedeelte van de informatie de de proef of het experiment oplevert wordt geregistreerd. Dit gedeelte is de uitkomst van de proef en noteren we als ω . de verzameling van alle mogelijke uitkomsten noteren we als Ω. Welk gedeelte van de informatie geregistreerd wordt hangt af van de vragen, theorieën of hypothesen van de onderzoeker. Meestal zijn de gegevens beschikbaar van verschillende ‘objecten’ of ‘(experimentele) eenheden’. Dit gaat over elke situatie, elke meting, elk persoon, … Het totaal aantal objecten of experimentele eenheden duiden we aan met de letter n. indien deze eenheden geordend zijn kunnen we de opeenvolgende uitkomsten ordenen als ω1, ω2, ω3 …, ωn. Een willekeurige uitkomst duiden we aan met de lopende of stomme index: ωi. I kan de waarden aannemen van i tot en met n. Gegevens kunnen gestructureerd worden door er variabelen op te definiëren. X: Ω V ω X(ω) In het geval van n geordende uitkomsten noteren we de opeenvolgende x-beeldpunten X(ω1), x(ω2),… x(ωn) respectievelijk als x1, x2, x3,…, xn Een willekeurig beeldpunt is dan xi Het bereik van een variabele X(Ω) kan een deel zijn van maar dit moet niet. We kunnen ook nietnumerieke waarden in getallen zetten. Echter, een aantal relaties tussen getallen en bewerkingen ermee hebben dan niet altijd een betekenis. (denk aan meetniveau variabele). Kwalitatieve variabele: het bereik bestaat uit een aantal waarden (categorieën) waarover geen verdere claims worden gemaakt. Kwantitatieve variabele: het bereik bestaat uit numerieke waarden waarvoor ordening, optellen en aftrekken zinvol is. 1. Beschrijvende statistiek met 1 variabele 1.1 Frequentiefuncties Kwalitatieve variabele: Stel je hebt drie kwalitatieve woorden (m = 30) en 20 observaties (n = 20). We gebruiken hier bij x de stomme index ‘j’. Dus: Opeenvolgende observaties: x met i lopende van 1 tot n Verschillende mogelijke X-waarden: x met j lopende van 1 tot m. Voor elke waarde x van de variabele X kunnen we de frequentie bereken waarmee x in de gegevens voorkomt. Genoteerd als freqx(x) of indien het duidelijk is om welke variabele het gaat gewoon freq(x). freq(x1) + freq(x2) + … + freq(xm) = n. freq(x) is altijd een Deze bovenste som zullen we verkort noteren als ∑ van . 4 Ook kunnen we voor elke X-waarde zijn relatieve frequentie berekenen t.o.v. het aantal observaties (n). Dit is de proportie (pX(x) of p(x)). Frequentie en proportie kunnen allebei als functies worden opgevat. De frequentie- en proportiefunctie kunnen worden voorgesteld op volgende manieren: Lijndiagram: Op de horizontale as (abscis) de waarden van de variabele X en op de verticale as (ordinaat) de waarden van freq(x) of p(x). 20 15 10 5 0 Staafdiagram Lijnen vervangen door staven van gelijke breedte. Belang van oppervlakte! Tussen de staven wordt ruimte gelaten om duidelijk te maken dat X een kwalitatieve variabele is. buitenshuis thuis werk buitenshuis thuis werk 20 15 10 5 0 Taartdiagram: Enkel voor proportiefunctie buitenshuis thuis werk Kwantitatieve variabelen Hiervoor kunnen ook frequentiefuctie freq(x) en proportiefunctie p(x) berekend worden. Ze kunnen ook grafisch voorgesteld worden via een lijndiagram en enkele andere opties; Histogram: Een diagram met aansluitende even brede staven. Elke staaf is 1 x-waarde, deze wordt in het midden van de staaf aangedid. De oppervlakte van de staven is ook hier recht eenvredig met freq(x) of p(x). indien men werkt met klassen moet men het middelpunt van deze klassen kiezen. Zet getalwaarden altijd in het midden! 5 Veelhoek of polygoon: Door middelpunten van de bovenste lijnstukken van de histogramstaven met elkaar te verbinden. Interessant bij verband beschrijvende en inductieve statistiek Uitbijters: observaties die ver afwijken van de andere observaties. Het optreden van een uitbijter kan veroorzaakt worden door bv fout in gegevensinvoer, fout bij meten, ongewone gebeurtenis, enz. Uitbjters kunnen in een aantal gevallen de gevensanalyse verstoren. Verder kunnen we ons nog andere vragen stellen: Welke vorm nemen de functies aan? Hebben ze één of meerdere toppen (modi)? Zijn de functies sterk gepiekt rond de modi? Zijn de functiesymmetrisch tov een middelpunt of zijn ze scheef? Zijn ze negatief scheef (schuin naar boven en dan recht naar beneden) of positief scheef (recht naar boven en dan schuin naar beneden) Voor elke waarde van xj van X kan ook de cumulatieve frequentie (cfreq) worden bepaald: het aantal observaties dat kleiner of gelijk is aan xj. Cfreqx(xj) = cfreq (xj) = ∑ . Voor cumulatieve proportie-functie (F) noteren we het als volgt: Fx(xj) = F (xj) = ∑ = p(X ≤ xj) De laatste cfreq(xj) is altijd n. de laatste F(xj) is altijd 1. Deze cumulatieve kan je ook grafisch weergeven: Dit is ALTIJD stijgend. F is een (niet strikt) stijgende stapfunctie die loopt van 0 tot 1 en cfreq is een (niet-strikt) stijgende stapfunctie die loop van 1 tot n. Bij 1 of n staat altijd een gesloten bolletje die verder gaat met een lijn zonder bolletje. Bij 0 staat altijd een open bolletje die langs links verder gaat met een lijn zonder bolletje. De effectieve waarde is altijd een gesloten bolletje. 6 Kwantielen Als r Geval 1 Geval 2 Geval 3 met 0≤ r ≤ 1 dan is het r-de kwantiel (notatie xr) van variabele X gedefinieerd als volgt: Er is geen xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan de kleinste geobserveerde xj met F(xj) > r kijken naar de x-waarde waarbij we voor het eerst over het kwantiel heen gaan Er is een xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan het gemiddelde van de kleinste geobserveerde X-waarde xj met F(xj) = r en de kleinste Xwaarde xj met F(xj) > r gemiddelde van de x-waarde zelf en de x-waarde van de eerste overschrijding Er is zijn meerdere xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan het gemiddelde van de kleinste geobserveerde X-waarde xj met F(xj) = r en de kleinste X-waarde xj met F(xj) > r gemiddelde van de eerste x-waarde zelf en de x-waarde van de eerste overschrijding Bijzondere kwantielen: Percentielen: Pc1, … Pc99. Bv x.05 Decielen: D1, … D9. Bv x.9 Kwartielen: Q1, Q2, Q3. Bv x.25, x.50, x.75 Xr kan bepaald worden via een tabel of een grafiek van de functie F: Tabel Grafiek Soms moeten we de gegevens in klasse-intervallen indelen omdat dit overzichtelijker is. Deze moeten even breed zijn en niet overlappen. De klassegrenzen (xI en xh) zijn de laagste en hoogste waarden van een interval, hun gemiddelde (xI en xh) /2 is het klassemiddelpunt. definitie klassefrequentie: ∑ . Op dezelfde manier kunnen we ook klasseproportiefuncties en cumulatieve functies bepalen 7 Grafieken kunnen misleidend zijn: Meestal kiest men om de lengte van de ordinaat op 2/3 van die van de abscis te zetten. Dit is echter niet noodzakelijk maar indien men de ordinaat groter maakt kan de indruk gewekt worden van grotere verschillen tussen functie waarden Het nulpunt van de ordinaat moet altijd 0 zijn Gegroepeerde grafieken kunnen misleidend gemaakt worden door de keuze van intervallen van ongelijke breedte, of staven van ongelijke breedte. schending proportionaliteitsregel Vaak snijden ze ook stuk af vanonder, dit mag ook niet Ook bij fantasiegrafieken wordt de proportionaliteitsregel soms geschonden Een gegroepeerde frequentietabel kan ook voorgesteld worden door een stam-en loof diagram (Tukey). Deze bestaat uit de stam van een klasse en de variaties er achter. Verschillende lijnen van een stam en loof diagram kunnen eenzelfde stam hebben (bv klasse 1-4 en 5-9 hebben beiden stam 0) Indien het loof uit meerdere cijfers bestaat worden ze gescheiden door komma’s. Je kan ook een legende bij de stam en loofdiagram zetten. Deze legende kan opgaan voor stam en/of loof. Dit zet men in een noot erbij. Voordelen: proportionaliteitsregel gaat op, alle informatie uit oorspronkelijke frequentietabel aanwezig Stam = klassen 1.2 Samenvattende maten Bij het samenvatten van gegevens is men geïnteresseerd in de informatie over Iets als ‘het middelpunt’ van de frequentiefunctie = centrale tendensmaten Mate waarin gegevens globaal genomen van dit middelpunt en elkaar verwijderd zijn = spreidingsmaten Centrale tendensmaten: Modus Elke waarde x waarvoor freq(x) maximaal is. Een functie kan unimodaal (één modus) of bimodaal zijn (meerdere modi). bij extreem scheve verdelingen ligt de modus vaak verder van het centrum² Mediaan Mex : Pc50 = D5 = Q2 Je kan de mediaan berekenen door gebruik te maken van kwantielen of door de observaties te ordenen en hernummeren (bv x1 ≤x2 ≤… ≤xn). 8 indien het aantal observaties (n) oneven is: Mex = xn+1 / 2 Indien het aantal observaties (n) even is: Mex = ( xn/2 + x(n/2)+1 ) 2 Bewijs in kader van Pc50 : pagina 35 geen leerstof Rekenkundig gemiddelde ̅ ∑ ∑ ∑ De mediaan is robuuster dan het gemiddelde aangezien dat het gemiddelde gevoeliger is voor uitbijters, anderzijds houdt het gemiddelde wel meer rekening met alle observaties. Vaak (niet altijd) geldt voor een negatieve scheve frequentiefunctie dat het gemiddelde kleiner is dan de mediaan en omgekeerd voor een positief scheve dat de mediaan kleiner is dan het gemiddelde. Bij symmetrische zijn ze vaak gelijk. Enkele belangrijke eigenschappen van het gemiddelde (+ bewijzen pagina 37-38)= ∑ ̅ sommatie van het verschil tussen elke observatie min het gemiddelde is nul Regel van Steiner (bewijs niet kennen, gebruikt trucje): ∑ ∑ ̅ ̅ Dit wijst op het feit dat het gemiddelde de ideale maat is. Voor elk getal c dat niet het gemiddelde is zal deze verder van elke observatie liggen dan het gemiddelde: ∑ ̅ ∑ Voor mediaan geld een analoge eigenschap: ∑ Mex is dus de waarde van a waarvoor ∑ ∑ minimaal is. Uitbijters: Mediaan blijft hetzelfde (middelste blijft) Gemiddelde verandert 9 Spreidingsmaten Bereik Interkwartielbereik Max(X) – min(X) gevoelig voor uitbijters Q3 – Q1 (bereik van de middelste 50%) Minder gevoelig voor uitbijters Variantie ∑ ̅ = gemiddelde kwadratische afstand van de observaties (xi) tov hun gemiddelde (denk aan eerste eigenschap gemiddelde) ∑ ̅ Standdaarddeviatie √ ∑ ̅ Aangezien variantie niet uitgedrukt is op de schaal van de oorspronkelijke gegevens, terug zelfde meeteenheid √ ∑ ̅ Berekening van variantie en standaarddeviatie: Bereken per observatie ̅ en maak direct gebruik van de bovenstaande definities Gebruik maken van volgende gelijkheid (bewijs p40!) Methode 1 Methode 2 ∑ ̅ ∑ ̅ Bereken daartoe per observatie Vertrek van de frequentie of proportietabel en maak gebruik van de formules: Methode 3 ∑ ( ) ̅ ∑ ∑ ( ) ̅ ∑ ( ) ̅ ( ) ̅ Eigenschappen van variantie: Dus ∑ ∑ = hoe ver wijken observaties van elkaar af is gelijk aan het gemiddelde kwadratische verschil tussen alle paren observaties. Bewijs p41! 10 Ongelijkheid van Tchebyhev (bewijs p44, niet kennen) ̅ De proportie van de observaties die meer dan k standaarddeviaties afwijken van het gemiddelde bedraagt hoogstens . ̅ Men kan de centrale tendens en spreidingsinformatie grafisch voorstellen in een boxplot (of box and whisker) diagram van Tukey. Met minimum en maximum Q3 + 1.5 en Q1 – 1.5 Mag niet verder reiken dan maximum en minimum 1.3 Transformaties van variabelen De scores op variabelen die men registreert zijn ruwe scores. Soms is een transformatie van deze gegevens gewenst of simpel weg noodzakelijk. Enkele redenen: Arbitraire redenen: o Indien je de gemeten variabele in een andere eenheid zou willen Bv kg g of °F °C Noodzakelijke redenen: o Indien men geïnteresseerd is in de afwijking van een ideale score o Indien de warde de betekenis niet duidelijk vertegenwoordigd. = inhoudelijke redenen Behalve voor geluid kan men daar een fysische formule op plakken, maar indien men geïnteresseerd is in de beleving van geluid moet men bv een logaritme hiervan pakken o De ruwe scores op zich zijn niet of niet goed interpreteerbaar. Hierbij wordt de Z-transformatie gebruikt: ̅ 11 Z-getransformeerde scores worden kortweg ook Z-scores of standaardscores genoemd. Deze scores zijn enkel gedefinieerd als . o Uitbijters kunne de verwerking van gegevens verstoren. Je kan dan deze uitbijters elimineren, dit is best aanvaardbaar in extreme gevallen maar in minder extreme gevallen kan men de gegevens transformeren. Men kan hiervoor de logtransformatie gebruiken. In het algemeen beschouwen we transformaties f van variabelen: f: x f(x) Enkele bijzondere gevallen: f(x) = ax + b = lineaire transformatie f(x) = log(x) bv.: F(x) = Z(x) Als Y = f(x) dan freqy(y) = freqx (f-1(y)) = ∑ Of in woorden: de frequentie van y is de som van alle frequenties van x-waarden die door de functie f op y worden afgebeeld. Een transformatie kan een frequentiefunctie op verschillende manieren vervormen, het kan het bv samendrukken of uitrekken (bv log). Ook zullen bijvoorbeeld kwantielen onder een aantal transformaties veranderen. Het heeft ook invloed op centrale tendensmaten: ̅̅̅̅̅̅ ̅ Met als bijzonder geval: ̅̅̅ ̅ bewijs pagina 51-52 Invloed van transformaties op spreidingsmaten: Stel Y = f(x) met f(x) = ax + b dan ̅̅̅̅̅̅ ̅ ̅ bewijs pagina 52 Bijzonder geval: Gevolg: { Beschrijvende statistiek met twee variabelen: Per koppel variabelen kan frequentie en/of proportie berekend worden. j kan hierbij alle waarden aannemen van 1 tot m (maximaal aantal mogelijke waarden van x) en j’ alle waarden van 1 tot m’ (max aantal waarden van Y). 12 Bivariate frequentiefuncties kunnen worden samengevat in een contingentietabel (bivariate frequentietabel. Met X vanboven in de tabel en Y links in de tabel. Hierbij heb je ook rij- en kolomtotalen, deze zijn de marginale frequentiefuncties. Op dezelfde manier kunnen bivariate proportiefuncties worden samengevat in een bivariate proportietabel. Om deze gegevens grafisch voor te stellen kunnen we lijndiagrammen naast elkaar leggen, een (rugaan-rug)stam-en-loofdiagram gebruiken,… Bivariate frequentie- of proportietabellen worden soms getransformeerd door elk element van de tabel te vervangen door zijn verhouding t.o.v. de marginale waarde van de overeenkomstige rij; de resulterende gegevens worden dan (rij-)conditionele proporties genoemd. Definitie: ( ) ( ) ( ) Op dezelfde manier kan men (kolom)conditionele proporties berekenen. Gebruikmakend van de marginale kolomtotalen. Definitie: ( ) ( ) ( ) Bivariate grafische voorstellingen: Eventueel nodig om waarden te groepen, dan kan je het in een korte tabel zetten en grafisch weergeven d.m.v. een perspectieftekening of een scatterdiagram. In een scatterdiagram kunnen sommige verwijzen naar waardenkoppels die meer als 1x voorkomen. In sommige soorten scatterdiagrammen worden deze koppels aangeduid met een dikkere punt (of ander symbool). 1.4 Samenvattende maten: 1. centrale tendensmaten conditionele centrale tendensmaten, bv conditionele gemiddelde: ̅̅̅̅̅̅̅̅̅̅̅̅ ∑ ( ∑ ) Dus je kijkt bijvoorbeeld per rij wat het gemiddelde, de proportie is. Analoog kan je dit ook doen voor . Dan kijk je naar de kolommen. 2. spreidingsmaten ∑ ( ) ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ | ) In woorden: alle y-waarden tot de tweede min het gemiddelde tot de tweede, gedeeld door frequentie xj. 13 ∑ ( ̅̅̅̅̅̅̅̅̅̅̅̅̅̅ | ) ) Op dezelfde manier kunnen we dit bereken voor X (x en y omwisselen). 1.5 Samenhang of associatiematen Kwalitatieve variabelen Proportie overeenstemming: frequentie van de variabelen waarbij twee waarden gelijk zijn. Bijvoorbeeld aantal mannelijke patiënten die gebaat zijn bij therapie 1 en 2. indien je deze frequentie deelt door n heb je proportie overeenstemming. Kwantitatieve variabelen Associatiematen Covariantie: ( ) ∑ ̅ ̅ A: xi < B: xi > C: xi < A: xi > ̅ en yi < ̅ ̅ en yi < ̅ ̅ en yi > ̅ ̅ en yi > ̅ A en D in meerderheid: positief verband B en C in meerderheid: negatief verband Eigenschappen: ( ∑ ) ̅ ̅ chiastische kruisbeweging ( ) ∑∑ ( ) ( ∑∑ )( ( ) )( ̅ ̅ ) ̅ ̅ chiastische formule, optellen over rooster; proportie bivariaat koppel, 14 ( ) ( commutativiteit) meeteenheid gevoelig ( ) Correlatie (productmoment) Lineair verband, onafhankelijk van meeteenheid (z transformatie) ( ) ∑ (symmetrisch) --> Niet lineaire transformaties blijft r onveranderd Bewijzen pagina 70 + 71 met truc 2. Optimale voorspelling 1. Algemene optimale voorspelling Men wil een criterium voorspellen op basis van een voorspeller of predictor. We kunnen voor 1 x-waarde slechts 1 yest waarde voorspellen. Yjest = f(x) waarbij yjest buiten het waardengebied van y kan vallen. Indien elke x-waarde slechts één beeld heeft, kunnen we grafisch een perfecte voorspelling maken, anders moeten we het conditioneel gemiddelde pakken als voorspelling. Dan hebben we een globale voorspellingsfout: de gekwadrateerde standaardfout van estimatie s²y.x : ∑ Grillig grafisch verloop 2. Lineaire optimale voorspelling Om het eenvoudiger te maken zoeken we een lineaire functie van x. hierdoor krijgen we een grote voorspellingsfout s²y.x , in dit geval geldt dat : yjest = b0 + b1 xj Dit is een regressievergelijking met b0 als regressieconstante en b1 het regressiegewicht van X. ̅ ̅ 15 dus ̅ ( ̅ ) + Totale variantie ∑ ̅ Foutenvariantie De variantie in Y die verklaard (voorspeld) wordt door X Gekwadrateerde standaardfout Verklaarde variantie ∑ ∑ ̅ Determinatiecoëfficiënt: Dus r² = welk stuk wordt ingenomen door VF? Hoeveel % je kan vatten met predictor? Of indien we xjest willen voorspellen:: xjest = b0 + b1 yj Dit is een regressievergelijking met b0 als regressieconstante en b1 het regressiegewicht van X. ̅ ̅ = constante = hellingscoëfficiënt 16 Bij optimale lineaire voorspelling van y op basis van x (of omgekeerd): Legt rxy het verband tussen de Z-scores op X (y) en de voorspelde z-scores op Y(X) Geeft r²xy de proportie variantie aan in Y(X die verklaard wordt bij voorspelling van y(x) op basis van x(y) 17 18 Drie opmerkingen: 1) De correlatie rxy legt een verband tussen z-scores. De correlatie bevat op zichzelf geen informatie over het gemiddelde en de spreiding van X en Y. 2) De correlatie heeft alleen betrekking op de lineaire band tussen X en Y. Er kan dus nog een algemene perfecte voorspelling mogelijk zijn. Kwaliteit van voorspelling bv hardlopen met of zonder korset r²xy ≠ 1: geen perfecte lineaire voorspelling mogelijk maar misschien wel algemene optimale voorspelling r²xy =0 : fiasco, je kan niets voorspellen 3) Aan de correlatie kunnen verschillende inhoudelijke verhalen worden gekoppeld waartussen niet zonder meer op wiskundige basis kan worden gekozen: a. Geen inhoudelijke wetmatigheid achter de correlatie. = spurious correlation ooievaars en geboorte: niet noodzakelijk in populatie zo, enkel toeval b. Er gaat een causaal verband schuil achter de correlatie: i. Direct causaal pad (van x naar y of omgekeerd) ii. Causaal pad van x naar y (of visa versa) via mediatorvariabele W iii. Een derde variabele W direct of indirect zowel x als Y veroorzaakt Als er geen perfecte lineaire voorspelling mogelijk is, kunnen hiervoor twee redenen zijn: 1) Minstens één waarde xj van x er meerdere y-waarden voorkomen 2) Het feit dat alle conditionele gemiddelden niet op een rechte liggen 19 In het tweede geval kunnen we een optimale lineaire voorspelling overwegen met een getransformeerde X en/of een getransformeerde Y. bv (niet heel belangrijk) ( ) ( ) ̃ ̃ 2.2 Somvariabelen ̅̅̅̅̅̅̅ ̅ ̅ : Z is criteriumvariabel en x+y is de predictor Niet rx+y z = rxz + ryz (denk aan eigenschap rxy, is niet gewoon covariantie) Bewijs pagina89 Gewogen sommen: ∑ ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅ ∑ ∑ ∑ ∑ ∑ ∑ ̅̅̅ ∑ ∑ Vb van het laatste: S -2 + x – 1.5 y 6+2u+3v+4w = 2sxu + 3sxv + 4sxw – 3syu – 4.5syv – 6syw A0 = 2 b0 = 6 k = 1 – 2 (twee variabelen) j’ = 1 – 3 (3 variabelen) 3. Beschrijvende statistiek met meer dan twee variabelen Methode van conditioneel werken Men houdt de waarden van alle variabelen op één of twee na vast, en vervolgens gebruik je de methoden uit univariatie of bivariate statistiek. 20 Optimale lineaire voorspelling van een criteriumvariabele 3.2 Algemeen geval: yjest = b0 + b1 x1j + b2x2j waarbij de b’s zodanig gekozen worden dat de gekwadrateerde standaardfout van estimatie zo klein mogelijk is. Dit wordt ook het probleem van meervoudige regressie genoemd. Daarom hebben we de gekwadrateerde meervoudige correlatiecoëfficiënt (R²), die de kwaliteit van de optimale linaire voorspelling uitdrukt in een getal tussen 0 en1. R² is daarbij de proportie van variantie in Y die verklaard wordt door X1 en X2. Voorspelling op basis van twee kwalitatieve predictorvariabelen Tabellen met conditionele prestatiegemiddelden, waarbij (bij optelling) rechtsonderaan het globale gemiddelde ̅ is weergeven. Indien de rijgemiddelden van mekaar verschillen zegt men dat er een hoofdeffect is van bv X1, indien kolomgemiddelden verschillen is er een hoofdeffect van X2. X2 X1 +1 -1 -1 b0 + b1 – b2 b0 - b1 – b2 b0 – b2 b2 = b0 – (b0 – b2) +1 b0 + b1 + b2 b0 - b1 + b2 b0 + b2 b2 = (b0 +b2) - b0 b0 + b1 b0 - b1 b0 b1 = (b0 + b1) - b0 b1 = b0 (b0 – b1) Dus 2b1 geeft de grootte van het hoofdeffect van X1 weer en 2b2 geeft de grootte van het hoofdeffect van X2 weer. Bovendien is de optimale waarde van b0 het globale gemiddelde. Let op interactie! Er is geen interactie indien bij X1 enX2 bij de voorspelling van y: 1) Het verschil tussen de celgemiddelden in twee kolommen is gelijk over de rijen 2) Het verschil tussen de celgemiddelden in twee rijen is gelijk over de kolommen 3) De celgemiddelden kunnen worden bekomen als een eenvoudige optelsom van een afzonderlijke X1 en een afzonderlijke X2 effect 4) In een grafiek met X1 als horizontale as en Y als verticale as zijn de lijnstukken voor de verschillende waarden van X2 evenwijdig 5) In een grafiek met X2 als horizontale as en Y als verticale as zijn de lijnstukken voor de verschillende waarden van X1 evenwijdig Vier opmerkingen: 1) Alle 8 combinaties van aan en afwezigheden van hoofdeffecten en interactie kunnen optreden bij de voorspelling van een kwantitatieve criteriumvariabele y op basis van twee kwalitatieve predictorvariabele x1 en X2. De aanwezigheid van interactie kan de hoofdeffecten kwalificeren 2) Bij het optreden van interacties wordt soms nog een onderscheid gemaakt tussen disordinale en ordinale interacties, naar gelang in een grafische voorstelling de twee lijnstukken elkaar wel al dan niet snijden (inbegrip gemeensch hoekpunt). Snijden = disordinaal 21 3) Bij interactie hebben we een interactieterm nodig om een lineaire vergelijking te maken: yjest = b0 + b1 x1j + b2x2j + b3 x1j + x2j = interactieterm b1 , b2 en b3 = gemiddelde y 4) Indien het gaat om meer dan twee verschillende waarden is er sprake van een hoofdeffect van een predictorvariabele op y zodra minstens twee van de marginale y gemiddelden voor die variabele verschillen. Verder spreekt men van interactie zodra voor minstens één 2x2 deeltabel van celgemiddelden de eigenschappen van de bovenstaande stelling niet opgaan. 22