R-Statistische Methoden: Nietparametrische dichtheiden regressieschatters Het bestand “satgpa.txt” bevat informatie over studieresultaten van bachelor (“college”) studenten informatica. De SAT scores worden behaald op het einde van het middelbaar (“high school”). • high GPA: High school grade point average • math SAT: Math SAT score • verb SAT: Verbal SAT score • comp GPA: Computer science grade point average • univ GPA: Overall university grade point average We starten met een analyse van de variabele high GPA. 1. Lees de data in, en bereken descriptieve statistieken. 2. Maak 4 figuren: een boxplot, een qqplot (met toegevoegde rechte), een histogram, en een density plot. Voor dit laatste gebruik je het commando density. Bespreek elk van de vier figuren. √ 3. Maak een histogram met 20 klassen, en daarna met (ongeveer) n klassen, met n de steekproefgrootte. Vergelijk de resultaten. 4. Maak density plots gebruik makende de ”gaussian”, ”epanechnikov”, ”rectangular”, en ”cosine” kernel functies. Bespreek je resultaat. De ”rectangular” kernel is hetzelfde als de ”uniform” kernel. 5. We kiezen voor de “gaussian” kernel. Maak nu density plots voor bandbreedtes h = 0.01, 0.1, 0.2, 0.5. Bespreek je resultaten. 6. Bereken nu de de optmale bandbreedte met behulp van de plug-in methode. Hiervoor heb je een initiele bandbreedte nodig. Neem hiervoor h = 0.2. Ga dan later na hoe sensitief je oplossing is aan deze initiele waarde. Gebruik verder de functie integrate, en ook n 1 X 00 x − xi 1 K ( ) 2. fˆ00 (x) = nh i=1 h h Reken na dat voor de Gaussian kernel K 00 (u) = K(u)(u2 − 1). 1 7. Bereken nu de optimale bandwijdte met behulp van Maximum Likelihood Cross-Validatie. Bereken het criterium voor bandbreedtes h van 0.01 tot 3 in stapjes van 0.01. Nu willen we een regressie uitvoeren met univ GPA als afhankelijke variabele, en high GPA als verklarende variabele. 1. Maak een plot van de regressiefunctie geschat met ksmooth, dit de de Nadayara-Watson schatter. Gebruik de Gaussian kernel. Plot ook de datapunten in eenzelfde figuur. 2. Wat is de verwachte waarde van univ GPA als high GPA gelijk is aan 3? 3. Gebruik nu Local Polynomial Fitting van graad 2 om vorige vraag te beantwoorden. Gebruik de functie lm om lineaire modellen te schatten, met de geschikte gewichten als argument. Gebruik een Gaussian kernel en h = 1. 4. Een andere aanpak is om de regressiefunctie globaal te schatten. Stel dat we een schatter willen van de vorm M X m̂(x) = β0 + β1 x + {βj cos(jx) + γj sin(jx).} j=1 Indien M groot genoeg is, kan m̂(x) elke gladde functie willekeurig dicht benaderen (op een compact domein). Schat en plot de regressiefunctie voor M = 5 en M = 1. Wat verkies je? Vergelijk de oplossing voor M = 1 met een lineare fit. Zijn de goniometrische termen significant? Is er een significant verschil tussen beide modellen (gebruik de anova functie)? 5. We voegen nu de twee SAT scores toe als verklarende variabelen. We willen K nearest neighbors toepassen. De afstand die gebruiken is de Mahalanobis afstand. Voorspel dan de waarde van univ GPA als high GPA=3 en de twee SAT scores gelijk aan 600. Plot je voorspelling als een functie van K. 2