Nietparametrische dichtheid

advertisement
R-Statistische Methoden: Nietparametrische dichtheiden regressieschatters
Het bestand “satgpa.txt” bevat informatie over studieresultaten van bachelor
(“college”) studenten informatica. De SAT scores worden behaald op het
einde van het middelbaar (“high school”).
• high GPA: High school grade point average
• math SAT: Math SAT score
• verb SAT: Verbal SAT score
• comp GPA: Computer science grade point average
• univ GPA: Overall university grade point average
We starten met een analyse van de variabele high GPA.
1. Lees de data in, en bereken descriptieve statistieken.
2. Maak 4 figuren: een boxplot, een qqplot (met toegevoegde rechte),
een histogram, en een density plot. Voor dit laatste gebruik je het
commando density. Bespreek elk van de vier figuren.
√
3. Maak een histogram met 20 klassen, en daarna met (ongeveer) n
klassen, met n de steekproefgrootte. Vergelijk de resultaten.
4. Maak density plots gebruik makende de ”gaussian”, ”epanechnikov”,
”rectangular”, en ”cosine” kernel functies. Bespreek je resultaat. De
”rectangular” kernel is hetzelfde als de ”uniform” kernel.
5. We kiezen voor de “gaussian” kernel. Maak nu density plots voor
bandbreedtes h = 0.01, 0.1, 0.2, 0.5. Bespreek je resultaten.
6. Bereken nu de de optmale bandbreedte met behulp van de plug-in methode. Hiervoor heb je een initiele bandbreedte nodig. Neem hiervoor
h = 0.2. Ga dan later na hoe sensitief je oplossing is aan deze initiele
waarde. Gebruik verder de functie integrate, en ook
n
1 X 00 x − xi 1
K (
) 2.
fˆ00 (x) =
nh i=1
h
h
Reken na dat voor de Gaussian kernel K 00 (u) = K(u)(u2 − 1).
1
7. Bereken nu de optimale bandwijdte met behulp van Maximum Likelihood Cross-Validatie. Bereken het criterium voor bandbreedtes h van
0.01 tot 3 in stapjes van 0.01.
Nu willen we een regressie uitvoeren met univ GPA als afhankelijke variabele,
en high GPA als verklarende variabele.
1. Maak een plot van de regressiefunctie geschat met ksmooth, dit de de
Nadayara-Watson schatter. Gebruik de Gaussian kernel. Plot ook de
datapunten in eenzelfde figuur.
2. Wat is de verwachte waarde van univ GPA als high GPA gelijk is aan
3?
3. Gebruik nu Local Polynomial Fitting van graad 2 om vorige vraag te
beantwoorden. Gebruik de functie lm om lineaire modellen te schatten,
met de geschikte gewichten als argument. Gebruik een Gaussian kernel
en h = 1.
4. Een andere aanpak is om de regressiefunctie globaal te schatten. Stel
dat we een schatter willen van de vorm
M
X
m̂(x) = β0 + β1 x +
{βj cos(jx) + γj sin(jx).}
j=1
Indien M groot genoeg is, kan m̂(x) elke gladde functie willekeurig dicht
benaderen (op een compact domein). Schat en plot de regressiefunctie
voor M = 5 en M = 1. Wat verkies je?
Vergelijk de oplossing voor M = 1 met een lineare fit. Zijn de goniometrische termen significant? Is er een significant verschil tussen
beide modellen (gebruik de anova functie)?
5. We voegen nu de twee SAT scores toe als verklarende variabelen. We
willen K nearest neighbors toepassen. De afstand die gebruiken is
de Mahalanobis afstand. Voorspel dan de waarde van univ GPA als
high GPA=3 en de twee SAT scores gelijk aan 600. Plot je voorspelling
als een functie van K.
2
Download