Presentatie_inhoudsdeskundigen_11 oktober definitief

advertisement
Latente semantische analyse (LSA) en
erkenning van EVC’s: wat kunnen we ermee?
Jan van Bruggen
Ellen Rusman
Bas Giesbers
Oktober 2005
Learning networks (1)
- Hoe weten lerenden
met welke leereenheid
ze beginnen óf verder
gaan binnen het
leernetwerk?
Activiteiten binnen ‘positioning’
1. Ontwikkelt richtlijnen rondom het gebruik van Latente
semantische Analyse (LSA) voor positionering
2. Specificeert, ontwikkelt en test een prototype
‘positioner’
3. Vergelijkt huidige praktijken van het erkennen van
EVC’s met betrouwbaarheid en validiteit van
computergebaseerde positionering
Gebruik van LSA:
Nu vooral:
- Information retrieval
- grote, algemene corpora
Ook gebruik binnen onderwijssettings:
- Beoordeling van essays en terugkoppeling
- Matchen van studenten met instructie-tekst
- Hulp bij maken van samenvattingen
Binnen positioning:
- Relatief kleine, specifieke corpora
- Inhoudelijk ‘voorgeselecteerd’
Techniek: documentvectoren als basis
G
o
r
i
l
l
a
7
6
5
4
3
2
1
0
D
B
C
A
0
1
2 3 4 5 6
C h i m p a n s ee
7
Latente Semantische Analyse
- Gebaseerd op singuliere waarde ontbinding
- Sterke gelijkenis met principale componenten
analyse
- Symmetrische matrix M
- Eigenwaarden en eigenvectoren
- M = U Λ U’
- Λ is diagonaalmatrix met geordende
eigenwaarden
- Reproductie: verwijder kleinste eigenwaarden
in Λ en kolomen en rijen in U en U’
Singuliere waardenontbinding (SVD)
-
Asymmetrische matrix (data-matrix)
D = L S R’
S is diagonaal met geordende singuliere waarden
Aantal S > 0 is gelijk aantal dimensies van de
matrix
- LSA: reproductie van matrix op basis van een
model met minder dimensies
- ΣS2 = Σd2
Een voorbeeld: 8 * 8 matrix
P
G
A
S
H
S
Y
K
1
1
2
0
2
0
1
1
2
1
1
2
3
0
2
1
3
1
2
2
1
3
2
2
2
0
1
1
1
1
2
0
4
2
3
3
5
1
1
5
1
1
2
0
0
2
2
0
2
1
3
0
1
2
1
2
1
1
0
2
1
1
2
0
Singular Values
13 4.7 3.6 2.4 1.2
0
0
Left matrix U
-0.5 -0.1 0.0 -0.2 0.6 0.6 0.1
-0.2 0.0 0.0 0.2 -0.7 0.6 0.1
-0.4 -0.2 -0.5 0.4 0.0 -0.2 0.4
0.0
0.0
0.4
-0.3
-0.4
-0.2
-0.3
-0.4
0.1
0.5
-0.6
-0.5
0.4
0.5
0.2
-0.2
0.5
-0.4
0
-0.4
0.4
-0.4
0.4
-0.4
-0.2
0.0
-0.2
0.0
-0.1
-0.2
-0.2
-0.2
-0.1
-0.1
0.4 0.4
0.1 -0.6
0.1 -0.6
-0.6 0.2
-0.6 0.2
Right matrix V
-0.2 0.1 -0.2 0.7
-0.3 0.2 0.5 0.3
-0.4 -0.4 0.0 -0.5
-0.2 -0.3 0.3 0.1
-0.7 0.6 -0.2 -0.2
-0.1
0.1
0.1
0.8
-0.1
0.7
-0.3
0.4
0.0
-0.1
0.0 0.0
0.5 0.4
0.4 0.1
-0.4 -0.2
-0.1 -0.4
-0.2 -0.6 -0.1 0.3 -0.3 -0.3 0.2 -0.5
-0.3 -0.3 -0.5 0.1 0.0 -0.3 -0.3 0.6
-0.2 -0.2 0.6 -0.1 -0.5 0.1 -0.5 0.2
SVD in Excel
Onze context
- Datamatrix is Term*Document matrix met
woordfrequenties in de cellen.
- Heel veel cellen bevatten nullen
- Voor een ijle matrijs (sparse matrix) geldt:
- Gemiddelde dicht bij nul
- Geringe variantie
- Cumulatieve waarden van S2 zijn een goede
benadering van de variantie (ΣS2 = Σd2)
Probleem
-
-
Positioning vergt discrimineren tussen documenten
- Hoge correlaties in homogene verzameling
- Lage correlaties tussen homogene verzamelingen
Stoppen en zo ja wat of hoeveel?
Vind objectief criterium om aantal SW te bepalen:
- Meer is niet beter !
- Literatuur: 300 of meer; hoogste correlatie
- Maximale discriminatie
- Proportie verklaarde variantie
- Betrouwbaarheid
- SW > 1
Experiment met aapcorpus
-
-
-
Constructie corpus:
- Stoppen: 0, 30, 50
- Stemmen
Bepalen query-set:
- Gorilla
- Orang oetan
Analyse
Analyses
-
Correlatie:
- Binnen Q-set (gorilla, orang
oetan): hoog
 Homogene set
- Q met N-set: laag
 Heterogene set
 Correlaties kennen een optimum
verschil:
- Correlaties Q-set hoog EN
- Correlaties N-set laag
- Als aantal sv toeneemt, dalen
correlaties door toename ruis
Resultaten (1)
Query Gorilla niet genormaliseerd geen stoplijst
1.20
0.80
QSET
NSET
0.60
DISC
Prop Var.
0.40
0.20
Aantal singuliere waarden
26
0
24
5
23
0
21
5
20
0
18
5
17
0
15
5
14
0
12
5
11
0
95
80
65
50
35
20
0.00
5
correlaties en prop. variantie
1.00
Resultaten (2)
Query gorilla niet genormaliseerd Stop 30
1.20
0.80
QSET
NSET
0.60
Disc
Prop. Var.
0.40
0.20
95
11
0
12
5
14
0
15
5
17
0
18
5
20
0
21
5
23
0
24
5
26
0
27
5
80
65
50
35
20
0.00
5
Corelaties en prop. variantie
1.00
Aantal singuliere waarden
Resultaten (3)
Query Gorilla niet genormaliseerd Stop 50
1.20
1.10
0.90
0.80
QSET
0.70
NSET
0.60
Disc
0.50
Prop. Var.
0.40
0.30
0.20
0.10
95
11
0
12
5
14
0
15
5
17
0
18
5
20
0
21
5
23
0
24
5
26
0
27
5
80
65
50
35
20
0.00
5
Correlaties en prop. variantie
1.00
Aantal singuliere waarden
Conclusies
- De correlaties voor de Q-set zijn hoog
- Zonder stoppen zijn ze dat ook voor de N-set
- Dus: discrimineren lukt alleen onder stopping
condities
- Correlaties dalen met het toenemen van het
aantal SW
Discussie
- Waar zitten de gaten?
- Vind objectief criterium om aantal SW te bepalen:
- Literatuur: 300 of meer
- Maximale discriminatie
- Proportie verklaarde variantie
- Betrouwbaarheid
- SW > 1
Download