n - Universiteit Twente

advertisement
Universiteit Twente meets SG Twickel
Zoeken in grote tekstbestanden
Mariëlle Stoelinga
Universitair Docent Informatica
Universiteit Twente
20-7-2017
Presentatietitel: aanpassen via
Beeld, Koptekst en voettekst
1
Agenda: wat doen we vandaag?
 Iets over mijzelf en de universiteit
 Gastles:
 zoeken in grote tekstbestanden
 wiskunde zonder getallen
 Inhoud
 uitleg (10 min)
 opdrachten + oplossingen (30 min)
 Terugblik
 samenvatting
 werkt het echt?
 Als ik praat, dan zijn jullie stil
 Bij vragen: vinger opsteken
 Opdrachten (straks!) in groepjes van 2
2
© ontwikkeld door Marielle Stoelinga
1. Marielle Stoelinga @ Universiteit Twente:
Management
Onderwijs
Onderzoek
•
•
•
•
• bedenken nieuwe wiskunde • team wetenschappers
• projectleider onderzoek
• beter besturen robots
• beter/sneller testen software • buitenlandse congressen
testtechnieken software
modelleertalen
afstudeerscripties
vandaag: 1st jaars vak
• UT: na VWO
of HBO; Saxion: lectoren
© ontwikkeld door Marielle Stoelinga
2. Gastles: zoeken in grote tekstbestanden
Wiskunde
Taalkunde
ontmoet
Wat gaan we doen?
 snel & efficiënt zoeken
Hoe gaan we te werk?
1. Uitleg
 wiskunde zonder getallen
 waarom zoeken in grote tekstbestanden
 1ste-jaars vak universiteit
 methode 1: dom zoeken
 methode 2: slim zoeken
2. Opdrachten
 bespreking oplossingen
3. Samenvatting
4
© ontwikkeld door Marielle Stoelinga
Zoeken in grote tekstbestanden: waarom?
Iemand een idee
waarom zoeken reuze
handig is ?
5
© ontwikkeld door Marielle Stoelinga
Zoeken in grote tekstbestanden: waarom?
Personen zoeken op
Facebook
Google:100
Google:100miljoen
miljoen
zoektermen
zoektermenper
perdag
dag
Twitter: 800.000 zoektermen per dag
Moet zeer up-to-date zijn
Conclusie: zoeken moet snel en efficient zijn
© ontwikkeld door Marielle Stoelinga
6
Zoeken in grote tekstbestanden: waarom?
a
n
a
n
a
n
ananas
cacao
a
s
c
o
c
a
c
o
c
a
d
a
kokos
k
o
k
o
s
a
pinacolada
n
a
n
a
s
c
cocacola
 Woordzoekers oplossen
 Van links naar rechts
 Geen $$$, wel leuk
7
© ontwikkeld door Marielle Stoelinga
Zoeken in grote bestanden: hoe
ZOEK ananas IN
asasannanasanasannasnasasananaanasanasa
nnasnasasannanasanasannasnasasananaanaa
sanasannasnasasannanasanasannasnasasans
naanasanasannasnasasannanasanasannasnaa
aaannasnasasananaanasanasannasnasasanna
anasanasannasnasasananaanasanasannasnas
asannanasanasannasnasasananaanasanasana
nasnasasannanasanasannasnasasananaanasa
nasannasnasasannanasanasanaaaanasnaanns
asnananananasnasanasannasnasasannanaans
anasnasnasasananaanasansannasnasasannaa
nasanasannasnasasananaanasanasannasnasa
sannanasanasannasnasasananaanasanasanna
asanasasannanasanasannasnaanasanasanasa
8
© ontwikkeld door Marielle Stoelinga
Zoeken in grote bestanden: hoe
Methode 1: dom zoeken
 Mensen zien woorden ineens
 Computers kunnen alleen letter voor letter zoeken
sasanananasanasannasna
ananas
ananas
ananas
ananas
ananas
ananas
9
© ontwikkeld door Marielle Stoelinga
Zoeken in grote bestanden: hoe kan het slimmer?
Hoe kunnen we slimmer zoeken?
sasanananasanasannasna
foute
letter
Je ziet hier al een gedeelte
van het goede woord. Dat
kunnen we slim gebruiken!
10
© ontwikkeld door Marielle Stoelinga
Zoeken in grote bestanden: hoe kan het slimmer?
Methode 2: slim zoeken




Gebruik een diagram
Lees letters uit tekst en volg de pijlen
“Happy” bereikt = woord gevonden
Geen “happy” bereikt = woord komt niet voor
Goede letters
naar
:
a
a
a
a
n
s
n,s
a
an
n,s
Foute letters:
Met n of s terug
naar begin
© ontwikkeld door Marielle Stoelinga
n
a
ana
s
a
s
anan
anana
n
n,s
Tot nu toe gelezen
letters vh woord
Slim: ananan
Terminologie: wat is wat?
a
a
a
a
n
s
a
an
n,s
n,s
n
a
ana
s
a
s
anan
anana
n
n,s
• label
• letter
Diagram
• automaat
• graaf met labels
“Bolletje”
• Toestand
• Engels: state
© ontwikkeld door Marielle Stoelinga
Pijl
• (toestands)overgang / transitie
• Engels: transition
Opdrachten:
 opdracht 1,2,4:
 in groepjes van 2
 5 minuten werken
 dan bespreken
 opdracht 3:
 klassikaal
© ontwikkeld door Marielle Stoelinga
Opdracht 1:
a
a
a
0
a
n
1
s
a
n,s
n,s
2
an
a
s
3
ana
n
a
s
4
anan
5
anana
n
n,s
 Zoek het woord ananas in onderstaande tekst
 Maak gebruik van het diagram
 Schrijf onder iedere letter de positie in het diagram waar je bent
nadat je de letter gelezen hebt
s a s a a n s a n a n s a a n a n a s a a a
© ontwikkeld door Marielle Stoelinga
Opdracht 2:
 Maak zelf het diagram voor het woord cacao
 Letters: c,a,o
Oplossing:
a, o
a
c
c
o
c
a
c
c
ca
a
cac
a,o
o
c
caca
cacao
o
Dus:
 Begin met goede woord
 Schrijf gelezen letters bij elke positie
 Maak pijlen voor foute letters
 Controleer of je, bij elke positie, alle letters hebt
15
© ontwikkeld door Marielle Stoelinga
Opdracht 3 (klassikaal):
 Maak een diagram dat uitzoekt of een tekst
 OF het woord “pen”
 OF het woord “nep”
 OF allebei
bevat
 Letters: e,p,n
e
p
e
p
e
e
e
p
n
n pe
p
e
n
n
n
© ontwikkeld door Marielle Stoelinga
a
pen
p
nep
e
16
Opdracht 4:
 Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat
 De a’s hoeven niet achter elkaar te staan
 bv: a b b a b c c a b bevat 3 a’s
 Letters: a,b,c
Oplossing:
b,c
b,c
a
0 a‘s
b,c
a
1a
a
2 a’s
3 a’s
17
© ontwikkeld door Marielle Stoelinga
Terugblik
Samenvatting
 Zoeken in teksten is belangrijk
 bv Google, Twitter, Facebook, MS Word
 Met diagrammen kun je efficient zoeken in teksten
 Is dit wiskunde?
 Slimme / snelle methoden om problemen op te lossen
 Niet altijd met getallen
 Gebruikt Google dit echt?
 Google houdt methoden geheim
 Andere toepassingen (bv grep in Linux) gebruiken het zeker
18
© ontwikkeld door Marielle Stoelinga
Bedankt voor jullie aandacht
&
tot ziens!
UT begeleidt ook
profielwerkstukken
20-7-2017
Presentatietitel: aanpassen via
Beeld, Koptekst en voettekst
19
Download