Presentatie - Universiteit Twente

advertisement
Universiteit Twente meets SG Twickel
Zoeken in grote tekstbestanden
Mariëlle Stoelinga
Universitair Hoofddocent Informatica
Universiteit Twente
21-7-2017
Presentatietitel: aanpassen via
Beeld, Koptekst en voettekst
1
Agenda: wat doen we vandaag?
 Iets over mijzelf en de universiteit
 Gastles:
 zoeken in grote tekstbestanden
 wiskunde zonder getallen
 Inhoud
 uitleg (10 min)
 opdrachten + oplossingen (30 min)
 Terugblik
 samenvatting
 werkt het echt?
 Pak schrift & pen
 Bij vragen: vinger opsteken
 Als ik praat, dan zijn jullie stil
 Opdrachten (straks!) in groepjes van 2
2
1. Marielle Stoelinga @ Universiteit Twente:
Management
Onderwijs
Onderzoek
•
•
•
•
• bedenken nieuwe wiskunde • team wetenschappers
• projectleider onderzoek
• beter besturen robots
• beter/sneller testen software • buitenlandse congressen
testtechnieken software
modelleertalen
afstudeerscripties
vandaag: 1st jaars vak
• UT: na VWO of HBO; Saxion: lectoren
2. Gastles: zoeken in grote tekstbestanden
Wiskunde
Taalkunde
ontmoet
Wat gaan we doen?
 snel & efficiënt zoeken
Hoe gaan we te werk?
1. Uitleg
 wiskunde zonder getallen
 waarom zoeken in grote tekstbestanden
 1ste-jaars vak universiteit
 methode 1: dom zoeken
 methode 2: slim zoeken
2. Opdrachten
 bespreking oplossingen
3. Samenvatting
4
Zoeken in grote tekstbestanden: waarom?
Iemand een idee
waarom zoeken reuze
handig is ?
5
Zoeken in grote tekstbestanden: waarom?
Personen zoeken op
Facebook
Google:100
Google:100miljoen
miljoen
zoektermen
zoektermenper
perdag
dag
Twitter: 800.000 zoektermen per dag
Moet zeer up-to-date zijn
Conclusie: zoeken moet snel en efficient zijn
6
Zoeken in grote tekstbestanden: waarom?
a
n
a
n
a
n
ananas
cacao
a
s
c
o
c
a
c
o
c
a
d
a
kokos
k
o
k
o
s
a
pinacolada
n
a
n
a
s
c
cocacola
 Woordzoekers oplossen
 Van links naar rechts
 Geen $$$, wel leuk
7
Zoeken in grote bestanden: hoe
ZOEK ananas IN
asasannanasanasannasnasasananaanasanasa
nnasnasasannanasanasannasnasasananaanaa
sanasannasnasasannanasanasannasnasasans
naanasanasannasnasasannanasanasannasnaa
aaannasnasasananaanasanasannasnasasanna
anasanasannasnasasananaanasanasannasnas
asannanasanasannasnasasananaanasanasana
nasnasasannanasanasannasnasasananaanasa
nasannasnasasannanasanasanaaaanasnaanns
asnananananasnasanasannasnasasannanaans
anasnasnasasananaanasansannasnasasannaa
nasanasannasnasasananaanasanasannasnasa
sannanasanasannasnasasananaanasanasanna
asanasasannanasanasannasnaanasanasanasa
8
Zoeken in grote bestanden: hoe
Methode 1: dom zoeken
 Mensen zien woorden ineens
 Computers kunnen alleen letter voor letter zoeken
sasanananasanasannasna
ananas
ananas
ananas
ananas
ananas
ananas
9
Zoeken in grote bestanden: hoe kan het slimmer?
Hoe kunnen we slimmer zoeken?
sasanananasanasannasna
foute
letter
Je ziet hier al een gedeelte
van het goede woord. Dat
kunnen we slim gebruiken!
10
Zoeken in grote bestanden: hoe kan het slimmer?
Methode 2: slim zoeken




Gebruik een diagram
Lees letters uit tekst en volg de pijlen
“Happy” bereikt = woord gevonden
Geen “happy” bereikt = woord komt niet voor
Goede letters
naar
:
a
a
a
n
s
n,s
Foute letters:
Met n of s terug
naar begin
a
a
an
n,s
n
a
ana
s
a
s
anan
anana
n
n,s
Tot nu toe gelezen
letters vh woord
Slim: ananan
Opdrachten:
 opdracht 1,2,4:
 in groepjes van 2
 5 minuten werken
 dan bespreken
 opdracht 3:
 klassikaal
Terminologie: wat is wat?
a
a
a
a
n
s
n,s
a
n
a
an
n,s
ana
s
a
s
anan
anana
n
n,s
• label
• letter
Diagram
• automaat
• graaf met labels
“Bolletje”
• Toestand
• Engels: state
Pijl
• (toestands)overgang / transitie
• Engels: transition
Opdracht 1:
a
a
a
a
n
s
n,s
a
an
n,s
n
a
ana
s
a
s
anan
anana
n
n,s
 Zoek het woord ananas in onderstaande tekst
 Maak gebruik van het diagram
sasaansanananasannasna
Opdracht 2:
 Maak zelf het diagram voor het woord cacao
 Letters: c,a,o
Oplossing:
a
a
a
c
c
a
c
ca
a
o
cac
caca
cacao
c
Dus:
 Begin met goede woord
 Schrijf gelezen letters bij elke positie
 Maak pijlen voor foute letters
 Controleer of je, bij elke positie, alle letters hebt
15
Opdracht 3 (klassikaal):
 Maak een diagram dat uitzoekt of een tekst
 OF het woord “pen”
 OF het woord “nep”
 OF allebei
bevat
 Letters: e,p,n
e
p
e
p
e
e
e
a
p
n pe
p
e
n
n
n
n
pen
p
nep
e
16
Opdracht 4:
 Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat
 Letters: a,b,c
Oplossing:
b,c
b,c
a
0 a‘s
b,c
a
1a
a
2 a’s
3 a’s
17
Terugblik
Samenvatting
 Zoeken in teksten is belangrijk
 bv Google, Twitter, Facebook, MS Word
 Met diagrammen kun je efficient zoeken in teksten
 Is dit wiskunde?
 Slimme / snelle methoden om problemen op te lossen
 Niet altijd met getallen
 Gebruikt Google dit echt?
 Google houdt methoden geheim
 Andere toepassingen (bv grep in Linux) gebruiken het zeker
18
Bedankt voor jullie aandacht
&
tot ziens!
UT begeleidt ook
profielwerkstukken
21-7-2017
Presentatietitel: aanpassen via
Beeld, Koptekst en voettekst
19
Opdracht 1: antwoordvel
a
a
a
a
n
s
n,s
a
an
n,s
n
a
ana
s
a
s
anan
anana
n
n,s
 Zoek het woord ananas in onderstaande tekst
 Maak gebruik van het diagram
sasaansanananasannasna
Opdracht 2: antwoordvel
 Maak zelf het diagram voor het woord cacao
 Letters: c,a,o
21
Opdracht 4:
 Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat
 Letters: a,b,c
22
Download