Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden Mariëlle Stoelinga Universitair Docent Informatica Universiteit Twente 20-7-2017 Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Agenda: wat doen we vandaag? Iets over mijzelf en de universiteit Gastles: zoeken in grote tekstbestanden wiskunde zonder getallen Inhoud uitleg (10 min) opdrachten + oplossingen (30 min) Terugblik samenvatting werkt het echt? Als ik praat, dan zijn jullie stil Bij vragen: vinger opsteken Opdrachten (straks!) in groepjes van 2 2 © ontwikkeld door Marielle Stoelinga 1. Marielle Stoelinga @ Universiteit Twente: Management Onderwijs Onderzoek • • • • • bedenken nieuwe wiskunde • team wetenschappers • projectleider onderzoek • beter besturen robots • beter/sneller testen software • buitenlandse congressen testtechnieken software modelleertalen afstudeerscripties vandaag: 1st jaars vak • UT: na VWO of HBO; Saxion: lectoren © ontwikkeld door Marielle Stoelinga 2. Gastles: zoeken in grote tekstbestanden Wiskunde Taalkunde ontmoet Wat gaan we doen? snel & efficiënt zoeken Hoe gaan we te werk? 1. Uitleg wiskunde zonder getallen waarom zoeken in grote tekstbestanden 1ste-jaars vak universiteit methode 1: dom zoeken methode 2: slim zoeken 2. Opdrachten bespreking oplossingen 3. Samenvatting 4 © ontwikkeld door Marielle Stoelinga Zoeken in grote tekstbestanden: waarom? Iemand een idee waarom zoeken reuze handig is ? 5 © ontwikkeld door Marielle Stoelinga Zoeken in grote tekstbestanden: waarom? Personen zoeken op Facebook Google:100 Google:100miljoen miljoen zoektermen zoektermenper perdag dag Twitter: 800.000 zoektermen per dag Moet zeer up-to-date zijn Conclusie: zoeken moet snel en efficient zijn © ontwikkeld door Marielle Stoelinga 6 Zoeken in grote tekstbestanden: waarom? a n a n a n ananas cacao a s c o c a c o c a d a kokos k o k o s a pinacolada n a n a s c cocacola Woordzoekers oplossen Van links naar rechts Geen $$$, wel leuk 7 © ontwikkeld door Marielle Stoelinga Zoeken in grote bestanden: hoe ZOEK ananas IN asasannanasanasannasnasasananaanasanasa nnasnasasannanasanasannasnasasananaanaa sanasannasnasasannanasanasannasnasasans naanasanasannasnasasannanasanasannasnaa aaannasnasasananaanasanasannasnasasanna anasanasannasnasasananaanasanasannasnas asannanasanasannasnasasananaanasanasana nasnasasannanasanasannasnasasananaanasa nasannasnasasannanasanasanaaaanasnaanns asnananananasnasanasannasnasasannanaans anasnasnasasananaanasansannasnasasannaa nasanasannasnasasananaanasanasannasnasa sannanasanasannasnasasananaanasanasanna asanasasannanasanasannasnaanasanasanasa 8 © ontwikkeld door Marielle Stoelinga Zoeken in grote bestanden: hoe Methode 1: dom zoeken Mensen zien woorden ineens Computers kunnen alleen letter voor letter zoeken sasanananasanasannasna ananas ananas ananas ananas ananas ananas 9 © ontwikkeld door Marielle Stoelinga Zoeken in grote bestanden: hoe kan het slimmer? Hoe kunnen we slimmer zoeken? sasanananasanasannasna foute letter Je ziet hier al een gedeelte van het goede woord. Dat kunnen we slim gebruiken! 10 © ontwikkeld door Marielle Stoelinga Zoeken in grote bestanden: hoe kan het slimmer? Methode 2: slim zoeken Gebruik een diagram Lees letters uit tekst en volg de pijlen “Happy” bereikt = woord gevonden Geen “happy” bereikt = woord komt niet voor Goede letters naar : a a a a n s n,s a an n,s Foute letters: Met n of s terug naar begin © ontwikkeld door Marielle Stoelinga n a ana s a s anan anana n n,s Tot nu toe gelezen letters vh woord Slim: ananan Terminologie: wat is wat? a a a a n s a an n,s n,s n a ana s a s anan anana n n,s • label • letter Diagram • automaat • graaf met labels “Bolletje” • Toestand • Engels: state © ontwikkeld door Marielle Stoelinga Pijl • (toestands)overgang / transitie • Engels: transition Opdrachten: opdracht 1,2,4: in groepjes van 2 5 minuten werken dan bespreken opdracht 3: klassikaal © ontwikkeld door Marielle Stoelinga Opdracht 1: a a a 0 a n 1 s a n,s n,s 2 an a s 3 ana n a s 4 anan 5 anana n n,s Zoek het woord ananas in onderstaande tekst Maak gebruik van het diagram Schrijf onder iedere letter de positie in het diagram waar je bent nadat je de letter gelezen hebt s a s a a n s a n a n s a a n a n a s a a a © ontwikkeld door Marielle Stoelinga Opdracht 2: Maak zelf het diagram voor het woord cacao Letters: c,a,o Oplossing: a, o a c c o c a c c ca a cac a,o o c caca cacao o Dus: Begin met goede woord Schrijf gelezen letters bij elke positie Maak pijlen voor foute letters Controleer of je, bij elke positie, alle letters hebt 15 © ontwikkeld door Marielle Stoelinga Opdracht 3 (klassikaal): Maak een diagram dat uitzoekt of een tekst OF het woord “pen” OF het woord “nep” OF allebei bevat Letters: e,p,n e p e p e e e p n n pe p e n n n © ontwikkeld door Marielle Stoelinga a pen p nep e 16 Opdracht 4: Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat De a’s hoeven niet achter elkaar te staan bv: a b b a b c c a b bevat 3 a’s Letters: a,b,c Oplossing: b,c b,c a 0 a‘s b,c a 1a a 2 a’s 3 a’s 17 © ontwikkeld door Marielle Stoelinga Terugblik Samenvatting Zoeken in teksten is belangrijk bv Google, Twitter, Facebook, MS Word Met diagrammen kun je efficient zoeken in teksten Is dit wiskunde? Slimme / snelle methoden om problemen op te lossen Niet altijd met getallen Gebruikt Google dit echt? Google houdt methoden geheim Andere toepassingen (bv grep in Linux) gebruiken het zeker 18 © ontwikkeld door Marielle Stoelinga Bedankt voor jullie aandacht & tot ziens! UT begeleidt ook profielwerkstukken 20-7-2017 Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 19