Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden Mariëlle Stoelinga Universitair Hoofddocent Informatica Universiteit Twente 21-7-2017 Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Agenda: wat doen we vandaag? Iets over mijzelf en de universiteit Gastles: zoeken in grote tekstbestanden wiskunde zonder getallen Inhoud uitleg (10 min) opdrachten + oplossingen (30 min) Terugblik samenvatting werkt het echt? Pak schrift & pen Bij vragen: vinger opsteken Als ik praat, dan zijn jullie stil Opdrachten (straks!) in groepjes van 2 2 1. Marielle Stoelinga @ Universiteit Twente: Management Onderwijs Onderzoek • • • • • bedenken nieuwe wiskunde • team wetenschappers • projectleider onderzoek • beter besturen robots • beter/sneller testen software • buitenlandse congressen testtechnieken software modelleertalen afstudeerscripties vandaag: 1st jaars vak • UT: na VWO of HBO; Saxion: lectoren 2. Gastles: zoeken in grote tekstbestanden Wiskunde Taalkunde ontmoet Wat gaan we doen? snel & efficiënt zoeken Hoe gaan we te werk? 1. Uitleg wiskunde zonder getallen waarom zoeken in grote tekstbestanden 1ste-jaars vak universiteit methode 1: dom zoeken methode 2: slim zoeken 2. Opdrachten bespreking oplossingen 3. Samenvatting 4 Zoeken in grote tekstbestanden: waarom? Iemand een idee waarom zoeken reuze handig is ? 5 Zoeken in grote tekstbestanden: waarom? Personen zoeken op Facebook Google:100 Google:100miljoen miljoen zoektermen zoektermenper perdag dag Twitter: 800.000 zoektermen per dag Moet zeer up-to-date zijn Conclusie: zoeken moet snel en efficient zijn 6 Zoeken in grote tekstbestanden: waarom? a n a n a n ananas cacao a s c o c a c o c a d a kokos k o k o s a pinacolada n a n a s c cocacola Woordzoekers oplossen Van links naar rechts Geen $$$, wel leuk 7 Zoeken in grote bestanden: hoe ZOEK ananas IN asasannanasanasannasnasasananaanasanasa nnasnasasannanasanasannasnasasananaanaa sanasannasnasasannanasanasannasnasasans naanasanasannasnasasannanasanasannasnaa aaannasnasasananaanasanasannasnasasanna anasanasannasnasasananaanasanasannasnas asannanasanasannasnasasananaanasanasana nasnasasannanasanasannasnasasananaanasa nasannasnasasannanasanasanaaaanasnaanns asnananananasnasanasannasnasasannanaans anasnasnasasananaanasansannasnasasannaa nasanasannasnasasananaanasanasannasnasa sannanasanasannasnasasananaanasanasanna asanasasannanasanasannasnaanasanasanasa 8 Zoeken in grote bestanden: hoe Methode 1: dom zoeken Mensen zien woorden ineens Computers kunnen alleen letter voor letter zoeken sasanananasanasannasna ananas ananas ananas ananas ananas ananas 9 Zoeken in grote bestanden: hoe kan het slimmer? Hoe kunnen we slimmer zoeken? sasanananasanasannasna foute letter Je ziet hier al een gedeelte van het goede woord. Dat kunnen we slim gebruiken! 10 Zoeken in grote bestanden: hoe kan het slimmer? Methode 2: slim zoeken Gebruik een diagram Lees letters uit tekst en volg de pijlen “Happy” bereikt = woord gevonden Geen “happy” bereikt = woord komt niet voor Goede letters naar : a a a n s n,s Foute letters: Met n of s terug naar begin a a an n,s n a ana s a s anan anana n n,s Tot nu toe gelezen letters vh woord Slim: ananan Opdrachten: opdracht 1,2,4: in groepjes van 2 5 minuten werken dan bespreken opdracht 3: klassikaal Terminologie: wat is wat? a a a a n s n,s a n a an n,s ana s a s anan anana n n,s • label • letter Diagram • automaat • graaf met labels “Bolletje” • Toestand • Engels: state Pijl • (toestands)overgang / transitie • Engels: transition Opdracht 1: a a a a n s n,s a an n,s n a ana s a s anan anana n n,s Zoek het woord ananas in onderstaande tekst Maak gebruik van het diagram sasaansanananasannasna Opdracht 2: Maak zelf het diagram voor het woord cacao Letters: c,a,o Oplossing: a a a c c a c ca a o cac caca cacao c Dus: Begin met goede woord Schrijf gelezen letters bij elke positie Maak pijlen voor foute letters Controleer of je, bij elke positie, alle letters hebt 15 Opdracht 3 (klassikaal): Maak een diagram dat uitzoekt of een tekst OF het woord “pen” OF het woord “nep” OF allebei bevat Letters: e,p,n e p e p e e e a p n pe p e n n n n pen p nep e 16 Opdracht 4: Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat Letters: a,b,c Oplossing: b,c b,c a 0 a‘s b,c a 1a a 2 a’s 3 a’s 17 Terugblik Samenvatting Zoeken in teksten is belangrijk bv Google, Twitter, Facebook, MS Word Met diagrammen kun je efficient zoeken in teksten Is dit wiskunde? Slimme / snelle methoden om problemen op te lossen Niet altijd met getallen Gebruikt Google dit echt? Google houdt methoden geheim Andere toepassingen (bv grep in Linux) gebruiken het zeker 18 Bedankt voor jullie aandacht & tot ziens! UT begeleidt ook profielwerkstukken 21-7-2017 Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 19 Opdracht 1: antwoordvel a a a a n s n,s a an n,s n a ana s a s anan anana n n,s Zoek het woord ananas in onderstaande tekst Maak gebruik van het diagram sasaansanananasannasna Opdracht 2: antwoordvel Maak zelf het diagram voor het woord cacao Letters: c,a,o 21 Opdracht 4: Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat Letters: a,b,c 22