Achtergrond Spraakherkenning is het herkennen van menselijke spraak door een computer. Al tweehonderd jaar lang proberen wetenschappers een computer spraak naar tekst te laten omzetten. De technieken voor spraakherkenning blijven zich ontwikkelen en daarmee ook de toepassingen. Trendwatchers verwachten veel van spraakherkenning toegepast in call centers en van spraakherkenning op mobiele telefoons. Spraakherkenning heeft zich nog niet helemaal ontwikkeld tot een, niet meer weg te denken, techniek. Maar elke ontwikkeling, vooruitgang en toepassing zorgt voor veel publicaties. Spraakherkenning moet ten slotte het aansturingsysteem worden voor devices in de toekomst. Spraakherkenning Spraak bestaat uit klanken. Als we spreken brengen we lucht tot trilling. Spraakherkenningssoftware breekt deze golven op in kleine fragmenten. Van ieder fragment wordt de frequentie en de amplitude gemeten. Aan de hand daarvan wordt de klank bepaald. Verschillende klanken worden daarna gegroepeerd tot woorden. De uitdaging van spraakherkenning Wij praten niet in woorden, we stoten een continue stroom aan klanken uit, zonder spaties of leestekens. Het is het menselijk begrip dat klanken groepeert tot woorden, woorden tot zinnen groepeert en vervolgens chocola maakt van de bedoeling van die zinnen. De oplossing: Hidden Markov Model Eind jaren 60 introduceerde Markov het model dat nu bekend staat als het ‘hidden Markov Model’. Dit wiskundige model komt erop neer dat je kunt voorspellen wat je hoort als je weet wat er aan vooraf ging. Sommige klanken hebben meer kans te volgen op andere klanken en sommige woorden hebben meer kans om te volgen op andere woorden. Om dit in de praktijk te brengen hebben wetenschappers enorme hoeveelheden geschreven tekst ingeladen in computers. Duizenden dagbladen en boeken zijn ingeladen. Hierop volgen complexe kansberekeningen: welke klank is de meest waarschijnlijke, gegeven de voorgaande klank?, welk woord is het meest waarschijnlijke, gegeven het woord dat eraan vooraf ging? Technologische ontwikkelingen sindsdien Eigenlijk valt dat nogal tegen. Het is met name toegenomen rekencapaciteit die spraakherkenning mogelijk heeft gemaakt. Om het hidden Markov model in de praktijk toe te passen moeten er veel complexe berekeningen snel gemaakt worden. Iedere klank moet niet alleen geanalyseerd worden: het moet vergeleken worden met de klank die eraan vooraf ging. Van iedere groep klanken moet daarna het juiste woord gevormd worden. Ook hier zijn er vele mogelijkheden. Neem het volgende voorbeeld: ‘morgen wordt het lekker weer’ ‘morgen wordt het lekker heer’ Qua klanken zijn deze twee zinnen nauwelijks te onderscheiden. Het is de kansberekening van Markov die het woord ‘weer’ voorrang geeft aan het woord ‘heer’. Het is rekensnelheid die ervoor zorgt dat het antwoord geen twee weken op zich laat wachten Toepassingen Spraakherkenning biedt enorme voordelen, maar kent beperkingen Om hier mee om te gaan zijn er meerdere oplossingen ontwikkeld. Die vallen in drie categorieën: 1. Herkennen van commando’s: veel gebruikers / beperkt woordenboek Waarschijnlijk de meest voorkomende vorm van spraakherkenning. Beperk het aantal woorden dat je kunt opgeven en de kans dat het systeem het juiste woord selecteert neemt dramatisch toe. Voorbeelden zijn de mobiele telefoon waar je inspreekt wie je wilt bellen of het navigatiesysteem dat gesproken plaatsnamen herkent. 2. Dictafoon: weinig gebruikers / groot woordenboek De dictafoon is aan een opmars bezig. Als de spreker duidelijk articuleert is de herkenning redelijk accuraat. De prestaties worden aanzienlijk verhoogd door het systeem te kalibreren: door het inlezen van voor gedefinieerde teksten leert de computer je exacte uitspraak en past zich daarop aan. 3. Contextmodel In specifieke domeinen komen sommige woorden en uitdrukkingen vaker voor. In een rechtbank zal het woord ‘verdachte’ relatief vaak voorkomen. In een operatiekamer het woord ‘incisie’. Met veel geld en geduld is het mogelijk om het algemene woordenboek en algoritmes aan te passen aan de context van de opdrachtgever. Een bekende variant hiervan wordt gebruikt in call centers. De spraakherkenner herkent de vraag van de beller en leidt het gesprek naar de juiste agent. De reden dat dit werkt is dat klanten –per opdrachtgever- maar een beperkt aantal vragen stellen. Wanneer werkt spraakherkenning wel / niet Spraak is niet hetzelfde als gesproken tekst, op dezelfde manier als de vijfde symfonie van Beethoven niet hetzelfde is als een serie noten op papier. Mensen begrijpen woorden, uitdrukkingen en zinnen met duidelijke afbakeningen. Terwijl we feitelijk een continue stroom van geluiden produceren. ‘Gistereuhgingiknadewinkel’ in plaats van ‘gisteren ging ik naar de winkel’. Ook cynisme is een vorm van menselijk begrip: ‘dat gaat wel lekker met jullie hé?’ zijn positieve woorden die vanwege de uitspraak en context door mensen als negatief begrepen worden, iets wat een computer (nog) niet kan. De kwaliteit van spraaktechnologie bestaat uit het percentage woorden dat correct herkend wordt (word error rate) en de snelheid waarmee dit gebeurt (de realtime factor). Spraakherkenning is nog lang niet zo accuraat als we hopen. Als de spreker een dialect, of zelfs maar een verkoudheid heeft, daalt het herkenningspercentage al snel. Bovendien kan de spraakherkenner zich vergissen in alternatieven. “ contract” klinkt als “omdat” en “zaterdag” heeft vergelijkbare klanken als “ ja, het mag”. Hoe minder alternatieven waaruit gekozen kan worden, des te beter de herkenning. De 10 getallen nul tot en met negen zullen perfect herkend worden. Als het woordenboek 5000, 10.000 of 1.000.000 woorden moet herkennen loopt de fout marge snel op. Tot slot kan de spraaktechnologie problemen hebben met omgevingsgeluiden: hoe stiller de omgeving, hoe beter de herkenning. Spraakherkenning is nooit foutloos. In de praktijk varieert de fout marge (word error rate) tussen de 5% en de 70% foutief-herkende woorden. Spraakherkenning in het call center Bij call centers leeft er grote belangstelling voor deze technologie. The national association of call centers peilde de mening onder contact centers in de VS: Voice of the customer (VoC) analytics is de belangrijkste trend in de Amerikaanse call center industrie. 24% gaat de mogelijkheden van spraakherkenning onderzoeken; 23% wil investeren in software voor klantonderzoek en 13% evalueert tekst analyse tools voor eventuele aanschaf. Als voordelen werden genoemd: Innovatief imago Inzicht in klantmotieven/klant behoud Kostenbesparing Echter… Een call center is misschien wel de slechtst denkbare omgeving om spraak naar tekst op toe te passen. In een call center heerst spreektaal. Mensen spreken niet vanaf een script maar bedenken al pratende wat ze gaan zeggen. Als je een dictafoon inspreekt articuleer je doorgaans goed: ‘Gisteren heb ik dat product besteld’ In een gesprek verhaspelen we woorden, zeggen we vaak ‘euh’ en stotteren we: ‘Gisten ..euh.. heb ik .. euh ..dat…dat… product besteld’ Omdat we geen spaties laten vallen tussen de woorden, klinkt dat als: ‘Gisteneuhhebbikeudatdatproductbesteld’ Hier valt geen chocola meer van te maken. Wat ook niet helpt is de hoge mate van ruis of het feit dat call centers vaak landelijk werken waardoor alle denkbare accenten voorkomen. Ook wachtrijmuziek of de pieptoon bij doorverbinden zorgen voor verwarring. Ten slotte doet crosstalk een accurate herkenning de das om: twee sprekers die elkaar halverwege een zin of woord in de rede vallen. Dit is precies de reden dat spraakherkenning nog niet grootschalig wordt toegepast in call centers, ondanks de vele voordelen. CustomerPulse Sinds haar oprichting heeft CustomerPulse zich toegelegd op spraakherkenning, specifiek gericht op call centers. Ons doel is om met behulp van technologie snel en effectief klantmeningen te vinden en te presenteren rondom vragen die in een organisatie spelen. We hebben gekozen voor de bellende klant omdat deze uit eigen beweging belt zelf de vraag of het probleem kiest. Al deze vragen en meningen echter liggen besloten in duizenden telefoongesprekken die over hele andere zaken gaan en worden daarom nu grotendeels genegeerd. Dat is zonde. We gebruiken technologie om de schat aan kennis die opgesloten ligt in alle telefoongesprekken te ontsluiten. De methodiek die we ontwikkeld classificeert gesprekken naar thema op basis van woorden. Neem als voorbeeld het thema ‘betalen’, of ‘waarom krijgen we zoveel vragen over de factuur?’. Er zijn meerdere woorden die in een dergelijk gesprek zullen voorkomen zoals “factuur”, “nota” of “rekeningnummer”. De spraakherkenner analyseert duizenden gesprekken op deze woorden. Hoe vaker een dergelijk woord in één gesprek wordt gevonden, des te waarschijnlijker is het dat dat gesprek over ‘betalen’ gaat. Door letterlijk duizenden gesprekken te analyseren heeft CustomerPulse inmiddels een bibliotheek van 10.000 woorden. Dit zijn woorden die daadwerkelijk in gesprekken worden uitgesproken en waarvan we weten dat ze goed herkend worden. Met deze woorden, en bijbehorende algoritmes, zijn we in staat om klantmeningen op ca. 100 thema’s te filteren. De technologie doet haar werk en het resultaat is een lijst met geluidsfragmenten waarin de klant –in eigen bewoordingen- uitlegt wat er niet duidelijk is aan de factuur.