Spraakherkenning is het herkennen van menselijke spraak door

advertisement
Achtergrond
Spraakherkenning is het herkennen van menselijke spraak door een computer. Al
tweehonderd jaar lang proberen wetenschappers een computer spraak naar tekst te laten
omzetten. De technieken voor spraakherkenning blijven zich ontwikkelen en daarmee ook de
toepassingen. Trendwatchers verwachten veel van spraakherkenning toegepast in call centers
en van spraakherkenning op mobiele telefoons. Spraakherkenning heeft zich nog niet
helemaal ontwikkeld tot een, niet meer weg te denken, techniek. Maar elke ontwikkeling,
vooruitgang en toepassing zorgt voor veel publicaties. Spraakherkenning moet ten slotte het
aansturingsysteem worden voor devices in de toekomst.
Spraakherkenning
Spraak bestaat uit klanken. Als we spreken brengen we lucht
tot trilling. Spraakherkenningssoftware breekt deze golven op
in kleine fragmenten. Van ieder fragment wordt de frequentie
en de amplitude gemeten. Aan de hand daarvan wordt de
klank bepaald. Verschillende klanken worden daarna
gegroepeerd tot woorden.
De uitdaging van spraakherkenning
Wij praten niet in woorden, we stoten een continue stroom
aan klanken uit, zonder spaties of leestekens. Het is het
menselijk begrip dat klanken groepeert tot woorden,
woorden tot zinnen groepeert en vervolgens chocola maakt
van de bedoeling van die zinnen.
De oplossing: Hidden Markov Model
Eind jaren 60 introduceerde Markov het model dat nu bekend staat als het ‘hidden Markov
Model’. Dit wiskundige model komt erop neer dat je kunt voorspellen wat je hoort als je weet
wat er aan vooraf ging.
Sommige klanken hebben meer kans te volgen op andere
klanken en sommige woorden hebben meer kans om te volgen
op andere woorden. Om dit in de praktijk te brengen hebben
wetenschappers enorme hoeveelheden geschreven tekst
ingeladen in computers. Duizenden dagbladen en boeken zijn
ingeladen. Hierop volgen complexe kansberekeningen: welke
klank is de meest waarschijnlijke, gegeven de voorgaande
klank?, welk woord is het meest waarschijnlijke, gegeven het
woord dat eraan vooraf ging?
Technologische ontwikkelingen sindsdien
Eigenlijk valt dat nogal tegen. Het is met name toegenomen
rekencapaciteit die spraakherkenning mogelijk heeft
gemaakt. Om het hidden Markov model in de praktijk toe te
passen moeten er veel complexe berekeningen snel
gemaakt worden. Iedere klank moet niet alleen
geanalyseerd worden: het moet vergeleken worden met de
klank die eraan vooraf ging. Van iedere groep klanken moet
daarna het juiste woord gevormd worden. Ook hier zijn er
vele mogelijkheden. Neem het volgende voorbeeld:
‘morgen wordt het lekker weer’
‘morgen wordt het lekker heer’
Qua klanken zijn deze twee zinnen nauwelijks te
onderscheiden. Het is de kansberekening van Markov die
het woord ‘weer’ voorrang geeft aan het woord ‘heer’. Het
is rekensnelheid die ervoor zorgt dat het antwoord geen
twee weken op zich laat wachten
Toepassingen
Spraakherkenning biedt enorme voordelen, maar kent beperkingen Om hier mee om te gaan
zijn er meerdere oplossingen ontwikkeld. Die vallen in drie categorieën:
1. Herkennen van commando’s: veel gebruikers / beperkt woordenboek
Waarschijnlijk de meest voorkomende vorm van spraakherkenning.
Beperk het aantal woorden dat je kunt opgeven en de kans dat het
systeem het juiste woord selecteert neemt dramatisch toe.
Voorbeelden zijn de mobiele telefoon waar je inspreekt wie je wilt
bellen of het navigatiesysteem dat gesproken plaatsnamen herkent.
2. Dictafoon: weinig gebruikers / groot woordenboek
De dictafoon is aan een opmars bezig. Als de spreker duidelijk articuleert is
de herkenning redelijk accuraat. De prestaties worden aanzienlijk verhoogd
door het systeem te kalibreren: door het inlezen van voor gedefinieerde
teksten leert de computer je exacte uitspraak en past zich daarop aan.
3. Contextmodel
In specifieke domeinen komen sommige woorden en uitdrukkingen vaker voor. In een
rechtbank zal het woord ‘verdachte’ relatief vaak
voorkomen. In een operatiekamer het woord ‘incisie’. Met
veel geld en geduld is het mogelijk om het algemene
woordenboek en algoritmes aan te passen aan de context
van de opdrachtgever. Een bekende variant hiervan wordt
gebruikt in call centers. De spraakherkenner herkent de
vraag van de beller en leidt het gesprek naar de juiste
agent. De reden dat dit werkt is dat klanten –per
opdrachtgever- maar een beperkt aantal vragen stellen.
Wanneer werkt spraakherkenning wel / niet
Spraak is niet hetzelfde als gesproken tekst, op dezelfde manier als de vijfde symfonie van
Beethoven niet hetzelfde is als een serie noten op papier. Mensen begrijpen woorden,
uitdrukkingen en zinnen met duidelijke afbakeningen. Terwijl we feitelijk een continue stroom
van geluiden produceren. ‘Gistereuhgingiknadewinkel’ in plaats van ‘gisteren ging ik naar de
winkel’. Ook cynisme is een vorm van menselijk begrip: ‘dat gaat wel lekker met jullie hé?’ zijn
positieve woorden die vanwege de uitspraak en context door mensen als negatief begrepen
worden, iets wat een computer (nog) niet kan.
De kwaliteit van spraaktechnologie bestaat uit het
percentage woorden dat correct herkend wordt (word
error rate) en de snelheid waarmee dit gebeurt (de realtime factor). Spraakherkenning is nog lang niet zo accuraat
als we hopen. Als de spreker een dialect, of zelfs maar een
verkoudheid heeft, daalt het herkenningspercentage al
snel. Bovendien kan de spraakherkenner zich vergissen in
alternatieven. “ contract” klinkt als “omdat” en “zaterdag”
heeft vergelijkbare klanken als “ ja, het mag”. Hoe minder
alternatieven waaruit gekozen kan worden, des te beter de herkenning. De 10 getallen nul tot
en met negen zullen perfect herkend worden. Als het woordenboek 5000, 10.000 of 1.000.000
woorden moet herkennen loopt de fout marge snel op. Tot slot kan de spraaktechnologie
problemen hebben met omgevingsgeluiden: hoe stiller de omgeving, hoe beter de
herkenning.
Spraakherkenning is nooit foutloos. In de praktijk varieert de fout marge (word error rate)
tussen de 5% en de 70% foutief-herkende woorden.
Spraakherkenning in het call center
Bij call centers leeft er grote belangstelling voor deze technologie. The national association of
call centers peilde de mening onder contact centers in de VS: Voice of the customer (VoC)
analytics is de belangrijkste trend in de Amerikaanse call center industrie. 24% gaat de
mogelijkheden van spraakherkenning onderzoeken; 23% wil investeren in software voor
klantonderzoek en 13% evalueert tekst analyse tools voor eventuele aanschaf.
Als voordelen werden genoemd:
 Innovatief imago
 Inzicht in klantmotieven/klant behoud
 Kostenbesparing
Echter…
Een call center is misschien wel de slechtst
denkbare omgeving om spraak naar tekst op toe
te passen. In een call center heerst spreektaal.
Mensen spreken niet vanaf een script maar
bedenken al pratende wat ze gaan zeggen.
 Als je een dictafoon inspreekt articuleer je doorgaans goed:
‘Gisteren heb ik dat product besteld’
 In een gesprek verhaspelen we woorden, zeggen we vaak ‘euh’ en stotteren we:
‘Gisten ..euh.. heb ik .. euh ..dat…dat… product besteld’
 Omdat we geen spaties laten vallen tussen de woorden, klinkt dat als:
‘Gisteneuhhebbikeudatdatproductbesteld’
Hier valt geen chocola meer van te maken.
Wat ook niet helpt is de hoge mate van ruis of het feit dat call centers vaak landelijk werken
waardoor alle denkbare accenten voorkomen. Ook wachtrijmuziek of de pieptoon bij
doorverbinden zorgen voor verwarring. Ten slotte doet crosstalk een accurate herkenning de
das om: twee sprekers die elkaar halverwege een zin of woord in de rede vallen.
Dit is precies de reden dat spraakherkenning nog niet grootschalig wordt toegepast in call
centers, ondanks de vele voordelen.
CustomerPulse
Sinds haar oprichting heeft CustomerPulse zich toegelegd op spraakherkenning, specifiek
gericht op call centers. Ons doel is om met behulp van technologie snel en effectief
klantmeningen te vinden en te presenteren rondom vragen die in een organisatie spelen. We
hebben gekozen voor de bellende klant omdat deze uit eigen beweging belt zelf de vraag of
het probleem kiest. Al deze vragen en meningen echter liggen besloten in duizenden
telefoongesprekken die over hele andere zaken gaan en worden daarom nu grotendeels
genegeerd. Dat is zonde.
We gebruiken technologie om de schat aan kennis die opgesloten ligt in alle
telefoongesprekken te ontsluiten. De methodiek die we ontwikkeld classificeert gesprekken
naar thema op basis van woorden. Neem als voorbeeld het thema ‘betalen’, of ‘waarom
krijgen we zoveel vragen over de factuur?’. Er zijn meerdere woorden die in een dergelijk
gesprek zullen voorkomen zoals “factuur”, “nota” of “rekeningnummer”. De spraakherkenner
analyseert duizenden gesprekken op deze woorden. Hoe vaker een dergelijk woord in één
gesprek wordt gevonden, des te waarschijnlijker is het dat dat gesprek over ‘betalen’ gaat.
Door letterlijk duizenden gesprekken te analyseren heeft CustomerPulse inmiddels een
bibliotheek van 10.000 woorden. Dit zijn woorden die daadwerkelijk in gesprekken worden
uitgesproken en waarvan we weten dat ze goed herkend worden. Met deze woorden, en
bijbehorende algoritmes, zijn we in staat om klantmeningen op ca. 100 thema’s te filteren. De
technologie doet haar werk en het resultaat is een lijst met geluidsfragmenten waarin de klant
–in eigen bewoordingen- uitlegt wat er niet duidelijk is aan de factuur.
Download