Datamining onder de loep II - RCM

advertisement
26
Datamining
onder de loep II
Door Erik Hoeksema
Datamining, of knowledge discovery in databases, maakt het mogelijk nieuwe kennis uit gegevens te halen. In twee artikelen wordt
het hoe, wat en waarom van datamining uitgelegd. Deel I verscheen in het vorige nummer van KM.
de literatuur zijn verschillende
voorbeelden te vinden hoe een
datamining-exercitie zou moeten
worden uitgevoerd, al zijn deze vaak
gericht op het technische aspect.
Zie hiervoor het kader op de volgende pagina. Een standaard model
dat ook de organisatorische implicaties in ogenschouw neemt ontbreekt echter.
In
Complex proces
Dit gebrek aan een standaard proces is
een van de problemen voor de acceptatie van datamining.Dat een dergelijk
model er nog niet is, heeft verschillende oorzaken.Ten eerste is datamining
een complex proces dat voor veel verschillende doeleinden, en dus op veel
verschillende manieren, kan worden
toegepast. Ten tweede werd datamining in het verleden vooral door technici gebruikt. Deze technici wisten
vaak wél wat een dataminingproces
inhield, in tegenstelling tot de commerciële gebruikers, maar hadden
weinig behoefte hun kennis vast te
leggen. Hierin schuilt daarentegen de
kracht van een procesmodel.Een standaard stelt de verschillende partijen
beter in staat met elkaar te communiceren over datamining, waardoor het
proces voor de commerciële gebruiker begrijpelijker en beter beheersbaar wordt.
KM 2000, nummer 3
Datamining is veelal moeilijker dan
gedacht en de aandacht gaat te vaak
uit naar de verkeerde factoren. De
literatuur over datamining betreft
het overgrote deel de tools die worden ingezet. Dit terwijl - volgens de
META-Group [1] - slechts vijftien
procent van de datamining-uitgaven
naar de tools gaan. Randy Kerber
van NCR beaamt dat de tools niet
het belangrijkste zijn:‘De succesfactoren van datamining worden
bepaald door in de eerste plaats de
mensen, in de tweede plaats de kwaliteit van de gegevens en pas op de
derde plaats de tools. De mensen
zijn cruciaal omdat datamining veel
ervaring behelst en daarbij een
lange leercurve heeft.’ Bedrijven die
datamining toepassen zouden hun
focus dus meer moeten richten op
de mensen die zich ermee bezig
houden in plaats van op de aankoop
van een tool. Volgens Shivakumar
Vaithyanathan van IBM kan datamining pas echt een succes worden als
er een specifieke behoefte aan kennis bestaat in de organisatie. ‘Een
dataminingproces moet worden
voorafgegaan door het stellen van
de zogenaamde business-vraag en
een kosten/baten-analyse.’ Tot nog
toe werd deze business-vraag echter
wel eens overgeslagen en werd met
datamining begonnen omdat de
concurrenten eraan deden of omdat
een aantal technici in een bedrijf de
techniek interessant vonden. Het is
echter belangrijk dat er een draagvlak in de organisatie bestaat. ‘Voor
een echt succes moet een specifiek
project voor een specifiek probleem
worden opgezet, waarbij ontwikkelaars en eindgebruikers met elkaar
samenwerken.’
CRISP-DM (CRoss-Industry Standard
Process Model) is een van de eerste
aanzetten tot een model. Het is een
initiatief van een viertal bedrijven,
NCR, ISL, DaimlerBenz en het
Nederlandse OHRA. Het bestaat uit
een aantal delen die nog niet allemaal geconcretiseerd zijn. De CRISPmethodologie beschrijft een dataminingproces op een aantal niveaus:
het fasen-niveau, het generieketaken-niveau, het gespecialiseerdetaken-niveau en de procesinstantie.
Het doet meer denken aan een raamwerk dan aan een stappenplan, daar
van details wordt geabstraheerd.‘Dit
is ook de bedoeling. Ten eerste wil
het management, waar het model
meer voor bedoeld is, niet te veel
details lezen en ten tweede moet
het proces voor verschillende situaties inzetbaar zijn’, aldus Randy
Kerber.‘Een gedetailleerd procesmodel zou te veel onnodige discussie
losmaken.’
27
Figuur 1 illustreert de vier lagen van
het model. De bovenste twee lagen
worden in de CRISP-specificatie
beschreven. De stappen uit deze
lagen moeten voor iedere toepassing van het proces op de eigen situatie worden afgebeeld. Het CRISPmodel moet de kwaliteit van de
communicatie rond een dataminingproces verbeteren. Als de verschillende partijen weten wat ze kunnen
verwachten en kunnen verwijzen
naar het model, moet de kans op
succes kunnen worden vergroot.
Het probleem is dat de meerderheid
van de industrie dit procesmodel
niet ondersteunt. Volgens Ronny
Kohavi van Blue Martini Software
moeten ook de grote database-verkopers als Oracle en Microsoft aan
een dergelijk initiatief meewerken
om het beoogde effect te bereiken.
Een ander initiatief dat nog steeds in
ontwikkeling is, is dat van de active
templates. Een active template is
een door hyperlinks navigeerbare
informatiestructuur die acties, resultaten en documenten integreert [2].
Het moet het hergebruik van eerder
gedaan werk faciliteren, zorgen voor
het beter vastleggen van de resultaten, gebruikte methoden en denkprocessen en een beter begrip van
de business bewerkstelligen, om zo
tot een meer interactieve, open en
begrijpelijke omgeving voor datamining te komen.
Integratie in de business
Een andere belangrijke factor voor
het slagen van een dataminingproject wordt vaak het bestaan van een
echte vraag uit de organisatie
gezien. Omdat deze vraag niet uit de
lucht komt vallen, is het nodig om
bewustzijn van de mogelijkheden
bij de mensen te kweken. Vaak
wordt ook vergeten om de gevonden resultaten toe te passen en om
te zetten in gerichte acties. Kortom,
het proces is niet genoeg in het
bedrijfsproces geïntegreerd. Het antwoord op deze problemen is volgens Berry en Linoff [3] een iteratieve toepassing van datamining, zij
noemen dit de ‘positieve kringloop’:
1. Identificeer business-problemen
en gebieden waar data-analyse
meerwaarde kan opleveren.
2. Verander de gegevens in informatie met handvatten voor actiedatamining.
Het proces
Bij een datamining-exercitie kunnen meestal een aantal stappen worden
onderscheiden. Een dataminingproces is echter elke keer verschillend,
omdat het erg afhangt waarvoor datamining wordt toegepast en het een
iteratief proces is. Stappen kunnen dus worden herhaald, wat vaak
gebeurt door bijvoorbeeld meerdere technieken op de dataset los te laten,
of er moet worden teruggegaan naar een eerdere stap. Gedurende het
hele proces is het belangrijk goed vast te leggen wat er wordt gedaan; dit
voorkomt dat bij een itererende stap werk wordt herhaald.
Grofweg kunnen we de volgende stappen onderscheiden:
1. Opstartfase. Volgens experts werkt datamining het beste als er een
specifiek probleem is dat moet worden opgelost. Voordat er aan de
werkelijke datamining-exercitie begonnen wordt, is het raadzaam om
eerst een projectplan op te stellen, waarin een omschrijving van het
probleem, een kosten/baten-analyse, de doelen en de succescriteria
zijn opgenomen.
2. Gegevensoriëntatie. Deze fase behelst het selecteren van de data om
het probleem op te kunnen lossen, het verkennen van de data om er
een ‘gevoel’ voor te krijgen en het beschrijven van de data.
3. Gegevenspreparatie. Nadat de juiste gegevens zijn geselecteerd,
moeten ze worden geprepareerd voor de werkelijke analyse. De
gegevens moeten worden opgeschoond, omdat er altijd waarden ontbreken en er fouten in zitten. Hier kunnen dan bijvoorbeeld gemiddelden voor worden ingevuld, of men kan besluiten de waarde niet in
beschouwing te nemen. Ook moeten de gegevens in de juiste vorm in
één tabel worden gegoten en moeten er vaak transformaties op de
tabel plaatsvinden. Deze zijn nodig om extra informatie toe te voegen,
zoals ratio’s en sommaties (bijvoorbeeld per klant) en om eventueel
de distributie van de attributen te veranderen.
4. Modelleringsfase. In deze stap wordt het algoritme op de gegevensset losgelaten. Vaak wordt in het tool, dat ook van hulp kan zijn in de
vorige fase, een techniek geselecteerd, waarna een aantal parameters
moet worden ingesteld en de tabel kan worden gemined. Het is aan te
raden eerst de set op te delen en te testen op een deelverzameling,
zodat een indicatie kan worden verkregen wat goede modellen zouden kunnen zijn. Deze kunnen dan op de hele database worden losgelaten. Volgens de statistiek moeten de gegevens vervolgens worden
verdeeld in een trainingset en een testset. Op de trainingset wordt het
model ‘getraind’ en met de testset kan vervolgens worden gekeken of
het model werkt. Classificeert het model bijvoorbeeld een record uit
de testset in de juiste categorie? Zo ja, dan werkt het waarschijnlijk
ook op een ‘nieuw’ record.
5. Evaluatiefase. Hier moet worden afgevraagd of het vereiste doel
behaald is en of herhalingen nodig zijn. Nuttig is een document op te
stellen met een beschrijving van het verloop van het proces. Wat is er
waar fout gegaan?
6. Actiefase. Voor de gevonden resultaten moet een strategie worden
bepaald. Er moet gezorgd worden dat de informatie bij de juiste personen terechtkomt en dat acties worden genomen om het probleem
op te lossen.
3. Onderneem acties op basis van de
informatie.
4. Meet de resultaten van de acties
en gebruik deze gegevens voor de
ontwikkeling van nieuwe inzichten en verbetering van het proces.
Volgens Ronny Kohavi kan deze
kringloop in het bedrijfsproces worden geïntegreerd door middel van
een workflowsysteem. ‘Een eindgebruiker moet zijn vraag kunnen stellen, waarna het systeem de vraag
dirigeert naar de betreffende per-
soon die hem kan beantwoorden.
Het antwoord moet vervolgens
weer terecht komen bij de persoon
met het probleem.’
Thierry Zamorra van het direct marketingbureau FusionDM vindt het
oude dataminingproces eenvoudig
te langdradig. ‘Verticale applicaties
kunnen dan ook een aanvulling zijn
op de traditionele manier van datamining, door de hiermee gevonden
kennis te verspreiden aan de gebruikers.’ Meer over verticale applicaties
is te vinden in de paragraaf Tools.
KM 2000, nummer 3
28
Datamining moet volgens de meeste
experts dus als een apart proces in
het bedrijf worden ingericht, al is de
vorm ervan uiteraard erg afhankelijk
van de toepassing waarvoor datamining wordt gebruikt. Datamining in
de ad-hoc vorm vereist een andere
inbedding dan de online variant. Bij
die laatste is datamining onderdeel
van het primaire proces, doordat bijvoorbeeld de call centermedewerkers afhankelijk zijn van de informatie
die het dataminingproces oplevert.
Tools
Een aantal jaren geleden begonnen
bedrijven met het maken van datamining tools, die technieken herbergden die erg veel weg hadden
van de reeds bestaande statistische
technieken. De term datamining
beloofde veel meer dan de naam statistiek, waardoor datamining en hun
tools populair werden en even werd
vergeten dat het eigenlijk statistiek
was wat men toepaste. De datamining-hype zette alles in een stroom-
kelen van een tool en zo groeiden
de twee verschillende markten, die
van statistische en die van datamining tools, naar elkaar toe. De tools
van toen boden echter lang niet de
Grote leveranciers van datamining tools
Bedrijf
SAS Software
SPSS
Silicon Graphics
IBM
Thinking Machines
HNC Software
Angoss
Sentient Machine Research (nl)
Data Distilleries (nl)
NeoVista
functionaliteit en de gebruikersvriendelijkheid die nu wordt geboden. Het laden van de verschillende
gegevens uit het datawarehouse was
vroeger een lastig karwei, terwijl de
tegenwoordige tools ODBC-compa-
Phases
CRISP
Process Model
Generic tasks
Specialized tasks
Mapping
Process Instances
CRISP Process
Figuur 1
Het CRISP-DM model.
versnelling en de research-inspanningen namen zienderogen toe.
Hierdoor zijn in de loop der jaren
een grote hoeveelheid tools op de
markt gekomen [4], voornamelijk in
de vorm van suites, pakketten waarmee een breed scala aan problemen
kan worden aangepakt. Ook de
bedrijven die uit de statistische hoek
komen, zoals SPSS, begonnen door
de datamining-golf met het ontwik-
KM 2000, nummer 3
erg veel van elkaar in prestatie als
het gaat om precisie van modellen.
Afhankelijk van de context zijn er
wel wat verschillen. Bij de Darwin
tool van Thinking Machines bijvoor-
tible zijn en dit probleem veel kleiner is [5]. Ook de visualisaties en de
gebruikers-interface zijn over het
algemeen sterk verbeterd. De grote
tool-fabrikanten, zoals IBM, SAS, SPSS
en Silicon Graphics proberen deze
visualisaties steeds interactiever te
maken om zo de gebruikersvriendelijkheid nog verder te vergroten. De
tegenwoordige datamining tools,
met name de grote, verschillen niet
Pakket
Enterprise Miner
Clementine
MineSet
Intelligent Miner
Darwin
Verschillende verticale oplossingen
Knowledgeseeker
DataDetective
DataSurveyor
Retail Decision Suite
beeld, wordt de hardware meegeleverd. Darwin presteert het beste als
het om heel grote datasets gaat [6].
Dit tool maakt gebruik van parallelle
processoren, waardoor de modellen
sneller kunnen worden doorgerekend, en heeft een hele lichte client
component. Als de crux echter bij
service ligt, kan beter voor een groot
bedrijf worden gekozen en is IBM
Intelligent Minor of SAS Enterprise
Miner een goede keuze.
De meeste tools draaien op de
meest bekende platforms als UNIX
en NT en zijn inzetbaar in een
client/server-omgeving, waardoor
verschillende analisten op hun
werkstation analyses uit kunnen
voeren en de berekeningen op de
server worden gedaan. Fabrikanten
proberen de zwaarte van de applicatie aan de clientkant echter steeds
kleiner te maken, zodat het straks
mogelijk is via de web-browser te
minen en kennis nog makkelijker
kan worden verspreid.
Volgens de experts kunnen en moeten de tools echter nog een stuk
worden verbeterd. Datamining is
nog steeds een arbeidsintensief proces, vooral bij het schoonmaken van
de gegevens en bij het bouwen van
modellen. Omdat de tools geen kennis van de werkelijke wereld hebben, weten ze niet vanzelf het verschil tussen de soorten variabelen
en beschouwen ze bijvoorbeeld de
Amerikaanse postcodes als een continu getal. Gelijkende postcodes
kunnen echter fysiek een eind uit
29
elkaar liggen. Om de tools op dit
soort problemen te laten anticiperen is een uitdaging voor de fabrikanten. Ook is het datamodel waarop kan worden gemined erg beperkt.
De tabel waarop wordt gemined
moet één geaggregeerde tabel zijn.
Hierdoor is het vaak lastig de resultaten weer terug te voeren naar de
werkelijke records. Ronny Kohavi:
‘Vandaag de dag moeten we van de
store naar de star en dan naar de platte tabel. Ik denk dat we moeten kunnen minen direct van het star-schema, dus zonder het uitvoeren van een
join.’ Met de star doelt hij op de database-schema’s die het product zijn
van een datawarehouseproject.
Een andere kwestie van datamining
is het integreren van dataminingfunctionaliteit in verticale tools en
applicaties. ‘De early majority kijkt
naar dingen als return on investment en de kans op succes van een
project. Om datamining door de
early majority te laten accepteren
moet je laten zien dat je:
1. Er grote concurrentievoordelen
mee kunt behalen;
2. De productiviteit van een kritische succesfactor kunt vergroten;
3. De totale operationele kosten
kunt verminderen.
De manier om dit te doen is om je
product verticaal te maken. Dit is
dan ook waar verschillende bedrijven mee bezig zijn.
Verticale applicaties
Omdat de traditionele datamining
klaarblijkelijk in de praktijk een aantal nadelen heeft en er zodoende
vraag is naar een specifiekere, makkelijker toepasbare tool die beter in
het bedrijfsproces valt te integreren,
worden er steeds meer verticale
tools ontwikkeld voor toepassingen
als e-commerce en CRM (Customer
Relationship Management). CRM,
een nieuwe hype, kan worden gebruikt om (realtime) marketing-campagnes te creëren aan de hand van
de gecombineerde gegevens van de
online gebruiker en zijn historische
gegevens. Datamining is één van de
bouwstenen van dit pakket. Blue
Martini Software heeft een dataminingmodule als onderdeel van zijn ecommercepakket. Het pakket stelt
een e-commercewinkel in staat om
zijn klanten één-op-één aanbiedingen te doen en het klantenbestand
en het productenassortiment bij te
houden. Het veranderen van de tools
om zo te integreren in verticale applicaties voor bijvoorbeeld e-commerce
is echter niet zonder problemen. De
redenen hiervoor zijn de volgende:
Opgekocht
ISL Clementine
Hyperparallel
Thinking machines
Bedrijf
SPSS
Yahoo
Oracle
• Dure componenten. Datamining
is meestal slechts één van de vele
componenten in een verticaal
tool, maar een datamininglicentie
is meestal erg prijzig en hierdoor
is het moeilijk een betaalbaar verticaal product te maken.
• Weinig experts. Er zijn te weinig
mensen met genoeg expertise van
alle applicaties die geïntegreerd
moeten worden.
• Meerdere systemen. Meerdere
systemen van verschillende fabrikanten, met verschillende interfaces, moeten worden geïnte-
Website
www.acm.org/sigkdd/
www.kdnuggets.com/
www.cs.bham.ac.uk/~anp/TheDataMine.html
www.upside.com/texis/mvm/story?id=36d4613c0
www.almaden.ibm.com/cs/quest/publications.html
www.crisp-dm.org/
www.eecs.wsu.edu/~hillol/pubs.html
www.megaputer.com
greerd, waardoor dit een lastig
proces kan zijn. Ook zijn, zoals
eerder al gesignaleerd, er voor de
meeste datamining tools geen
API’s gedefinieerd.
Een oplossing van dit probleem zou
kunnen komen van het bedrijf
MegaPuter. Dit bedrijf levert zogenaamde componenten, COM-objecten, waarmee specifieke applicaties
modulair kunnen worden gebouwd
en dus maar voor enkele componenten in plaats van een hele suite
moet worden betaald. Ook dit initiatief mist echter de steun van de
grote spelers en heeft daardoor een
geringe kans op succes.
Toekomst
De laatste jaren zijn in de dataminingbedrijfstak de kleine bedrijven
steeds meer opgeslokt door de gro-
Datum
Juni 1999
Eind 1998
Maart 1999
tere bedrijven die dataminingfunctionaliteit niet als een alleenstaand pakket willen verkopen, maar als onderdeel van een compleet business intelligence pakket of een verticale applicatie.Volgens Robert Groth - consultant en auteur van boeken over datamining - blijven er maar een vier- of
vijftal spelers over op de zogenaamde
horizontale toolmarkt en dit zullen
de huidige grote toolmakers worden.
De zojuist geschetste trend is de laatste tijd dan ook al tot uiting gekomen in de overnames van dataminingbedrijven door grotere spelers.
Opmerkingen
SIGKDD - Special Interest Group on Knowledge
Discovery in Data and Datamining
Voor alles wat met datamining te maken heeft,
inclusief nieuwsbrief
Informatie over research
Artikel over datamining en privacy
Index artikelen IBM Almaden instituut
Informatie over CRISP-DM standaard
Technische artikelen over datamining
COM and OLE in Datamining: Perspectives, benefits and
implementations, Yuri Slenko en Sergie Ananyan, 1997
KM 2000, nummer 3
30
Deze zullen de dataminingcomponent integreren in hun kernactiviteiten. Op de lange termijn zal het voor
sommige toepassingen zo zijn dat
datamining aan de buitenkant niet
meer zichtbaar is. Ook Microsoft
doet aan dataminingactiviteiten. Het
heeft haar OLE DB-specificatie voor
SQL Server uitgebreid met een open
interface om het mogelijk te maken
SQL Server met datamining tools en
applicaties te integreren. ‘Het eindresultaat voor de klant is dat deze
technologie, die meestal duur en
gecompliceerd was, nu een deel kan
worden van de business’, zegt Barry
Goffe van Microsoft [7]. Het domein
van datamining belooft sterk te
groeien door de verdere uitbreiding
van het web en de vele e-commercewinkels. De vraag is of er genoeg
ruimte blijft voor kleine bedrijven
die actief zijn in de markt.‘Deze zullen bepaalde niches moeten ontdekken om te kunnen blijven opereren,
en dit houdt in dat ze hun product
tijdig zullen moeten aanpassen en
verbeteren’, aldus Thierry Zamorra.
Een verdere uitdaging lijkt het verder automatiseren van het marketingproces en de tools nog makkelijker te maken zodat de kans op succes verder kan worden vergroot. Pas
dan zal datamining echt volwassen
zijn.
[5] ODBC: Open DataBase Connectivity;
een standaard database connectieprotocol.
[1] Data mining for fool’s gold, Craig
Stedman. Computer World, december
1997.
[7] Microsoft Plan to Bring Datamining
to the masses. Information week,
25 mei 1999.
[6] An evaluation of High-end Data
Mining tools for Fraud selection, Dean
W. Abbot, I. Philip Matkovsky en John F.
Elder. 1998.
[2] Active templates: Comprehensive
Support for the Knowledge Discovery
Process, Randy Kerber, Hal Beck,
Tej Anand en Bill Smart. American
Association for Artificial Intelligence,
1998.
[3] Data Mining Techniques, For
Marketing, Sales and Customer
Support, Michael J.A Berry en Gorden
Linoff. Wiley Computer Publishing,
1997).
[4] Zie de website KDnuggets voor een
overzicht: www.kdnuggets.com.
Dit artikel is een bewerking van het in
Technieuws 37/9 verschenen artikel
Datamining klaar voor de massa?
De auteur is stagiair bij het kantoor
van technisch-wetenschappelijke
attachés bij de Nederlandse ambassade
in San Mateo, Californië.
Download