Rapportage datamining douane

advertisement
De verbetering van geaccumuleerde
classificatieregels met data mining
Toegepast op invoeraangiften bij de Douane
P.A.W. Jolen
Tilburg, december 2006
Faculteit der Economische Bedrijfswetenschappen
Departement Informatiemanagement
De verbetering van geaccumuleerde
classificatieregels met data mining
Toegepast op invoeraangiften bij de Douane
Afstudeerscriptie
Informatiemanagement
Universiteit van Tilburg
Uitgevoerd bij het Douane Informatiecentrum te Rotterdam in opdracht van PROTECT
Auteur:
P.A.W. Jolen
Anr:
127760
Email:
[email protected]
Begeleider Universiteit van Tilburg:
M. Jeusfeld
Begeleider Douane Informatiecentrum:
R. Geerts
H. Knoester
Examencommissie:
M. Jeusfeld
B.W.M. Bettonvil
I
II
Managementsamenvatting
In dit onderzoek is getracht een antwoord te vinden op de vraag hoe domeinkennis kan
worden geïntegreerd in data mining modellen. Het onderzoek is verricht bij het Douane
Informatiecentrum te Rotterdam. De uiteindelijke onderzoeksvraag is toegepast op de
situatie bij de Douane. Het betreft invoeraangiften uit 2004. De Douane beoordeelt aan
de hand van de gegevens op de ingediende aangifte of deze mogelijk foutief is. Deze
verdeling in goed (conform) en fout (niet conform) is een klassiek classificatieprobleem.
De onderzoeksvraag luidt vervolgens:
Hoe kan de Douane, door een combinatie van domeinkennis en data mining technieken,
tot een betere classificatie van aangiften komen?
De primaire selectie van de aangiften wordt automatisch gedaan middels een
selectiesysteem. Dit systeem is opgebouwd uit regels (business rules, profielen: IFTHEN) waar de aangiften doorheen worden geleid. Dit systeem vertegenwoordigt de
domeinkennis binnen de Douane. Hierna volgt nog een handmatige beoordeling van de
aangifte, hier wordt beslist of er daadwerkelijk tot controle wordt overgegaan.
Als eerste is onderzocht of de profielen overeenkomen met regels die voorkomen
uit een analyse met behulp van data mining technieken. Er is geconstateerd dat maar
met een beperkt deel van de beschikbare data een vergelijking gemaakt kan worden.
Tevens bleek het lastig te achterhalen welk profiel verantwoordelijk was voor een
controle. Uit dit deelonderzoek kan worden geconcludeerd dat er voldoende mogelijkheid
is om de profielen te verbeteren door gebruik te maken van data mining technieken.
Hiernaast is in de vorm van een casestudy bepaald welke techniek het best
geschikt is voor gebruik binnen de Douane. Ook is data mining opgenomen in het
risicoanalyse proces. Drie classificatietechnieken zijn gebruikt, te weten beslisbomen,
neurale netwerken en logistische regressie. Een vereiste is dat de modellen kunnen
worden omgezet in profielen. Dit leidt ertoe dat, ondanks dat het logistische regressie
model het best classificeert, beslisbomen het meest geschikt zijn voor gebruik in het
risicoanalyse proces.
De risicoanalyse bestaat uit verschillende stappen. Voor een goede analyse met
behulp van data mining technieken is het van groot belang dat er een nauwe
samenwerking is met de domeinexperts. Het probleemgebied moet goed afgebakend
worden en de data moet in de juiste vorm gegoten worden. Ook de resultaten van de
analyse worden besproken met de domeinexperts, met als doel een degelijke
risicoafdekking te bewerkstelligen.
Er zijn nog enkele andere zaken naar voren gekomen bij dit onderzoek. De
beschikbaarheid én vorm van de data bijvoorbeeld. Deze kan nog volop verbeterd
worden. Een groot voordeel van analyse met behulp van data mining technieken is dat
het vele malen sneller gaat dan op de huidige manier en dat er effectiever gecontroleerd
kan worden.
III
Voorwoord
Voor u ligt de scriptie “De verbetering van geaccumuleerde classificatieregels met data
mining – toegepast op invoeraangiften bij de Douane”. Dit is het resultaat van mijn
afstudeerstage bij het Douane Informatiecentrum (DIC) te Rotterdam. Deze scriptie
markeert het eindpunt van de studie Informatiemanagement aan de Universiteit van
Tilburg.
Zowel voor mij als het DIC was de stage een nieuwe ervaring. Voor mij was het
zaak de opgedane kennis in de praktijk te brengen om succesvol af te kunnen studeren.
Wat wil zeggen: uit de boeken en het echte werk in! Ik moet zeggen dat het me goed is
bevallen. Het is een zeer leerzame ervaring geweest.
En dat geldt denk ik niet alleen voor mij. Het DIC was namelijk niet bekend met
afstudeerders. In het begin liepen sommige zaken daarom af en toe wat stroef, maar
uiteindelijk is het allemaal goed gekomen, getuige deze scriptie. Mede door ieders
bereidheid een helpende hand te bieden. Mijn vragen over van alles en nog wat werden
graag beantwoord, waarvoor mijn dank. Dit was, zeker in het begin, nodig ook. Ik had al
wel een idee van de Douane, maar als je er middenin zit merk je pas hoe groot en
complex alles is.
Er zijn een aantal mensen die ik in het bijzonder wil bedanken voor hun hulp. Ten
eerste mijn begeleider van de Universiteit, Manfred Jeusfeld, hij heeft me regelmatig
geholpen op het goede spoor te blijven. Ook de begeleiders vanuit de Douane, Henk
Knoester en Rob Geerts, ben ik dank verschuldigd. Henk voor de data mining technische
hulp en Rob voor alles er omheen. Rob’s kennis van de organisatie is van grote waarde
gebleken voor mijn begrip van alle processen. Tevens een woord van dank richting Emiel
Caron, hij was het aanspreekpunt vanuit de Erasmus Universiteit Rotterdam en heeft
vaak goede kritieken geleverd op mijn werk.
Vanwege het feit dat mij ongelimiteerde toegang tot zeer gevoelige informatie is
verstrekt –hiervoor heb ik een geheimhoudingsverklaring moeten ondertekenen- zijn er
twee versies van deze scriptie geproduceerd. Één volledige versie, die alleen voor intern
gebruik bij de Douane bestemd is, en een gecensureerde versie, waar de gevoelige
informatie uitgefilterd is. Voor u ligt de gecensureerde versie. Hieruit zijn alle namen van
de Douanemedewerkers verwijderd of onherleidbaar gemaakt. Tevens zijn de
goederencodes van de geanalyseerde probleemgebieden gecensureerd.
Pieter Jolen,
December, 2006
IV
Inhoudsopgave
Managementsamenvatting................................................................................... III
Voorwoord .........................................................................................................IV
Inhoudsopgave .................................................................................................... V
Hoofdstuk 1
Achtergrond en probleemstelling ........................................................................- 1 1.1 Achtergrond............................................................................................- 1 1.2 Korte beschrijving van de Douane..............................................................- 1 1.3 Onderzoeksvraag en subvragen .................................................................- 2 1.3.1 Onderzoeksvraag...............................................................................- 2 1.3.2 Subvragen........................................................................................- 2 1.4 Wetenschappelijke relevantie ....................................................................- 3 1.5 Bedrijfskundige relevantie.........................................................................- 3 1.6 Onderzoeksmethode ................................................................................- 3 1.7 Opzet van de scriptie ...............................................................................- 4 Hoofdstuk 2
Beschrijving van de Douane...............................................................................- 5 2.1 Inleiding.................................................................................................- 5 2.2 Rechtshandhavingmodel Douane ...............................................................- 5 2.3 Douane Sagitta Invoer .............................................................................- 8 2.3.1 Inleiding...........................................................................................- 8 2.3.2 Risicodatabase ..................................................................................- 9 2.3.3 Risicokennisgroepen ..........................................................................- 9 2.3.4 Douane Informatieafdelingen ..............................................................- 9 2.3.5 Profielbeheer ..................................................................................- 10 2.3.6 Selectie..........................................................................................- 10 2.3.7 Regiekamer + Controle ....................................................................- 10 2.4 Beschikbare data ...................................................................................- 11 2.4.1 Beschrijving aanwezige data .............................................................- 11 2.4.2 Herkomst data ................................................................................- 12 2.4.3 Gecorrigeerde data ..........................................................................- 13 2.5 Data mining bij de Douane......................................................................- 14 2.5.1 Inleiding.........................................................................................- 14 2.5.2 Proof of concept Douane Sagitta Invoer ..............................................- 14 2.5.3 Proof of concept Douane Sagitta Uitvoer .............................................- 14 2.5.4 Huidige data mining activiteiten.........................................................- 15 2.6 Conclusie .............................................................................................- 15 Hoofdstuk 3
Data mining en domeinkennis ..........................................................................- 16 3.1 Inleiding...............................................................................................- 16 3.2 Data mining..........................................................................................- 16 3.2.1 Inleiding.........................................................................................- 16 3.2.2 Classificatie ....................................................................................- 17 3.2.3 Data preparatie ...............................................................................- 17 3.3 Data mining technieken..........................................................................- 17 3.3.1 Beslisbomen ...................................................................................- 17 3.3.2 Logistische regressie ........................................................................- 19 3.3.3 Neurale netwerken ..........................................................................- 20 3.3.4 Overfitting ......................................................................................- 21 3.3.5 Classificatietabellen .........................................................................- 22 3.4 Domeinkennis .......................................................................................- 23 3.5 Vergelijkbare onderzoeken......................................................................- 24 3.6 Conclusie .............................................................................................- 25 -
V
Hoofdstuk 4
Profielen valideren..........................................................................................4.1 Inleiding...............................................................................................4.2 Data preparatie .....................................................................................4.2.1 Data cleaning..................................................................................4.2.2.Data integratie en transformatie ........................................................4.2.3 Data reductie ..................................................................................4.3 Afleiden van regels ................................................................................4.4 Vergelijking profielen en regels................................................................4.5 Tweede validatie ...................................................................................4.6 Verbeteringen .......................................................................................4.7 Conclusie .............................................................................................Hoofdstuk 5
Casestudy druiven..........................................................................................5.1 Inleiding...............................................................................................5.2 Probleemgebied casestudy ......................................................................5.3 Analyse................................................................................................5.3.1 Data preparatie ...............................................................................5.3.2 Beslisboom .....................................................................................5.3.3 Neuraal netwerk..............................................................................5.3.4 Logistische regressie ........................................................................5.3.5 Vergelijking modellen.......................................................................5.4 Terugkoppeling .....................................................................................5.5 Conclusie .............................................................................................Hoofdstuk 6
Data mining in het risicoanalyseproces ..............................................................6.1 Inleiding...............................................................................................6.2 Verschillende stages risicoafdekking .........................................................6.3 Procesbeschrijving met data mining .........................................................6.4 Conclusie .............................................................................................Hoofdstuk 7
Conclusies en aanbevelingen............................................................................7.1 Conclusies ............................................................................................7.2 Aanbevelingen ......................................................................................Literatuuropgave............................................................................................Referenties ................................................................................................Geraadpleegde overheidsstukken ..................................................................Figuren- en tabellenlijst ..................................................................................Afkortingenlijst ..............................................................................................Bijlage I........................................................................................................I.1 Achtergrondinformatie Douane.................................................................I.1.1 Algemene taken Douane ...................................................................I.1.2 Douane Informatiecentrum................................................................I.1.3 Douane Informatieafdelingen .............................................................I.1.4 Risicokennisgroepen .........................................................................I.1.5 Risicodatabase.................................................................................I.1.6 Goederencodes ................................................................................I.2 Kolombeschrijving DSI............................................................................I.3 Betekenis symbolen................................................................................I.3a Aangifteprocedure .............................................................................I.3b Aangiftesymbool ...............................................................................I.3c Landen van verzending/oorsprong/herkomst .........................................I.3d Leveringscondities.............................................................................I.3e Gevraagde regeling ...........................................................................I.3f Voorafgaande regeling........................................................................I.3g Vrijstellingsregeling ...........................................................................-
VI
26
26
26
26
27
28
29
30
31
32
34
-
35
35
35
36
36
37
38
39
41
43
44
-
46
46
46
47
49
-
50
50
52
54
54
56
58
59
60
60
60
62
63
63
64
64
66
67
67
67
68
68
68
69
69
-
Bijlage II.......................................................................................................II.1 Data preparatie ....................................................................................Bijlage III .....................................................................................................III.1 Kengetallen geselecteerde goederen .......................................................III.2 Gebruik van training, validatie en test set in SAS EM ................................III.3 Gecorrigeerde goederencodes per goed...................................................III.4 Profielen en regels per goederencode......................................................III.5 Classificatietabellen per goederencode ....................................................Bijlage IV ......................................................................................................IV.1 Kengetallen druiven..............................................................................IV.2 Classificatietabellen beslisbomen ............................................................IV.3 Classificatietabellen neurale netwerken ...................................................IV.4 Frequentietabel per variabele .................................................................IV.5 Afgeleid logistisch regressie model..........................................................IV.6 Classificatietabellen logistische regressie modellen ....................................Bijlage V .......................................................................................................V.1 Overzicht van het gebruik van domeinkennis in een data mining project .......Bijlage VI ......................................................................................................VI.1 Gespreksverslagen ...............................................................................VI.1a Gespreksverslag Risicodatabase ........................................................VI.1b Gespreksverslag Profielbeheer...........................................................VI.1c Gespreksverslag risicokennisgroep .....................................................VI.1d Gespreksverslag Douane Informatieafdeling ........................................VI.1e Gespreksverslag domeinexperts ........................................................VI.1f Gespreksverslag druiven case ............................................................-
VII
70
70
71
71
71
72
72
76
78
78
78
79
80
81
81
83
83
84
84
84
84
85
85
86
86
-
“The greatest obstacle to discovery is not ignorance - it is the illusion of knowledge”
(Daniel J. Boorstin – 1914-2004)
VIII
Achtergrond en probleemstelling
Hoofdstuk 1
Achtergrond en probleemstelling
1.1 Achtergrond
Dit onderzoek is onderdeel van een subproject van het TRANSUMO 1 (Transition to
Sustainable Mobility) project PROTECT 2 (Protecting people, planet and profit) genaamd
“Threat analysis in global supply chains”. In dit subproject wordt gekeken naar
technieken om verdachte activiteiten te ontdekken door gebruik te maken van aanwezige
data in informatiesystemen voor vrachtvervoer. Ook wordt gezocht naar technieken om
uit andere informatiebronnen mogelijk verdachte activiteiten te ontdekken. Meer
specifiek heeft PROTECT zich als doel gesteld om technieken voor Business Intelligence
te evalueren, te ontwikkelen en toe te passen ten behoeve van logistieke
informatiesystemen gebaseerd op (risico)profielen. Mijn onderzoek is een onderdeel van
een lopend onderzoeksprogramma genaamd “The integration of data mining models with
domain knowledge for business decision-making”. Dit programma maakt deel uit van het
RSM 3 Erasmus Universiteit Rotterdam 4 onderzoeksprogramma in logistiek en
informatiesystemen. De Erasmus Universiteit Rotterdam en PROTECT zijn een
samenwerking aangegaan op dit onderzoeksgebied.
Het onderzoek is verricht bij het Douane informatiecentrum (DIC) in Rotterdam.
Het DIC is onderdeel van de Nederlandse Douane en heeft als taak de Douane te
voorzien in haar informatiebehoeften. Hiervoor is onder andere een data mining groep
ingesteld. Deze heeft in 2005 de proof-of-concept fase afgerond. Data mining is nu ook
een middel om in de informatiebehoeften van de organisatie te voorzien.
Jaarlijks komen er miljoenen containers de haven van Rotterdam binnen. De
Douane verzamelt de aangiftegegevens van deze containers. Aan de hand van die
gegevens wordt bepaald of een container “verdacht” of “niet verdacht” is, er moet dus
een classificatie probleem worden opgelost. Dit proces is deels geautomatiseerd, een
ander deel gebeurd nog handmatig. Door dit proces te optimaliseren kan veel tijd en geld
bespaard worden.
T
1.2 Korte beschrijving van de Douane
De Douane maakt onder andere gebruik van een informatiesysteem genaamd “Douane
Sagitta Invoer” (DSI). Dit systeem bestaat uit verschillende onderdelen:
aangifteregistratie van de goederen, risicoanalyse en selectie. De selectie wordt gedaan
door een module in DSI. Hierin staan de zogenaamde risicoprofielen 5 . Deze zijn bepaald
met behulp van interviews met selecteurs en andere experts. De Douane gebruikt de
risicoprofielen om een kwantitatieve risico-index aan een bepaalde aangifte te geven.
Wanneer de risico-index een drempelwaarde overschrijdt krijgt de selecteur hiervan
bericht. Hij beoordeeld dan of de risico-index terecht is en of er tot inspectie overgegaan
moet worden. Inspectie kan een fysieke controle inhouden, bijvoorbeeld een
containerscan, maar ook een administratieve controle behoort tot de mogelijkheden.
Bovenstaande wordt weergegeven in figuur 1-1.
1
zie http://www.transumo.nl
zie http://protect.transumo.nl
3
zie http://www.rsm.nl
4
zie http://www.eur.nl
5
Een risicoprofiel is een IF-THEN regel. Synoniemen hiervoor zijn o.a. profiel, (beslis)regels, classificatieregels,
business rules. In dit verslag worden deze bewoordingen door elkaar gebruikt.
2
-1-
Achtergrond en probleemstelling
Verdachte
aangiften
Invoer
aangiften
aangiften
Selectie op
basis van
profielen
Selectie door
selecteur
Controle
Administratieve
afhandeling
Administratieve
afhandeling
aangiften
Figuur 1-1 Aangifteregistratie, -analyse en -selectie
1.3 Onderzoeksvraag en subvragen
1.3.1 Onderzoeksvraag
Mijn onderzoek valt binnen het onderzoeksgebied Business Intelligence. Dit kan worden
omschreven als het proces om gegevens om te zetten in informatie, die dan tot kennis
leidt. Ik richt me hierbij op data mining. Er bestaan verschillende definities voor data
mining, dit is een algemene: “data mining is het onderzoeksveld waarbij getracht wordt
om op een geautomatiseerde manier patronen en relaties te ontdekken in grote
hoeveelheden gegevens” [de Rijke, 2006].
Een aspect dat nauw gerelateerd is aan data mining is domeinkennis.
Domeinkennis kan worden omschreven als kennis die niet expliciet is benoemd in een
database. Over het algemeen wordt domeinkennis gebruikt om de effectiviteit en de
efficiency van een data mining model te vergroten. Een andere reden is dat door gebruik
te maken van deze kennis transparantie van het data mining model vergroot wordt.
De combinatie van domeinkennis en data mining technieken toegepast op de
omgeving waarbinnen de Douane werkt leidt tot de volgende onderzoeksvraag:
Hoe kan de Douane, door een combinatie van domeinkennis en data mining technieken,
tot een betere classificatie van aangiften komen?
1.3.2 Subvragen
Om de onderzoeksvraag te beantwoorden zijn een aantal subvragen opgesteld. Deze zijn
onder te verdelen in twee delen. Ten eerste het literatuur deel, de beschrijving van
domeinkennis en data mining. Ten tweede is er het praktische onderzoek. Deze vragen
moeten beantwoord worden om een onderbouwd antwoord te kunnen geven op de
onderzoeksvraag.
Literatuur deel (A):
(1) Wat is data mining?
(2) Welke data mining technieken zijn er?
(3) Wat zijn de voor- en nadelen van deze data mining technieken?
(4) Welke data mining technieken kunnen business rules als output produceren?
(5) Wat is domeinkennis?
Praktisch deel (B):
(1) Hoe wordt domeinkennis bij de Douane gebruikt?
(2) Is er door gebruik te maken van data mining technieken validatie te vinden voor
de bestaande profielen?
-2-
Achtergrond en probleemstelling
(3) Welke data mining techniek is het best bruikbaar binnen de Douane?
(4) Hoe kan data mining worden geïntegreerd in het risicoanalyseproces?
1.4 Wetenschappelijke relevantie
In dit onderzoek wordt bekeken hoe domeinkennis het best gecombineerd kan worden
met data mining technieken. Data mining technieken zijn over het algemeen “data
driven”, ze kijken alleen naar de data. Hierbij wordt geen gebruik gemaakt van
aanwezige kennis in organisaties. Kennis die voor mensen misschien evident is, maar
voor een machine niet. Als deze kennis wordt geïntegreerd in een data mining model,
kan dit leiden tot betere resultaten. Het doel is dit op een manier te doen die tot de beste
resultaten leidt. Wat er wordt verstaan onder “de beste” is per organisatie verschillend.
Bij de Douane gaat het erom aangiften zo goed mogelijk te classificeren in “conform” en
“niet conform” met de bestaande wet- en regelgeving.
1.5 Bedrijfskundige relevantie
Momenteel maakt de Douane voor de classificatie van aangiften gebruik van profielen
(business rules). Deze zijn, en worden, opgesteld aan de hand van expertsessies.
Wanneer een aangifte als mogelijk verdacht (niet conform) wordt aangemerkt volgt een
nadere controle door een zogenaamde selecteur. Deze bekijkt of de profielen werkelijk
van toepassing zijn op de betreffende zending. Dit blijkt nogal eens niet het geval te zijn.
Er zitten dus onvolkomenheden in de, door mensen opgestelde, profielen. En dit is ook
niet vreemd gegeven het feit dat er ontzettend veel gegevens beschikbaar zijn, waarop
de profielen gebaseerd zijn.
Met behulp van verschillende data mining technieken kunnen ook profielen
gegenereerd worden. Een onderdeel van dit onderzoek is de vergelijking tussen de door
de Douane opgestelde profielen en de door data mining technieken afgeleide profielen.
Hierbij wordt ook gekeken naar een combinatie van beide, i.e. de huidige profielen en de
profielen afkomstig uit data mining technieken. Het uiteindelijke doel is om tot een
betere classificatie te komen van aangiften. Dit leidt tot besparing van tijd en geld in
meerdere opzichten. De selecteurs hebben minder aangiften te behandelen omdat er
minder aangiften onterecht als verdacht worden aangewezen. Een gevolg hiervan kan
zijn dat de controleteams minder onnodige, tijdrovende en kostbare, controles uitvoeren.
1.6 Onderzoeksmethode
Het onderzoek begint met een beschrijving van de Douane organisatie. Deze wordt
gemaakt door het combineren van interne Douane informatie -interne stukken zoals
stukken op het intranet en overige documenten- en interviews met mensen die op een
betreffende relevante afdeling werken. Dit zal worden onderverdeeld in twee delen. Een
deel beschrijft de algemene kant van de verschillende afdelingen, dit deel is opgenomen
in bijlage I.1. Het andere deel beschrijft hoe de profielen tot stand zijn gekomen.
Hierna komt een literatuurstudie naar data mining (technieken) en domeinkennis.
Het doel hiervan is om een beschrijving te geven van data mining in het algemeen en de
verschillende data mining technieken. Hetzelfde geldt voor domeinkennis. Wat is het, wat
heb je eraan en in hoeverre zijn er voorbeelden in de literatuur waar domeinkennis en
data mining technieken worden gecombineerd?
Vervolgens volgt, middels empirisch onderzoek, de toepassing van de
verschillende data mining technieken. Voor de data preparatie en selectie wordt SAS 6
6
zie http://www.sas.com
-3-
Achtergrond en probleemstelling
Enterprise Guide gebruikt. Het resultaat van de bewerking wordt geladen in SAS
Enterprise Miner waar de verschillende modellen gerund worden. Het vergelijken van de
modellen gebeurd ook in Enterprise Miner, deze kan grafisch en aan de hand van
kengetallen een vergelijking van de gebruikte technieken geven. Hiernaast wordt SPSS
gebruikt voor de statistische data mining technieken.
1.7 Opzet van de scriptie
Hier volgt een korte beschrijving van de opzet van de scriptie. In Hoofdstuk 2 wordt de
Douane organisatie beschreven. Alle afdelingen die met het aangifteproces te maken
hebben komen ter sprake. Van iedere afdeling wordt beschreven welke rol zij spelen in
het proces en van wie ze afhankelijk zijn. Het geheel is de praktische invulling van
werken met domeinkennis bij de Douane.
Hoofdstuk 3 beschrijft de theorie omtrent data mining en domeinkennis. Hier
wordt uitgebreid ingegaan op data mining. Eerst volgt een beschrijving van wat data
mining precies is. Daarna worden de verschillende technieken en de voor- en nadelen
van deze technieken beschreven. Verder wordt wat dieper ingegaan op de data mining
technieken die gebruikt zijn. Ook wordt er besproken op welke manier de verschillende
technieken met elkaar vergeleken kunnen worden.
In Hoofdstuk 4 wordt bekeken in hoeverre de bestaande profielen (i.e. de
domeinkennis) overeenkomen met regels die zijn afgeleid middels beslisbomen. Hiervoor
is eerst preparatie van de data vereist, waarbij een selectie gemaakt wordt op basis van
geschiktheid. Na de preparatie worden beslisregels afgeleid, welke worden vergeleken
met de bestaande profielen. Hierna worden bestaande profielen als startpunt genomen.
Op basis daarvan wordt een data selectie gemaakt. Wederom wordt bekeken in hoeverre
er overlap is te vinden. Vervolgens wordt beschreven wat de gevolgen zijn voor de
risicoafdekking wanneer de profielen worden bepaald door data mining analyses.
In Hoofdstuk 5 wordt de domeinkennis expliciet betrokken bij de data mining
technieken. Bekeken zal worden of er significant betere modellen te ontwikkelen zijn
wanneer je wel van de kennis gebruik maakt die er vooraf is. Er worden verschillende
technieken gebruikt om eveneens te bekijken welke techniek het best geschikt is voor
gebruik binnen de Douane.
Hoofdstuk 6 behandelt de integratie van data mining in het risicoanalyseproces
van de Douane. Hier komt een voorstel ter verbetering in de vorm van een
procesbeschrijving uit voort om domeinkennis en data mining zo goed mogelijk te
combineren. Er wordt aangegeven waar data mining van waarde is in het gehele proces.
Ook wordt de belangrijkheid van domeinkennis per onderdeel van het data mining proces
uiteengezet. In dit hoofdstuk wordt ook aangegeven wat de beperkingen zijn in het
gebruik van data mining in de omgeving van de Douane.
Het afsluitende Hoofdstuk (7) zal een samenvatting geven van de scriptie. De
belangrijkste bevindingen worden hier nog eens opgesomd. De aanbevelingen sluiten de
scriptie af.
-4-
Beschrijving van de Douane
Hoofdstuk 2
Beschrijving van de Douane
2.1 Inleiding
Het vorige hoofdstuk heeft een inleiding gegeven op het onderzoek dat verricht is. De
onderzoeksvragen zijn er opgesteld en de context van het onderzoek is beschreven. In
dit hoofdstuk wordt de Douane nader beschreven. In bijlage I.1 is achtergrondinformatie
opgenomen over de Douane, haar taken en de verschillende afdelingen die een rol spelen
bij de risicoafdekking. Deze beschrijving is aan te raden voor mensen die onbekend zijn
met de Douane. Ook is in de bijlage, een subparagraaf opgenomen over goederencodes,
een identificerende code waar veel mee gewerkt zal worden.
In paragraaf 2.2 wordt het rechtshandhavingmodel van de Douane besproken. Dit
is de basis van de risicobeheersing. Verder wordt in deze paragraaf een processchema
gegeven dat de risicoanalyse weergeeft.
Paragraaf 2.3 gaat dieper op een onderdeel van de Douane in, namelijk de
aangifte voor in te voeren goederen en de daaraan gekoppelde risico-identificatie,
Douane Sagitta Invoer. Van alle afdelingen die een rol spelen in dit proces wordt een
beschrijving gegeven. Uiteindelijk zal duidelijk zijn welke rol iedere afdeling heeft in het
risico-identificatieproces en hoe de profielen tot stand zijn gekomen.
In paragraaf 2.4 volgt een beschrijving van de data waarmee gewerkt zal worden.
Paragraaf 2.5 geeft de resultaten van de verschillende proofs of concept die het Douane
Informatiecentrum heeft uitgevoerd. Hier is op verschillende datasets gedatamined met
als doel het nut van data mining binnen de organisatie aan te tonen.
Afsluitend volgt in paragraaf 2.6 een samenvatting/conclusie met de belangrijkste
bevindingen van dit hoofdstuk.
2.2 Rechtshandhavingmodel Douane
Binnen de Belastingdienst wordt risicobeheersing omschreven als “een systematische
werkwijze gericht op het bestrijden van non-compliance 7 ”. Hiertoe is het noodzakelijk dat
de kans op non-compliance in kaart gebracht wordt. Vervolgens moet worden nagegaan
hoe dit kan worden ontdekt, en hoe er tegen kan worden opgetreden. Dit is een continu
proces, want risico’s zijn niet statisch. Het rechtshandhavingmodel Douane (RMD) vormt
de basis voor de risicogerichte aanpak. Deze bevat een aantal onderdelen, die samen de
leercirkel vormen. Deze is weergegeven in figuur 2-1.
7
Hiermee wordt aangesloten bij de strategische doelstelling van de Belastingdienst; waarbij ernaar wordt
gestreefd dat belastingplichtigen hun (wettelijke) verplichtingen vrijwillig nakomen.
-5-
Beschrijving van de Douane
Risicovinding
Evaluatie
Risicoanalyse
Afdekking
Voorbereiding
Detectie
Figuur 2-1 Leercirkel van het RMD
De leercirkel kent zes onderdelen. Ieder onderdeel wordt hieronder toegelicht.
• Risicovinding: de risicovinding kent twee soorten herkomsten. Ten eerste, een
“ontvangen signaal”, dit is een signaal dat men krijgt van bijvoorbeeld een
douanemedewerker of de Europese Commissie. Ten tweede zijn er signalen uit
eigen analyses. Waarbij het Douane Informatiecentrum (DIC), de Douane
Informatieafdelingen (DIA) of de Risicokennisgroepen (RKG) 8 zelf onderzoek
doen.
• Risicoanalyse: risicoanalyse is een systematisch onderzoek aan de hand waarvan
wordt beslist of een risico aangepakt moet worden. Dit onderzoek kent drie
vragen die beantwoord worden; 1) Is er een theoretisch risico ja/nee? (kan er een
risico zijn?); 2) Is er een potentieel risico ja/nee? (komt het risico voor? Zo ja,
hoe vaak en wat is de impact?); 3) Is het een relevant risico ja/nee? (wordt het
risico aangepakt? En zo ja hoe?)
• Voorbereiding: Bij de voorbereiding wordt ervoor gezorgd dat het af te dekken
risico ook daadwerkelijk afgedekt kan worden. Dit gaat op voor verschillende
aspecten, denk aan de vereiste logistiek voor een controleactie en bijvoorbeeld
scholing voor de controleurs.
• Detectie: Detectie is het vaststellen of het relevante risico zich ook voordoet.
• Afdekking: Afdekking omvat de maatregelen, die worden genomen om bevonden
risico’s te bestrijden. Bijvoorbeeld het intrekken van de vergunning van een
importeur.
• Evaluatie: Bij de evaluatie wordt onderzocht of de gekozen aanpak juist is en of
deze aanpassing behoeft.
De onderdelen van de leercirkel gerelateerd aan het tot stand komen van de profielen
kunnen worden weergegeven in een processchema. Het processchema is in DFD notatie 9
[Yourdon, 1999] weergegeven in figuur 2-2. Hierbij is per proces aangegeven welke
afdeling(en) hiervoor verantwoordelijk zijn. De cijfers tussen haakjes staan voor:
1. Risicodatabase
2. Risicokennisgroep
3. Profielbeheer
4. Douane Informatieafdeling
5. Douane Informatieafdeling, Pro Actief.
8
Zie voor een uitgebreide beschrijving van DIC, DIA en RKG bijlage I.1
In DFD’s is normaal gesproken geen te volgen volgorde. In dit schema is dat wel het geval. Vanaf de
aanleveraar van het risicosignaal kunnen de pijlen gevolgd worden die per risico de te volgen stappen
weergeven. Er is voor DFD notatie gekozen, in plaats van een standaardstroomschema, omdat bij een DFD de
processen (functies [Yourdon, 1999]) centraal staan en niet de datastromen. De processen zijn op deze manier
eenvoudig te koppelen aan de afdelingen bij de Douane.
9
-6-
Beschrijving van de Douane
Aanleveraar
risicosignaal
Beoordeling
signaal
(1)
Ontvangen signaal
Potentieel risico
Ontwikkelen
(SPOED)
(1,3)
Geen risico
Risicodatabase
Evalueren
risicoafdekking
(4)
Later/niet ontwikkelen
Aan te passen risico
Beoordeling
risico
(1,2)
Implementeren
(SPOED)
(3)
Ontwikkel
risico
(2,5)
DSI
profielbeheer
Risico
onderzoeken
(2,5)
Impact testen
(4)
Relevant risico
Implementeren
risico
(3)
Te evalueren risico’s
Figuur 2-2 Processchema risicoanalyse
In de volgende paragraaf worden aan de hand van dit schema de taken van de
verschillende douaneonderdelen beschreven.
-7-
Beschrijving van de Douane
Veiligheid, gezondheid, economie en milieu
Nauw gerelateerd aan het RMD is de controle op de naleving van wetgeving op het
gebied van veiligheid, gezondheid, economie en milieu, afgekort als VGEM. Deze
wetgeving schrijft voor dat invoer, uitvoer of vervoer van bepaalde goederen in
Nederland en/of de Europese Unie verboden is, of alleen is toestaan als wordt voldaan
aan (strenge) voorwaarden, of als de goederen aan bepaalde eisen voldoen. De
wetgeving op deze gebieden kan voortkomen uit andere ministeries. Vanwege de
specifieke kennis en ervaring bij de Douane zijn zij aangewezen als handhavers van de
VGEM wet- en regelgeving 10 . [BLD02]
2.3 Douane Sagitta Invoer
2.3.1 Inleiding
Goederen die vanuit een niet-Europese Unie (EU) land (niet-communautair) de EU
(communautair) binnenkomen zijn aan een aantal regels gebonden. Een hoofdregel is dat
de goederen een Douanebestemming moeten krijgen. Dit kan ondermeer gedaan worden
door ze onder een Douaneregeling te plaatsen. Er worden vijf Douaneregelingen
onderscheiden. Deze zijn: in het vrije verkeer brengen, actieve- en passieve veredeling,
tijdelijke invoer en behandeling onder douane toezicht [BLD03]. Een beschrijving van de
regelingen valt buiten de scope van dit onderzoek, het komt erop neer dat bij iedere
regeling een aangifte gedaan moet worden. Deze aangifte wordt vervolgens door de
Douane op juistheid gecontroleerd. Jaarlijks worden er miljoenen invoeraangiften
ingediend. Het is onbegonnen werk om deze stuk voor stuk op juistheid te controleren.
Daarom is Douane Sagitta Invoer (DSI) ontwikkeld. Dit is een informatiesysteem dat een
risicoselectie doet aan de hand van ingediende aangiften. Het centrale punt in DSI zijn de
zogenaamde risicoprofielen. Een risicoprofiel is een regel die een bepaald risico
vertegenwoordigt. Ze hebben de vorm van IF-THEN regels. Een dergelijke regel zou
kunnen zijn:
IF landVanHerkomst = “Colombia” AND goederenBeschrijving = “wit poeder”
THEN risico = hoog
Risicoprofielen vallen allemaal onder een Controle Opdracht. De Controle Opdracht omvat
het risico, de profielen zijn de effectuering van de Controle Opdracht. Één Controle
Opdracht kan meerdere profielen bevatten. Alle risicoprofielen worden verzameld in één
systeem. Dit systeem is een module binnen DSI en bevat een verzameling van alle
risicoprofielen. Deze module kan gezien worden als een expertsysteem 11 . Iedere aangifte
wordt door dat systeem geleid. Wanneer er een aangifte is die dezelfde karakteristieken
heeft als één of meerdere van de profielen dan geeft het systeem een output. De
betreffende aangifte is dan “geraakt” door het profiel. De output is een kleur die de mate
van verdachtheid weergeeft.
Voordat er een profiel wordt geschreven, moet er eerst een risico geconstateerd
worden. Het proces waarbij een risico tot een profiel leidt wordt hieronder beschreven.
Achtereenvolgens komen de risicodatabase (2.3.2), de risicokennisgroepen (2.3.3), de
Douane informatieafdelingen (2.3.4), profielbeheer (2.3.5), de selecteurs (2.3.6), de
regiekamer + controle (2.3.7) aan bod. Van iedere afdeling wordt besproken wat de rol is
bij het tot stand komen van een risicoprofiel. Het gehele proces is weergegeven in figuur
2-2.
10
Een uitgebreid overzicht van de VGEM taken van de Douane en de ministeries verantwoordelijk voor de
wetgeving is te vinden op http://www.douane.nl/zakelijk/vgem/vgem-03.html.
11
Een expertsysteem is een tool om de kwaliteit en beschikbaarheid van benodigde kennis voor besluitnemers
te vergroten. Ze breiden conventionele programma’s zoals databases, tekstverwerking en spreadsheet analyses
uit [Boss, 2000].
-8-
Beschrijving van de Douane
2.3.2 Risicodatabase
Alle signalen in de risicodatabase worden beoordeeld met als doel de kwaliteit hoog te
houden. Waar nodig wordt om extra informatie gevraagd. Bijvoorbeeld: een ingevoerd
risico zou kunnen zijn dat er verdachte activiteiten zijn geconstateerd bij loods x. Om het
risico concreter te maken is er meer informatie nodig, zoals de tijd en de precieze
omschrijving van de “verdachte activiteit”. De risico’s worden gebundeld en ingedeeld in
de groepen die verantwoordelijk zijn voor de behandeling van de risico’s. Vervolgens is
het aan de verantwoordelijke om het risico op te pakken en actie te ondernemen.
Waarbij het Centraal Punt de doorlooptijd van het risico bewaakt. Eerst wordt bepaald of
er direct, later of niet ontwikkeld wordt. Hierna volgt de verdere analyse, die in de
volgende paragraven wordt toegelicht. Wanneer er spoed is, bijvoorbeeld wanneer er
goederen al onderweg zijn, wordt er door het Centraal Punt (bijvoorbeeld) in
samenwerking met Profielbeheer een profiel opgesteld. Dit wordt dan direct geactiveerd
om de goederen te kunnen onderscheppen.
2.3.3 Risicokennisgroepen
Een risicokennisgroep (RKG) heeft inzicht in de risicodatabase. Zij bepalen welke
risicosignalen, die aan hen zijn toegewezen, het eerst worden behandeld. Dit gebeurt op
basis van de expertise die deze mensen hebben. Zij verrichten een onderzoek op basis
van de signalen die uit de risicodatabase komen. Hierna wordt bepaald of er actie
ondernomen moet worden om het risico af te dekken. Wanneer dat het geval is, kan de
risicokennisgroep vier mogelijke acties ondernemen. Ten eerste; een profiel op laten
stellen voor SBB, DSI, DSU of Koerier. Hiervoor is een standaardformulier aanwezig dat
ingevuld wordt. Dit wordt doorgestuurd naar de DIA die het daadwerkelijke profiel
controleert en zo nodig schrijft. Ten tweede kan er een opdracht voor Controle na Invoer
(CNI) worden gegeven. Dit houdt in dat er achteraf een controle plaatsvindt. De
betreffende aangifte wordt dan gecontroleerd op volledigheid en juistheid. Ten derde zijn
er de administratieve controles. Deze zijn uitgebreider dan de CNI’s. Hierbij wordt
afhankelijk van de situatie de gehele administratie van een bedrijf of de goederenstroom
aan een nader onderzoek onderworpen. Daarnaast kan het hier gaan om controles op
basis van accijnswetgeving. Bijvoorbeeld het controleren op juistheid van de teruggaaf
verzoek accijns op minerale olie. De vierde mogelijkheid is een gerichte actie, dit is
meestal een actie voor fysiek toezicht. Vaak zijn deze gericht op een enkel persoon of
een goed. Bijvoorbeeld controle op illegale sigaretten. Een ander voorbeeld is een
controle op een persoon die vermoedelijk op rode gasolie rijdt.
2.3.4 Douane Informatieafdelingen
Zodra de risicokennisgroep een risico heeft geïdentificeerd dat moet worden afgedekt
sturen zij hiervoor een opdracht naar de Douane Informatieafdeling (DIA). Wanneer er
een profiel moet worden opgesteld, wordt dit door de DIA gedaan. Aan de hand van de
opzet van de RKG concretiseren zij het profiel en de overige parameters. Bij de overige
parameters moet men denken aan de ingangs- en vervaldatum, de controlediepgang en
het selectiepercentage. De ingangs- en vervaldatum geven de looptijd van een profiel
aan. Dit kan een aantal maanden zijn maar ook tot in het oneindige. De controlediepgang
is de wijze van controle. Hierbij worden oranje en rood onderscheiden. Oranje is een
controle aan de hand van bescheiden. Een rode controlediepgang houdt een fysieke
controle in. Het selectiepercentage is de kans dat de zending die een profiel geraakt heeft
nader wordt onderzocht. Voordat een profiel wordt doorgestuurd naar profielbeheer laat
men het langs oude aangiften lopen. Aan de hand van het aantal hits, de impact, wordt
het selectiepercentage bepaald. Dit is mede afhankelijk van het aantal te behandelen
-9-
Beschrijving van de Douane
aangiften (i.e. het aantal selecteurs/controleurs, zie 2.3.6 en 2.3.7) en de belangrijkheid
van het risico.
Naast de opdrachten van de RKG’s heeft iedere DIA ook enkele hoofdstukken van
de Gecombineerde Nomenclatuur toegewezen gekregen. Zij doen voor de goederen
binnen deze hoofdstukken hetzelfde als de risicokennisgroepen. Dit valt onder de
zogenaamde “Pro Actief” groep van de DIA’s. Wanneer een risico is geïdentificeerd wordt
verdere actie ondernomen. Ieder profiel wordt, voordat het wordt doorgestuurd naar
profielbeheer, vergeleken met bestaande profielen. Dit om overlap en doublures te
voorkomen.
Evaluatie
Evaluatie van de Douane Sagitta Invoer profielen wordt gedaan door de DIA’s. Zoals
hierboven is toegelicht heeft ieder profiel een bepaalde looptijd. Aan het eind van de
looptijd wordt het profiel geëvalueerd. Het aantal keer dat geraakt is, de acties van de
selecteurs en het resultaat van de actie worden dan bekeken. Aan de hand daarvan
wordt bepaald of er een aanpassing van het profiel nodig is of dat het profiel verwijderd
kan worden. Mocht dit niet direct vast te stellen zijn dan volgt er nader onderzoek. Het
risicoprofiel wordt overgedragen aan de risico-eigenaar. Na zijn onderzoek geeft hij
advies over de door te voeren veranderingen. Bij langlopende profielen wordt er ook
tussentijds gecontroleerd.
2.3.5 Profielbeheer
Profielbeheer heeft als taak de profielen in Douane Sagitta Invoer in te voeren. Het
werkelijke profiel wordt ingevoerd alsmede enkele andere gegevens waaronder de
beredenering voor het profiel. Inmiddels zijn er sinds het begin in 1985 ongeveer 9.000
profielen ingevoerd. Een fractie hiervan is nog in gebruik. Immers, mocht een profiel
overbodig worden dan wordt deze uit het systeem verwijderd. Het kan voorkomen dat
een geïdentificeerd risico direct moet worden ingevoerd in het systeem. Dit is het geval
wanneer er spoed is vanuit de risicodatabase. In een dergelijk geval wordt het risico door
profielbeheer omgezet in een profiel en direct in het systeem gezet.
2.3.6 Selectie
Alle aangiften die geraakt zijn komen in een applicatie te staan. De selecteurs bekijken
van iedere aangifte of deze terecht is aangewezen als risicovol. Het kan voorkomen dat
een aangifte wel door een profiel geraakt wordt, maar dat het profiel niet van toepassing
is op die aangifte. Een aanwijzing hiervoor kan de beredenering voor het risico zijn, die
bij het geraakte profiel vermeld staat. Een profiel kan te ruim opgesteld zijn bijvoorbeeld.
In principe wordt iedere aangifte die een rood risico meekrijgt ook daadwerkelijk fysiek
gecontroleerd. Wanneer mogelijk wordt een controle achteraf uitgevoerd. Mocht een
aangifte aangewezen worden voor controle en de selecteur bepaald dat dit onterecht is
dan wordt deze aangemerkt als “groen” en alsnog administratief afgedaan.
2.3.7 Regiekamer + Controle
Voor de volledigheid worden de regiekamer en controleurs genoemd. Zij spelen indirect
een rol in het geheel. Een uitgebreide beschrijving valt buiten de scope van deze scriptie.
De regiekamer stuurt de verschillende controlediensten aan. Nadat een selecteur heeft
bepaald dat er daadwerkelijk een controle nodig is, wordt de regiekamer ingeschakeld.
Deze verdeelt de controleopdrachten op een zo efficiënt mogelijke wijze.
Een controleur controleert of een aangifte daadwerkelijk conform of niet-conform
is. Dit kan zijn door een fysieke controle (FyCo). Hierbij wordt bekeken of het op de
- 10 -
Beschrijving van de Douane
aangifte opgegeven goed daadwerkelijk in de container zit. Een andere mogelijkheid is
een administratieve controle. Hier wordt achteraf de administratie van bijvoorbeeld de
importeur gecontroleerd op fouten. De resultaten van de controles worden
teruggekoppeld en de aangiften worden aangepast.
2.4 Beschikbare data
2.4.1 Beschrijving aanwezige data
De data waarmee in dit onderzoek gewerkt wordt komt uit Douane Sagitta Invoer.
Hiervan zijn beschikbaar de data van de jaren 2002, 2003, 2004 en de eerste helft van
2005. In totaal zijn dit ruim tien miljoen records, zie tabel 2-1.
Dataset
Records
SIAVJ_2002
2.671.185
SIAVJ_2003
2.986.025
SIAVJ_2004
3.078.416
SIAVJ_2005
2.064.110
SI_1XPL_2004 12 (Ongecorrigeerd)
3.079.107
Tabel 2-1 Aanwezige datasets
De uitgebreide varianten van de datasets uit tabel 2-1 bevatten 215 variabelen. Het
merendeel hiervan is optioneel en wordt zelden ingevuld. Daarom wordt hier gewerkt
met een beperkte dataset. In iedere tabel staan de gegevens van 64 relevante
variabelen. Deze worden in bijlage I.2 beschreven.
Alle waarden met “SI” aan het begin zijn gegevens die direct uit de aangiften
komen. De waarden met een “c” aan het begin zijn “computed”. Ze zijn verkregen door
een koppeling met een andere tabel of door een bewerking van een “SI”-cel. Niet alle
kolommen worden gebruikt als input voor data mining. Dit heeft verschillende redenen.
Ten eerste zou het hele proces onnodig ingewikkeld gemaakt worden door het hoge
aantal variabelen. Ten tweede is er vaak een hoge correlatie tussen twee of meer
variabelen. Zoals bijvoorbeeld het geval is bij de postcode en de plaats van de importeur.
Ook komen er kolommen voor die optioneel zijn en grotendeels niet gevuld zijn, en
daardoor onbruikbaar. Dit geldt ook voor kolommen die louter niet gestandaardiseerde
tekst bevatten. En als laatste zijn er kolommen waarvan het zeer onwaarschijnlijk is dat
deze een oorzakelijk verband hebben met het wel of niet conform zijn van een aangifte,
denk hierbij bijvoorbeeld aan een datum 13 . In tabel 2-2 is te zien welke variabelen
gebruikt worden voor de analyse. In de kolom bijlage staat een eventuele verwijzing naar
de bijlage als toelichting op de voorkomende waarden/symbolen.
Veldnaam
Toelichting
Bijlage
SI_Apunt
Aamgiftepunt
-
SI_Agevnr
Aangever
-
SI_Aproc
Aangifteprocedure
I.3a
SI_Asymbl
Aangiftesymbool
I.3b
SI_Geadr
Geadresseerde / Importeur (BTWnummer)
-
SI_LandVz
Land van Verzending
I.3c
SI_LandBes
Land van Bestemming
I.3c
SI_LevCond
Leveringscondities
I.3d
12
Deze tabel is tot mijn beschikking gekomen door de alertheid van HK. Hij herinnerde zich dat deze data ook
is gebruikt in de proof of concept fase. Er is wel een verzoek gedaan nnaar de ongecorrigeerde datasets voor de
jaren 2005 en 2006. Na vier(!) maanden is hier nog geen reactie op ontvangen.
13
Een datum an sich zal geen oorzakelijke factor zijn voor het wel of niet conform zijn van een aangifte.
Wanneer er een periode van bijvoorbeeld een maand genomen wordt kan dit wel een indicatie zijn. Zo kan er
een veel voorkomende fout zijn ontdekt die is afgedekt. Aangevers zullen deze fout niet meer maken vanwege
de hoge pakkans. De desbetreffende aangiften zouden dan uitgesloten kunnen worden voor controle.
- 11 -
Beschrijving van de Douane
SI_GdnCode
Goederencode
-
SI_LvO
Land van Oorsprong
I.3c
SI_GevrReg
Gevraagde regeling
I.3d
SI_VrgReg
Voorafgaande regeling
I.3e
SI_VrijReg
Vrijstellings regeling
I.3f
SI_Bruto
Bruto gewicht
-
SI_Netto
Netto gewicht
-
SI_PrfCont
Preferentie
-
Controleuitslag
-
SI_CtrUits
Tabel 2-2 Gebruikte analysevariabelen
Naast deze variabelen zijn er nog een aantal die benodigd zijn voor een goede preparatie
van de data. Dit zijn het jaar, artikelnummer, aangiftenummer en controlesoort.
2.4.2 Herkomst data
Alle aangiften worden opgeslagen op het centrale mainframe van de belastingdienst in
Apeldoorn. Iedere statusverandering, zie 4.2.2, van een aangifte leidt tot een nieuwe
versie van de gehele aangifte. Zo is het hele proces dat de aangifte doorloopt, in theorie,
digitaal terug te vinden. Ieder verzoek om gegevens uit het mainframe gaat via B/CA
SOB 14 Apeldoorn. De hieruit voortkomende datadump wordt verwerkt door de
beheergroep douanegegevens. Deze beheergroep zet de gegevens om in een dusdanig
formaat dat deze geschikt is voor verdere analyse, bijvoorbeeld data mining. Dit proces
wordt het ontsluiten van data genoemd.
Zoals is aangegeven zijn veel variabelen niet geschikt om als input te fungeren
voor data mining. Een groot nadeel met betrekking tot de gegevenskwaliteit komt voort
uit de oorspronkelijke opzet van het gehele systeem. Dit is namelijk opgezet als
registratiesysteem. Er is indertijd geen rekening mee gehouden dat de opgeslagen
gegevens ook voor andere doeleinden gebruikt zouden kunnen worden. Hierdoor zitten er
een aantal onvolkomenheden in het registratieproces, waardoor de beschikbare data niet
optimaal is voor data mining. Hieronder wordt opgesomd waar de knelpunten zitten.
• Ongestandaardiseerde
registratie
bevindingen:
er
wordt
onvoldoende
gecontroleerd op correcte invoer van de bevindingen van de controleur. Hij/zij kan
naar eigen inzicht een toelichting geven op de bevindingen.
• Onjuiste toewijzing profielen: een aangifte die geraakt wordt door tenminste één
profiel wordt ook geraakt door een wit profiel. De bedoeling hiervan is dat
wanneer er een controle plaatsvindt en een bevonden fout heeft geen relatie met
het profiel, deze wordt toegeschreven aan het witte profiel. Hierdoor is het a),
mogelijk om nieuwe risico’s te ontdekken en b), een juiste weergave te krijgen
van de effectiviteit van een profiel. Helaas is deze registratie niet altijd correct.
• Onduidelijkheid over statussen: voordat een aangifte als afgedaan wordt
beschouwd doorloopt deze een aantal statussen. Het is onduidelijk wat er
veranderd wordt/mag worden bij verandering van status. Voor data mining zijn de
originele en de eindaangifte het belangrijkst. Het kan echter zo zijn dat er
essentiële informatie in een tussenstatus is opgenomen die ondertussen
verwijderd is. Zelfs als een aangifte is afgedaan kan er nog een verandering
plaatsvinden wanneer de aangever in beroep gaat tegen een opgelegde boete.
Hierdoor kan het lang duren voordat een aangifte definitief is afgedaan.
• Verschillende registratiesystemen: er zijn veel verschillende systemen waarin
geregistreerd wordt. Een deel van deze systemen is op ad hoc basis gebouwd.
Mede hierdoor is een onderlinge koppeling vaak lastig of helemaal niet mogelijk
waardoor belangrijke informatie verloren gaat.
Bovenstaande kan worden samengevat met de constatering dat er onvoldoende
standaardisatie in het registratieproces is. En mocht deze er wel zijn dat wordt deze
14
B/CA SOB staat voor Belastingdienst/Centrale Administratie Sector Ondersteuning Bedrijfsvoering
- 12 -
Beschrijving van de Douane
onvoldoende nageleefd danwel gecontroleerd. Mede gezien de beperkte massa, zie 4.2.3,
is het essentieel dat de aanwezige data betrouwbaar en compleet is. En dit is niet alleen
een vereiste voor data mining, ook management informatie wordt ontleend aan de
registratiegegevens. Waardoor ook hier fouten in voor kunnen -en zullen- komen.
Ook ontsluiting van de data gaat lastig. Zo blijkt het moeilijk om aangiften met
een bepaalde status, anders dan de eindstatus, boven water te krijgen. Of dit door komt
door onwil, onkunde of onmogelijkheid is niet geheel duidelijk.
De Douane is zich hiervan bewust en tracht door middel van het opzetten van een
gestructureerde data omgeving door middel van een data warehouse, in ieder geval een
deel van, bovenstaande problemen op te lossen. Hiervoor zijn enkele opzetten gemaakt.
Aan de hand hiervan zijn aan een aantal bedrijven offertes gevraagd. Dit is echter een
lange termijn project/traject. Momenteel is de beschikbaarheid en kwaliteit van de data
nog verre van optimaal.
Bovenstaande bevindingen zijn summier beschreven en niet geheel compleet. Een
uitgebreide analyse valt buiten de scope van deze scriptie en zou op zich al een
onderzoek waard zijn.
2.4.3 Gecorrigeerde data
Wanneer een aangifte niet conform wordt bevonden bij en controle, wordt deze
aangepast door de controleur. In de gebruikte dataset staan daarom aangiften die niet
conform zijn met de gecorrigeerde, dus nu correcte, waarden. Dit wordt ter
verduidelijking aangegeven in figuur 2-3.
Figuur 2-3 Correctie van de aangiften na controle
In dit hypothetische geval is te zien dat een aangifte die voor controle is aangemerkt een
goederencode van 45 heeft. De controleur kijkt deze aangifte na en komt tot de
ontdekking dat de werkelijke goederencode 55 moet zijn. Deze wordt vervolgens
aangepast.
Het gevolg hiervan is dat met deze gegevens niet goed gedatamined kan worden.
Omdat je dan aangiften die als niet conform bekend staan gaat classificeren op basis van
correcte waarden. De oplossing hiervoor is de originele aangifte te vergelijken met de
gecontroleerde, gecorrigeerde aangifte. Originele aangiften hebben een “SI_STATUS” van
20, waar gecontroleerde aangiften een hogere status hebben. Door een uniek veld aan
te maken in beide tabellen kunnen ze gekoppeld worden. Zo wordt de goede (maar
werkelijk foute) data verkregen voor de analyse.
De ongecorrigeerde set is alleen beschikbaar voor het jaar 2004. Met als gevolg
dat de analyses alleen op dat jaar worden uitgevoerd.
- 13 -
Beschrijving van de Douane
2.5 Data mining bij de Douane
2.5.1 Inleiding
Doordat steeds meer aangiften digitaal verwerkt worden, wordt een groot deel
administratief afgewerkt. Dat wil zeggen dat een deel van de aangiften waarschijnlijk
correct is en geen verdere inspectie ondergaat. Dit impliceert echter dat er wel een kans
bestaat dat de aangifte niet correct is. Om inzicht te krijgen in de mogelijke risico’s die
hierdoor niet worden opgemerkt heeft de Douane opdracht gegeven tot het onderzoeken
van de mogelijkheden van data mining. Met behulp van data mining kunnen mogelijk die
risico’s wel geïdentificeerd worden. Hiertoe zijn drie proofs of concept (PoC) uitgevoerd.
Iedere PoC heeft zich op een andere dataset gericht, te weten Douane Sagitta Invoer
(DSI), Douane Sagitta Uitvoer (DSU) en KOERIER. Van DSI en DSU worden in de
volgende paragrafen de uitkomsten beschreven. Zoals in de vorige paragraaf is
beschreven is de data gecorrigeerd na controle. Men moet dus zeer voorzichtig zijn met
het trekken van conclusies uit de afgeleidde modellen.
2.5.2 Proof of concept Douane Sagitta Invoer
In de case beschrijving van DSI valt te lezen dat er mogelijkheden zijn om classificatie
modellen te ontwikkelen. Er zijn een aantal onderzoeksvragen opgesteld die men heeft
proberen te beantwoorden. Voorwaarde hiervoor is dat inzicht moet worden verkregen in
de mate van correcties in de data. De aanbevelingen richten zich hier ook op: de
structuur en de kwaliteit van de data moet dusdanig zijn dat er werkelijk modellen mee
ontwikkeld kunnen worden. De belangrijkste concrete resultaten beperken zich
vooralsnog tot analyse van afzonderlijke variabelen. Bijvoorbeeld of er correct gebruik
wordt gemaakt van de sluitposten 15 .
2.5.3 Proof of concept Douane Sagitta Uitvoer
In de eindrapportage van de data mining PoC valt te lezen dat de uitgevoerde analyses
tot de identificatie van nieuwe risico’s heeft geleid. Veel van deze risico’s zijn gevonden
middels de analyse van de variabelen afzonderlijk. Zo is bijvoorbeeld ontdekt dat er
honderden aangiften zijn ingediend met een opgegeven douanewaarde van meer dan
tien miljard euro. De verklaring wordt gegeven door valutawisselingen en onterecht in
het systeem aanwezige testregels. Ook kan het bewust worden ingevuld door de
aangever. Dit kan ertoe leiden dat de uitvoerende partij uiteindelijk te weinig
omzetbelasting betaalt. Om dit risico af te dekken, is een profiel opgesteld dat aangiften
die een bepaalde drempeldouanewaarde overschrijden, selecteert voor controle.
Andere bevindingen waren dat er niet altijd voldoende controles waren om
bepaalde variabelen te kunnen onderzoeken. Ook wordt aangegeven dat, vanwege
gebrek aan kennis over bepaalde variabelen, samenwerking met experts noodzakelijk is
om tot goede resultaten te komen. Verder is naar voren gekomen dat er veel onjuiste
waarden in voorkomen, zoals in bovenstaand geval met betrekking tot de
douanewaarden.
15
Sluitposten zijn goederencodes waarin overige (andere) goederen worden ingedeeld. Zoals goederencode
01019019 in bijlage I.1.6
- 14 -
Beschrijving van de Douane
2.5.4 Huidige data mining activiteiten
Na de PoC fase is er een data mining groep opgezet binnen het DIC. Zij staan open voor
informatieverzoeken vanuit de organisatie die door middel van het gebruik van data
mining technieken beantwoord zouden kunnen worden. Ook doen zij zelf enkele
projecten. Zoals controle op Thaise rijst. Waarbij een clustermodel is gemaakt op basis
van de verhouding tussen verpakking en gewicht. Met als doel deklading 16 te kunnen
ontdekken. Ook lopen er projecten op het gebied van antidumpingheffing, afvalstoffen en
China.
2.6 Conclusie
Douane Sagitta Invoer is het systeem dat alle invoeraangiften verzamelt en selecteert
voor controle. Controle vindt plaats op basis van opgestelde profielen. Profielen hebben
de vorm van IF-THEN regels. De profielen worden opgesteld naar aanleiding van een
onderkent risico. Alle risico’s worden samengebracht en gebundeld in de risicodatabase.
Een risicokennisgroep pakt de gebundelde risico’s op en analyseert ze. Mocht er reden
zijn tot het afdekken van het risico middels een profiel dan maken zij een conceptprofiel.
Het concept wordt naar de DIA gestuurd, die het profiel concretiseert. Vervolgens wordt
het profiel ingevoerd door profielbeheer. Evaluatie van de profielen wordt op periodieke
wijze door de DIA gedaan. Hiermee is een antwoord gegeven op subvraag één van het
praktische deel (B.1); hoe domeinkennis binnen de Douane wordt gebruikt.
De data waarmee de analyses worden verricht komen uit het jaar 2004. De
andere jaren zijn niet bruikbaar omdat hier de ongecorrigeerde aangiften niet van
beschikbaar zijn. Het betreft alleen invoeraangiften, aangiften waarover heffing en inning
plaatsvindt. Vanwege het feit dat het systeem oorspronkelijk is opgezet als
registratiesysteem laat de kwaliteit van de data te wensen over.
Middels verschillende proofs of concept in 2005 is het nut van data mining voor de
Douane aangetoond. Momenteel worden er verschillende analyses op projectbasis
uitgevoerd.
16
Deklading is een manier om smokkel te verbergen. Het deel van de lading dat te zien is bij het openen van
de container, de deklading, is alleen om de rest van de lading (smokkelwaar) te verbergen.
- 15 -
Data mining en domeinkennis
Hoofdstuk 3
Data mining en domeinkennis
3.1 Inleiding
Dit hoofdstuk bespreekt de theorie met betrekking tot data mining en domeinkennis. De
eerste paragraaf is een inleiding op data mining. Hier wordt besproken wat data mining is
en welke stages er doorlopen moeten worden om uiteindelijk een model te construeren.
Verder wordt toegelicht wat classificatie is en op welke gebieden het toepasbaar is.
Paragraaf 3 bespreekt de data mining technieken beslisbomen, logistische regressie en
neurale netwerken. Deze paragraaf wordt afgesloten met een bespreking van het
probleem van overfitting. Paragraaf 4 bevat de theorie met betrekking tot domeinkennis.
Waarna in paragraaf 5 een overzicht wordt gegeven van enkele onderzoekers die data
mining en domeinkennis hebben gecombineerd. Het hoofdstuk wordt afgesloten met een
conclusie.
3.2 Data mining
3.2.1 Inleiding
Data mining kan worden omschreven als “de analyse van geobserveerde data sets met
als doel het vinden van onverwachte relaties en het presenteren van de data in een
manier die zowel begrijpbaar als nuttig is voor de eigenaar van de data” [Hand et al,
2001]. Vaak wordt data mining in de bredere context van Knowledge Discovery in
Databases (KDD) gezien. Het KDD proces bevat verschillende stages: data selectie,
voorbereiden van de data, transformatie van de data, data mining technieken toepassen
en vervolgens de uitkomsten interpreteren [Hand et al, 2001; Feelders, 2000]. De eerste
drie stappen vallen niet direct onder data mining maar zijn wel essentieel om tot goede
resultaten te komen.
Twee soorten modellen worden onderscheidden; beschrijvende en voorspellende
[Han en Kamber, 2001; CIBIT, 2001]. Beschrijvende modellen zijn in de eerste plaats
samengesteld ten behoeve van het verkrijgen van inzicht in het probleemgebied. Waarbij
dit inzicht wordt verkregen door het toekennen van een bepaalde klasse aan een groep,
i.e. classificatie. Voorspellende modellen daarentegen voorspellen de concrete waarde
van een bepaalde variabele. Een voorbeeld van een beschrijvend (=classificatie) model is
een applicatie die een uit een groep containers, aan de hand van de karakteristieken, die
containers selecteert die mogelijk verdacht zijn en controle behoeven.
Er kunnen verschillende soorten patronen worden ontdekt met data mining
technieken. Zoals concept/klasse beschrijving, waarbij men data indeelt in klassen;
associatie analyse, het ontdekken van associatie regels die laten zien dat bepaalde
attributen en waarden vaak samengaan in een bepaalde dataset; cluster analyse, waarbij
men onbekende klasse labels laat genereren; outlier analyse, waarbij men zich focust op
de outliers (waarden die zich niet rijmen bij de overige waarden); en evolution analysis,
waarbij men regelmatigheden of trends beschrijft en modelleert voor objecten die
veranderen in de loop van de tijd [Han en Kamber, 2001]. Voor dit onderzoek is het
indelen in klassen, beter bekend als classificatieanalyse, het meest geschikt. Alle in dit
hoofdstuk besproken technieken worden toegelicht op basis van dit uitgangspunt.
- 16 -
Data mining en domeinkennis
3.2.2 Classificatie
Classificatie is het proces waarbij men modellen (of functies) zoekt die data klassen
beschrijven en onderscheiden, met als doel om de klasse te voorspellen van objecten
waarvan de klasse onbekend is [Han en Kramer, 2001]. Dit wordt gedaan op basis van
beschikbare trainingsvariabelen. Het model kan in verschillende vormen worden
gepresenteerd, bijvoorbeeld classificatieregels (IF-THEN), beslissingsbomen, een formule
of een neuraal netwerk. Waarbij de laatste drie direct voortkomen uit data mining
technieken, en de eerste zowel voort kan komen uit een data mining techniek als kan
worden afgeleid op basis van een gevonden model. De gebruikte technieken worden in
de volgende paragrafen nader beschreven.
Er zijn vele voorbeelden te vinden waar classificatiemodellen gebruikt worden.
Bijvoorbeeld bij het classificeren van email in spam en niet-spam [Martin et al, 2004;
Graham, 2002]. Ook bij het bepalen of iemand recht heeft op een lening of niet kunnen
classificatiemodellen gebruikt worden.
3.2.3 Data preparatie
Voordat men data mining technieken kan toepassen op de data is vaak nog een
preparatie van de data nodig. De data is vaak niet van de beste kwaliteit, er kunnen
bijvoorbeeld missende velden of foute waarden in voorkomen. Preparatie is onder te
verdelen in data cleaning, data integratie en transformatie en data reductie [Han and
Kamber, 2001]. Een uitgebreidere beschrijving van de drie manieren van data preparatie
staat in bijlage II.1. Het prepareren van de data kost vaak de meeste tijd [Feelders et al,
2000].
Het is belangrijk data goed te prepareren. Want een computer weet niet of de
input die verwerkt moet worden correct is. Zonder enige twijfel wordt de gegeven input
verwerkt in output. Wanneer de input niet correct is zal de output dit
hoogstwaarschijnlijk ook niet zijn. Dit wordt samengevat in het aforisme GIGO; Garbage
In , Garbage Out [Hinde, 2004].
3.3 Data mining technieken
3.3.1 Beslisbomen
Een beslissingsboom bestaat uit een “root node”, met daaronder verschillende
vertakkingen, de “nodes” (bladen), zie figuur 3-1. Met een beslissingsboom kunnen
doelvariabelen met een discrete waarde geschat worden. De kennis die uit een
beslissingsboom kan worden afgeleid wordt weergegeven door de beslissingsboom zelf
[Mitchell, 1997]. Het doel van een beslissingsboom is om uiteindelijk een boom te
verkrijgen met “nodes” (bladen) die “puur” zijn, wat betekent dat ze alleen gevallen
bevatten die in dezelfde klasse vallen [Feelders, 2006]. Om dit te kunnen kwantificeren
wordt gekeken naar de “impurity” van een node. Er zijn verschillende manieren om de
impurity aan te geven. De meest simpele is de “resubstitution error”. De volgende
formule geeft deze error weer
R ( S ) = min( p1 , p 2 )
Waarbij R de resubstitution error is van een collectie S bevattende positieve (p1) en
negatieve (p2) waarden van de doelvariabele [Berry en Linoff, 2000]. De resubstitution
error meet welke fractie van de gevallen in een blad incorrect wordt geclassificeerd als
ieder geval tot het blad met de grootste klasse wordt gerekend. Een nadeel van deze
- 17 -
Data mining en domeinkennis
methode is dat het geen onderscheidt maakt tussen de het aantal pure bladen van een
beslissingsboom. Zie bijvoorbeeld figuur 3-1.
Figuur 3-1 Twee verschillende beslisbomen, gebaseerd op Feelders [2006]
Wanneer hier gebruik wordt gemaakt van de resubstitution error, zijn beide bomen
gelijk. In werkelijkheid wordt beslissingsboom 2 geprefereerd omdat deze een puur blad
bevat.
De Gini-coëfficiënt kent dit nadeel niet. Deze coëfficiënt is een methode om de
mate van ongelijkheid van ontwikkelingen en verschijnselen te berekenen [Gini, 1912].
Het is een waarde tussen 0 en 1, waarbij 0 correspondeert met perfecte gelijkheid en een
1 met perfecte ongelijkheid. Gegeven een collectie S, bevattend positieve en negatieve
waarden van de doelvariabele, de Gini-index van S in relatie tot de binaire classificatie is:
Gini ( S ) = 1 − ( p12 + p 22 )
Waarbij p1 de proportie positieve waarden in S, en p2 de proportie negatieve waarden in
S is. [Feelders, 2006]
Een derde, vaak gebruikte, meetstaf om impurity te bepalen is de entropie.
Gegeven een collectie S, bevattend positieve en negatieve waarden van de doelvariabele,
de entropie van S in relatie tot de binaire classificatie is:
Entropy ( S ) ≡ − p1 log 2 p1 − p 2 log 2 p 2
Waarbij p1 de proportie positieve waarden in S, en p2 de proportie negatieve waarden in
S is. Met de entropie kan de Information Gain (IG) bepaald worden. Dit is de verwachte
afname in entropie veroorzaakt door de opsplitsing in de attribuut. De IG, Gain(S,A) van
een attribuut A in relatie tot een collectie S, wordt bepaald als
Gain( S , A) ≡ Entropy( S ) −
∑
v∈Values ( A )
Sv
S
Entropy( s v )
Waar Values(A) de set van alle mogelijke waarden voor attribuut A zijn, en Sv de subset
van S waar attribuut A de waarde v heeft (i.e., S v = {s ∈ S | A( s ) = v}) [Mitchell, 1997].
In figuur 3-2 zijn de resubstitution error, Gini-index en entropie grafisch weergegeven.
Waarbij de entropie geschaald is om een maximum van 0,5 te hebben. Hierin is goed het
verschil te zien tussen de drie impurity meetstaven.
- 18 -
Data mining en domeinkennis
0,5
0,4
0,3
0,2
0,1
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
p1
Gini-index
Entropie
Resubstitution error
Figuur 3-2 Impurity meetstaven
Wanneer men van het maximum in p1 naar links of rechts gaat is de richtingscoëfficiënt
overal gelijk voor de resubstitution error. Oftewel, men maakt geen onderscheid tussen
de splits in figuur 3-1. De curves van de Gini-index en de entropie hebben een grotere
richtingscoëfficiënt naarmate de 0 of de 1 wordt genaderd. Dit concave verloop geeft aan
dat beslisboom 2 wordt geprefereerd boven beslisboom 1. [Feelders, 2006]
De meeste algoritmen volgen een topdown “greedy search” door het aantal
mogelijke bomen. Een voorbeeld hiervan is ID3 (Quinlan, 1986). ID3 begint met het
bepalen van het attribuut dat bovenaan de boom komt te staan. Dit wordt gedaan door
alle attributen statistisch te testen en hieruit de beste te kiezen. Vervolgens wordt de
training set gesorteerd op dit attribuut. Waarna het proces zich herhaald voor de
ontstane bladen. Dit is een “greedy search” waarbij het algoritme niet terugkijkt of er
betere splits mogelijk waren [Mitchell, 1997].
voor- en nadelen
Het grote voordeel van beslisbomen is de eenvoudige interpretatie van de resultaten. Het
model kan grafisch worden weergegeven, door middel van regels of in een tabel. Een
ander sterk punt is dat beslisbomen overweg kunnen met missende waarden. Ook tillen
de algoritmen niet zwaar aan fouten in de dataset. [Mitchell, 1997] Een nadeel is het
gevaar op overfitting, waarover later meer.
3.3.2 Logistische regressie
Met logistische regressie kan een keuze tussen twee discrete (dichotome, binaire)
waarden gemodelleerd worden. In dit onderzoek is de vraag of een aangifte conform is ja
of nee. Er is data beschikbaar over N containers (i = 1,...,N) en k variabelen, xi een
vector van variabelen. Deze keuze, weergegeven door de binaire variabele yi, is
weergegeven als
Yi = 0 als de aangifte conform is
Yi = 1 als de aangifte niet-conform is
Het model komt er als volgt uit te zien
- 19 -
Data mining en domeinkennis
P{y i = 1 xi } = G ( xi , β )
Waar P de kans is dat yi = 1 gegeven de variabelen xi. Dit wordt aangeduid in functie G.
'
Over het algemeen stelt men dat G ( x i , β ) = F ( x i β ) . Zowel G als F moeten alleen
waarden kunnen hebben tussen 0 en 1 [Menard, 2002; Verbeek, 2004]. Daarvoor wordt
gebruik gemaakt van een verdelingsfunctie. De twee standaard verdelingsfuncties zijn de
standaard logistische verdeling
F ( w) = L( w) =
ew
1+ ew
wat leidt tot het logit model, en de standaard normaal verdeling, die leidt tot het probit
model. [Verbeek, 2004] Het logit en probit model leveren ongeveer gelijke resultaten
[Liao, 1994]. In dit onderzoek wordt alleen het logit model gebruikt.
Bij lineaire regressie wordt de Ordinary Least Squares (OLS) methode gebruikt om
de parameters te schatten [zie bijvoorbeeld McClave et al, 2002]. Bij logistische regressie
kan OLS 17 niet gebruikt worden, in plaats daarvan wordt gebruik gemaakt van maximum
likelihood (grootste aannemelijkheid) technieken [Menard, 2002]. Deze techniek is een
middel om een set van parameters die de verdeling karakteriseren te schatten, wanneer
men weet, of veronderstelt dat men weet, wat de vorm van de verdeling is.
De log likelihood is het criterium voor het opnemen van parameters in het
logistische regressie model. In softwarepakketten wordt de log likelihood (LL) vaak
vermenigvuldigd met –2 (-2LL). Waar de log likelihood negatief is, is –2LL positief.
Hogere waarden geven een slechtere voorspelling van de afhankelijke variabele aan.
Door de verschillende waarden van de log likelihood te vergelijken kan het beste model
worden geselecteerd, dit is een iteratief proces. Op basis van de log likelihood worden
verschillende statistieken berekend die aangeven hoe goed het model “past” op de data
(vergelijkbaar met R2 bij regressie) [Menard, 2002].
voor- en nadelen
Een nadeel van deze techniek is dat er kennis van statistiek vereist is om het model te
kunnen afleiden en interpreteren. Dit kan tevens ook een voordeel zijn omdat het model
een stevige statische onderbouwing heeft. Een ander nadeel is dat er relatief veel
preparatie van de data benodigd is. Een groot nadeel voor de Douane is dat de
afgeleidde formule niet kan worden omgezet in profielen, waardoor een model niet in de
praktijk toegepast kan worden 18 . Wel zijn er onderzoeken waarbij logistische regressie
wordt gecombineerd met beslisboomanalyse [Abu-Hanna en de Keizer, 2003].
3.3.3 Neurale netwerken
Neurale netwerken worden getraind om een groot aantal problemen uit een steekproef
op te lossen, om op deze manier nieuwe gevallen te kunnen voorspellen [Daniels, 2003].
Hiervoor is het noodzakelijk dat er veel voorbeelden met een bekende uitkomst worden
aanwezig zijn. Door een nieuw geval te vergelijken met de opgeslagen voorbeelden kan
een uitspraak worden gedaan over de (verwachte) uitkomst.
Een neuraal netwerk is gebaseerd op de manier waarop het menselijk brein werkt.
Waarbij in een netwerk van neuronen (nerve cells) signalen verstuurd worden om tot een
output te komen. De basis van een neuraal netwerk is het perceptron. Perceptrons zijn
neuronen gerangschikt in één laag, daardoor zitten de input knopen direct vast aan de
output knopen [Daniels, 2003]. Een neuraal netwerk op basis van één laag kan maar een
17
In feite is OLS een vorm van maximum likelihood voorspelling, een waarbij men direct de oplossing kan
berekenen zonder iteratie [Menard, 2002].
18
In de toekomst is het wellicht wel mogelijk om te selecteren (classificeren) op basis van een formule.
- 20 -
Data mining en domeinkennis
bepaald soort berekeningen uitvoeren, zoals in 1969 door Minsky en Papert [1969] is
aangetoond. In 1974 vindt Werbos [1974] een manier om meerlagige netwerken te
maken. Pas nadat in 1986 Rumelhart et al [1986] hetzelfde ontdekken wordt de
techniek, back-propagation geheten, wijd verspreid.
Het feed-forward 19 Multilayer Perceptron (MLP) model wordt het meest gebruikt
als er met neurale netwerken gewerkt wordt [Hand et al, 2001]. In tegenstelling tot
beslissingsbomen, is dit model niet lineair. Zoals de naam al aangeeft bestaat het MLP uit
meerdere lagen. Om te bekijken hoe het model presteert wordt vaak de Sum of Squared
Errors (SSE) gebruikt. De waarde hiervan is een positief getal, waarbij een relatieve lage
waarde een goede voorspellingskracht aangeeft. Deze error, voor een binair neuraal
netwerk, wordt weergegeven in de volgende formule:
r
1
E ( w) ≡ ∑ (t kd − o kd ) 2
2 d∈D
Waarbij D de set van trainingsvoorbeelden is, tkd de gewenste output voor de kde output
eenheid en trainingsvoorbeeld d, en okd de werkelijke output van de kde output eenheid
en trainingsvoorbeeld d; 20 [Mitchell, 1997]. Een andere manier om modellen onderling te
vergelijken is door gebruik te maken van de Mean Squared Error (MSE). Dit is ook een
positief getal, waarbij een relatieve lage waarde een beter model betekent. De MSE kan
berekend worden voor de training set, de in-sample error alsook voor de validatie set, de
out-of-sample error [Daniels, 2003].
Er zijn geen breed geaccepteerde procedures om een model af te leiden bij
neurale netwerken. Vaak komt men tot een bevredigend model door trial-and-error
[Hand et al, 2001].
White box
Het grote voordeel van neurale netwerken is de voorspellende kracht. Het nadeel is dat
de beslissingscriteria niet transparant zijn. Verschillende onderzoekers hebben hier een
eind aan gemaakt. Zij hebben algoritmen ontwikkeld die regels kunnen afleiden uit
neurale netweken. Waarbij de regels dezelfde voorspellende kracht hebben als het
neurale netwerk. Enkele voorbeelden hiervan zijn Neurorule [Setiono and Liu, 1996],
Trepan [Craven and Shavlik, 1996] en Nefclass [Nauck, 2000]. Voorgaande algoritmen
zijn in een paper van Beasens et al [Baesens et al, 2003] vergeleken met het C4.5
algoritme en een logistisch regressie classificatie model op verschillende datasets van
kredietverstrekkingmaatschappijen. Hun bevindingen zijn dat Neurorule en Trepan leiden
tot goede classificatie resultaten in vergelijken met C4.5 en logistische regressie. Ook
merken zij op dat de regels die voortkomen uit Neurorule en Trepan zeer compact en
krachtig zijn.
3.3.4 Overfitting
Bij het construeren van een model is er het gevaar dat dit model teveel op de
beschikbare (steekproef) dataset gaat lijken. Hierdoor lijkt het dat het model zeer goed
kan classificeren. Wordt het daarna echter in de werkelijkheid gebruikt dan zijn de
resultaten vaak veel minder. Dit probleem heet overfitting en wordt grafisch
weergegeven in figuur 3-3.
19
Feed-forward houdt in dat het model niet terugkijkt om een eerder gemaakte stap te heroverwegen. Het
model begint bij de inputs en gaat via de hidden neurons naar de outputs.
20
E wordt weergegeven als functie van
wi gedefinieerd is als
r
w omdat de output units o afhankelijk zijn van de gewichten wi; waar
wi ← wi + Δwi .
Een uitgebreide beschrijving is te vinden in Mitchell [1997] of op
http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html.
- 21 -
Data mining en domeinkennis
Figuur 3-3 Overfitting, gebaseerd op Daniels [2003]
In deze figuur wordt de MSE weergegeven als functie van het aantal epochs
(herhalingen). De MSE van de training set wordt steeds lager, terwijl de MSE van de test
set een minimum heeft bereikt en weer omhoog gaat. Het minimum is op het moment
waarop overfitting plaatsvindt, en waar het model zijn optimale punt heeft bereikt.
Bij een beslissingsboom zijn er twee basismethoden om overfitting tegen te gaan
te weten “stopping rules” en “pruning” [Feelders, 2006].
- stopping rules: Breidt een blad niet verder uit als de impurity afname van de
beste splitsing ligt onder een bepaalde drempelwaarde.
- Pruning: maak een hele grote boom en “snoei” terug.
Het nadeel van stopping rules is dat er soms een zwakke splitsing nodig is om daarna
een goede splitsing te kunnen maken. Bij pruning wordt een grote boom teruggebracht
tot een kleine. De vraag is alleen tot hoever het snoeien moet gaan. Dit is opgelost door
de beschikbare data op te verdelen in twee delen. Een training set, die wordt gebruikt
om de boom te construeren. En een test set, die wordt gebruikt om de geconstrueerde
boom te valideren.
Wanneer en maar een kleine dataset beschikbaar is, kan cross-validatie gebruikt
worden. Bij cross-validatie wordt de dataset opgedeeld in delen, bijvoorbeeld tien (10fold cross-validatie). Één deel wordt gebruikt voor het testen van het model dat is
gegenereerd op basis van de andere negen delen. Vervolgens wordt een andere test set
aangewezen en herhaald het proces zich totdat ieder deel is gebruikt als test set
[Daniels, 2003]. Omdat nu alle beschikbare data al is gebruikt voor het bepalen van een
model kan de out-of-sample R2 niet meer berekend worden op een test set. Daarom
worden de (tien) R2’s berekent op basis van de test gemiddeld, om zo tot een schatting
te komen van de out-of-sample error [Feelders, 2006].
3.3.5 Classificatietabellen
Een manier om inzicht te krijgen in de correctheid van het gegenereerde model is
middels een classificatie tabel. Deze tabel zet de voorspelde en werkelijke waarden tegen
elkaar uit. De opzet van een dergelijk tabel wordt hieronder weergegeven in tabel 3-1.
ŷi
0
1
Total
yi
0
n00
n01
N0
1
n10
n11
N1
Total
n0
n1
N
Tabel 3-1 Opzet classificatietabel
- 22 -
Data mining en domeinkennis
Hier is yi de geobserveerde uitslag en ŷi de voorspelde uitslag. n10 geeft bijvoorbeeld aan
de proportie (of het werkelijke aantal) van de waarden die voorspeld zijn als 0, maar een
werkelijke uitslag van 1 hebben, i.e. het de valse negatieven. n00, n01 en n11 zijn
respectievelijk het aantal werkelijk negatieven, valse positieven en werkelijk positieven
[Verbeek, 2004].
Aan de hand van een classificatietabel kan een verscheidenheid aan technieken
met elkaar vergeleken worden. Een vergelijking tussen de drie verschillende modellen
wordt hier dan ook gemaakt op basis van deze tabellen. Hiervoor worden twee
statistieken afgeleid, de prestatie-index en de McFadden σn. De prestatie-index is de
fractie van het totale aantal aangiften dat correct voorspeld is en wordt gedefinieerd als
het aantal het aantal correct voorspelde aangiften gedeeld door het totale aantal
aangiften, in formulevorm:
prestatie − index =
n 00 + n11
.
N
Hierbij wordt geen rekening gehouden met het aantal valse negatieven. De methode van
McFadden “straft” het model wanneer er meer valse negatieven voorkomen. De
McFadden σn kan als volgt worden berekend
σn =
n00 + n11 − n02 − n12
(1 − n02 − n12 )
Beide indices worden positief gewaardeerd. Er zijn verschillende formules ontwikkeld om
op basis van een classificatietabel de correctheid van een model te kwantificeren. Na
onderzoek adviseren Veal en Zimmermann [1992] bovenstaande methode van
McFadden. Deze twee indices worden gebruikt bij een onderlinge vergelijking van de
modellen.
3.4 Domeinkennis
Bovenstaande methoden om kennis te extraheren uit data zijn allen inductief. Dat wil
zeggen dat het methoden zijn die generaliseren op basis van geobserveerde
trainingsvoorbeelden door kenmerken te identificeren die empirisch positieve van
negatieve trainingsvoorbeelden onderscheiden. Een nadeel van inductieve leermethoden
is dat er limieten zitten aan de generaliseerbaarheid van de resultaten. Vooral wanneer
er een beperkte hoeveelheid trainingsvoorbeelden beschikbaar is. Analytische
leermethoden hebben dit nadeel niet. Bij analytisch leren wordt bestaande kennis (in het
Engels: prior knowledge, domain knowledge) en deductieve redenatie gebruikt om de
informatie van de trainingsvoorbeelden te vergroten. Een voorbeeld hiervan is
explanation-based generalization (EBG) [Mitchell et al, 1986] Nadeel van analytische
leermethoden is dat de bestaande kennis imperfect kan zijn, waardoor het model dat ook
is. [Mitchell, 1997]
Bestaande kennis wordt in deze scriptie in het vervolg domeinkennis genoemd.
Domeinkennis kan worden omschreven als: “any information that is not explicitly
presented in a database [Owrang en Gruppe, 1996]”. Dit kan iets heel triviaals zijn.
Bijvoorbeeld het gegeven dat mannen niet zwanger kunnen raken. Dit hoeft niet in een
database opgenomen te worden omdat dit algemene kennis is. Een preciezere
omschrijving is: “domain knowledge relates to a discipline, such as software engineering,
accounting, or insurance, and it is the entire corpus of data, rules, and processes that
characterizes the discipline”. Een deel hiervan wordt beschreven in standaarden en
handboeken of is in software ingebouwd. Het grootste deel is aanwezig in het collectieve
geheugen van de uitoefenaars van de discipline. Een domein model kan worden
- 23 -
Data mining en domeinkennis
omschreven als: “an abstraction that consists of only those parts of the domain
knowledge that are relevant to a particular purpose”. Domein analyse vervolgens, kan
worden omschreven als: ”the examination of the domain and its problems, and
appropriateness means that the domain model”. [Berztiss, 1999]
Er zijn verschillende typen domeinkennis [Daniels en van Dissel, 2002];
normatieve kennis over het te construeren model, kennis over de generatie van de data
en kennis over het reduceren van de kosten en het verbeteren van de efficiency. Hierbij
is de eerste het belangrijkst in dit onderzoek. Deze kennis kan bestaan uit een
beslissingsmodel. Dit kan opgenomen zijn in een expert system. Expert systemen
“attempt to capture knowledge pertinent to a specific problem” [Frawley et al, 1992].
Een expert systeem kan bestaan uit business rules. Deze regels hebben de IF-THEN
vorm. Het grote voordeel van deze regels is dat ze makkelijk te begrijpen zijn. Een
nadeel kan zijn dat ze vaak simpel van aard zijn, waardoor complexe relaties niet
uitgedrukt worden.
Domeinkennis wordt gebruikt om het data mining proces inzichtelijker te maken.
Bij een analyse die zich alleen op de data richt komen verschillende problemen aan bod
[Daniels en van Dissel, 2002]:
- Incompatibiliteit met bestaande regels: bedrijven kunnen verplicht zijn bepaalde
regels na te leven. Kennis, door data mining technieken afgeleid uit databases,
kan strijdig zijn met deze regels.
- beperkte interpreteerbaarheid: managers willen een model dat makkelijk te
snappen is, ze accepteren vaak geen black box oplossing. Ook is het vaak
belangrijker inzicht te krijgen in het beslissingsprobleem, dan dat er perfect
voorspeld wordt.
- Kennisrepresentatie op het verkeerde detailniveau: Vaak leiden data mining
algoritmen tot modellen die te complex zijn om beslissingsondersteunend te
kunnen werken.
Verschillende aanpakken zijn ontwikkeld die zowel van inductieve als analytische
methoden gebruik maken. KBANN 21 [Shavlik, 1989] is een algoritme dat een neural
netwerk creëert aan de hand van de domeinkennis, waarna deze wordt verbeterd door
gebruik te maken van de training data. TangentProp [Simard et al, 1992] kent als
beginpunt domeinkennis in de vorm van een functie die inputs omzet. Deze wordt
verbeterd met de training data en een vooraf bepaalde foutwaarde. EBNN 22 [Mitchell,
1993] gebruikt domeinkennis in de vorm van eerder geleerde neurale netwerken en
training data om een uiteindelijke netwerk af te leiden.
3.5 Vergelijkbare onderzoeken
Onder vergelijkbare onderzoeken worden onderzoeken verstaan die de resultaten van
een analyse met behulp van data mining technieken combineren met een vorm van
domeinkennis. In deze paragraaf zijn enkele van deze onderzoeken opgenomen. De
bevindingen van deze onderzoeken worden kort beschreven.
Daniels en Kamp [1999] hebben onderzocht hoe neuraal netwerk presteert
tegenover een lineair netwerk. In het onderzoek wordt een casestudy beschreven waarbij
de prijs van een huis aan de hand van een aantal karakteristieken wordt beschreven door
een lineair model. Het neurale netwerk had zowel een hogere in-sample als out-ofsample error, wat een betere voorspellingskracht betekent. Een tweede casestudy in
hetzelfde paper onderzoekt de classificatie van obligaties. Ook hier wordt een lineair
model vergeleken met een neuraal netwerk. Het neurale netwerk classificeert iets beter
dan het lineaire model.
In een paper van Martens et al [2005] wordt domeinkennis gekoppeld aan een
classificatietechniek genaamd AntMiner+ [Parpinelli et al, 2002]. Zij noemen het
koppelen van kennis afgeleid uit de data met de aanwezige kennis bij de experts,
21
22
KBANN: Knowlegde-Bases Artificial Neural Network
EBNN: Explanation-Based Neural Network
- 24 -
Data mining en domeinkennis
“knowledge fusion”. De conclusie van het artikel is dat door gebruik te maken van
domeinkennis de begrijpbaarheid en de verklaarbaarheid toenemen.
Kopanas et al [2002] hebben het nut van domeinkennis onderzocht voor de
verschillende stages in het KDD proces. Zij komen tot de conclusie dat domeinkennis in
ieder stage zijn bedrage levert maar vooral belangrijk is bij de probleemdefinitie, data
transformatie en het implementeren van het model. Ze stellen ook nadrukkelijk dat data
mining een kennisgedreven proces moet zijn.
Een vorm van domeinkennis is monotonicity. Wat dit is, kan het makkelijkst
uitgelegd worden aan de hand van een voorbeeld. Stel dat er twee personen met
dezelfde karakteristieken, op inkomen na, eenzelfde lening aanvragen en de aanvraag
wordt gekeurd aan de hand van beslisregels. Monotonicity houdt in dit geval in dat je
verwacht dat de persoon met het hoogste inkomen niet wordt afgewezen terwijl de
lening aan de persoon met het lagere inkomen wel wordt toegewezen. Dit strookt ook
niet met de intuïtie. Hier is en wordt veel onderzoek naar verricht. Onder andere door
Feelders [2000]. Hij heeft onderzocht welke gevolgen het toepassen van een
monotonicity beperking heeft voor een beslisboommodel. De conclusie is dat de modellen
met de beperking iets slechter presteren maar dat ze wel een stuk simpeler zijn,
waardoor ze meer inzicht in het probleem geven en makkelijker uit te leggen zijn.
3.6 Conclusie
Dit hoofdstuk geeft antwoord op alle subvragen, zoals deze gesteld zijn in het literatuur
deel (A) in hoofdstuk 1. Het doel van data mining is om voorheen onbekende verbanden
en patronen te ontdekken aan de hand van geobserveerde data (A.1). Classificatie
modellen kennen als doel het voorspellen van de klasse van een object waarvan de
klasse onbekend is. Er zijn verschillende technieken voorhanden die dit mogelijk maken.
Het is bij ieder van de technieken van belang dat er goede data preparatie plaatsvindt.
De data preparatie bevat drie stappen: data cleaning, data integratie en transformatie en
data reductie. Het prepareren van de data is de meest arbeidsintensieve kant van de
analyse.
Een beslisboom verdeelt de beschikbare data steeds verder in groepen aan de
hand van een bepaalde statische methode totdat er geen significante split meer mogelijk
is. Logistische regressie modellen produceren kennen een waarde toe aan iedere
inputvariabele. Aan de hand daarvan kan een formule worden opgesteld waarvan de
uitkomst de kans is dat de klasse 1 is. Neurale netwerken werken op basis van een
aantal nodes in een of meerdere lagen die verbanden tussen de inputs weergeven. Het
model is black box, dat wil zeggen dat je niet weet welke redenatie wordt gevolgd om tot
een voorspelling van de klasse te komen (A.2).
Bij alle modellen is er het gevaar van overfitting. Het model presteert dan goed op
de trainingsvariabelen, maar slechter in de werkelijkheid. Dit probleem is af te vangen
door gebruik te maken van een validatie en een test set. Ook cross-validatie is een
mogelijkheid. Voordeel van beslisbomen is de eenvoudige interpretatie. Bij logistische
regressie is dit de statistische onderbouwing. Neurale netwerken hebben een grote
voorspellende kracht. (A.3) Uit beslisbomen komen direct regels voort. Bij neurale
netwerken kan dit ook na bewerking met een bepaalde techniek (A.4).
Domeinkennis kan worden omschreven als kennis die niet expliciet in een
database aanwezig is. Domeinkennis kan worden gebruikt om de interpreteerbaarheid
van de afgeleidde modellen te vergroten (A.5).
Er blijkt zeer veel onderzoek gedaan te zijn naar domeinkennis en data mining.
Veel richt zich echter op hele specifieke gebieden en maakt niet een vergelijking tussen
modellen met en zonder domeinkennis. Dit gebeurt wel in de beschreven papers.
In het volgende hoofdstuk wordt getracht validatie te vinden voor de bestaande
profielen. Met als doel om te bekijken of de bestaande regels verbeterd kunnen worden,
en zo ja, in welke mate.
- 25 -
Profielen valideren
Hoofdstuk 4
Profielen valideren
4.1 Inleiding
In dit hoofdstuk wordt getracht de bestaande profielen te valideren. Het gehele proces,
van data preparatie tot interpretatie van het model, wordt beschreven. Zoals is hoofdstuk
3 is beschreven zijn er drie stappen die onder data preparatie vallen. Te weten data
cleaning, data integratie en transformatie en data reductie. Ieder van deze stappen
wordt in paragraaf 4.2 doorlopen. Hierbij wordt aangegeven wat er aangepast moet
worden en hoe dat gedaan wordt. Na de preparatie kunnen data mining technieken
worden toegepast op de data. Paragraaf 4.3 beschrijft de methoden en de resultaten. In
paragraaf 4.4 worden de resultaten van het data mining gerelateerd aan de bestaande
profielen. Er wordt bekeken of data mining dezelfde regels genereert als de regels die
door de expertsessies zijn bepaald. In paragraaf 4.5 wordt vanuit een andere invalshoek
geprobeerd onderbouwing voor de profielen vinden. Waarna in paragraaf 4.6 de
verschillen worden aangegeven van risicoafdekking op basis van profielen en op basis
van de gegenereerde modellen. Paragraaf 4.7 sluit het hoofdstuk af met een conclusie.
4.2 Data preparatie
4.2.1 Data cleaning
Zoals beschreven in hoofdstuk twee wordt alleen de beschikbare data uit het jaar 2004
gebruikt. En daarvan alleen de geschikte variabelen (zie tabel 2-2). Om te zien in
hoeverre data cleaning is vereist, wordt van de relevante kolommen, op basis van de
hele dataset, een frequentietabel gemaakt. Aan de hand van die tabel kan worden
bepaald of er cleaning nodig is. Er blijkt dat er voor enkele variabelen aanpassingen
gedaan moeten worden. Bij land van oorsprong, land van bestemming en land van
verzending komen cijfer- en lettercodes voor 23 , deze moeten worden gestandaardiseerd.
Bij de omzetting komt naar voren dat er numerieke waarden voorkomen waarbij geen
corresponderende lettercode gevonden kan worden. Deze waarden zijn óf landencodes
van voor 1996 24 óf ze zijn fout ingevuld. Voor verdere analyse worden deze niet
aangepast omdat ze een indicator voor non-compliance kunnen zijn. De kolom
leveringscondities heeft al een standaardwaarde voor een niet geïdentificeerde
leveringsconditie, namelijk “XXX”. Deze behoeft geen verdere aanpassing. Hetzelfde gaat
op voor de kolommen vrijstellingsregeling en preferentie. Waarbij, als er geen vrijstelling
of preferentie van toepassing is, de variabele de waarde “000” meekrijgt. Van de
variabele importeur kan, vanwege een te grote belasting van de pc, geen frequentietabel
gemaakt worden. Dit heeft wellicht te maken met het grote aantal verschillende
waarden. Deze variabele wordt nogmaals bekeken wanneer de verkleinde datasets
gemaakt zijn.
Voor de overige kolommen is geen data cleaning nodig. Samenvattend worden
alle aanpassingen, en de eventuele aanwezigheid van missende waarden, weergegeven
in onderstaande tabel (4-1).
23
In 2005 is men definitief over gegaan van numerieke landenaanduiding naar landenaanduiding middels
lettercodes. Deze overgang is de oorzaak van de verschillende codes.
24
In 1996 is er een revisie geweest van het codesysteem; er zijn landencodes aangepast en/of verwijderd.
- 26 -
Profielen valideren
Veldnaam
Uitgevoerde actie
SI_Apunt
---
SI_Agevnr
---
SI_Aproc
---
SI_Asymbl
---
Evt. nieuwe kolom
SI_Geadr
Nog geen actie.
SI_LandVz
Numerieke code omgezet naar lettercode.
SI_LandBes Numerieke code omgezet naar lettercode.
SI_LANDVZ_LTR
SI_LANDBES_LTR
SI_LevCond --SI_GdnCode --SI_LvO
Numerieke code omgezet naar lettercode.
SI_LVO_LTR
SI_GevrReg --SI_VrgReg
---
SI_VrijReg
---
SI_Bruto
SI_Netto
Beide continue variabelen. Mogelijk omzetten
tot intervalvariabele. Nog niet gedaan.
SI_PrfCont
---
SI_CtrUits
--Tabel 4-1 data cleaning per variabele
Zoals in de tabel (4-1) te zien is zijn er geen verdere aanpassingen gedaan. De analyse
die hier wordt uitgevoerd neemt geen Douane specifieke kennis mee. Er wordt dus niet
uitgebreid gekeken naar de inhoud (evt. noise), maar meer naar de vorm van de
waarden. Er zijn geen missende waarden in de gebruikte kolommen. Wel zijn er, zoals
hierboven ook is aangegeven, waarden ingevuld die een onbekende waarde aangeven.
Hier is verder geen actie voor vereist. Bij de interpretatie van de uitkomsten worden deze
waarden, wanneer nodig, toegelicht.
4.2.2.Data integratie en transformatie
Een aangifte doorloopt
verschillende stappen voordat deze als afgedaan wordt
beschouwd. Bij iedere stap krijgt de aangifte een status mee, welke wordt weergegeven
in de kolom SI_STATUS. De belangrijkste zijn 20, 40 en >40. Een aangifte met status 20
moet worden geverifieerd. Inmiddels is gecontroleerd dat alle ingevoerde velden, qua
vorm, zijn ingevuld conform de eisen. Nu wordt onderzocht of de opgegeven waarden
ook correct zijn. Dit wordt bewerkstelligd door de aangiften “langs de profielen te laten
lopen”. Wordt er een profiel geraakt dan krijgt de aangifte, afhankelijk van het gevonden
risico, een status in de 30 toegewezen. Wordt er geen profiel geraakt, dan krijgt de
aangifte status 40 en wordt administratief afgedaan 25 . Aangiften met status tussen de 30
en 39 worden door een selecteur bekeken, en waar nodig aangepast. Iedere handeling
van de selecteur (en eventueel controleur) leidt tot een status 41 of hoger. Een aangifte
met status 40 of hoger, met uitzondering van statussen 41 en 44, is afgedaan.
Alleen in het geval van een status 41 of hoger is het controleresultaat bekend. In
de kolommen SI_CTRSRT en SI_CTRUITS staan respectievelijk de controlesoort en de uitslag. De controle-uitslag is de doelvariabele. Deze komt echter niet voor in aangiften
met een status van 39 en lager, simpelweg omdat de controle-uitslagen op dat moment
nog niet bekend zijn. Daarom is een koppeling tussen de originele, ongecorrigeerde
aangiften en de uiteindelijke controle-uitslagen noodzakelijk, zie ook paragraaf 2.4.
Om de verschillende tabellen te koppelen is een unieke identificatiefactor vereist.
Deze is standaard niet aanwezig en moet dus gecreëerd worden. Hiervoor worden de
waarden van de kolommen SI_AGEVNR, SI_AJAAR, SI_AGIFNR en SI_ARTIKEL achter
elkaar geplakt in een nieuwe kolom, UniekeID. De redenering hierachter is: iedere
25
i.e. SI_CTRSRT = 0 en SI_CTRUITS = 0
- 27 -
Profielen valideren
aangifte wordt gedaan door een aangever, deze heeft zijn eigen unieke 11-cijferige
nummer, een aangever doet meerdere aangiften per jaar daarom is het 8-cijferige
aangiftenummer vereist, een aangifte kan meerdere artikelen bevatten, dit wordt
aangegeven in het aantal artikelen welke een 2-cijferige code bevat, aangiftenummers
zijn uniek binnen een jaargang maar niet per definitie daarbuiten, daarom wordt de 2cijferige jaargang ook toegevoegd. Het resultaat is een unieke 23-cijferige code.
4.2.3 Data reductie
Er zijn in 2004 ruim 770.000 invoeraangiften gecontroleerd. Het is zeer inefficiënt om
met deze gehele set te gaan dataminen. Daarom worden er selecties gemaakt. De
belangrijkste variabele is de goederencode, hier wordt dan ook primair op geselecteerd 26 .
Van lang niet alle goederen zijn genoeg gecontroleerde aangiften beschikbaar om tot een
generaliseerbare classificatie te komen. Na een aantal onderzoekende analyses is ervoor
gekozen om goederencodes te selecteren waarvan tenminste 5% niet conform bevonden
is (van de controles), en waarvan die 5% tevens 100 of meer aangiften bevat. Dit levert
veertien 27 te analyseren goederen op. In tabel 4-2 worden de geselecteerde goederen
weergegeven. Hiermee zijn de drie, in hoofdstuk drie, onderscheidden vormen van data
cleaning toegepast. De vorm is nu voldoende om als input te dienen voor de
vervolgstappen.
Goederencode
#Controles
AA
983
BB
1.578
CC
978
DD
444
EE
5.923
FF
3.994
GG
1.454
HH
2.540
II
881
JJ
1.832
KK
337
LL
1.911
MM
1.173
NN
3.113
Tabel 4-2 Geselecteerde goederen
#Positieve
uitslag
147
332
114
134
976
562
254
152
124
118
147
141
110
189
voor analyse
De goederencodes zijn afgekapt tot op tien-cijfer niveau omdat de cijfers elf t/m
tweeëntwintig vrijwel uitsluitend nullen bevatten. In de tabel is het aantal uitgevoerde
controles opgenomen en het aantal dat daarvan niet conform is bevonden. In bijlage
III.1 is een tabel te vinden met meer kengetallen. Voor ieder goed worden de
gecontroleerde aangiften geselecteerd, die wordt opgeslagen in een nieuwe tabel. Deze
zijn de input voor de data analyse. In tabel 4-3 zijn de kengetallen van heel 2004
opgenomen.
% van totaal
Totaal aantal aangiften
3.078.416 100%
Gecontroleerde aangiften
777.322 23,25%
Niet-conform bevonden aangiften
26.709 0,87% (3,44% van gecontroleerde)
Tabel 4-3 kengetallen 2004
Zoals besproken is in hoofdstuk 3 wordt de geselecteerde data verdeeld in
verschillende sets ter voorkoming van overfitting. In SAS EM wordt naast een training en
26
De reden dat voor een selectie op basis van goederencodes gekozen is, is dat er binnen Sagitta Invoer
hoofdzakelijk op goederencode wordt geselecteerd. Dit maakt een vergelijking achteraf makkelijker. Tevens is
het niet efficiënt om de gehele dataset als input te nemen, er moet dus een keuze gemaakt worden.
27
Dit is natuurlijk zeer weinig, gezien de grote van de dataset.
- 28 -
Profielen valideren
een test set nog een derde set onderscheiden, de validatie set. Deze wordt grofweg
gebruikt om het uit de training set afgeleidde model te optimaliseren. In bijlage III.2 is
opgenomen hoe SAS EM de verschillende sets gebruikt. De uitgevoerde analyses maken
ook gebruik van de validatie set. De verdeling is als volgt, 40% training, 30% validatie
en 30% test.
4.3 Afleiden van regels
In deze paragraaf worden, op basis van de geselecteerde aangiften in paragraaf 4.2.3,
regels afgeleid door middel van data mining technieken. Er wordt hierbij gebruik
gemaakt van een beslissingsboom. Hiervoor is gekozen omdat beslisbomen makkelijk tot
regels te herleiden zijn waardoor een vergelijking met de profielen mogelijk is.
Is er op voorhand iets te zeggen over een mogelijke overlap? Aan de ene kant zou
je kunnen denken dat er overlap moet zijn tussen de profielen en de af te leiden regels.
Aan de andere kant is er ook voldoende reden om deze hypothese te verwerpen.
Immers, van het aantal gecontroleerde aangiften is maar een klein deel (3,44%)
werkelijk niet conform. Er lijkt dus voldoende mogelijkheid om de profielen scherper te
stellen.
Er zijn enkele beperkingen waarmee men rekening moet houden. Ten eerste, de
uitgevoerde controles moeten een betrouwbare weerspiegeling van de werkelijkheid zijn.
Dat wil zeggen dat er aangenomen moet worden dat de uitslag van een controle ook de
werkelijke uitslag is 28 . Ten tweede, er is geselecteerd op goederencode, hierdoor is het
niet mogelijk om verbanden te leggen tussen verschillende goederencodes. Om een
indicatie te krijgen van de invloed van deze beperking op de analyse, wordt bekeken in
hoeverre de goederencode van de oorspronkelijke en gecontroleerde aangifte verschillen.
De resultaten hiervan zijn opgenomen in bijlage III.3. Er blijkt dat er in hoofdstuk 85 en
39 veel verkeerde goederencodes zijn opgegeven. Hier wordt in deze analyse verder
geen rekening mee gehouden. Bij het maken van een classificatie model (hoofdstuk 5)
moeten deze afhankelijkheden wel meegenomen worden.
Een ander nadeel van deze aanpak is dat een aangifte geraakt kan worden op een
andere variabele dan de goederencode. Daardoor zijn niet alle controles van de aangiften
verricht op basis van de goederencode. Toch is voor deze aanpak gekozen omdat je
anders in een cirkel terechtkomt waarbij er steeds meer data bij de analyse betrokken
wordt. Waardoor de analyse ondoorzichtig wordt. Er kan bijvoorbeeld een profiel zijn dat
primair op importeur selecteert en daarna op goederencode. Eigenlijk zouden die
importeurs ook meegenomen moeten worden. Maar er is wellicht ook een profiel waar
de importeur in voorkomt, maar waar primair op land van oorsprong wordt geselecteerd.
Waardoor deze ook betrokken moet worden in de analyse. In deze aanpak is er dus
steeds meer data nodig.
Er wordt een beslisboom afgeleid met entropie als impurity meetstaf. Het
maximale aantal takken is twee en de maximale diepte is zes. Dit zijn arbitraire keuzes
die, wanneer er aanleiding toe is, aangepast kunnen worden. Er is besloten om de boom
relatief klein te houden omdat het doel van de beslisboomtechniek en het doel van deze
analyse niet geheel overeenstemmen. Een beslisboom heeft als doel de gehele populatie
te classificeren. Ook wanneer dit betekent dat er maar enkele trainingsvariabelen in één
blad worden ingedeeld. Dit kan wanneer men zeker weet dat de trainingsvariabelen
correct zijn. In dit geval zijn er, wegens de hierboven beschreven beperkingen, te veel
onzekerheden waardoor een blad met maar een paar waarden tot een ongegronde
28
Er zijn een aantal redenen waarom dit niet het geval is. Zo kan een aangifte geraakt zijn door een bepaald
profiel, maar heeft de bevonden fout niets te maken met dat profiel. Mogelijk wordt er toch een positieve
controle aan het profiel toegeschreven. Ten tweede kan het voorkomen dat een aangifte door meerdere
profielen wordt geraakt, waarvan er uiteindelijk maar één gecontroleerd wordt of positief (i.e. niet conform)
bevonden. Het is van de interpretatie van de controleur afhankelijk hoe hij dit registreert. Hierdoor kan het zijn
dat er een positieve uitslag aan een verkeerd profiel wordt toegewezen. Ook komt het voor dat wanneer er
maar een kleine fout wordt geconstateerd dat deze wordt verbeterd zonder dat er een positieve uitslag aan de
aangifte wordt toegekend.
- 29 -
Profielen valideren
generalisatie kan leiden. Concreet ligt de focus vooral op de grote splits waar een goede
classificatie mogelijk blijkt. De beslisboom wordt gepruned op basis van de
misclassificatie ratio. Dat houdt in dat de split met de kleinste misclassificatie wordt
gekozen.
Er zijn veertien goederen overgebleven voor vergelijking met de bestaande
profielen. Voor deze goederen zijn regels gegenereerd op basis van de geconstrueerde
beslissingsbomen. Deze regels zijn, wanneer relevant, te vinden in bijlage III.4.
4.4 Vergelijking profielen en regels
Een overzicht van de lopende profielen in 2004, voor zover relevant en betrekking
hebbend op de bovenstaande goederencodes, is te zien in bijlage III.4. Deze worden
vergeleken met de afgeleide regels uit de vorige paragraaf. Per goederencode wordt
hieronder de inhoud van de profielen opgesomd.
• AA: Geen profielen gevonden in 2004. In 2005/2006 is er wel gecontroleerd op
een onjuiste indeling.
• BB: Het profiel waar deze goederencode in voorkomt is niet specifiek een profiel
dat binnen het heffen en innen-kader valt. Er wordt gecontroleerd op
sigarettensmokkel met een aantal goederen als deklading, waaronder BB.
• CC: Dit profiel is opgenomen om te controleren op een ziekte. Een range van
goederen wordt aan deze controle onderworpen.
• DD: idem
• EE: Geen profielen gevonden. Controle op oorsprong en indeling in 2006.
• FF: Geen profielen gevonden.
• GG: Geen profielen gevonden. Controle op indeling en waarde in 2006.
• HH: Geen profielen gevonden.
• II: Hier wordt gecontroleerd op een gevaar voor de volksgezondheid voor deze
goederen uit een bepaald land.
• JJ: Geen profielen gevonden.
• KK: Er wordt gecontroleerd op een onjuist uitlekgewicht, specifiek voor deze
goederencode en met een bepaalde netto massa.
• LL: Er is gecontroleerd op cadmiumhoudende producten, waarbij een aantal
landen van oorsprong wordt bekeken.
• MM: In 2004 zijn hier geen lopende profielen op gevonden. In 2005 wordt er wel
gecontroleerd op uitputting van het quotum.
• NN: Hier zijn verschillende profielen op actief. Ze controleren allen op een onjuiste
indeling van apparaten. Hierbij zijn na verloop van tijd enkele importeurs
uitgesloten van controle.
Van de goederencodes waarvan geen profielen zijn gevonden kan het zijn dat er andere
variabelen zijn waardoor er tot controle overgegaan is. Het is lastig om deze variabele(n)
te ontdekken en het nut ervan is beperkt. Dit is daarom ook niet gedaan. Eigenlijk zijn
alleen de goederen AA, II, KK, LL en NN geschikt voor een verdere vergelijking.
De bevindingen aan de hand van de vergelijking worden hieronder per
goederencode opgesomd.
• AA: In 2005 is er gecontroleerd op onjuiste indeling. Dit terwijl er is 2004 niet één
keer een goederencode gecorrigeerd is. Het model stelt een uitsluiting voor van
bepaalde aangiftepunten waarbij een relatief klein percentage niet-conforme
aangiften ontdekt zijn. Hier is totaal geen overlap tussen de afgeleide regels en de
profielen.
• II: Het model geeft de importeur als significante waarde, waarbij het profiel op
land van oorsprong en een bepaald minimum tonnage selecteert. Hier is ook
totaal geen overlap.
• KK: Hier wordt door het model geselecteerd op bruto tonnage en bij een split op
aangiftepunt, waar het profiel een selectie op netto tonnage maakt. Er is hier een
zekere overlap.
- 30 -
Profielen valideren
•
LL: Het model kan geen significante split maken. Waarschijnlijk komt dit door een
combinatie van het grote aantal categorische variabelen (>1000) en het kleine
aantal positieven.
• NN: Het profiel zondert enkele importeurs uit van controle, waarbij het model de
aangevers als significante variabele ziet. Een kleine overlap is het gevolg.
Op basis van deze resultaten kan worden geconcludeerd dat er niet veel overlap is met
de profielen en de regels gegenereerd door het beslisboom-model. Natuurlijk kan dit op
basis van deze gegevens niet geconcludeerd worden voor de gehele set aan profielen.
Wel bestaat sterk het vermoeden dat dit niet het geval is. De profielen zijn in de regel
namelijk vrij algemeen. Ook bestaan er profielen die zich richten op een mogelijke
quotumoverschrijding. Deze kan niet verder gespecificeerd worden omdat deze vaak voor
een bepaald goed en land vastligt. Dit kan gezien worden als een beperking van het
systeem. Makkelijker zou zijn als er op basis van de invoer berekend wordt wanneer het
quotum overschreden wordt, waarna de volgende invoeraangiften automatisch geweigerd
worden. Verder zijn er profielen die onder de stop-functie vallen, en dus strikt genomen
niet binnen DSI aanwezig zouden moeten zijn. Voorbeelden hiervan zijn
sigarettensmokkel en ziektes heersend bij bepaald fruit. Een andere reden waarom er
minder overlap is, is dat er een selectie wordt gemaakt op de mogelijke opbrengst van
de controle 29 . Bijvoorbeeld een minimale douanewaarde of tonnage. Dit is begrijpelijk
gezien de beperkte controlecapaciteit. Het past echter niet binnen het
rechtshandhavingmodel, waarbij alle risicovolle aangiften gecontroleerd zouden moeten
worden.
Een interessante constatering is het de selectie op importeur (profiel) en aangever
(beslisboom) bij goed NN. In het Communautair Douanewetboek (CDW) wordt een
aangever gedefinieerd als: “de persoon die in eigen naam een douaneaangifte doet of de
persoon in wiens naam een douaneaangifte wordt gedaan [CDW, 1999]”. Deze
vertegenwoordiging is indirect, “de vertegenwoordiger handelt in eigen naam, doch voor
rekening van een andere persoon [CDW, 2001]”. Vanaf 2006 is ook directe
vertegenwoordiging mogelijk, “de vertegenwoordiger handelt in naam en voor rekening
van een andere persoon [CDW, 2001]”. Oftewel de aangever is verantwoordelijk voor de
aangifte en een eventuele boete kan op hem verhaald worden. Je zou dus verwachten
dat de aangever een zekere controle uitvoert op de juistheid van de aangifte. Bij een
analyse op gegevens van 2006 zou het interessant zijn om te kijken of dit werkelijk zo is.
Mogelijk kan dan een deel van de aangiften afgedaan worden met steekproefsgewijze
controle. Door de gevonden regels te koppelen aan domeinkennis kan het mogelijk zijn
nieuwe inzichten te verwerven. Ook kan door beter gebruik te maken van deze kennis
een beter model worden gegenereerd. Aan de hand waarvan betere profielen kunnen
worden opgesteld.
4.5 Tweede validatie
Voor een verdere validatie van de profielen wordt een andere aanpak gekozen. De data
wordt nu niet als basis genomen, maar een geschikt profiel. Het profiel is geschikt
wanneer er genoeg data is (zie bovenstaande selectiecriteria) waar het profiel betrekking
op heeft.
Een mogelijke kandidaat is NN. Deze is tezamen met enkele andere goederen
gecontroleerd op onjuiste indeling. Halverwege 2004 is er een importeur uitgezonderd
van controles, verderop in het jaar zijn nog twee importeurs uitgezonderd. Is er op basis
van analyse met beslisbomen een onderbouwing te vinden voor deze keuzes? Om dit uit
te zoeken wordt een zelfde selectie gemaakt als het profiel. Deze totale selectie bevat
3.791 gecontroleerde aangiften, waarvan er 294 (7,76%) niet conform bevonden zijn. De
29
Een selectie die hier niet is gemaakt omdat dan ten eerste het aantal waarnemingen verder beperkt zou
worden en ten tweede omdat er een vorm van domeinkennis nodig is om die keuze te rechtvaardigen. Ook niet
onbelangrijk is het feit dat, wanneer er door de Douane geselecteerd wordt op massa of waarde, aangiften die
onder de drempelwaarde vallen niet gecontroleerd worden en dus sowieso niet in de set voorkomen.
- 31 -
Profielen valideren
selectie waarbij er nog geen importeurs zijn uitgezonderd bevat 2.496 gecontroleerde
aangiften, waarvan er 169 (6,84%) niet conform bevonden zijn. Op basis van de
controlebevindingen is besloten enkele importeurs uit te sluiten. Middels een beslisboom,
met dezelfde parameters als in de vorige paragraaf, wordt bekeken of deze keuze te
rechtvaardigen is. In totaal zijn er drie importeurs uitgezonderd. De eerste heeft op 42
controleopdrachten nooit positief gescoord, de tweede op 51 controleopdrachten zes
(11,76%) positieve scores en de derde op 1820 controles 20 (1,10%) positieve scores.
Uitsluiting van de eerste en derde valt zeker te rechtvaardigen. De tweede echter niet,
omdat het percentage niet conforme aangiften ruim boven het gemiddelde (=6,84%)
ligt. De regels afgeleid van de beslisboom stellen een andere split voor, op aangever,
zoals is vermeld in paragraaf 4.4.
De conclusie die hieruit getrokken kan worden is dat er zeker mogelijkheden zijn
om de profielen te optimaliseren/scherper te stellen. Hiervoor is echter wel domeinkennis
vereist. Al is het maar omdat niet alleen het streven naar 100% compliance bepalend is
voor de inhoud van een profiel, maar ook andere zaken zoals de impact van een profiel.
Een uitgebreidere validatie van de profielen is niet goed mogelijk, vanwege de in
paragraaf 4.3 genoemde redenen. De methode in deze paragraaf biedt ook geen soelaas.
Omdat alleen door handmatige selectie 30 vast te stellen is of de profielen voortkomend
uit een Controle Opdracht tot voldoende controles hebben geleid. Wat onbegonnen werk
is vanwege het grote aantal controle opdrachten. Deze controles moeten tevens
voldoende positieve uitslagen kennen om als input te kunnen dienen voor classificatie. En
juist dat is het grootste probleem. Bij deze analyse zijn maar een kleine 90.000 van de
ruim 3.000.000 aangiften geschikt bevonden om een analyse op uit te voeren. Met
behulp van domeinkennis kan een slimme (maar toereikende) selectie gemaakt worden.
Dit komt in het volgende hoofdstuk uitgebreid aan bod.
4.6 Verbeteringen
Aan de hand van de uitgevoerde analyses wordt in deze paragaaf de mogelijke
verbetering gekwantificeerd. Er wordt een vergelijking gemaakt tussen de resultaten die
voortkomen uit de controles aan de hand van de profielen en de regels aan de hand van
de beslisboomanalyse. Dit is alleen mogelijk voor de in paragraaf 4.4 besproken
goederencodes om de eenvoudige reden dat voor de overige goederen geen nuttige
profielen gevonden zijn. Dit is met uitzondering van LL omdat van deze dataset geen
model af te leiden is. Hieronder wordt per goederencode aangegeven wat de verbetering
kan zijn. Hierbij moet worden aangetekend dat er niet zeker gesteld kan worden wat de
reden voor selectie is geweest. Het kan het gevonden profiel zijn, maar evengoed is het
een andere variabele die geraakt is. Als prestatie-index van de profielen wordt simpelweg
de fractie genomen van het aantal niet conform bevonden aangiften ten opzichte van de
controles. Om de mogelijke verbetering te bepalen zijn de resultaten van de al
uitgevoerde beslisboomanalyses gebruikt.
• AA: 14,95% van het aantal controles is positief bevonden, dit levert een index van
0,1495 op. De index van het gegenereerde model wordt bepaald aan de hand van
de classificatie tabel. Deze wordt door SAS EM standaard in de output van de
analyse weergegeven. Door het aantal werkelijk negatieven en werkelijk
positieven op te tellen en te delen op het totaal aantal trainingsvariabelen krijgt
men de prestatie-index van het model. Deze prestatie-index komt voort uit de
trainingsset. Om zeker te zijn dat er geen overfitting heeft plaatsgevonden, wordt
deze prestatie-index vergeleken met de prestatie-index op basis van de validatie
set. Ook worden de SSE’s van de training, validatie en test set vergeleken.
Wanneer hier grote verschillen in voorkomen is het model op basis van de training
30
De software voorziet niet in een mogelijkheid om snel verschillende overzichten weer te geven over het
aantal lopende profielen, controle opdrachten, effect van de profielen enzovoorts. Hiervoor wordt een database
in Excel gebruikt. De implementatie laat echter te wensen over waardoor de zoek- en rapportagemogelijkheden
ook hier beperkt zijn.
- 32 -
Profielen valideren
set niet betrouwbaar. Het komt echter voor dat de validatie en test set betere
waarden voor prestatie-index en SSE hebben dan de training set. Met andere
woorden, door het prunen van de boom is overfitting niet aan de orde. Het model
kent een prestatie-index van 0,8954.
• II: 14,07% van het aantal controles is positief bevonden, dit levert een index van
0,1407 op. De prestatie-index van het model is 0,9119.
• KK: 43,62% van het aantal controles is positief bevonden, dit levert een index
van 0,4362 op. De prestatie-index van het model is 0,8284. Hier ligt de prestatieindex van de validatie set (=0,6238) dik onder. Ook de SSE’s van de training set
ten opzichte van de validatie en test set verschillen significant. Dit model kan
daarom niet als betrouwbaar gekwalificeerd worden.
• NN: 6,07% van het aantal controles is positief bevonden, dit levert een index van
0,0607 op. De prestatie-index van het model is 0,9567.
De resultaten zijn samengevat in tabel 4-4. In bijlage III.5 zijn de classificatietabellen te
vinden voor de vier goederencodes.
Goederencode
AA
II
KK
NN
Prestatie-index profiel
0,1495
0,1407
0,4362
0,0607
Tabel 4-4
Prestatie-index model
SSE training,
(validatie set)
validatie en test set
0,8954 (0,9051)
61,00; 43,73; 46,21
0,9119 (0,8935)
54,05; 47.73; 42,08
0,8284 (0,6238)
35,36; 52,37; 47,69
0,9567 (0,9507)
81,92; 82,42; 77,25
Prestatieindex profielen ten opzichte van de modellen
Hieruit blijkt dat de modellen een gigantische verbetering zijn ten opzichte van de
profielen. Dit betekent echter niet dat men nu volledig zou moeten overstappen op
beslisboomanalyses. Er kleeft namelijk een nadeel aan de hoge prestatie-index van de
modellen. Dat is het relatief hoge aantal valse negatieven, waarbij aangiften als conform
worden aangemerkt door het model terwijl ze in werkelijkheid niet conform zijn. Mocht
het model geïmplementeerd worden, dan weet de Douane vooraf dat je nóóit aan de,
door hen zelf nagestreefde, 100% compliance voldoet 31 . Daar staat tegenover dat het
aantal controles drastisch te verminderen is. In onderstaande tabel is opgenomen
hoeveel controles er op basis van de profielen zijn uitgevoerd en hoeveel er moeten
worden uitgevoerd op basis van de gegenereerde modellen.
Goederencode
AA
II
KK
NN
#controles op basis van de profielen
#controles op basis van het model (%)
983
134 (13,68%)
881
90 (10,24%)
337
155 (45,96%)
3.113
63 (2,00%)
Tabel 4-5 Controles op basis van de profielen en modellen
Deze getallen spreken voor zich. Aan de hand van de gegenereerde modellen wordt met
een fractie van de controles een zeer hoge prestatie-index gehaald.
Het is niet aan mij om te beoordelen welke van deze twee uitersten gekozen moet
worden. Het geeft wel aan dat er ruimte te over is om de profielen te verbeteren. Het is
ook niet zo dat één van beide gekozen moet worden. Er kan een tussenweg worden
gevonden. Men zou bijvoorbeeld een andere insteek kunnen nemen, door in plaats van
zich te richten op het classificeren van niet conforme aangiften, de focus te leggen op het
classificeren van aangiften die wel conform zijn. Dit kan heel eenvoudig door in EM de
grafisch weergegeven beslisboom te bekijken. Nu kan men zelf een, arbitraire, keuze
maken of een geïdentificeerde groep aangiften wel of niet gecontroleerd dient te worden.
Op deze manier kan men het verwachte aantal valse negatieven terugdringen. Dit gaat
uiteraard wel ten koste van het aantal uit te voeren controles.
31
Daaraan voldoet de Douane nu, ongetwijfeld, ook niet. Het enige verschil is dat je na een dergelijke analyse
weet hoeveel aangiften je ongeveer mist na implementatie van het model.
- 33 -
Profielen valideren
Een voorbeeld van zo’n benadering is min of meer gegeven in de vorige paragraaf.
Waarbij per importeur wordt bekeken of deze wel of niet uitgezonderd 32 wordt van
controle. In EM kan dit zeer makkelijk door gebruik te maken van de zogenaamde
“interactive tree”. Hier wordt deze methode niet gebruikt omdat het om onduidelijk
redenen niet functioneerde in EM. Door gebruik te maken van de interactive tree kunnen
zelf splits worden voorgesteld. EM berekent vervolgens de prestatie indicatoren. Zo kan
zeer snel worden bekeken wat de gevolgen zijn van de gemaakte keuzes.
4.7 Conclusie
In dit hoofdstuk is onderzocht of er middels classificatieregels, voortkomend uit een
beslisboom, validatie te vinden is voor de bestaande profielen. Waarmee een antwoord is
gegeven op subvraag B.2. Hiervoor zijn twee aanpakken gekozen. De data preparatie is
voor beide aanpakken grotendeels gelijk. Het aantal missende waarden was beperkt. Wel
bleek het nodig enkele kolommen te standaardiseren. Data selectie is voor beide
aanpakken wel verschillend. De eerste aanpak zoekt naar geschikte datasets die als input
kunnen dienen voor data mining. Na een tijdrovende analyse zijn veertien sets bruikbaar
gevonden. Hieraan zijn, voor zover mogelijk, profielen gekoppeld. Het bleek lastig om bij
iedere selectie één of meer profielen te vinden. De selecties waarbij wel een vergelijking
mogelijk is laten weinig overlap zien tussen de gegenereerde regels en de profielen.
De tweede aanpak neemt een Controle Opdracht als basis voor de data selectie.
Aan de Controle Opdracht hangen verschillende profielen. De profielen zijn in de loop van
het jaar aangepast. Middels een beslisboom is bekeken of de aanpassingen te
rechtvaardigen zijn. Dit blijkt deels het geval te zijn. Het gegenereerde model vind een
andere split, op aangever in plaats van importeur.
Een implementatie van de afgeleidde modellen leidt tot een hogere prestatieindex. Het mes snijdt aan twee kanten; enerzijds zijn er minder controles nodig,
anderzijds is de risicoafdekking efficiënter. Nadeel is dat er in totaal minder niet
conforme aangiften onderschept worden. Door een combinatie van de profielen en de
modellen kan een gulden middenweg gevonden worden.
De beschikbaarheid van voldoende data blijkt de grootste beperking voor een
gedegen analyse met data mining technieken. Mede hierdoor kan de vraag of data
mining tot zelfde resultaten komt als de profielen niet worden beantwoord. In het
volgende hoofdstuk wordt bekeken of er technieken zijn die met minder data een model
kunnen afleiden. De validatie werd verder bemoeilijkt door het beperkte inzicht in het
aantal lopende profielen/Controle Opdrachten.
Het volgende hoofdstuk voegt het element domeinkennis toe aan het proces. Door
het gebruik van domeinkennis kunnen er mogelijk betere selecties gemaakt worden. Ook
kunnen de bevindingen van een model geïnterpreteerd worden zodat nieuwe inzichten
verkregen worden. Dit wordt gedaan in de vorm van een casestudy.
32
Helemaal uitzonderen is geen goed idee, beter is om op die importeurs (of andere variabele) een
steekproefsgewijze controle te houden.
- 34 -
Casestudy druiven
Hoofdstuk 5
Casestudy druiven
5.1 Inleiding
In het vorige hoofdstuk zijn bestaande profielen vergeleken met de regels voortkomend
uit een beslisboom analyse. In dat hoofdstuk is beperkt gebruik gemaakt van
domeinkennis. Dit hoofdstuk maakt expliciet gebruik van domeinkennis. Dit wordt
gedaan in de vorm van een casestudy. Er wordt een bepaald risico, waar een Controle
Opdracht uit voort is gekomen, als basis genomen. Gesprekken met een domeinexpert
wijzen uit welke dataselectie gemaakt moet worden. In paragraaf 5.2 wordt het
probleemgebied besproken. Paragraaf 5.3 behandelt het analyseproces. Er worden
verschillende technieken gebruikt om op basis van de trainingsvariabelen een
classificatiemodel te construeren. De analyses behorend bij deze technieken worden stuk
voor stuk beschreven. Afsluitend wordt in de paragraaf een vergelijking gemaakt van de
modellen. De resultaten van paragraaf 5.3 worden in 5.4 teruggekoppeld aan de
domeinexpert. Paragraaf 5.5 sluit het hoofdstuk af met een conclusie.
5.2 Probleemgebied casestudy
Het risicogebied omvat fraude met druivenaangiften. Onderstaande informatie is
afkomstig van een Douanemedewerker. Deze Douanemedewerker is lid van de
Risicokennisgroep Landbouw, kerngroep Groenten en Fruit. Hij is in deze functie onder
andere belast met het risicogebied omtrent druiven. Een interview met de
Douanemedewerker levert de benodigde domeinkennis welke zal worden gebruikt om de
analyse te optimaliseren.
Druiven zijn onderverdeeld in diverse soorten. De meest voorkomende zijn
druiven met pit en druiven zonder pit. Andere, minder voorkomende, soorten zijn de
empereur druiven en andere druiven, waaronder ook de wijndruiven vallen. In tabel 5-1
worden de verschillende vormen opgesomd (gecensureerd).
Goederencode
OO
EE
FF
PP
Conventioneel Douanerecht
Variërend van 8% tot 17,6% +
€9,6/100kg/net
Idem
Van 1 jan. t/m 14 jul.: 14,4%
Van 15 jul. t/m 31okt: 17,6%
Van 1 nov. t/m 31 dec.: 14,4%
Tabel 5-1 soorten druiven
De waardebepaling bij de invoer van fruit is minder eenvoudig dan bij andere producten.
Dit komt omdat het een bederfelijk goed is en de invoer (i.e. de oogst) snel doorverkocht
moet worden. De prijs is dus sterk afhankelijk van het aanbod en de vraag. Daarom is de
waarde op het moment van invoer vaak niet bekend. Er zijn verschillende manieren om
toch een waarde op te geven. Ten eerste kan er een schatting worden opgegeven. Deze
wordt dan achteraf gecorrigeerd. Dit wordt in DSI weergegeven middels de code “O1”
(Onvolledige aangifte) in de kolom aangifteprocedure. Ten tweede kan er de forfaitaire
methode gebruikt worden. Hierbij stelt de Commissie van de Europese Gemeenschappen
dagelijks de forfaitaire invoerwaarden vast per 100kg netto [NDFR, 2006]. Dit wordt
geregistreerd door de code “E02” op de invoeraangifte. Ten derde kan de
- 35 -
Casestudy druiven
eenheidswaarde gebruikt worden. Per periode van 14 dagen wordt door de Commissie
van de Europese Gemeenschappen voor bepaalde producten een Eenheidswaarde
vastgesteld. Die Eenheidswaarde wordt bepaald door medewerking van een aantal
importeurs in de lidstaten. Zij verstrekken dagelijks of wekelijks de bruto verkoopprijzen
van de importproducten, waarna een gemiddelde de eenheidswaarde voor dat product
wordt vastgesteld en als verordening wordt gepubliceerd [Janssen, 2006]. Dit wordt
geregistreerd door de code “E01” op de invoeraangifte. Een “S” bij de aangifteprocedure
betekent een standaardaangifte, hier is de waarde bekend op moment van aangifte.
Helaas zijn de codes “E01” en “E02” niet terug te vinden in de beschikbare dataset. In de
analyse kan hier dan ook geen onderscheid in gemaakt worden.
Aan de verschillende manieren van waardebepaling zitten bepaalde risico’s vast.
Door creatief om te gaan met de manier van waardebepaling kan een importeur zich
verzekeren van minimale heffingen. Door het gebrek aan registratie van de wijze van
waardebepaling in de beschikbare dataset kunnen deze risico’s, zoals beschreven in het
gespreksverslag, niet worden onderzocht. Andere risico’s zijn oorsprongfraude en fraude
met goederencodes. De oorsprongfraude betreft druiven uit Namibië. Mogelijk komen
deze uit het naastgelegen Zuid-Afrika. Druiven uit Namibië worden minder zwaar belast
dan druiven uit Zuid-Afrika. Fraude met goederencodes heeft betrekking op verse
tafeldruiven uit Turkije. Door deze aan te geven onder goederencode PP, wijndruiven,
ontloopt men invoerrechten.
5.3 Analyse
5.3.1 Data preparatie
De analyse beslaat dezelfde stappen als beschreven in hoofdstuk 4, er wordt ook met
dezelfde data gewerkt. Allereerst data reductie; aan de hand van het gesprek met de
Douanemedewerker wordt een selectie gemaakt van de invoeraangiften die interessant
zijn voor verdere analyse. De kennis van de domeinexpert is essentieel voor de selectie
omdat deze precies weet waar de risico’s zitten. Zoals in de beschrijving van het
probleemgebied is aangegeven is er een risico dat er een verkeerde goederencode wordt
opgegeven, of, om heffingen te omzeilen, een verkeerd land van oorsprong. Alle
invoeraangiften van 2004 die één van de in paragraaf 5.2 genoemde goederencodes
bevat worden geselecteerd. In tabel 5-2 zijn de kengetallen van de geselecteerde data
weergegeven. In bijlage IV.1 is een uitgebreidere tabel te vinden.
Totaal
Goederencode
Aangiften Controles
Positieve uitslag
OO
2
2
0
EE
6.244
5.923
976
FF
4.063
3.994
562
PP
3
1
1
10.312
9.920
1.539
Tabel 5-2 Kengetallen druiven
De kolommen die geselecteerd worden voor analyse zijn dezelfde zoals gebruikt in het
vorige hoofdstuk en zoals weergegeven in tabel 2-4. Voor analyse wordt net als in
hoofdstuk 4 de data opgesplitst in een training, validatie en test set, met de gewichten
40%, 30%, 30% respectievelijk.
Ten tweede data cleaning. Middels een frequentietabel wordt bekeken of er
missende of incorrecte data is. Alleen bij land van bestemming komen missende
waarden voor. Deze worden vervangen door “ONB”. De overige variabelen kennen al een
notatie voor een missende waarde, deze zijn aangehouden. Daarnaast kennen de landen
van oorsprong, bestemming en herkomst letter- en cijfercodes. Deze zijn in hoofdstuk 4
al aangepast en worden hier wederom gebruikt.
- 36 -
Casestudy druiven
Als laatste data integratie en transformatie. Deze stap is vrijwel gelijk aan de
preparatie in hoofdstuk 4. De tabel met eindaangiften en oorspronkelijke aangiften
worden gekoppeld aan de hand van de UniekeID. De waarden van de velden zijn al van
een dergelijke kwaliteit dat daar geen verdere transformatie nodig is.
5.3.2 Beslisboom
Er worden vier beslisbomen afgeleid. Twee op basis van entropie als splitsingscriterium
en twee op basis van de Gini-index. De beslisbomen hebben een maximale diepte van
zes. Tevens moeten er ten minste vijf waarnemingen zijn in een volgend blad om een
split te mogen maken. Per splitsingcriterium zijn er twee beslisbomen gegenereerd. Één
met het maximale aantal takken per split op twee en één met het maximale aantal
takken per split op vier. Dit is gedaan omdat bijna alle variabelen categorisch zijn en veel
verschillende waarden hebben. Mocht er een ongelimiteerd aantal takken geoorloofd zijn,
dan wordt er door SAS Enterprise Miner een boom gecreëerd met een diepte van één. De
bladen hebben vervolgens niet genoeg trainingsvariabelen meer om een verdere split te
rechtvaardigen.
Per beslisboom worden in onderstaande tabel (5-3) enkele statistieken
weergegeven. De classificatietabellen zijn opgenomen in bijlage IV.2.
Beslisboom 1
Beslisboom 2
Beslisboom 3
Beslisboom 4
Splitsingscriterium
Entropie
Entropie
Gini-index
Gini-index
Max. aantal takken
2
4
2
4
SSE training set
692,82
698,20
662,61
670,73
SSE validatie set
560,86
550,16
536,87
536,99
SSE test set
575,22
577,10
552,74
559,38
Prestatie-index (training)
0,9004
0,9002
0,8984
0,8971
Prestatie-index (validatie)
0,8938
0,8938
0,8955
0,8931
McFadden σn
35,78%
25,63%
21,00%
22,38%
Valse negatieven (training)
337
372
362
370
Werkelijk negatieven (training)
278
243
253
245
Tabel 5-3 Statistieken per genereerde beslisboom
Per statistiek is de beste waarde vetgedrukt. De beste beslisboom uiteindelijk is degene
die het minste aantal valse negatieven levert. Het doel is immers om zoveel mogelijk
niet-conforme aangiften te onderscheppen en niet om een zo effectief mogelijk model te
construeren. Beslisboom 3 heeft de laagste SSE waarden, maar een relatief hoog aantal
valse negatieven. Daarom is dit niet het beste model. Dat is het model voortkomend uit
beslisboom 1. Hiervan liggen de SSE’s weliswaar een stuk hoger, het model classificeert
beter. Dit is ook weergegeven in de relatief hoge waarde van σn.
De verhouding tussen het aantal valse negatieven en werkelijk negatieven is
opvallend. De voorspelling van het model leidt consequent tot meer valse negatieven dan
werkelijk negatieven. Dit houdt in dat bij implementatie van het model een soortgelijke
verhouding te verwachten is.
De waarden van de SSE’s zijn bij de beslisbomen op basis van de Gini-index en
die op basis van de entropie vrijwel aan elkaar gelijk onafhankelijk van het maximale
aantal takken. Tussen de waarden van de bomen op basis van de Gini-index en de
entropie zit wel een significant verschil.
Ter vergelijking is ook een boom gegenereerd waarbij het maximale aantal takken
op 50 is gezet. Het model heeft de volgende waarde voor de SSE’s: 660,39 (training),
541,89 (validatie), 570,50 (test). Dit zijn in relatie tot de bovenstaande bomen
vergelijkbare waarden. De prestatie qua classificatie ligt ergens midden in de prestatie
van de andere modellen. Deze boom wordt zeer uitgebreid en een omzetting in regels
levert daarom veel regels op. Dit is niet bevorderlijk voor het inzicht op het gehele
risicogebied. Daarom wordt het gebruik van een dergelijke boom niet geadviseerd.
- 37 -
Casestudy druiven
Wanneer er naar de gegenereerde beslisbomen zelf wordt gekeken valt op dat er
in ieder model primair wordt gesplitst op importeur. De daarop volgende split is ook altijd
dezelfde namelijk op aangiftepunt. Dit is enigszins verassend omdat er in de profielen
(zie paragraaf 4.4) niet op geselecteerd wordt. Een selectie op importeur is wel
begrijpelijk (hier zit één persoon of bedrijf achter), de selectie op aangiftepunt ligt wat
minder voor de hand. Dit wordt voorgelegd aan de domeinexpert, de
Douanemedewerker, om te kijken of er een verklaring voor kan zijn. Andere variabelen
waarop gesplitst wordt zijn aangever, bruto gewicht, land van oorsprong,
aangifteprocedure, land van verzending en netto gewicht. Vooral de aangever ligt niet
erg voor de hand omdat deze niet aansprakelijk is voor de aangifte (zie paragraaf 4.4).
Op aangeven van de Douanemedewerker worden de aangiftepunten omgezet naar
land, zee of lucht 33 . Mogelijk geeft dit meer informatie dan de aangiftepunten
afzonderlijk omdat er verondersteld wordt dat de manier van vervoer relatie heeft tot het
land van oorsprong. Dit in verband met de verschillende oogstperioden. De toevoeging
van deze variabele levert echter minder informatie dan de aangiftepunten afzonderlijk.
Voor verdere analyse wordt deze omzetting dan ook niet meegenomen.
Wordt model 1 toegepast dan worden er een kleine 800 controles in plaats van
9.920 uitgevoerd. Ook hier geldt weer het nadeel van de valse negatieven. In paragraaf
5.4 worden de resultaten van deze analyse teruggekoppeld aan de domeinexpert.
Het model voortkomend uit beslisboom 1 is in vergelijking met de lopende
profielen erg uitgebreid. Dit model kan ingekort worden zonder dat er aan kwaliteit wordt
ingeboet. Het aantal valse negatieven is zelfs iets lager (335). De SSE waarden voor de
verschillende sets zijn training: 739,96; validatie: 581,71 en test: 595,12. Dit model kent
een diepte van twee, waarbij primair wordt geselecteerd op importeur en daarna op
aangiftepunt. Hiervoor zijn 883 controles vereist (8,9% van het aantal controles op basis
van de profielen), met een prestatie-index van 0,8936 en een σn-waarde van 0,3664.
5.3.3 Neuraal netwerk
De neurale netwerken worden geconstrueerd op basis van de multilayer perceptron
(MLP) architectuur. Directe verbindingen worden niet toegestaan, alle modellen hebben
één verborgen laag en het aantal hidden units is variabel. Per neuraal netwerk worden
verschillende statistieken weergegeven om de netwerken met elkaar te kunnen
vergelijken. Zie hiervoor tabel 5-4. De classificatietabellen zijn opgenomen in bijlage
IV.3.
Neuraal
Neuraal
Neuraal
Neuraal
Netwerk 1
Netwerk 2
Netwerk 3
Netwerk 4
Hidden units
10
15
20
25
SSE training set
641,55
651,32
650,44
657,54
SSE validatie set
527,52
542,34
532,85
537,90
SSE test set
540,01
554,84
538,70
543,88
Prestatie-index (training)
0,8974
0,8959
0,8981
0,8986
Prestatie-index (validatie)
0,8915
0,8865
0,8918
0,8885
McFadden σn
0,2477
0,3723
0,3230
0,3411
Valse negatieven (training)
365
333
347
342
Werkelijk negatieven (training)
250
282
268
273
Tabel 5-4 Statistieken per gegenereerd neuraal netwerk
Er is niet één neuraal netwerk als dat er duidelijk als beste uitspringt. Het neurale
net met 10 hidden units heeft de beste waarden voor de SSE. De overige netwerken
33
Er kan niet gegarandeerd worden dat deze omzetting correct is. In de uitgebreide dataset uit 2004 is een
kolom opgenomen met vervoerswijze, deze is helaas zeer incompleet en daardoor niet geschikt voor analyse.
De omzetting is nu gebeurd door te kijken naar de geografische locatie van de aangiftepunten. Dit biedt echter
geen garantie voor de vervoerswijze omdat bij de aangiftepunten niet uitsluitend één type van vervoeren wordt
behandeld.
- 38 -
Casestudy druiven
kennen ongeveer vergelijkbare waarden. Ook de prestatie-indices zijn voor ieder netwerk
vrijwel gelijk. De netwerken met 10 en 20 hidden units presteren het beste, de andere
twee zitten er zeer dicht bij in de buurt. De McFadden σn is het hoogst bij het neurale
netwerk met 15 hidden units. De doorslaggevende factor is het aantal valse negatieven.
Deze is het laagst bij neuraal netwerk 2 (15 hidden units), wat terug te zien is in de
relatief hoge waarde van σn.
Ook hier is hetzelfde beeld te zien met betrekking tot de verhouding tussen het
aantal valse en werkelijk negatieven. Het aantal valse negatieven is consequent hoger
dan het aantal werkelijk negatieven. Bij de beslisbomen kan hier flexibel mee omgegaan
worden. Het neurale netwerk biedt deze mogelijkheid niet, men zit vast aan het afgeleide
model.
Zoals in hoofdstuk 3 is vermeld is het nadeel van neurale netwerken dat ze een
black box benadering geven. Interpretatie van de factoren die de meeste invloed hebben
op de uitkomst is daardoor lastig. Dat maakt het moeilijk om dit soort modellen te
optimaliseren. Gezien de kleine verschillen in de waarden van de SSE en de prestatieindex is het onwaarschijnlijk dat er significant betere modellen te construeren zijn op
basis van het MLP.
5.3.4 Logistische regressie
Er wordt een logistisch regressie model geconstrueerd op basis van de geselecteerde
data. Omdat veel variabelen categorisch van aard zijn is verdere preparatie noodzakelijk.
Deze variabelen worden omgezet in dummyvariabelen 34 . Hierbij wordt per variabele de
waarde met de grootste frequentie uitgezonderd (alle dummy’s voor die variabele
hebben dan de waarde “0”). De frequentietabellen zijn te vinden in bijlage IV.4. Per
categorische variabele wordt hieronder beschreven hoe de omzetting in dummy’s is
gedaan.
• Aangiftepunt: voor alle categorische variabelen geldt dat sommige waarden maar
een klein aantal keer voorkomen. Deze worden ingedeeld in een dummykolom
“other”. Deze keuze is ietwat arbitrair, om een zo goed mogelijke keuze te maken
worden de significante splits bij de beslisboom uit 5.3.2 in ogenschouw genomen.
Zo komt aangiftepunt “129” voor in die boom. Deze wordt dan ook nog
meegenomen als aparte variabele. Alle waarden die meer dan 0,5% voorkomen
komen in een aparte dummykolom.
• Aangever: alle waarden die meer dan 0.9% voorkomen krijgen een dummykolom,
de overige komen in de dummykolom “AG_OTHER”.
• Aangifteprocedure: in de beslisboom wordt een onderscheidt gemaakt tussen de
waarden “O1” en “S”. De dummykolom krijgt de waarde “1” wanneer de waarde
“S” is en “0” wanneer de waarde “O1” is. De waarde “V1” komt maar 10 keer
voor, deze wordt ingedeeld bij de meest voorkomende waarde, “O1”.
• Aangiftesymbool: deze variabele wordt uitgesloten van analyse omdat deze in alle
gevallen, op één na, dezelfde waarde heeft.
• Geadresseerde/importeur: De importeurs die meer dan 250 keer voorkomen
krijgen een eigen kolom. De andere komen in de kolom “IM_OTHER”.
• Land van verzending: alle numerieke codes die niet omgezet konden worden naar
lettercodes krijgen een dummykolom. Verder krijgen alle landen die meer dan 1%
voorkomen een eigen kolom. De rest wordt ingedeeld bij “LV_OTHER”.
• Land van bestemming: zie land van verzending. De missende waarden worden in
een aparte dummykolom gestopt. De restgroep is ingedeeld bij de hoofdgroep,
“NL”.
• Leveringscondities: de waarden die meer dan 1% voorkomen krijgen een eigen
dummykolom. De onbekende waarden en de overige worden in “LC_OTHER”
geplaatst.
34
De variabelen zijn nominaal en niet ordinaal. Bij ordinale variabelen zou ervoor gekozen kunnen worden om
deze niet in dummy’s om te zetten, om zo het aantal variabelen tot een minimum te beperken.
- 39 -
Casestudy druiven
•
Goederencode: de goederencodes die maar een paar keer voorkomen worden
ingedeeld bij de grootste groep. Dit leidt tot één dummykolom waarbij de waarde
een “1” is als de goederencode FF0 is en “0” als de waarde anders is.
• Land van oorsprong: zie land van verzending.
• Gevraagde regeling: twee regelingen zijn hier onderscheiden, “040” en “042”. De
overigen worden bij “040” ingedeeld. De dummy is “1” wanneer de regeling “040”
is en “0” anderzijds.
• Voorafgaande regeling: ook hier één dummykolom. Bij een regeling “071” “1”, de
overige worden bij onbekend ingedeeld, dus “0”
• Vrijstellingsregeling: deze wordt uitgesloten voor analyse omdat de waarden bijna
allemaal gelijk zijn.
• Preferentie: de waarde “060” wordt ingedeeld bij “040”. De andere waarden
worden alle dummy’s.
Dit resulteert in een totaal van 80 onafhankelijke variabelen. Wat vrij veel is.
Vaak worden logistische regressie modellen gebruikt om een bepaald
probleemgebied te beschrijven. Bijvoorbeeld, een aangifte met variabele X1 is 30% vaker
niet conform dan een aangifte met variabele X2 35 . In dit onderzoek zijn dergelijke
inzichten niet relevant. Hier wordt dan ook geen aandacht aan besteed. Wel interessant
is om te bekijken hoe goed een logistisch regressie model classificeert. Voor dit doel
wordt stepwise regression aangeraden, meer specifiek backward elimination [Menard,
2002]. Hierbij wordt eerst een model met alle variabelen afgeleid, waarna per stap een
niet significante variabele wordt geëlimineerd.
In deze analyse is een ander onderscheid gemaakt in verschillende sets. Voor de
training is 75% gereserveerd, 25% wordt gebruikt als test set. Allereerst wordt bekeken
of het model met alle variabelen tot een betere voorspelling leidt dan het een model met
de intercept alleen. Oftewel of het afgeleide model significant is. Dit is af te leiden aan de
hand van de waarde van de χ2 (Chi-square), deze ligt zeer hoog -2255 met 37
vrijheidsgraden, de significantie is nul- dus het model is significant.
Het criterium waarmee wordt bepaald of een variabele niet significant is, is de
likelihood ratio test [SPSS, 2006]. De variabele die de minste significantie heeft wordt uit
het totale model verwijderd, waarna het proces zich herhaalt. Bij de selectie van het
beste model wordt gekeken naar de verschillende classificatietabellen per stap. De
laatste stappen laten dezelfde classificatietabellen zien, daarom wordt nu nog geen
model geselecteerd.
Vervolgens wordt de cutoff waarde aangepast. Standaard staat deze op 0,5. Er
wordt vanuit gegaan dat de training set een even groot aantal “nullen” en “enen” bevat.
De hier gebruikte dataset heeft 85% nullen en 15% enen, dus wordt de cutoff waarde
gesteld op 0,15. Dit leidt tot een classificatie die stukken beter is. De beste classificatie is
te zien bij stap 42, hiervan is de output van SPSS opgenomen in bijlage IV.5. Dit is
tevens het afgeleide model.
De betere classificatie, lees: reductie van het aantal valse negatieven, gaat ten
koste van het aantal controles (en dus de prestatie-index). De classificatietabellen zijn
opgenomen in bijlage IV.6. Tabel 5.5 geeft de statistieken van het model met de twee
cutoff waarden.
Cutoff = 0,50
Cutoff = 0,15
training
test
training
test
Prestatie-index
0,8975
0,8999
0,7570
0,7386
McFadden σn
0,2784
0,2544 0,4544
0,4201
Valse negatieven
679
220
243
84
Werkelijk negatieven
83
29
925
287
Tabel 5-5 Statistieken per model
Het model is direct uit bijlage IV.5 uit te maken en komt er als volgt uit te zien
Logit ( y ) = −2,051 + 1,471( AP _ 164) + .... − 1,627( LO _ EG )
35
De waarde van een coëfficiënt is niet direct te interpreteren, het teken wel
- 40 -
Casestudy druiven
Bijvoorbeeld een aangifte met de volgende kenmerken: aangiftepunt = “171”; aangever
= “0394738”; aangifteprocedure = “S”; importeur = “80096706901”; leveringsconditie =
“DDP”; gevraagde regeling = “042”; land van verzending = “AR”; land van bestemming
= “NL”; land van oorsprong = “BR” geeft de waarde
Logit ( y ) = −2,051 + 1,870(1) − 1,007(1) − 1,929(1) + 0,909(1) + 2,345(1)
− 1,881(1) − 0,330(1) + 0,735(1) − 2,020(1)
= −3.359
Deze waarde moet worden omgezet in een kans. De kans dat een aangifte met
bovenstaande kenmerken niet conform is, is e-3,359/(1+e-3,359) = 0,0336. Een grote kans
dus dat deze aangifte niet conform is.
5.3.5 Vergelijking modellen
Vier manieren om aangiften te classificeren hebben nu de revue gepasseerd; selectie op
basis van profielen, beslisbomen, neurale netwerken en logistische regressie modellen. In
tabel 5-6 wordt weergegeven hoeveel controles iedere techniek vereist binnen het
beschreven probleemgebied.
Druiven
#controles
Profielen
9.920
Beslisboom
797 (8,0%)
Neuraal netwerk
866 (8,7%)
Logistische regressie
1.539(15,5%)
Tabel 5-6 Aantal controles per techniek
Direct valt op dat de modellen maar een fractie van de controles voorstellen dan wanneer
er gebruik wordt gemaakt van de profielen. Zoals al eerder is gememoreerd is het nadeel
hiervan het aantal valse negatieven. In tabel 5-7 worden per techniek de beste modellen
en hun kenmerken opgesomd.
Prestatie-index
McFadden σn
Valse negatieven
Werkelijk negatieven
Profielen beslisboom
Neuraal netwerk
Logistische regressie
0,1551
0,9004
0,8959
0,7570
-0,3578
0,3723
0,4544
0 36
337
333
243
1.539
278
282
925
Tabel 5-7 Vergelijking technieken 37
Het model afkomstig uit de logistische regressie techniek heeft de beste waarden. De
McFadden σn is het hoogst, wat te verklaren is door de relatief gunstige verhouding
tussen het aantal valse en werkelijk negatieven. De prestatie-index daarentegen ligt een
stuk lager dan bij beslisbomen en neurale netwerken.
Er zijn echter meer zaken om rekening mee te houden. Bij een selectie van het
beste model kan niet alleen rekening gehouden worden met de goodness-of-fit
statistieken, ook moet het model voldoen aan de in paragraaf 3.4 genoemde kenmerken.
Dit zijn: incompatibiliteit met bestaande regels, beperkte interpreteerbaarheid en
kennisrepresentatie op het juiste detailniveau. Qua compatibiliteit voldoen de
36
Het aantal van nul valse negatieven betekent niet dat de profielen hier het best presteren. In dit geval zijn er
geen valse negatieven mogelijk omdat de profielen tegelijkertijd de datasets vertegenwoordigen. Van de niet
gecontroleerde aangiften is niet met zekerheid te zeggen of deze wel of niet conform zijn.
37
Het aantal valse en werkelijk negatieven kan niet zonder meer met elkaar vergeleken worden omdat deze
getallen voortkomen uit verschillende subsets van het totaal (9.920). De profielen bevatten de totale set, de
beslisbomen en neurale netwerken 40% daarvan en logistische regressie 75%. De verhoudingen zijn wel
vergelijkbaar, deze worden weergegeven in de prestatie-index en de McFadden σn.
- 41 -
Casestudy druiven
beslisbomen perfect. Deze zijn immers direct om te zetten in regels (profielen). Neurale
netwerken en logistische regressie leveren een model op dat gewichten toekent aan de
waarden van de verschillende variabelen. Het is echter (nog) niet mogelijk om dergelijke
modellen te implementeren in de selectiemodule van DSI (zie 2.3). Het is mogelijk om
neurale netwerken om te zetten in beslisregels. Echter omdat de beslisboomanalyse in de
classificatie vergelijkbaar presteert en een dergelijke analyse vele malen flexibeler is, is
het nut hiervan beperkt.
De interpreteerbaarheid is bij beslisbomen ook goed. De gegenereerde regels
kunnen worden omgezet naar een vorm die voor iedereen begrijpbaar is. Met de
interpreteerbaarheid van de overige twee technieken is het minder gesteld. Waarbij
neurale netwerken door de black box benadering vrijwel niet te interpreteren zijn.
Logistische regressie modellen zijn alleen leesbaar voor iemand met voldoende
statistische kennis. Deze kennis is typisch aanwezig bij de analisten en niet bij de
domeinexperts en het management.
Ook op het gebied van het detailniveau komen de beslisbomen het best voor de
dag. Het detailniveau van de beslisboom is na omzetting gelijk aan de profielen. Neurale
netwerken zijn om te zetten in regels waardoor het detailniveau ook gelijk is. Het model
direct voortkomend uit de techniek classificeert de aangiften in conform en niet conform,
het detailniveau dat vereist is. Datzelfde geldt voor de logistische regressie modellen.
De in de vorige alinea’s beschreven vereisten voor een goed model zijn
samengevat in onderstaande tabel (5-8).
Beslisbomen
Neurale netwerken
Logistische regressie
Compatibiliteit
Zeer goed
Slecht
Slecht
Interpreteerbaarheid Zeer goed
Slecht
Voldoende
Detailniveau
Goed
Goed
Goed
Tabel 5-8 Geschiktheid per model voor combinatie met domeinkennis
Uit de tabel kan geconcludeerd worden dat een analyse op basis van beslisbomen het
beste scoort. Gecombineerd met het feit dat de classificatie in beginsel goed, i.e. op één
na beste, en zeer flexibel is worden beslisbomen aangewezen als de beste techniek om
aangiften te classificeren. Logistische regressie classificeert weliswaar goed, maar is in
deze vorm niet te implementeren en valt dus sowieso af. Wellicht wordt het in de
toekomst wel mogelijk een dergelijk model te gebruiken.
In tabel 5-8 kan tevens een kolom opgenomen worden waar de regels afgeleid uit
neurale netwerken worden afgezet tegen de drie criteria. De kennisrepresentatie
(beslisregels) is hetzelfde als bij beslisbomen, de waardering is dus ook gelijk. Op basis
hiervan is er geen belemmering om deze techniek te gebruiken. Kijkend naar de
beperkte middelen om de af te leiden regels te beïnvloeden en de extra stap die
benodigd is voor de omzetting, in combinatie met de classificatie die vergelijkbaar is met
beslisbomen, wordt deze techniek niet boven beslisbomen geprefereerd. Toch zijn regels,
geëxtraheerd uit neurale netwerken, wel iets om wellicht in de toekomst te bekijken. Een
studie van Gim en Whalen [1999] toont aan dat deze techniek tot goede resultaten kan
leiden bij het voorspellen van faillisementen. In dit onderzoek worden de domeinexperts
nauw betrokken bij de verbetering van de regels.
Gegeven het feit dat alle bestudeerde technieken een hoog aantal valse
negatieven 38 kennen, zullen de modellen niet één op één geïmplementeerd worden. Een
nauwe samenwerking met de domeinexperts is ook na analyse van groot belang. Bij de
terugkoppeling worden alleen de resultaten van de beslisboomanalyse verstrekt aan de
domeinexpert.
38
Blijkbaar is het niet mogelijk om een significante verbetering te krijgen in het aantal valse negatieven. De
data is van dien aard dat met de bestudeerde technieken de beste classificatie is bereikt.
- 42 -
Casestudy druiven
5.4 Terugkoppeling
Zoals in de vorige paragraaf is beargumenteerd worden bij de terugkoppeling alleen de
resultaten van de beslisboomanalyse bekeken. De geconstrueerde boom is uitgeprint
tezamen met de regels die daar uit volgen. Op basis hiervan kan een middenweg worden
gevonden tussen het model en de controles op basis van de profielen. Uit de
onderzoeken komt naar voren dat er weliswaar een model afgeleid kan worden dat goed
classificeert, maar dat dit ten koste gaat van het totale aantal niet conforme aangiften
dat onderschept wordt. We hebben te maken met twee uitersten; enerzijds een
selectiealgoritme waarbij met een relatief klein aantal controles een groot percentage
(van de controles) niet conforme aangiften wordt onderschept (1) en anderzijds een
selectiealgoritme waarbij met relatief veel controles een laag percentage niet conforme
aangiften wordt onderschept (2). Waarbij in absolute waarden het laatste
selectiealgoritme wel de meeste niet conforme aangiften identificeert Selectiealgoritme
(1) is een goede keuze wanneer er weinig controlecapaciteit beschikbaar is en er zo
effectief mogelijk gecontroleerd moet worden. Wanneer het tweede algoritme gekozen
wordt dan is het bestrijden van non compliance het hoofddoel. Het is aan de
domeinexpert een afweging te maken tussen deze tegenstrijdige belangen.
De twee te onderzoeken risico’s, oorsprongfraude en indelingsfraude, worden niet
direct door het model onderscheiden. Dit betekent niet dat de risico’s er niet zijn. Wel
geeft het aan dat er andere, belangrijkere, factoren zijn die bepalen of een aangifte
conform is of niet. Land van oorsprong komt voor als splitsingscriteria, al is dan reeds
een groot deel van de data ingedeeld in andere groepen. Als risicovolle landen komen
Turkije, Zuid-Afrika en 910 tevoorschijn. Dit zijn precies de landen die als risicovol
geïdentificeerd zijn 39 . De goederencodes (indelingsfraude) komen niet voor in de
beslisbomen. Dit was op voorhand ook niet te verwachten omdat de goederencodes OO
en PP maar een enkele keer voorkomen en de overige twee weliswaar veel voorkomen
maar een vergelijkbaar niet conform percentage hebben. Het risico betreffende de
waardebepaling komt enigszins naar voren. De laatste split is op aangifteprocedure. Hier
worden, binnen de overgebleven groep, aangiften die zijn ingediend met een onvolledige
waardebepaling gescheiden van de aangiften met een standaard waardebepaling. De
laatste groep is altijd conform terwijl in de eerste groep het merendeel niet conform is.
Om het risico dat voortkomt uit de waardebepaling enigszins inzichtelijk te maken
is er een overzicht gemaakt van het aantal aangiften per dag en de hoeveelheid
conforme en niet-conforme aangiften. Hieraan zijn de toen geldende eenheidsprijzen
gekoppeld om te bekijken of er opvallende schommelingen in de tabel te zien zijn. Op de
overgangsgebieden van de eenheidsprijzen was dit niet het geval. Wel was er in de
periode dat er geen invoerrechten geheven worden opeens een stijging te zien in het
aantal niet conforme aangiften. Beide domeinexperts wisten hier niet direct een
verklaring voor. Het is mogelijk dat de aangiften door verschillende personen
gecontroleerd worden die er een andere manier van registreren op na houden. Dit leidt
tot onbetrouwbare data en is iets dat in de toekomst veranderd (lees gestandaardiseerd)
moet worden.
Als tweede is de oorsprongsfraude teruggekoppeld aan de experts. Hier valt op
dat er een land van oorsprong wordt opgegeven met de cijfercode 910. Deze code kan
niet aan een land worden toegeschreven. Ook de domeinexperts hadden geen idee welk
geografisch gebied er schuil moet gaan achter deze cijfercode. Wel zijn er 1.566 (15,8%
van het totaal!) aangiften ingediend met dit land van oorsprong.
Verder kwam naar voren dat er een importeur was waarvan dik 90% van de
ingediende, gecontroleerde aangiften niet conform bevonden is. Voor de
Douanemedewerker is dit reden om de aangiften van die importeur nog eens nader te
bekijken. Het blijkt dat de niet-conformiteit bij het merendeel van de aangiften wordt
39
Met uitzondering van 910. Het is niet duidelijk voor welk land deze code staat, zie 4.2.1
- 43 -
Casestudy druiven
veroorzaakt door een foute registratie. Hierbij is een aangifte met een onvolledige
waardebepaling als niet conform aangemerkt, terwijl dit niet geoorloofd is 40 .
Zoals in subparagraaf 5.3.2 is gemeld is de tweede split altijd op aangiftepunt.
Voor de Douanemedewerker kwam dit als een verassing. Hij kon geen verklaring
bedenken voor het feit dat er bij het ene aangiftepunt meer niet conforme aangiften
werden ingediend dan bij het andere.
Aan de hand van de beslisboom kan nu bepaald worden welke, in de analyse
geïdentificeerde, groepen wel of niet aan een controle onderworpen moeten worden. Om
de flexibiliteit, en het inzicht, te vergroten is extra informatie uit de dataselectie
onttrokken. Door een tabel te maken waarbij iedere waarde van iedere variabele wordt
uitgezet tegen het aantal conform en niet conform bevonden aangiften, kunnen er ook
andere groepen opgesteld worden. Vanwege het feit dat de data uit 2004 afkomstig is,
en dus al is verouderd, is de laatste stap niet geconcretiseerd. Hier speelt ook mee dat
het gegenereerde model niet te testen is op data uit 2005 en 2006 omdat deze niet
beschikbaar is 41 .
Uit de gesprekken met de domeinexperts blijkt dat men vooral geïnteresseerd is
in de identificatie van risicovolle groepen. Hiervan wordt dan per aangifte bekeken wat de
bevindingen van de controleur zijn geweest. Om op die manier een risico te ontdekken.
Dergelijke informatie kan ook verkregen worden louter door het genereren van
frequentietabellen, en dit valt niet onder data mining. Begrijpelijk is het echter wel omdat
de kwaliteit van de data zodanig is dat je er niet zomaar vanuit kunt gaan dat de
opgegeven waarden correct zijn. Zoals drie alinea’s terug reeds is bevestigd.
Een andere reden dat men de afgeleide regels niet direct zal implementeren heeft
te maken met een tweetal zaken. Ten eerste zijn de afgeleide regels niet altijd intuïtief,
waardoor ze minder snel geaccepteerd zullen worden. Hierbij komt, ten tweede, dat men
het data minen niet begrijpt. De huidige data mining groep probeert dit door voorlichting
weg te nemen. Echte acceptatie zal pas komen wanneer er concrete resultaten worden
geboekt.
Een groot voordeel van een dergelijke analyse is de snelheid waarmee het
afgerond kan worden. De data preparatie, zijnde het probleemgebied en eventuele data
transformatie, kost de meeste tijd. Wanneer de data in de juiste vorm gegoten is, is het
genereren van een model een kwestie van minuten. De interpretatie en implementatie
kunnen afhankelijk van de case veel of weinig tijd in beslag nemen. Waarbij de
implementatie eigenlijk alleen het overtypen van de afgeleide regels behelst.
Samenvattend kost een analyse met behulp van data mining technieken enkele dagen,
waar analyses voorheen wel weken in beslag konden nemen.
5.5 Conclusie
In dit hoofdstuk is een analyse gedaan op een bepaald probleemgebied. Dit
probleemgebied betreft invoer van verse druiven. Aan de hand van een gesprek met de
domeinexpert is een selectie op de alle invoeraangiften uit 2004 gemaakt. Deze selectie
is geanalyseerd door gebruik te maken van verschillende technieken, te weten
beslisbomen, neurale netwerken en logistische regressie modellen. Uit de analyse blijkt
dat met logistische regressie weliswaar de beste classificatie bereikt wordt maar dat het
model niet te implementeren is. Beslisbomen classificeren ongeveer gelijkwaardig aan
neurale netwerken. Beide zijn om te zetten in regels, maar vanwege de grote flexibiliteit
van beslisbomen zijn deze het meest geschikt voor gebruik binnen de Douane (B.3).
De resultaten van de analyse zijn teruggekoppeld aan de domeinexperts. Hierbij
kwam naar voren dat de vooraf geïdentificeerde risico’s niet direct naar voren kwamen in
de analyse. Als belangrijkste factor werd de importeur geïdentificeerd. Dit leidde ertoe
dat een importeur, waarvan ruim 90% van de gecontroleerde aangiften niet conform
40
Dit onderstreept wederom het belang van correcte registratie. Deze aangiften zijn onterecht aangemerkt als
niet conform waardoor het model minder betrouwbaar wordt.
41
De ongecorrigeerde set welteverstaan.
- 44 -
Casestudy druiven
bevonden is, nader onder de loep werd genomen. Bij de oorsprongfraude werd ontdekt
dat er landcodes zijn (met name 910) waarvan onduidelijk is voor welk land deze staan.
De domeinexperts bleken vooral geïnteresseerd in geïdentificeerde risicovolle groepen die
zij vervolgens handmatig aan een nader onderzoek willen onderwerpen.
Het is de bedoeling dat aan de hand van de afgeleide beslisboom profielen worden
opgesteld. Waarbij een tussenweg gevonden moet zien te worden tussen controle op
basis van profielen (lage prestatie-index) en controle op basis van het model (valse
negatieven). Omdat de beschikbare data verouderd is en het model niet getest kan
worden op andere jaren is deze laatste stap niet geconcretiseerd.
De domeinkennis is een essentieel onderdeel van het data mining proces. Ten
eerste wordt op basis van deze kennis een selectie uit de data gemaakt. Ten tweede
weet de analist waar de potentiële risico’s liggen, waar de analyse op aangepast kan
worden. Bijvoorbeeld door een transformatie van de data. Ten derde kan de
domeinkennis achteraf aanleiding geven tot verdere analyse, omdat uit de modellen
nieuwe inzichten zijn gehaald.
Er blijkt een weerstand te zijn tot het implementeren van regels voortkomend uit
data mining. Enerzijds komt dit doordat de regels niet intuïtief zijn, anderzijds vanwege
het feit dat men niet precies begrijpt wat data mining is.
In het volgende hoofdstuk worden de resultaten van de casestudy
veralgemeniseerd. Hier wordt aangegeven in welke stappen van het risicoafdekking
proces data mining een rol kan spelen. En wat die rol inhoudt.
- 45 -
Data mining in het risicoanalyseproces
Hoofdstuk 6
Data mining in het risicoanalyseproces
6.1 Inleiding
In de vorige hoofdstukken is achtereenvolgens beschreven hoe domeinkennis binnen de
Douane gebruikt wordt (hoofdstuk 2), dat er mogelijkheid is om middels data mining
technieken deze profielen te verbeteren (hoofdstuk 4) en welke classificatie technieken
het meest geschikt zijn voor gebruik binnen de Douane (hoofdstuk 5). In dit hoofdstuk
worden de bevindingen veralgemeniseerd. Dit leidt tot een beschrijving van de waarde
van domeinkennis voor de verschillende onderdelen in het risicoanalyseproces. Waarbij
dit proces gezien moet worden als het proces dat door de data mining analist wordt
doorlopen. Dit wordt gedaan aan de hand van de verschillende stages onderscheidden
door Kopanas et al. [2002] en het processchema in figuur 2-5. Hetgeen leidt tot een
koppeling van domeinkennis en data mining 42 .
6.2 Verschillende stages risicoafdekking
Er wordt een vergelijking gemaakt tussen de, door Kopanas et al.[2002], onderscheidden
stages en de verwante stages binnen het risicoanalyseproces van de Douane. Kopanas et
al. onderscheidden zeven stages, genummerd één t/m zeven. Per stage wordt
aangegeven welke douaneafdelingen de benodigde informatie verschaffen en wat de
importantie van de domeinkennis (voor de Douane) is.
1)
Problem definition: deze fase bevat de beschrijving van het
probleemgebied. Er is inmiddels een risico geïdentificeerd dat ontwikkeld gaat
worden. De analist en de domeinexpert bespreken hier het probleemgebied en
waar de mogelijke risico’s liggen.
Importantie domeinkennis: hoog
2)
Creating target data set: hier wordt uit de beschikbare data een relevante
selectie gemaakt. Dit gebeurt op basis van de informatie die verkregen is in stap
1. Mogelijk is er een koppeling nodig tussen data uit verschillende sets. Ook kan
in deze fase al bekeken worden of er voldoende data beschikbaar is.
Importantie domeinkennis: laag
3)
Data preprocessing and transformation: deze stage is de meest
arbeidsintensieve fase in het gehele proces. Hier wordt de data in een vorm gezet
die geschikt is voor analyse. Hier speelt de domeinexpert een belangrijke rol.
Deze heeft inzicht in de waarden van de verschillende variabelen en hun
betekenis. De expert kan aangeven welke variabelen overbodig zijn en of er
variabelen zijn die op een andere manier moeten worden gepresenteerd. Tevens
kan er rekening gehouden worden met de kosten en de baten. En mogelijk kan
een tijdsperiode worden aangegeven waarop analyse plaats moet vinden. In deze
fase worden ook de missende waarden vervangen of verwijderd uit de dataset.
Importantie domeinkennis: hoog
4)
Feature and algorithm selection for data mining: de data mining technieken
die worden gebruikt worden hier gekozen. Afhankelijk van de data en het
onderzoeksdoel wordt een selectie gemaakt uit de beschikbare technieken.
Importantie domeinkennis: medium
42
Onder data mining wordt hier het gehele KDD proces (zie 3.2.1) verstaan.
- 46 -
Data mining in het risicoanalyseproces
5)
Data mining: hier komt het data minen aan bod, waar de geïdentificeerde
risico’s worden onderzocht. Op basis van de geprepareerde data en de gekozen
techniek wordt een model afgeleid. De rol van de domeinexpert is hier minimaal
omdat deze (hoogstwaarschijnlijk) geen kennis heeft van de data mining
technieken.
Importantie domeinkennis: laag
6)
Evaluation and interpretation of learned knowledge: samen met de
domeinexpert wordt het resulterende model besproken. Men kan hier bekijken of
het model tot nieuwe kennis heeft geleid en of deze kennis bruikbaar is. Ook
worden hier besluiten genomen met betrekking tot het toelaatbare aantal,
verwachte, negatieven. Hier kan ook de impact van een model worden getest,
meestal wordt dit al weergeven bij de output van een analyse.
Importantie domeinkennis: medium
7)
Fielding the knowlegde base: in de fase wordt de kennis voortkomend uit
het model geïmplementeerd in, in dit geval, de aangifteselectie module. Hieronder
valt ook de omzetting van een model naar bruikbare kennis, de omzetting naar
profielen.
Importantie domeinkennis: laag
De stappen 2 , 3 en 4 kunnen analoog lopen aan de risico-ontwikkeling bij de
risicokennisgroepen en de Pro Actief-groepen van de DIA’s. Hierbij vereisen stappen 1 en
3 de meeste samenwerking met de domeinexpert. Het risico-onderzoek in stap 5 kan
zonder de hulp van een domeinexpert worden uitgevoerd mits de vorige stappen
voldoende zijn voltooid. De stappen 6 en 7 worden weer met de expert doorgesproken.
De resultaten kunnen afgezet worden tegen de analyses van de risicokennisgroepen of
de Pro Actief groepen. Zoals in het vorige hoofdstuk is aangegeven kunnen de afgeleide
modellen worden verfijnd om aan de eisen van de omgeving te voldoen. Bijvoorbeeld een
zo laag aantal valse negatieven. De laatste stap (7) verloopt formeel via profielbeheer,
maar omdat de vorm van de implementatie (=profielen) altijd hetzelfde is behoeft deze
hier geen aanpassing meer.
Wordt bovenstaande gerelateerd aan de bevindingen van Kopanas et al (zie
bijlage V.1) dan zijn er enkele verschillen waar te nemen. Stap 2 wordt door Kopanas et
al. met medium importantie aangeduid, terwijl deze stage hier de importantie laag heeft.
Het verschil is te verklaren doordat Kopanas et al. er van uit gaan dat de domeinexperts
voldoende kennis hebben van de data bronnen. In de situatie bij de Douane hebben de
analisten meer kennis van de data. Dit is vanwege de beschikbaarheidproblemen en de
benodigde omzetting van de data waar zij nauw bij betrokken zijn. Stap 7 wordt door
Kopanas et al. als hoog bestempeld, terwijl deze hier de importantie laag heeft. Deze
discrepantie heeft te maken met het feit dat, bij de Douane, de implementatie van de
modellen altijd hetzelfde, i.e. de profielen. Bij de analyse moet hier dus al rekening mee
gehouden worden. Verder geven Kopanas et al. aan dat er afhankelijk van de resultaten
van de analyse verder onderzoek nodig kan zijn en dat de domeinkennis van de expert
hier een grote rol in speelt. Vanwege de nauwe samenwerking tussen domeinexperts en
analisten zouden mogelijke verdiepingen van het onderzoek al in eerdere stappen
geïdentificeerd moeten worden. Mocht dit wel het geval zijn dan kan dit gezien worden
als een nieuw risico, waarmee de het risico-ontwikkelingsproces weer bij stap 1 begint.
6.3 Procesbeschrijving met data mining
In de vorige paragraaf is aangegeven in welke stages domeinkennis vereist is voor een
risicoanalyse waar gebruik wordt gemaakt van data mining. Dit is ook gekoppeld aan de
procesbeschrijving in hoofdstuk 2 (figuur 2-2). Deze figuur kan nu worden uitgebreid met
data mining. Dit is gedaan in figuur 6-1. De risicoafdekking blijft gelijk, data mining
wordt toegevoegd aan de processen in het schema.
- 47 -
Data mining in het risicoanalyseproces
Aanleveraar
risicosignaal
Beoordeling
signaal
(1)
Ontvangen signaal
Potentieel risico
Ontwikkelen
(SPOED)
(1,3)
Geen risico
Risicodatabase
Evalueren
risicoafdekking
(4)
Later/niet ontwikkelen
Aan te passen risico
Beoordeling
risico
(1,2)
Implementeren
(SPOED)
(3)
Ontwikkel
risico
(2,5,6)
DSI
profielbeheer
Risico
onderzoeken
(2,5,6)
Impact testen
(4,6)
Relevant risico
Implementeren
risico
(3)
Te evalueren risico’s
Figuur 6-1 Processchema met data mining
In deze figuur is een extra afdeling opgenomen, de afdeling data mining (nummer 6).
Omwille van de duidelijkheid zijn de processen waar data mining een onderdeel van
uitmaakt geplaatst in een gearceerd blok.
- 48 -
Data mining in het risicoanalyseproces
Uit de figuur kan direct worden opgemaakt waar data mining van waarde kan zijn
in de risicoafdekking. De analyses met behulp van data mining komen overeen met de
analyses van de Pro Actief groepen van de DIA’s en die van de risicokennisgroepen. Het
testen van de impact van een risicoafdekking is een taak die voorheen door de DIA’s
werd uitgevoerd. Dit kan data mining ook.
Naast de gebruikelijke analyses, die in gang worden gezet door de aangedragen
risico’s in de risicodatabase, kunnen er met data mining ook zelf nieuwe risico’s ontdekt
worden. Ook kan de afdekking van bekende risico’s worden verbeterd 43 . Mocht er een
nieuw risico worden ontdekt of reden zijn om een bestaand risico opnieuw te analyseren
gebruik te maken van data mining dan kunnen deze als nieuwe risico’s worden ingevoerd
in de risicodatabase. De afdekking van het risico doorloopt dan de processen zoals
aangegeven in figuur 6-1 en beschreven in hoofdstuk 2.
6.4 Conclusie
In dit hoofdstuk is de procesmatige koppeling gemaakt tussen domeinkennis en data
mining. Aangegeven is bij welke stappen in het data mining proces domeinkennis vereist
is en in welke mate. Vervolgens is data mining als afdeling opgenomen in de
risicoafdekking. Dit wordt grafisch weergegeven in figuur 6-1. Dit is tevens het antwoord
op de subonderzoeksvraag B.4. De analyses met behulp van data mining komen overeen
met de analyses van de Pro Actief groepen van de DIA’s en die van de
risicokennisgroepen. Hierbij treedt de domeinexpert op als de verschaffer van informatie
ten behoeve van een goede analyse. Ook het testen van de impact van een
risicoafdekking kan door de data mining afdeling worden uitgevoerd.
Het volgende hoofdstuk is de afsluiting van de scriptie en bevat de conclusies en
aanbevelingen. De antwoorden op subvragen en de hoofdvraag worden opgesomd. Ook
worden er aanbevelingen gedaan met betrekking tot zaken die buiten het bereik van
deze scriptie vallen, maar die de risicoanalyse wel kunnen verbeteren.
43
Het risico is in dit geval dat het relevante risico niet voldoende is afgedekt, of dat er een betere afdekking
mogelijk is.
- 49 -
Conclusies en aanbevelingen
Hoofdstuk 7
Conclusies en aanbevelingen
7.1 Conclusies
In deze scriptie is een antwoord gezocht op de vraag hoe domeinkennis kan worden
geïntegreerd in data mining technieken. Het onderzoek is verricht in opdracht van
PROTECT voor het DIC te Rotterdam. Omdat het een praktisch onderzoek betreft is een
meer praktische onderzoeksvraag opgesteld. Deze luidt:
“Hoe kan de Douane, door een combinatie van domeinkennis en data mining technieken,
tot een betere classificatie van aangiften komen.”
Om deze vraag te beantwoorden zijn een aantal subvragen opgesteld. Deze worden eerst
beantwoord, waarna een antwoord op de onderzoeksvraag wordt gegeven.
A.1
Wat is data mining?
Data mining kan worden omschreven als “de analyse van geobserveerde data sets met
als doel het vinden van onverwachte relaties en het presenteren van de data in een
manier die zowel begrijpbaar als nuttig is voor de eigenaar van de data”. Er kunnen
verschillende soorten patronen worden ontdekt. Het doel van de Douane is om aangiften
te classificeren in conform en niet conform, in dit onderzoek wordt dan ook uitsluitend
gebruik gemaakt van technieken die deze classificatie mogelijk maken.
A.2
Welke data mining technieken zijn er?
Er zijn verschillende data mining technieken voorhanden die een classificatieprobleem
kunnen oplossen. Er is voor gekozen om drie technieken te gebruiken namelijk
beslisbomen, logistische regressie en neurale netwerken. Een beslisboom verdeelt de
beschikbare data steeds verder in groepen aan de hand van een bepaalde statische
methode totdat er geen significante split meer mogelijk is. Logistische regressie modellen
kennen een teken en een gewicht toe aan iedere inputvariabele. Aan de hand daarvan
kan een formule worden opgesteld waarvan de uitkomst de kans is dat de klasse 1 is.
Neurale netwerken werken op basis van een aantal nodes in een of meerdere lagen die
verbanden tussen de inputs weergeven. Het model is black box, dat wil zeggen dat je
niet weet welke redenatie wordt gevolgd om tot een voorspelling van de klasse te
komen.
A.3
Wat zijn de voor- en nadelen van de in A.2 beschreven technieken?
Het voordeel van een beslisboom is dat de uitkomst eenvoudig tot regels omgezet kan
worden. Ook zijn de resultaten makkelijk interpreteerbaar. Verder gaat een beslisboom
flexibel om met missende waarden. Het voordeel van logistische regressie is de sterke
statistische onderbouwing van het model. Nadeel is dat er meer preparatie van de data
benodigd is en dat het gebruik kennis van statistiek vereist. Tot slot neurale netwerken,
hier word in de literatuur als grote voorbeeld de goede classificatie genoemd. Nadeel
hiervan is dat het een black box techniek is. Een nadeel van ieder van de technieken is
de kans op overfitting. Overfitting is het verschijnsel waarbij een model een zeer goede
classificatie levert op de training set, maar waar de prestaties op een nieuwe data set
een stuk minder zijn. Dit is op te lossen door verschillende sets aan te maken zodat het
gegenereerde model getest en aangepast kan worden.
- 50 -
Conclusies en aanbevelingen
A.4
Welke technieken kunnen business rules als output genereren.
Deze vraag is al deels beantwoord bij A.3. Van de gekozen modellen kunnen beslisbomen
en neurale netwerken omgezet worden naar business rules (IF-THEN regels). Bij
beslisbomen is dit zeer eenvoudig, men volgt simpelweg alle mogelijke wegen naar de
eindbladen. Neurale netwerken werden lange tijd gezien als black box oplossingen.
Inmiddels is het ook mogelijk om regels af te leiden van een neuraal netwerk door
gebruik te maken van speciale software. In dit onderzoek is daar echter geen gebruik
van gemaakt. Een logistische regressie model kan niet worden omgezet naar een IFTHEN vorm.
A.5
Wat is domeinkennis?
Domeinkennis kan worden omschreven als kennis die niet expliciet in een database
aanwezig is. Domeinkennis kan worden gebruikt om het data mining proces inzichtelijker
te maken. Wanneer men geen gebruik maakt van domeinkennis in een analyse met
behulp van data mining technieken moet rekening worden gehouden met een aantal
beperkingen. Zo kan het model incompatibel zijn met de bestaande beslisregels, beperkt
interpreteerbaar zijn of een kennisrepresentatie op het verkeerde detailniveau geven.
Door gebruik te maken van domeinkennis kunnen deze problemen ondervangen worden.
B.1
Hoe wordt domeinkennis bij de Douane gebruikt?
De profielen zijn de concretisering van de domeinkennis binnen de Douane. Douane
Sagitta Invoer is het systeem dat alle invoeraangiften verzamelt en selecteert voor
controle. Controle vindt plaats op basis van opgestelde profielen. Profielen hebben de
vorm van IF-THEN regels. De profielen worden opgesteld naar aanleiding van een
onderkent risico. Alle risico’s worden samengebracht en gebundeld in de risicodatabase.
Een risicokennisgroep (of DIA Pro Actief) pakt de gebundelde risico’s op en analyseert ze.
Mocht er reden zijn tot het afdekken van het risico middels een profiel dan maken zij een
conceptprofiel. Het concept wordt naar de DIA gestuurd, die het profiel concretiseert.
Vervolgens wordt het profiel ingevoerd door profielbeheer. Evaluatie van de profielen
wordt op periodieke wijze door de DIA gedaan.
B.2
Is er door gebruik te maken van data mining technieken validatie te vinden voor
de bestaande profielen?
Hiervoor zijn twee aanpakken gekozen. De data preparatie is voor beide aanpakken
grotendeels gelijk. Het aantal missende waarden was beperkt. Wel bleek het nodig
enkele kolommen te standaardiseren. Data selectie is voor beide aanpakken wel
verschillend. De eerste aanpak zoekt naar geschikte datasets die als input kunnen dienen
voor data mining. Na een tijdrovende analyse zijn veertien sets bruikbaar gevonden.
Hieraan zijn, voor zover mogelijk, profielen gekoppeld. Het bleek lastig om bij iedere
selectie één of meer profielen te vinden. Bij de selecties waarbij wel een vergelijking
mogelijk is laten weinig overlap zien tussen de gegenereerde regels en de profielen.
De tweede aanpak neemt een Controle Opdracht als basis voor de data selectie.
Een Controle Opdracht bestaat uit één of meerder profielen. De profielen zijn in de loop
van het jaar aangepast. Middels een beslisboom is bekeken of de aanpassingen te
rechtvaardigen zijn. Dit blijkt deels het geval te zijn. Het gegenereerde model vind een
andere split, op aangever in plaats van importeur.
Samenvattend, er is weinig overlap tussen de afgeleide regels en de bestaande
profielen. Voldoende uitdaging dus om betere profielen te construeren door gebruik te
maken van data mining. De beschikbaarheid van voldoende data blijkt de grootste
beperking voor een gedegen analyse met data mining technieken. De validatie werd
verder bemoeilijkt door het beperkte inzicht in het aantal lopende profielen/Controle
Opdrachten.
- 51 -
Conclusies en aanbevelingen
B.3
Welke data mining techniek is het best bruikbaar binnen de Douane?
Uit een vergelijking van de verschillende modellen blijkt dat de correctheid van de
classificatie ongeveer hetzelfde is bij beslisbomen en neurale netwerken. De classificatie
van het model resulterend uit de logistische regressie techniek classificeert het beste.
Het nadeel van alle technieken is dat er valse negatieven in voorkomen. Een vergelijking
op basis van statistieken is niet voldoende om de beste techniek aan te wijzen. De in A.3
gestelde beperkingen zijn bepalend voor de definitieve selectie. Beslisbomen scoren goed
op zowel compatibiliteit, interpreteerbaarheid en detailniveau. Neurale netwerken en
logistische regressie modellen scoren beide slecht op compatibiliteit. De
interpreteerbaarheid van neurale netwerken is ook slecht, deze is bij logistische regressie
modellen voldoende. Het is duidelijk dat de beslisbomen het best scoren, deze wordt
daarom aangewezen als best bruikbare techniek.
B.4
Hoe kan data mining worden geïntegreerd in het risicoanalyseproces?
De analyses met behulp van data mining komen overeen met de analyses van de Pro
Actief groepen van de DIA’s en die van de risicokennisgroepen. Ook het testen van de
impact van een risicoafdekking kan door de data mining afdeling worden uitgevoerd.
Door data mining als aparte afdeling in het risicoanalyseproces op te nemen is integratie
een feit. Wel is veelvuldig overleg met de domeinexpert vereist voor een degelijke
analyse. Waar de expert eerst zelf de analyse uitvoerde, is deze nu tevens de verschaffer
van informatie voor data mining.
Het antwoord op de onderzoeksvraag is vervolgens:
“Uit het onderzoek is gebleken dat de huidige profielen, die de invulling van
domeinkennis binnen de Douane zijn, significant verbeterd kunnen worden door gebruik
te maken van data mining technieken. De classificatietechniek die hiervoor het meest
geschikt is, is beslisboomanalyse. Om een zo goed mogelijk model af te leiden is een
nauwe samenwerking met de domeinexpert vereist. Deze kent het probleemgebied, de
risico’s en kan helpen bij het meest arbeidsintensieve deel van de analyse, de data
preparatie. Het nadeel van classificatietechnieken zijn de valse negatieven. Op basis van
het afgeleide model kunnen er, in samenspraak met de domeinexpert, profielen worden
opgesteld die het aantal valse negatieven tot een minimum beperken. Het resultaat van
deze werkwijze is een hogere pakratio met minder uit te voeren controles.”
7.2 Aanbevelingen
De aanbevelingen zijn opgedeeld in twee delen. Enerzijds een deel waar de te maken
verbeteringen aan bod komen, anderzijds een deel waar mogelijke vervolgonderzoeken
worden aangegeven. Tot slot nog een paar opmerkingen met betrekking tot de gebruikte
soft- en hardware.
Er zijn twee grote verbeterpunten aan te wijzen om de analyses met behulp van
data mining te verbeteren. Ten eerste, de kwaliteit van de data. Deze is niet optimaal, dit
is ook niet vreemd aangezien het systeem is opgezet als registratiesysteem. Maar zeker
voor data mining (en ook voor management informatie) is het van belang dat er correct
geregistreerd wordt en dat de data zo uniform mogelijk is. De Douane is inmiddels bezig
met het opzetten van een data warehouse. Dit is echter een lange termijn project. En
hiermee wordt wel de beschikbaarheid van de data verbeterd, de kwaliteit echter niet. De
kwaliteitsverbetering moet plaatsvinden bij de aangevers (strakkere controle) en de
controleurs (gestandaardiseerde bevindingbeschrijvingen en correcte toewijzingen aan
o.a. profielen). Hierbij zou het ook lonen het gehele registratietraject eens kritisch onder
de loep te nemen en waar nodig aan te passen aan de eisen van bijvoorbeeld data
mining. Denk bijvoorbeeld aan de reeds gememoreerde onduidelijkheid met betrekking
tot de statussen van een aangifte. Een dergelijk onderzoek zou mijns inziens gedaan
kunnen worden door een (informatiekunde-) student. Waarbij de het onderzoeksdoel is
- 52 -
Conclusies en aanbevelingen
om de kwaliteit van de data te optimaliseren (mede door standaardisatie). Want
nogmaals, het zou zonde zijn veel geld uit te geven aan een data warehouse en alleen de
beschikbaarheid te verbeteren zonder de kwaliteit van de data te verbeteren. Denk
hierbij ook aan het eerder aangehaalde aforisme, Garbage In, Garbage Out.
Ten tweede de aanwezige massa. Er is van de gehele dataset maar een zeer klein
deel geschikt 44 bevonden om een model mee te construeren. Om een betrouwbare
generalisatie mogelijk te maken zijn voldoende controles nodig. Waarbij controles met
een negatieve uitslag net zoveel waarde hebben als controles met een positieve uitslag.
De ervaring heeft hier geleerd dat er een minimum hoeveelheid van 5% niet conform
bevonden aangiften in de training set aanwezig moet zijn om überhaupt een model af te
kunnen leiden. Deze set moet zelf ook genoeg waarnemingen bevatten, denk hierbij aan
enkele honderden. Het is onmogelijk om alles te gaan controleren, daarom zal er creatief
met deze beperking omgegaan moeten worden. Zo kan er door de data slim te
selecteren, mogelijk na een eerste inventarisatie middels een beslisboom, een juiste
verhouding gevonden worden tussen conforme en niet-conforme aangiften. Ook kunnen
er na het constateren van een potentieel risico extra controles worden uitgezet om wel
de juiste massa te krijgen. Verder zitten er verschillen in de mogelijke modellen, waarbij
het ene model toleranter is ten opzichte van noisy data dan het andere. Maar zelfs dan
zullen er gebieden zijn waar data mining simpelweg niet bruikbaar is. Data mining is ook
geen doel, maar een middel.
Vervolgonderzoeken
Er zijn een drietal vervolgonderzoeken mogelijk. De eerste is in de vorige alinea al
genoemd, een onderzoek dat zich richt op het verbeteren van de kwaliteit van de data.
Een ander onderzoek zou zich kunnen richten op het minimaliseren van de valse
negatieven. Waarbij twee gebieden onderscheidden kunnen worden; ten eerste fiscale
zaken, waarbij een kosten baten analyse gemaakt kan worden; en ten tweede de VGEM
zaken waarbij met een 100% onderschepping nastreeft. Het derde onderzoek kan zich
richten op andere data mining technieken dan de hier beschreven classificatietechnieken.
Gebruikte soft- en hardware
SAS Enterprise Guide is een zeer goed bruikbare applicatie gebleken. Hiermee kan men
snel en eenvoudig data selecteren, koppelen en manipuleren. Hiermee kom ik tot
dezelfde conclusie als in de eindrapportage van de proof of concept. In Enterprise Guide
kan niet gedatamined worden, hiervoor is Enterprise Miner. Over Enterprise Miner ben ik
iets minder te spreken. De applicatie werkt snel maar ondoorzichtig. Het bleek moeilijk te
achterhalen welke algoritmen werden gebruikt bij bepaalde berekeningen. Ook is het
jammer dat alle flexibiliteit qua data manipulatie niet aanwezig is in Enterprise Miner.
Verschillende keren ben ik aangelopen tegen zaken die ik wilde veranderen na aanleiding
van de uitkomsten van een analyse, dit bleek vervolgens alleen mogelijk in Enterprise
Guide. En aangezien er geen directe koppeling tussen de twee is kost dit veel tijd.
Qua documentatie kan SAS een voorbeeld nemen aan SPSS (versie 14). Deze
heeft per gebruikt algoritme een document opgesteld met daarin beschreven met welke
methode (formule) wordt gewerkt. Nadeel van SPSS is dat de nadruk licht op het
beschrijvende aspect en minder op het voorspellende. Waar de data preparatie voor
Enterprise Miner gedaan werd in Enterprise Guide, is er voor SPSS nog een tussenslag
gemaakt in Excel. Vooral het aanmaken van de dummy’s is een zeer tijdrovend proces.
44
Ruwweg 1% van de totale dataset. Hierbij moet aangetekend worden dat selecties zijn gemaakt op basis van
goederencode, al valt niet te verwachten dat andere selecties, bijvoorbeeld op importeur, een ander beeld laten
zien.
- 53 -
Literatuuropgave
Referenties
Abu-Hanna, A. en de Keizer, N. (2003), “Integrating classification trees with local logistic
regression in Intensive Care prognosis”, Artificial Intelligence in Medicine 29 (2003) 5–23
Baesens B., Setiono R., Mues C., Vanthienen J. (2003), “Using Neural Network Rule
Extraction and Decision Tables for Credit-Risk Evaluation”, Management Science, 49 (3),
pp. 312-329
Berry, M.J.A. en Linoff, G. (2000), “Mastering data mining: the art and science of
customer relationship management”, Wiley New York
Berztiss, A. (1999), “Domain analysis for business software systems”, Information
systems, Vol. 24, No.7, 555-568
Boss, R.W. (2000), “What Is An Expert System? ERIC Digest”, ERIC Clearinghouse on
Information Resources Syracuse NY
CIBIT (2001), “Business Intelligence Instrumenten, Reporting, OLAP and Data mining”,
CIBIT White paper
Craven, M. W., Shavlik, J. W. (1996), “Extracting tree-structured representations
of trained networks”, Advances in Neural Information Processing Systems
Vol. 8., MIT Press, Cambridge, MA, 24–30.
Daniels, H.A.M. (2003), “Introduction to neural networks”
Daniels, H.A.M. en van Dissel, H. (2002), “Risk management based on expert rules and
data mining: A case study in insurance.”, ERIM
Daniëls, H.A.M., en Kamp, B. (1999), “Application of MLP networks to house pricing and
bond rating. Neural Computing and Applications”, 8(3), 226-234.
Feelders, A. (2000), “Prior Knowledge in Economic Applications of Data Mining” Lecture
Notes In Computer Science; Vol. 1910, Proceedings of the 4th European Conference on
Principles of Data Mining and Knowledge Discovery pages: 395 - 400
Feelders, A. (2006), “Classification trees”, collegedictaat Universiteit Utrecht
Feelders, A., Daniels H., Holsheimer M. (2000), “Methodological and practical aspects of
data mining”, Information & Management 37 271-281
Frawley, W.J., Piatetsky-Shapiro, G., Matheus, C.J. (1992), “Knowledge Discovery in
Databases: an Overview”, AI Magazine
Gim, G. en Whalen, T. (1999), “Logical second order models: Achieving synergy between
computer power and human reason”, Information Sciences 114 (1999) 81-104
Gini, C. (1912), "Variabilitá e mutabilita", Reprinted in Memorie di metodologia statistica
(Ed. E. Pizetti and T. Salvemini.) Rome: Libreria Eredi Virgilio Veschi, 1955.
- 54 -
Graham, P. (2002), “A plan for spam”, http://www.paulgraham.com
Han, J. en Kamber, M. (2001), “Data Mining: Concepts and techniques”, Academic Press
Hand, D., Manilla, H., Smyth, P. (2001), “Principles of data mining” The MIT Press
Hinde, S. (2004) “The transmutation of GIGO and the cult of assumption”, Computer
fraud & security vol.2004 nr.4
Janssen, H. (2006), “Eenheidswaarde tarieven regime per 19 mei 2006”,
http://www.agf.nl/opinie/janssen/06juni06.htm
Kopanas, I., Avouris, N. M., Daskalaki S. (2002), “The Role of Domain Knowledge in a
Large Scale Data Mining Project”, Methods and Applications of Artificial Intelligence :
Second Hellenic Conference on AI, SETN
Liao, T. F. (1994), “Interpreting probability models, Logit, Probit, and other generalized
linear models”, Sage University papers
Martens, D., De Backer, M., Haesen, R.,Baesens, B., Mues, C., Vanthienen, J. (2005),
“Ant-Based Approach to the Knowledge Fusion Problem”, Department of Decision
Sciences & Information Management, K.U.Leuven, Belgium
Martin, S., Sewani, A., Nelsom, B., Chen, K., Joseph, A.D. (2004), “Analyzing behavioural
features for email classification”, University of California Berkeley
McClave, J.T., Benson, P.G., Sincich, T. (2001), “Statistics for business and economics”,
Prentice Hall International inc.
Menard, S. (2002), “Applied logistic regression analysis, second edition”, Sage University
papers
Minsky and Papert (1969), "Perceptrons", Cambridge, MIT-press
Mitchell, T. (1997) “Machine learning”, McGrawHill
Mitchell, Tom M. ; Keller, Richard M. ; Kedar-Cabelli, Smadar T. (1986),
“Explanation-Based Generalization: A Unifying View” Machine learning vol.01 nr. 1 p. 4780
Mitchell, T. M., Thrun, S. B. (1993), “Explanation-Based Neural Networks Learning for
Robot Control”, Advances in Neural Information Processing Systems, volume 5, Denver,
CO 287--294.
Nauck, D. (2000), “Data analysis with neuro-fuzzy methods”, Habilitation thesis,
University of Magdeburg, Germany.
Owrang, M. M. en Grupe, F.H. (1996), “Using domain knowledge to guide database
knowledge discovery”, Expert systems with applications, Vol.10, No. 2, 173-80
Parpinelli, R. S., Lopes, H. S., Freitas, A. A. (2002), “Data mining with an ant colony
optimization algorithm”, IEEE Transactions on Evolutionary Computation, 6(4):321–
332
Quinlan, J.R. (1986), “Induction of Decision Trees”, Machine learning vol.01 nr.1 p.81106
- 55 -
Rijke, de, M. (2006), “data mining 2005/2006”, Informatics Institute University of
Amsterdam
Rummelhart, Hinton and Williams (1986), "Learning Representations by Back Propagating Errors", Nature, 323, pp. 533-536
Setiono, R., Liu., H. (1996), “Symbolic representation of neural networks”,
IEEE Comput. 29(3) 71–77.
Shavlik, J.; Towell, G. (1989) “Combining Explanation-based and Neural Learning: An
Algorithm ans Empirical Results” Connection Science, 1, pp. 233-255
Simard P. Y., Victorri, B., Le Cun, Y., Denker, J. (1992) “Tangent Prop: A formalism for
specifying selected invariances in adaptive networks”, In Moody, J. et al Advances in
Neural Information Processing Systems 4, Morgan Kaufman, 1992.
Veal, M. R., Zimmermann, K. F. (1992), “Performance measures from prediction
realization tables”, University of Munich
Verbeek. M. (2004) “A guide to modern econometrics, second edition”, John Wiley &
Sons
Werbos (1974), "Beyond Regression: New tools for Prediction and Analysis in the
Behavioral Sciences", Ph.D.Thesis, Harvard University
Wind, I. (2005), “The harmonized system: the language of international trade”, WCO,
http://www.wcoomd.org
Yourdon, E. (1999), “Gestructureerde analyse”, Prentice Hall
[CDW, 1999] Handboek van in- en uitvoer, algemene wetgeving inzake Douane (1999),
“supplement 101”, Kluwer Samson
[CDW, 2001] Handboek van in- en uitvoer, algemene wetgeving inzake Douane (2001),
“supplement 128”, Kluwer Samson
[Dou01]
Douane (2002), “Handboek Douane I.85.C.1 Voorschrift Douanetarief”,
Belastingdienst
[NDFR, 2006] Nederlandse documentatie fiscaal recht, “Algehele herziening van de
douanewetgeving (Algemene douanewet)”,
http://www.ndfr.nl/pdfroot/douanewet_mvt_algemeen.pdf
[SPSS, 2006] SPSS Algorithm description, “Logistic regression”, (SPSS 14)
[TK, 2003] Tweede Kamer der Staten-Generaal (2003), “Accijnzen op minerale oliën:
toezicht doorgelicht”, Tweede Kamer, vergaderjaar 2003–2004, 29 365, nrs. 1–2
Geraadpleegde overheidsstukken
Interne stukken
[DIC, 2006] DIC Team 5 handhaving (2006), “Douane Informatiecentrum DIC”, Cluster
Relatie- en Accountbeheer
- 56 -
[BDI01]
Belastingdienst intranet (2006), “Algemene informatie kennisgroepen”,
http://belastingnet.belastingdienst.nl/bdienst/digiboek/data/aikg/boek.htm,
geraadpleegd op 15-06-2006.
[BDI02]
Belastingdienst intranet (2006), “Zoeken in informatie per kennisgroep”,
http://belastingnet.belastingdienst.nl/bdienst/kg/forms/zoek.htm, geraadpleegd op 1207-2006.
Gespreksverslagen
“Gespreksverslag RDB”, DIC, bijlage VI.1a
“Gespreksverslag Profielbeheer”, DIC, bijlage VI.1b
“Gespreksverslag RKG”, DIC, bijlage VI.1c
“Gespreksverslag DIA”, DIC, bijlage VI.1d
“Gespreksverslag domeinexperts”, DIC, bijlage VI.1e
“Gespreksverslag druiven case”, DIC, bijlage VI.1f
- 57 -
Figuren- en tabellenlijst
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Figuur
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
Tabel
1-1 Aangifteregistratie, -analyse en -selectie ..............................................- 2
2-1 Leercirkel van het RMD ......................................................................- 6
2-2 Processchema risicoanalyse ................................................................- 7
2-3 Correctie van de aangiften na controle ...............................................- 13
3-1 Twee verschillende beslisbomen ........................................................- 18
3-2 Impurity meetstaven .......................................................................- 19
3-3 Overfitting .....................................................................................- 22
6-1 Processchema met data mining.........................................................- 48
I-1 Vier Douaneregio’s...........................................................................- 60
I-2 De drie kernfuncties van de Douane. ..................................................- 61
I-3 Organigram Douane.........................................................................- 62
III-1 Afgeleide beslisboom voor AA .........................................................- 72
III-2 Afgeleide beslisboom voor II ...........................................................- 74
III-3 Afgeleide beslisboom voor KK .........................................................- 75
III-4 Afgeleide beslisboom voor NN .........................................................- 76
2-1 Aanwezige datasets ..........................................................................2-2 Gebruikte analysevariabelen ..............................................................3-1 Opzet classificatietabel......................................................................4-1 data cleaning per variabele................................................................4-2 Geselecteerde goederen voor analyse .................................................4-3 kengetallen 2004 .............................................................................4-4 Prestatieindex profielen ten opzichte van de modellen ...........................4-5 Controles op basis van de profielen en modellen ...................................5-1 soorten druiven ...............................................................................5-2 Kengetallen druiven..........................................................................5-3 Statistieken per genereerde beslisboom...............................................5-4 Statistieken per gegenereerd neuraal netwerk ......................................5-5 Statistieken per model ......................................................................5-6 Aantal controles per techniek .............................................................5-7 Vergelijking technieken .....................................................................5-8 Geschiktheid per model voor combinatie met domeinkennis ...................I-1 Voorbeeld van de Gecombineerde Nomenclatuur ..................................I-2 Overzicht cijferposities goederencode .................................................-
- 58 -
11
12
22
27
28
28
33
33
35
36
37
38
40
41
41
42
65
65
-
Afkortingenlijst
AR
Algemene rekenkamer
B/CA SOB
Belastingdienst/Centrale Administratie Sector Ondersteuning Bedrijfsvoering
CDW
Communautair Douanewetboek
CNI
Controle na Invoer
DFD
Data Flow Diagram
DIA
Douane Informatieafdeling
DIC
Douane informatiecentrum
DSI
Douane Sagitta Invoer
DSU
Douane Sagitta Uitvoer
EBG
Explanation-based Generalization
EBNN
Explanation-based Neural Network
EEG
Europese economische gemeenschap
EU
Europese Unie
FIOD-ECD
Fiscale Inlichtingen en Opsporingsdienst
FyCo
Fysieke Controle
GIGO
Garbage In, Garbage Out
GN
Gecombineerde nomenclatuur
GS
Geharmoniseerd systeem
KBANN
Knowledge-based Artificial Network
KDD
Knowledge Discovery in Databases
MLP
Multilayer Perceptron
MSE
Mean Squared Error
PoC
Proof of Concept
PROTECT
Protecting people, planet and profit
RKG
Risicokennisgroep
RMD
Rechtshandhavingmodel Douane
RSM
Rotterdam school of management
SAS EG
SAS Enterprise Guide
SAS EM
SAS Enterprise Miner
SBB
Sagitta Binnenbrengen
SSE
Sum of Squared Errors
Taric
Tarif intégré communautaire
TRANSUMO
Transition to sustainable mobility
VGEM
Veiligheid, gezondheid en milieu
- 59 -
Bijlagen
Bijlage I
I.1 Achtergrondinformatie Douane
I.1.1 Algemene taken Douane
De Douane is een onderdeel van de Belastingdienst en valt onder het ministerie van
Financiën. De Belastingdienst beslaat met ruim 33.000 medewerkers verreweg het
grootste deel van het ministerie. De Douane telt ongeveer 5.000 medewerkers. Deze
medewerkers zijn verdeeld over vier Douaneregio’s. Deze zijn: Douane Noord, Douane
Zuid, Douane West en Douane Rotterdam, zie figuur I-1. Zij verzorgen de controle op de
buitengrenzen; de grenzen met de niet- Europese Unie landen en controles binnen de
grenzen; op accijnzen en dergelijke. [BLD01]
Figuur I-1 Vier Douaneregio’s
Iedere regio is opgedeeld in drie teams; aangiftebehandeling, klantbehandeling en
fysiek toezicht. Aangiftebehandeling controleert of een aangifte juist en volledig is
ingevuld en of de betreffende goederen nader onderzocht moeten worden. Ook verzorgen
zij de controle op heffing van goederen. Het team klantbehandeling geeft vergunningen
af, verwerkt klachten en doet administratieve controles. Fysiek toezicht ten slotte, regelt
de
fysieke
controles
van
de
binnengebrachte
goederen
en
doet
surveillancewerkzaamheden.
De drie kernfuncties van de Douane zijn stoppen, bewaken en heffen/innen. De
stopfunctie houdt in dat de Douane geen goederen het land in laat die er niet in mogen.
Voorbeelden hiervan zijn verdovende middelen, wapens en munitie, dieren die lijden aan
een besmettelijke ziekte (zoals mond- en klauwzeer en varkenspest) en producten die
gevaar opleveren voor de consument. Er worden maatregelen genomen om te zorgen dat
dergelijke goederen worden geweerd en niet Nederland of de Europese Unie inkomen.
Ook voor uitvoer geldt de stopfunctie. Er mogen bijvoorbeeld geen wapens en munitie
- 60 -
Bijlagen
getransporteerd worden naar landen waar oorlog woedt of waartegen internationale
sancties zijn opgelegd.
De bewakingsfunctie bestaat uit het juist toepassen van de nationale en Europese
douanewetgeving. Het bewaken van goederen betreft goederen die al wel fysiek in
Nederland zijn maar waar nog geen invoerbelasting over betaald is. Deze goederen
mogen wel in Nederland worden opgeslagen, vervoerd en verwerkt mits aan bepaalde
voorwaarden wordt voldaan. Hier is een uitgebreid systeem van formaliteiten en
verplichtingen voor opgesteld, waarbij voorop staat dat de verschuldigde belastingen
worden betaald. Dit geldt ook voor de uitvoer van goederen. Bij het uitvoeren van
goederen kan er een recht op belastingteruggave ontstaan. Een goed is uitgevoerd
wanneer het daadwerkelijk de Europese Unie heeft verlaten, dit wordt door de Douane
gecontroleerd.
De heffing- en inningfunctie houdt in dat de Douane berekent hoeveel belasting
verschuldigd is (heffen) en ook zorgt dat deze belasting wordt betaald (innen). Dit kan
betrekking hebben op heffingen bij invoer van goederen, zowel voor Nederland als
Europa. In- en uitvoerrechten worden immers op Europees niveau geïnd en verdeeld.
Ook zorgt de Douane voor de heffing en inning van binnenlandse accijnzen en
belastingen op personenauto’s en motorrijwielen. Daarnaast wordt ook omzetbelasting
geheven en geïnd in de gevallen waarin een aangever niet over de juiste vergunningen
beschikt om dit op een later tijdstip te mogen afhandelen.
De controles vinden plaats op verschillende gebieden. Deze gebieden hebben hun
specifieke aandachtpunten en risicofactoren. In figuur I-2 wordt dit grafisch
weergegeven.
Figuur I-2 De drie kernfuncties van de Douane.
De stopfunctie omvat KOERIER, de koeriersdiensten en Sagitta BinnenBrengen (SBB), de
pré-arrival selectie (van binnenkomende goederenstromen wordt beoordeeld of deze
gecontroleerd moeten worden). Ook uit te voeren goederen vallen onder de stopfunctie.
- 61 -
Bijlagen
Invoer (Douane Sagitta Invoer; DSI) en Uitvoer (Douane Sagitta Uitvoer; DSU)
representeren de systemen die in- en uitvoer aangiften behandelen. Over ingevoerde
goederen (DSI) kan belasting verschuldigd zijn, op uitgevoerde goederen (DSU) kan
restitutie verkregen worden, deze vallen onder de heffing- en inningfunctie. Tot slot
Vervoer, dit zijn vaak goederen die doorgevoerd worden naar een ander EU-land. Deze
goederen hebben een aparte status en worden bewaakt zolang ze niet daadwerkelijk inof uitgevoerd worden.
I.1.2 Douane Informatiecentrum
Het Douane informatiecentrum (DIC) voorziet in de informatiebehoefte van de Douane.
Dit is de eenheid voor vragen aan de Nederlandse en buitenlandse Douane en andere
overheidsorganisaties met taken die het werkterrein van de Douane raken. Door de
toename van de complexiteit van de omgeving door onder andere de mondialisering van
de economie is er veel vraag naar informatie, bijvoorbeeld over bepaalde
goederenstromen. [DIC, 2006]
Het DIC heeft verschillende taken. Één ervan is informatieverwerking. Het DIC
verzamelt, beoordeelt, veredelt en verspreidt nationale en internationale informatie voor
de ondersteuning van Douanetaken. Deze informatie wordt door het DIC onder andere
gebruikt voor het uitvoeren van risicoanalyses en trendanalyses op nationaal niveau. Het
DIC treedt bij landelijke crisissituaties (zoals de Vogelpest) op als nationaal
coördinatiepunt voor de Douane. Hiervoor is een landelijk draaiboek dat door het DIC
actueel wordt gehouden. Ook heeft het DIC een belangrijke taak in de controleaansturing
binnen de Douane. Op basis van de resultaten van de trendanalyses worden landelijke
controleopdrachten uitgezet en opsporingsonderzoeken in werking gezet. Verder is het
DIC het informatiecentrum voor Nederlandse en buitenlandse Douane- en overige
overheidsdiensten met taken die het werkterrein van de Douane bestrijken. Het DIC
coördineert verlening van internationale wederzijdse bijstand en zorgt voor
administratieve samenwerking bij uitwisseling van gegevens. Onder aansturing van een
coördinator op het DIC zijn Douane attachés gestationeerd in een aantal Europese
landen. Deze fungeren als schakel tussen de douanediensten in deze landen en de
Nederlandse Douane om zo tot een zo optimaal mogelijke uitwisseling en samenwerking
te komen. Tenslotte houdt het DIC rekening met toekomstige ontwikkelingen, zoals de
uitbreiding van de Europese Unie en technologische ontwikkelingen op het gebied van
risicobeheersing. Het DIC is gestationeerd in de regio Rotterdam. Zie figuur I-3 voor een
organigram (DIA = Douane Informatieafdeling; RKG = RisicoKennisGroep, zie volgende
subparagraven).
Figuur I-3 Organigram Douane
- 62 -
Bijlagen
I.1.3 Douane Informatieafdelingen
De Douane kent vier Douane Informatieafdelingen (DIA), één per regio; DIA Noord, DIA
Zuid, DIA West en DIA Rotterdam. De DIA’s hebben een informatie- en analysefunctie
voor de desbetreffende Douaneregio [Arts, 2006]. Deze taak wordt in iedere regio anders
ingevuld omdat de omgeving verschillend is. In Rotterdam bijvoorbeeld is de zeehaven
het belangrijkste goederenvervoermiddel, in West is dit de luchthaven Schiphol.
Naast de informatie- en analysefunctie hebben de DIA’s andere taken toegewezen
gekregen. Zij ondersteunen de risicobeheersingactiviteiten van de risicokennisgroepen
(zie I.1.4), ondersteunen de uitvoering van landelijke acties en de operationele inzet van
de Douane in crisissituaties. Verder doen ze risicovinding en risicoanalyse ten behoeve
van de risicokennisgroepen en in de gevallen waarin het DIC daarom verzoekt. Ook
coördineren de DIA’s regionale acties, zijn een regionaal aanspreekpunt voor andere
handhavingdiensten en doen profielbeheer in relatie met DSI en DSU, de zogenaamde
Pro Actief groep. De verdere beschrijving beperkt zich tot regio Rotterdam.
Binnen de DIA Rotterdam zijn twee team gedefinieerd; “Productie en Profielen”
(P&P) en “Onderzoek en Ontwikkeling” (O&O). De teams zijn onderverdeeld in enkele
clusters. Zo bevat O&O het cluster “risicokennisgroep minerale oliën en chemie” (zie
volgende paragraaf). Ook bestaat er een cluster “risicobeheersing algemeen” waaronder
de Pro Actief groepen vallen (zie volgende paragraaf). Het team P&P kent een cluster
profielbeheer, waarover meer in 2.3.4.
I.1.4 Risicokennisgroepen
De Belastingdienst gebruikt de volgende definitie voor een kennisgroep [BDI01]:
“Een kennisgroep is een niet regiogebonden groep van medewerkers uit de uitvoering,
met expertise op het terrein waarvoor de DRB/Groepsraad 45 in overleg de kennisgroep
heeft ingesteld. Een kennisgroep is een virtueel samenwerkingsverband waarvan de
medewerkers worden benoemd op basis van hun competenties.“
Er zijn tientallen kennisgroepen actief binnen de Belastingdienst. Deze zijn onderverdeeld
in vier clusters. Een van deze clusters is risicobeheersing. Binnen het cluster
risicobeheersing is een verdere onderverdeling in drie clusters gemaakt. Deze bestaat uit
een cluster voor Winst en Niet-Winst, Douane en FIOD-ECD. In deze beschrijving wordt
alleen het cluster Douane besproken. Het cluster Douane is opgedeeld in vier zogeheten
risicokennisgroepen, te weten minerale oliën en chemie; consumentengoederen en nonfood;
landbouw
en
landbouwproducten;
tabak,
alcohol
en
dranken.
De
risicokennisgroepen zijn verdeeld over de vier Douane regio’s, Rotterdam, West, Noord
en Zuid respectievelijk. Ondanks deze geografische indeling werken zij wel landelijk.
Over het algemeen kan worden gesteld dat iedere groep de volgende opdrachten heeft
[BDI02]:
•
•
•
•
45
Onderzoek naar risico’s op het terrein van de specifieke kennisgroep en
mogelijkheden en werkwijzen om de onderkende risico’s te detecteren en af te
dekken.
Initiëren van landelijke detectie en afdekking van risico’s.
Inrichten en onderhouden van de leercirkel met betrekking tot de risico’s, de
detectie en de afdekking daarvan gerelateerd aan de specifieke kennisgroep.
Verzamelen en ter beschikking stellen aan de Douane (-medewerkers) van actuele
kennis op het specifieke terrein van de kennisgroep.
Directoraat Belastingdienst/Groepsraad
- 63 -
Bijlagen
•
Adviseren over de uitvoerbaarheid van wetgeving gerelateerd aan het specifieke
terrein van de kennisgroep.
Daarnaast heeft iedere risicokennisgroep haar eigen specifieke taakomschrijving. Dit
hangt af van de goederen waarvoor zij de risico’s moeten afdekken. De indeling is
gemaakt op basis van goederencodes. Met een goederencode worden goederen
ingedeeld aan de hand van indelingsregels, zie I.1.6. Hiermee wordt ongeveer 80% van
de goederenstromen door de risicokennisgroepen afgedekt. De overige 20% worden door
de Pro Actief groepen van de Douane Informatie Afdelingen behandeld.
I.1.5 Risicodatabase
De risicodatabase is ontstaan naar aanleiding van een onderzoek van de algemene
rekenkamer (AR). De AR heeft een onderzoek [TK, 2003] uitgevoerd op het gebied van
de minerale oliën waarbij zij constateerden dat onduidelijk is wat de precieze risico’s zijn
met betrekking tot accijnsheffing. Daaruit kwam de aanbeveling om een risicoreservoir in
te richten, waarin deze risico’s onderkend kunnen worden. Daarom is in het kader van
risicobeheersing in samenwerking met “blauw” de risicodatabase opgericht. Dit is een
applicatie die is geïntegreerd in Lotus Notes 46 waarin iedere ambtenaar zijn risico’s kan
invoeren. Deze risico’s kunnen van alles zijn, bijvoorbeeld men ziet mogelijk verdachte
activiteiten in een loods. Onderdeel van de risicodatabase is ook terugkoppeling. De
ambtenaren kunnen op verschillende momenten volgen wat er met de aangegeven
risico’s gebeurt. Dit is gedaan om meer signalen te krijgen, immers wanneer men weet
dat er daadwerkelijk iets mee gebeurt, is men eerder geneigd ook signalen aan te
leveren. Verder heeft het centraal punt als taken de werking van de risicodatabase te
verbeteren.
I.1.6 Goederencodes
Een goederencode is een code die aan een goed wordt toegekend aan de hand van
bepaalde indelingsregels. Bij het opstellen van deze indelingsregels is rekening gehouden
met de wensen van handel en bedrijfsleven voor vervoer en statistiek. Het totaal aan
goederencodes wordt het Geharmoniseerd Systeem (GS) genoemd. De goederencodes
van het GS bestaan uit zes cijfers. Het GS is opgesteld door de Wereld Douane
Organisatie, en wordt bijna overal ter wereld gebruikt voor de indeling van goederen
[Wind, 2005]. De Europese Unie heeft het Geharmoniseerd Systeem overgenomen en
tevens uitgebreid. De uitbreiding bestaat uit twee extra cijfers die aan de goederencode
zijn toegevoegd. Het totaal wordt de Gecombineerde Nomenclatuur (GN) genoemd. Deze
is vastgesteld bij Verordening (EEG) nr. 2658/87 47 van de raad van de Europese
Gemeenschappen (op Raadsniveau nu Europese Unie) van 3 juli 1987. In tabel I-1 is een
voorbeeld opgenomen van een hoofdstuk uit de GN.
46
E-mail en agenda applicatie die gebruikt wordt binnen de belastingdienst, zie http://www306.ibm.com/software/lotus/
47
Verordening (EEG) nr. 2658/87 van de Raad van 23 juli 1987 met betrekking tot de tarief- en
statistieknomenclatuur en het gemeenschappelijk douanetarief.
- 64 -
Bijlagen
Goederencode
01.01
0101 10
0101 10 10
0101 10 90
0101 90
Omschrijving
Levende paarden, ezels, muildieren en muilezels:
- fokdieren van zuiver ras:
- - paarden
- - andere
- andere:
- - paarden
0101 90 11
- - - slachtpaarden
0101 90 19
- - - andere
1011 90 30
- - ezels
0101 90 90
- - muildieren en muilezels
Tabel I-1 Voorbeeld van de Gecombineerde Nomenclatuur [DOU01]
Met de gecombineerde nomenclatuur kunnen statistische gegevens over de buitenlandse
handel van de Europese Gemeenschap worden bijeengebracht, uitgewisseld en
bekendgemaakt. De nomenclatuur kan eveneens worden gebruikt voor het verzamelen
en het verspreiden van statistische gegevens over de buitenlandse handel in het kader
van het handelsverkeer binnen de EG. Op basis van de GN is door de Europese
Commissie een geïntegreerd douanetarief vastgesteld voor de EG. Het geïntegreerde
douanetarief, Tarif intégré communautaire, wordt algemeen aangeduid met de afkorting
Taric. In Taric zijn de douanerechten vermeld en is de regelgeving opgenomen die van
toepassing is op de buitenlandse handel van de EG. Rechtsgrond van het douanetarief
van de EG is bovengenoemde Verordening (EEG) nr. 2658/87. Taric breidt de lengte van
de goederencode uit tot een maximum van 18 cijfers. Vervolgens kunnen er nog
maximaal vier nationaal aanvullende cijfers worden toegevoegd, zie tabel 2-2 voor een
overzicht.
Codering
Cijferposities
GS-post
1-4
GS-onderverdeling
5-6
GN-onderverdeling
7-8
Taric-code
9-10
Eerste aanvullende Taric-code
11-14
Tweede aanvullende Taric-code
15-18
Nationale aanvullende code:
19-22
- 2 cijfers voor nationale aanvullende code
(19-20)
- 2 cijfers voor accijnscode (indien van toepassing)
(21-22)
Tabel I-2 Overzicht cijferposities goederencode [DOU01]
In de praktijk wordt vaak alleen de eerste tien cijfers gebruikt 48 . Taric vormt de basis
van de nationale gebruikstarieven, welke zijn samengesteld uit een verzameling van
communautaire en nationale wettelijke bepalingen en voorschriften. De Douane gebruikt
het gebruikstarief om de juistheid van in- en uitvoeraangiften te bepalen. Op basis van
de goederencode wordt gecontroleerd op een juiste toepassing van fiscale en niet-fiscale
maatregelen. Een fiscale maatregel is bijvoorbeeld de heffing van Douanerechten. Nietfiscale maatregelen zijn bijvoorbeeld maatregelen op het gebied van gezondheid en
kwaliteit; marktordeningmaatregelen (bijvoorbeeld restituties bij uitvoer van
landbouwgoederen) en handelseconomische maatregelen (bijvoorbeeld de verplichting
een invoervergunning te overleggen). Goederencodes spelen dus een essentiële rol in het
controle aspect van de Douane. Tevens kunnen ze als identificerende factor gebruikt
worden bij statistiek, in dit geval data mining. [DOU01]
48
In DSI worden de aanvullende Taric-codes gebruikt om maatregelen in het kader van VGEM of
restitutie/heffingen aan te sturen.
- 65 -
Bijlagen
I.2 Kolombeschrijving DSI
Veldnaam
SI_Apunt
SI_Agevnr
SI_Ajaar
SI_Agifnr
SI_Aproc
SI_Asymbl
SI_Atype
SI_Aanlwyz
SI_AvDat
Type
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
DATE
SI_Geadr
SI_LandVz
SI_LandBes
SI_LevCond
SI_Artikel
SI_Status
SI_StatDat
SI_GdnCode
SI_GdnOms1
SI_GdnOms2
SI_GdnOms3
SI_LvO
SI_GevrReg
SI_VrgReg
SI_VrijReg
SI_Bruto
SI_Netto
SI_PrfCont
SI_CtrSrt
SI_CtrUits
SI_AanvEhd
SI_Verkopr
SI_PltsLos
SI_Ambtenr
SI_ADis
SI_APost
SI_IPosCod
cImpDistrict
cImpDiversen
cImpHuisnr
cImpHuisnrToev
cImpLand
cImpNaam
cImpNaam2
cImpNaam3
cImpOverig
cImpPlaats
cImpPostc
cImpStraat
cInvVerg
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
DATE
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
NUMERIC
NUMERIC
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
ASCII
Toelichting
Aangiftepunt
Aangever
Aangiftejaar
Aangiftenummer
Aangifteprocedure
Aangiftesymbool
Aangiftetype
Aanleverwijze
AangifteAanvaardingsdatum
Geadresseerde / Importeur
(BTWnummer)
Land van Verzending
Land van Bestemming
Leveringscondities
Artikel
Status
Statusdatum
Goederencode
Goederenomschrijving 1
Goederenomschrijving 2
Goederenomschrijving 3
Land van Oorsprong
Gevraagde regeling
Voorafgaande regeling
Vrijstellings regeling
Bruto
Netto
Preferentie
Controlesoort
Controleuitslag
Aanvullende eenheden
Verkoper
Plaats van lossing
Ambtenaar
District van aangever
Douanepost van Aangever
Postcode importeur
District van Importeur
Diverse gegevens van importeur
Huisnr Importeur
Huisnr toevoeging Imp
Land imp
Naam Imp
naam vervolg imp
naam vervolg imp
Overige gegevens imp
Plaats imp
Postcode importeur
Straat imp
Invoervergunningen
- 66 -
Voorbeeld
164
9880200
05
1020513
<leeg>
IM
A
CE
27012005
295318302
NO
NL
DDP
1
40
08/19/05
852431000000000
Software kits
US
40
71
D24
1
1
040
1
0
00000000
ADOMA LTD
<leeg>
HARSKAMP
568
032
3079DC
000
7
a
Helmond
CENTOCOR BV
5985NG/R’dam
2908LP
Zeesluizen
Bijlagen
cEurCert
cFactVerk
cFormA
cFormL_F
cStatwEUR
cGemdwkg_E
ccvo_text
cpercir
cjaar
cmnd
dagnaam
weeknr
si_lvoltr
Si_lvbltr
si_lvvltr
ASCII
ASCII
ASCII
ASCII
NUMERIC
Eurcertificaat c.q. Factuurverklaring
Factuurverklaring Textiel
Formulier A
FormulierL(f)
Douanewaarde (EUR)
faktuur
<leeg>
<leeg>
<leeg>
1912,00
Land van Oorsprong in lettercode
Land van Bestemming in lettercode
Land van Verzending in lettercode
I.3 Betekenis symbolen
I.3a Aangifteprocedure
Code Verklaring en of Wettelijke omschrijving
A
O1
Achteraf aangifte
Onvolledige aangifte (aangifte ten aanzien waarvan toestemming is verleend bepaalde gegevens of
bescheiden later te verstrekken)
O2
Ex-onvolledig.
S
Standaard aangifte
Aangifte vooraf (ingevuld aangifteformulier dat wordt ingeleverd voor goederen die nog niet op de plaats
van inlevering zijn gebracht).
Aanvulling voorafaangifte (deze code wordt niet gebruikt in een aangifte doch in de verklaring omtrent de
plaats waar de goederen zich bevinden.
V1
V2
V3
Ex-voorafaangifte.
M
Maandaangifte
I.3b Aangiftesymbool
Code Verklaring en of Wettelijke omschrijving
(1) Aangifte van communautaire goederen waarvoor bijzondere bepalingen gelden tijdens de
overgangsperiode na de toetreding van de nieuwe Lid- Staten of (2) Aangifte van communautaire goederen
COM
in het kader van het handelsverkeer met de Canarische eilanden, de Franse overzeese departementen, de
Kanaal- eilanden, Jungholz, Mittelberg en de berg Athos
EU
IM
Aangifte voor het vrije verkeer uit een EVA-land
Aangifte ten invoer of tot plaatsing onder de regeling behandeling onder douanetoezicht van nietcommunautaire goederen, met uitzondering van goederen uit een EVA-land
- 67 -
Bijlagen
I.3c Landen van verzending/oorsprong/herkomst
Code
FR
Land
Frankrijk m.i.v. Monaco en de Franse overzeese departementen (Réunion,
Guadeloupe, Martinique en Frans Guyana)
NL
Nederland
DE
Duitsland m.i.v. Helgoland; m.u.v. het gebied Büsingen
IT
Italië m.i.v. Livigno; met uitzondering van de gemeente Campione d'Italia
ES
Spanje m.i.v. de Balearenen en de Canarische eilanden; m.u.v. Ceuta en Melilla
BE
België
SE
Zweden
TR
Turkije
EG
Egypte
SL
Sierra Leone
AO
Angola met inbegrip van Cabinda
ZA
Zuid-Afrika
NA
Namibië
BR
Brazilië
CL
Chili
PY
Paraguay
AR
Argentinië
IN
India
VN
Vietnam
NZ
Nieuw-Zeeland m.u.v. de onderhorigheid Ross (Antarctica)
I.3d Leveringscondities
Code
EXW
Verklaring en of Wettelijke omschrijving
Plaats van de fabriek
FAS
Overeengekomen haven van inscheping
FOB
Overeengekomen haven van inscheping
CFR
Overeengekomen haven van bestemming
CIF
Overeengekomen haven van bestemming
DAF
Overeengekomen plaats van levering aan de grens
DDP
Overeengekomen plaats van bestemming
CIP
Overeengekomen plaats van bestemming
FCA
Aangegeven plaats.
DES
Overeengekomen haven van bestemming
DDU
Overeengekomen haven van bestemming
DEQ
Overeengekomen haven van bestemming
CPT
Overeengekomen plaats van bestemming
XXX
Andere Leveringsvoorwaarde
I.3e Gevraagde regeling
Code
Verklaring en of Wettelijke omschrijving
040
Tariefpreferentie/overige
041
Tariefpreferentie/overige
042
Tariefpreferentie/overige
061
Ergo omnes tariefcontingent/beheert door de Douane
- 68 -
Bijlagen
I.3f Voorafgaande regeling
Code
000
Verklaring en of Wettelijke omschrijving
023
Tijdelijke uitvoer van goederen die in ongewijzigde staat zullen terugkeren.
Plaatsing onder het stelsel douane-entrepots daaronder begrepen plaatsing in andere inrichtingen onder
douanetoezicht.
071
Geen voorafgaande regeling.
I.3g Vrijstellingsregeling
Code Verklaring en of Wettelijke omschrijving
470
Monsters van goederen van onbeduidende waarde welke slechts kunnen dienen om bestellingen te werven
(art.91 Vo (EEG) nr. 918/83 en art.101 van de Douaneregeling).
590
Goederen die na tijdelijk of definitief uit het douanegebied van de EEG te zijn uitgevoerd hierin weder worden
ingevoerd om er in het vrije verkeer te worden gebracht (terugkerende goederen (art.185 Cdw en art.100 van
de Douaneregeling). Deze code alleen gebruiken indien: (1) de goederen tijdens hun verblijf buiten het
douanegebied van de Gemeenschap niet in waarde zijn vermeerderd door een noodzakelijke herstelling of
revisie; (2) het geen goederen betreft die tevoren vanuit een accijnsgoederenplaats dan wel met teruggaaf
van accijns of met teruggaaf van omzetbelasting op de voet van artikel 24 van de Wet op de omzetbelasting
1968 uit het grondgebied van de Gemeenschap zijn uitgevoerd (artikel 106, tweede lid); (3) het goederen
betreft waarvoor bij uitvoer toegekende of toe te kennen restituties of andere bedragen, dan wel andere
eveneens in het kader van het gemeenschappelijk landbouwbeleid bij uitvoer toegekende financiële voordelen,
overeenkomstig artikel 844 van de toepassingsverordening Communautair dou
- 69 -
Bijlagen
Bijlage II
II.1 Data preparatie
Preparatie is onder te verdelen in data cleaning, data integratie en transformatie en data
reductie.
Ten eerste data cleaning. De te analyseren data kan incompleet (missende
waarden of geaggregeerde data), noisy (foute waarden of outliers) en niet consistent
(bijvoorbeeld, discrepanties in de toepassing van codes om objecten te categoriseren)
zijn. Er zijn verschillende manieren om met incomplete data om te gaan. Men kan de rij
simpelweg negeren, de missende waarde handmatig invullen, een vaste waarde invullen
voor het missende veld, het gemiddelde van de attributen invullen, het gemiddelde van
alle attributen die tot dezelfde klasse behoren invullen of de meest waarschijnlijke
waarde invullen. Het wegwerken van noise (smoothing) valt ook onder data cleaning.
Noise wordt gedefinieerd als een random error in een gemeten variabele. De noise kan
worden weggewerkt door de data in “buckets” onder te verdelen (binning), te groeperen
in clusters (clustering), de data in een functie om te zetten (regressie) en een combinatie
van inspectie door computer en mens waarbij de noise wordt verwijderd. Inconsistente
data kan worden aangepast na een handmatige zoekactie. Ook kan er aan de hand van
afhankelijkheden gezocht worden naar inconsistentie.
Ten tweede data integratie en transformatie [Han and Kamber, 2001]. Soms is
het nodig om data uit verschillende bronnen met elkaar te combineren. Hiervoor is
idealiter een identificerende kolom beschikbaar aan de hand waarvan de tabellen te
combineren zijn. Wanneer dit niet het geval is kan door middel van correlatie analyse
overlap gevonden worden in verschillende kolommen waardoor integratie alsnog mogelijk
is. Andere problemen waarmee rekening gehouden moet worden zijn data conflicten,
bijvoorbeeld een prijs die in verschillende muntsoorten is uitgedrukt. Data transformatie
is het proces waarbij data wordt omgezet in een vorm die geschikt is voor data mining.
Technieken die hiervoor gebruikt kunnen worden zijn: smoothing (zie hierboven),
aggregatie (bijvoorbeeld van dagelijkse opbrengsten naar maandelijkse), generalisatie
(bijvoorbeeld van straat naar plaats), normalisatie (het indelen van de attributen in
schalen bijvoorbeeld van 10 tot 20) en het aanmaken van nieuwe attributen (nieuwe
attributen worden aangemaakt vanuit de oude om het data mining proces te verbeteren).
Ten derde data reductie [Han and Kamber, 2001]. Wanneer de dataset te groot is
om efficiënt mee te kunnen werken moet de dataset verkleind worden. Dit kan door de
data te aggregeren (zie hierboven), het aantal dimensies te verkleinen (door middel van
het verwijderen van niet of weinig relevante of redundante attributen), compressie toe te
passen, numerosity reduction (hier wordt de data vervangen door een kleinere data
representatie) en discretization and concept hierarchy generation (hier zijn veel
technieken voor beschikbaar, het komt erop neer dat het volume van de data wordt
verkleind door verschillende attributen in te delen in intervals, cluster enzovoort).
- 70 -
Bijlagen
Bijlage III
III.1 Kengetallen geselecteerde goederen
Goederencode
AA
Aangiften1
985
BB*
2.278
CC
1.084
DD
466
EE*
6.244
FF*
4.063
GG*
1.480
HH
2.618
II
890
JJ
1.866
KK
775
LL
27.850
MM
27.670
NN*
10.251
Controles2
Positieve uitslag
(% van 1)
(% van 1)(% van 2)
983
147
(14,92%)(14,95%)
(99,80%)
1.578
332
(14,57%)(21,04%)
(69,27%)
978
114
(10,52%)(11,66%)
(90,22%)
444
134
(28,76%)(30,18%)
(95,28%)
5.923
976
(94,86%)
(15,63%)(16,48%)
3.994
562
(98,30%)
(13,83%)(14,07%)
1.454
254
(17,16%)(17,47%)
(98,24%)
2.540
152
(5,81%)(5,98%)
(97,02%)
881
124
(13,93%)(14,07%)
(98,99%)
1.832
118
(6,32%)(6,44%)
(98,18%)
337
147
(18,97%)(43,62%)
(43,48%)
1.911
141
(0,51%)(7,38%)
(6,86%)
1.173
110
(0,40%)(9,38%)
(4,24%)
3.113
189
(1,84%)(6,07%)
(30,37%)
III.2 Gebruik van training, validatie en test set in SAS EM
Overview of the Data Partition Node:
Most data mining projects utilize large volumes of sampled data. After sampling, the data
is usually partitioned before modeling. Use the Data Partition node to partition your input
data into one of the following data sets:
• Train: is used for preliminary model fitting. The analyst attempts to find the best
model weights using this data set.
• Validation: is used to assess the adequacy of the model in the Model Comparison
node. The validation data set is also used for model fine-tuning in the following
nodes:
o Decision Tree node — to create the best subtree.
o Neural Network node — to choose among network architectures or for the
early-stopping of the training algorithm.
o Regression node — to choose a final subset of predictors from all the
subsets computed during stepwise regression.
• Test: is used to obtain a final, unbiased estimate of the generalization error of the
model.
- 71 -
Bijlagen
III.3 Gecorrigeerde goederencodes per goed
Goederencode
AA
BB
CC
DD
EE
FF
GG
HH
II
JJ
KK
LL
MM
NN
verschillen
0
0
1
2
5
11
2
6
2
2
2
67
2
63
III.4 Profielen en regels per goederencode
AA
profiel:
geen profiel in 2004
beslisboom:
Figuur III-1 Afgeleide beslisboom voor AA
IF SI_APUNT IS ONE OF: 156 278 157
THEN CTRUITS = 1
NODE :
3 (zie figuur)
N
:
84 (aantal waarnemingen (training set))
0
: 98.8% (aantal conforme aangiften)
1
: 1.2% (aantal niet conforme aangiften)
IF
403 <= SI_BRUTO <
THEN CTRUITS = 1
NODE :
9
N
:
71
409 AND SI_APUNT EQUALS 164
- 72 -
Bijlagen
0
1
:
:
95.8%
4.2%
IF
409 <= SI_BRUTO <
THEN CTRUITS = 1
NODE :
10
N
:
39
0
: 46.2%
1
: 53.8%
411 AND SI_APUNT EQUALS 164
IF
411 <= SI_BRUTO AND SI_APUNT EQUALS 164
THEN CTRUITS = 1
NODE :
11
N
:
30
0
: 86.7%
1
: 13.3%
IF SI_BRUTO <
THEN CTRUITS = 1
NODE :
12
N
:
148
0
: 89.9%
1
: 10.1%
400 AND SI_APUNT EQUALS 164
IF SI_AGEVNR EQUALS 00009300200 AND
THEN CTRUITS = 1
NODE :
20
N
:
5
0
: 100.0%
1
: 0.0%
400 <= SI_BRUTO <
403 AND SI_APUNT EQUALS 164
IF SI_AGEVNR EQUALS 00004280801 AND
THEN CTRUITS = 1
NODE :
21
N
:
15
0
: 0.0%
1
: 100.0%
400 <= SI_BRUTO <
403 AND SI_APUNT EQUALS 164
II:
profiel:
IF GNCODE IS II AND LANDVO IS (land) AND SI_NETTO > (tonnage) THEN CTRUITS = 1 (CTRSRT = 1 OR 2 OR
3)
- 73 -
Bijlagen
Beslisboom:
Figuur III-2 Afgeleide beslisboom voor II
IF SI_GEADR IS ONE OF: 80936149801 00617893501 00882653501 80586275401
THEN CTRUITS = 1
NODE :
2
N
:
39
0
: 25.6%
1
: 74.4%
IF SI_GEADR IS ONE OF: 00442237508 00715127501 80111027001 80655384402
80523119501 00888477808 80392384301 00754262801 00566630201 00124595801
80834694501 00717020802 00962484301 80082783101 80293666002 80373206501
THEN CTRUITS = 1
NODE :
3
N
:
313
0
: 93.3%
1
: 6.7%
KK:
profiel
IF GNCODE IS KK AND SI_NETTO > (tonnage) THEN CTRUITS = 1 (CTRSRT = 1 OR 2 OR 3)
- 74 -
Bijlagen
beslisboom:
Figuur III-3 Afgeleide beslisboom voor KK
IF SI_BRUTO <
NODE :
2
N
:
35
1
: 2.9%
0
: 97.1%
4670 THEN CTRUITS=1
IF
72192 <= SI_BRUTO THEN CTRUITS=1
NODE :
7
N
:
32
1
: 21.9%
0
: 78.1%
IF SI_APUNT EQUALS 253 AND
NODE :
9
N
:
49
1
: 81.6%
0
: 18.4%
4670 <= SI_BRUTO <
72192 THEN CTRUITS=1
IF
4670 <= SI_BRUTO <
NODE :
12
N
:
7
1
: 42.9%
0
: 57.1%
17300 AND SI_APUNT EQUALS 157 THEN CTRUITS=1
IF
17300 <= SI_BRUTO <
NODE :
13
N
:
11
1
: 72.7%
0
: 27.3%
72192 AND SI_APUNT EQUALS 157 THEN CTRUITS=1
NN:
profiel:
IF GNCODE IS ONE OF NN (….) AND GEADR <> NN AND <> 80662912501
THEN CTRUITS = 1 (CTRSRT = 1 OR 2 OR 3)
- 75 -
Bijlagen
beslisboom:
Figuur III-4 Afgeleide beslisboom voor NN
IF SI_AGEVNR IS ONE OF: 00001340700 00001442403 00001442404 00002960900
00003833707 00004341200 00004696600 00004906200 00005341704 00005414800
00006017300 00006017301 00006793311 00006881002
THEN CTRUITS=1
NODE :
2
N
: 1041
1
: 0.4%
0
: 99.6%
IF SI_AGEVNR IS ONE OF: 00002925701 00002980400 00003038700 00003199900
00003717500 00004747800 00004906202 00006047103 00006425701 00006781700
THEN CTRUITS=1
NODE :
6
N
:
179
1
: 26.8%
0
: 73.2%
IF SI_AGEVNR IS ONE OF: 00004184104 00004184109
THEN CTRUITS=1
NODE :
7
N
:
26
1
: 92.3%
0
: 7.7%
III.5 Classificatietabellen per goederencode
AA
ŷi
0
yi
0
KK
1 Total
0
315
18
333
(80,36%)
(4,59%)
(84,95%)
1
23
36
59
(5,87%)
(9,18%)
(15,05%)
338
54
392
(86,22%)
(13,78%)
Total
ŷi
yi
0
1 Total
63
12
75
(47,01%)
(8,96%)
(55,97%)
1
11
48
59
(8,21%)
(35,82%)
(44,03%)
74
60
134
(55,22%)
(44,78%)
Total
McFadden σn
0,5597
McFadden σn
0,6529
prestatie-index
0,8954
prestatie-index
0,8284
- 76 -
Bijlagen
II
ŷi
0
yi
0
NN
0
292
10
302
(82,95%)
(2,84%)
(85,80%)
1
21
29
50
(5,97%)
(8,24%)
(14,20%)
313
39
352
(88,92%)
(11,08%)
Total
ŷi
1 Total
yi
0
1168
2
1170
(93,74%)
(0,16%)
(93,90%)
1
52
24
76
(4,17%)
(1,93%)
(6,10%)
1220
26
1246
(97,91%)
(2,09%)
Total
McFadden σn
0,5530
McFadden σn
prestatie-index
0,9119
prestatie-index
- 77 -
1 Total
-0,0606
0,9567
Bijlagen
Bijlage IV
IV.1 Kengetallen druiven
Aangiften1
Goederencode
OO
Totaal
Controles2
(% van 1)
2
EE
6.244
FF
4.063
PP
3
-
Positieve uitslag
(% van 1)(% van 2)
2
(100%)
5.923
(94,86%)
3.994
(98,30%)
1
(33,33%)
9.920
(96,20%)
10.312
0
(0%)(0%)
976
(15,63%)(16,48%)
562
(13,83%)(14,07%)
1
(33,33%)(100%)
1.539
(14,92%)(15,51%)
IV.2 Classificatietabellen beslisbomen
boom1
ŷi
0
yi
0
3293
(83,03%)
1
337
(8,50%)
Total
boom3
1 Total
58
278
3630
336
(8,47%)
0,3578
prestatie-index
0,9004
0
3320
(83,71%)
1
372
(9,38%)
Total
615
1
31
3966
Total
0,0996
243
McFadden σn
0,2100
prestatie-index
0,8984
(82,30%)
1
335
(8,45%)
Total
287
(7,24%)
0,9002
(83,54%)
Total
0,1016
3351
(2,19%) (84,49%)
280
615
(7,06%) (15,51%)
3599
367
(90,75%)
(9,25%)
McFadden σn
0,3664
prestatie-index
0,8936
370
(9,33%)
1 Total
87
3313
1
3966
3966
0,1064
- 78 -
615
3966
0,0998
ŷi
0
615
ŷi
0
3679
prestatie-index
(6,13%) (15,51%)
274
253
(6,38%) (15,51%)
0,2563
yi
3351
(0,86%) (84,49%)
(92,76%)
0
3351
1 Total
34
McFadden σn
(0,78%) (84,49%)
(6,91%)
3264
362
(9,13%)
boom4
3692
0
3317
1 Total
(93,09%)
boom dept=3
0
(83,64%)
ŷi
0
yi
yi
(7,01%) (15,51%)
McFadden σn
yi
0
3351
(1,46%) (84,49%)
(91,53%)
boom2
ŷi
1 Total
38
3351
(0,96%) (84,49%)
245
615
(6,18%) (15,51%)
3683
283
(92,86%)
(7,14%)
McFadden σn
0,2238
prestatie-index
0,8971
3966
0,1029
Bijlagen
IV.3 Classificatietabellen neurale netwerken
15
ŷi
0
yi
0
10
1 Total
0
3271
80
3351
(82,48%)
(2,02%)
(84,49%)
1
333
282
615
(8,40%)
(7,11%)
(15,51%)
3604
362
3966
(90,87%)
(9,13%)
Total
McFadden σn
0,3723
prestatie-index
0,8959
25
yi
0
42
3351
(83,43%)
(1,06%)
(84,49%)
1
365
250
615
(9,20%)
(6,30%)
(15,51%)
3674
292
3966
(92,64%)
(7,36%)
Total
McFadden σn
0,2477
prestatie-index
0,8974
(82,98%)
(1,51%)
(84,49%)
342
273
615
(8,62%)
(6,88%)
(15,51%)
3633
333
3966
(91,60%)
(8,40%)
McFadden σn
0,3411
prestatie-index
0,8986
yi
0
57
3351
(83,06%)
(1,44%)
(84,49%)
347
268
615
(8,75%)
(6,76%)
(15,51%)
3641
325
3966
(91,81%)
(8,19%)
Total
- 79 -
1 Total
3294
1
0,1014
0,1026
ŷi
0
3351
1 Total
3309
20
60
Total
0
1 Total
3291
1
yi
0,1041
ŷi
0
ŷi
McFadden σn
0,3230
prestatie-index
0,8981
0,1019
Bijlagen
IV.4 Frequentietabel per variabele
gecensureerd
- 80 -
Bijlagen
IV.5 Afgeleid logistisch regressie model
gecensureerd
- 81 -
Bijlagen
IV.6 Classificatietabellen logistische regressie modellen
training
training
logit c=0,5
ŷi
0
yi
0
logit c=0,15
0
6182
83
6265
(83,17%)
(1,12%)
(84,29%)
679
489
1168
(9,13%)
(6,58%)
(15,71%)
6861
572
7433
(92,30%)
(7,70%)
1
Total
ŷi
1 Total
McFadden σn
0,2784
prestatie-index
0,8975
yi
1 Total
4702
1563
6265
(63,26%)
(21,03%)
(84,29%)
243
925
1168
(3,27%)
(12,44%)
(15,71%)
4945
2488
7433
(66,53%)
(33,47%)
1
Total
0,1025
test
0
McFadden σn
0,4544
prestatie-index
0,7570
0,2430
test
logit c=0,5
ŷi
0
yi
0
logit c=0,15
1 Total
0
2087
29
2116
(83,92%)
(1,17%)
(85,08%)
220
151
371
(8,85%)
(6,07%)
(14,92%)
2307
180
2487
(92,76%)
(7,24%)
1
Total
ŷi
McFadden σn
0,2544
prestatie-index
0,8999
yi
0
566
2116
(62,32%)
(22,76%)
(85,08%)
84
287
371
(3,38%)
(11,54%)
(14,92%)
1634
853
2487
(65,70%)
(34,30%)
1
Total
0,1001
- 82 -
1 Total
1550
McFadden σn
0,4201
prestatie-index
0,7386
0,2614
Bijlagen
Bijlage V
V.1 Overzicht van het gebruik van domeinkennis in een
data mining project [Kopanas et al, 2002]
stage
Use of Domain
Knowledge (DK)
Type of DK
(1) Problem
definition
HIGH
Business and domain
knowledge, requirements
Implicit, tacit knowledge
(2) Creating target
data
set
MEDIUM
Attribute relations, semantics of
corporate DB
Data warehouse
(3) Data
prepossessing
and transformation
HIGH
Tacit and implicit knowledge
for inferences
Database tools,
statistical analysis
(4) Feature and
algorithm selection
MEDIUM
Interpretation of the selected
features
Statistical analysis
(5) Data Mining
LOW
Inspection of discovered
knowledge
Data mining tools
(6) Evaluation of
learned
knowledge
MEDIUM
Definition of criteria related to
business objectives
Data mining tools
(7) Fielding the
knowledge base
HIGH
Supplementary domain
knowledge necessary for
implementing the system
Knowledge-based
system shells and
development tools
- 83 -
Tools used
Bijlagen
Bijlage VI
VI.1 Gespreksverslagen
VI.1a Gespreksverslag Risicodatabase
Hoe is de risicodatabase ontstaan?
Vanuit de algemene rekenkamer, die vroeg zich af welke risico’s er nu waren (met
betrekking tot het goederenvervoer). Hierop wist niemand een antwoord. Daarom is er in
samenwerking met blauw de risicodatabase opgericht.
Wat is de risicodatabase?
De risicodatabase is een applicatie binnen Lotus Notes waarin iedere ambtenaar risico’s
kwijt kan. Dat kan van alles zijn, bijvoorbeeld een signaal dat er gefraudeerd wordt bij
een bepaald soort goed. Alle signalen worden door de risicodatabase groep bekeken en
ingedeeld in groepen. (welke groepen?)
Wat gebeurt er met de signalen?
Dat licht aan de aard van het risico. Bij spoedgevallen spelen wij het meteen door aan
profielbeheer. Zij maken er een profiel van en zetten het in Sagitta Invoer. Dit zijn vaak
signalen die directe actie vereisen omdat de goederen al onderweg zijn en een risico
vormen voor de veiligheid of gezondheid. Als er geen spoed is blijven de signalen in de
database staan totdat ze worden opgepikt door de risico kennisgroepen of de DIA’s.
VI.1b Gespreksverslag Profielbeheer
Wat is de taak van profielbeheer?
Wij krijgen een formulier met het risico en het profiel welke wij verwerken in Sagitta
Invoer/Uitvoer. De update gebeurd normaal gesproken een keer per dag. Wanneer er
een spoed risico binnenkomt, schrijven we zelf het profiel en zetten we het direct in
Sagitta Invoer.
Wat is de historie van Invoer en Uitvoer profielen?
Sagitta Invoer bestaat sinds 1985 en er zijn zo’n 9000 profielen ingevoerd sindsdien.
Hiervan is een groot deel niet meer in gebruik. Sagitta uitvoer bestaat sinds 1996. Invoer
heeft een maximale profiellengte van 50 regels en bij uitvoer is dat 60.
Wat bepaald de kleur van het risico?
Die wordt bepaald door de DIA. Maar over het algemeen kun je zeggen dat als er fysiek
gecontroleerd moet worden de kleur rood wordt meegegeven. De goederen mogen dan
niet de opslagplaats verlaten. Een lager risico komt voor bij controles die administratief
kunnen worden afgedaan, bijvoorbeeld de douane waarde.
Is er controle op de kwaliteit/juistheid van de gegevens?
In zoverre dat het systeem controleert of de vorm van de input valide is. Bijvoorbeeld
nummers in een numeriek veld of een geldige goederencode, ook wordt gecontroleerd of
er daadwerkelijk iets in wordt gevuld bij de verplichte velden. Nadeel is dat wanneer er
een andere schrijfwijze is dan dat in het profiel systeem, je geen hit krijgt op de aangifte.
De gemaakte aangifte is wel officieel, dus wanneer iemand een fout maakt staat hier
direct een boete tegenover.
Worden de profielen geëvalueerd?
- 84 -
Bijlagen
Ja, maar dat doen de risico-eigenaren, i.e. de risico kennisgroepen of de DIA’s. Zij
bepalen of een profiel er in blijft of dat hij eruit gaat of dat het percentage gewijzigd
moet worden.
Wat houdt het percentage in?
Het percentage wordt gebruikt bij steekproeven op bepaalde risico’s. Het systeem laat
dan een deel van de hits door en een ander deel niet. Ook als het aantal hits van een
profiel te groot wordt kan er een steekproef aan vast worden gehangen. Zodat de te
beoordelen zendingen behapbaar wordt.
VI.1c Gespreksverslag risicokennisgroep
Wat is een risico kennisgroep?
Een risico kennisgroep is een groep mensen die verantwoordelijk zijn voor de risico’s die
onder een bepaalde groep vallen. Zij hebben expertise op dit gebied en bepalen of er
actie moet worden ondernomen aan de hand van de signalen uit de risicodatabase. Er
zijn 4 risico kennisgroepen (tabak&alcohol, consumentengoederen, landbouw, minerale
olien) en 13 doelgroepen. Deze zijn ingedeeld aan de hand van goederencodes. De risico
kennisgroepen zijn verantwoordelijk voor zo’n 80% van de goederencodes, de overige
20% zijn toegewezen aan de DIA’s.
Welke mogelijkheden heeft een RKG?
Een risico kennisgroep kan een profiel laten maken voor prisma/invoer/uitvoer; een
CNU/CNI instellen; een administratieve controle laten uitvoeren; en een gerichte actie
laten ondernemen (bijvoorbeeld controle op sigaretten.) Een opdracht wordt
doorgestuurd naar de DIA.
Doet de RKG aan evaluatie van de risico’s?
De DIA’s doen de cijfermatige analyse. Die wordt doorgestuurd aan ons waarna wij
bepalen of er iets met het risico (profiel) moet gebeuren. Verwijderen, percentage
veranderen, bepaalde partij uitsluiten enz.
VI.1d Gespreksverslag Douane Informatieafdeling
Hoe zijn de DIA’s landelijk georganiseerd?
Er zijn 4 DIA’s, Noord, West, Zuid en Rotterdam. Allemaal hebben zie dezelfde taak,
alleen de invulling is anders. Dit komt door de verschillende omgeving waarin ze werken.
Rotterdam heeft de zeehaven, West heeft de luchthaven.
En hoe is de DIA Rotterdam georganiseerd?
Binnen het DIA Rotterdam zijn twee teams, een team Productie en Profielen (P&P) en
een team Onderzoek en Ontwikkeling (O&O). Ieder team is onderverdeeld in clusters.
Het team O&O bevat onder andere het cluster risicokennisgroep MO&C. Ook is er een
cluster risicobeheersing algemeen. Hieronder valt Pro Actief, dat risicoanalyses uitvoert.
Het team P&P kent een cluster profielbeheer, zij analyseren profielvoorstellen, beheren
en evalueren profielen.
Wat is de taak van de DIA?
Een uitgebreide taakbeschrijving is te vinden in het verslag “van signaal tot evaluatie”.
De DIA is samen met het DIC en de RKG onderdeel van de risicobeheersing. Doel hiervan
is compliance. Dat men zich aan de wet houdt. Dit wordt bereikt middels verschillende
vormen van toezicht, waaronder controles.
Hoe is de 80-20% indeling gemaakt?
- 85 -
Bijlagen
Dat is niet op basis van hoofdstukken, maar op basis van goederenstromen. Het is ook
maar een indicatie, goederenstromen zijn namelijk variabel.
VI.1e Gespreksverslag domeinexperts
De resultaten van de analyse in hoofdstuk 5 worden voorgelegd aan de domeinexperts.
Per risico, zoals geconstateerd in het gespreksverslag met de Douanemedewerker,
worden de resultaten van de analyse voorgelegd en de reactie van de domeinexperts
hierop besproken.
• waardebepaling: vanwege een tekortkoming in de data kon dit risico niet precies
onderzocht worden. Wel is er een overzicht gemaakt van het aantal aangiften per
dag en de hoeveelheid conforme en niet-conforme aangiften. Hieraan zijn toen
geldende eenheidsprijzen gekoppeld om te bekijken of er opvallende
schommelingen in de tabel te zien zijn. Op de overgangsgebieden van de
eenheidsprijzen was dit niet het geval. Wel was er in de periode dat er geen
invoerrechten geheven worden opeens een stijging te zien in het aantal niet
conforme aangiften. Beide domeinexperts wisten hier niet direct een verklaring
voor. Het is mogelijk dat de aangiften door verschillende personen gecontroleerd
worden die er een andere manier van registreren op na houden.
• Oorsprongfraude: Hier valt op dat er een land van oorsprong wordt opgegeven
met de cijfercode 910. Deze code kan niet aan een land worden toegeschreven.
Ook de domeinexperts hadden geen idee welk geografisch gebied er schuil moet
gaan achter deze cijfercode. Wel zijn er 1.566 (15,8% van het totaal!) aangiften
ingediend met dit land van oorsprong.
• Fraude met goederencodes: niet te onderzoeken vanwege beperkte aantal
aangiften met risicovolle goederencodes.
Verder kwam naar voren dat er een importeur was waarvan dik 90% van de
gecontroleerde
ingediende
aangiften niet
conform
bevonden
is.
Voor
de
Douanemedewerker is dit reden om die aangiften nog eens nader te bekijken.
VI.1f Gespreksverslag druiven case
Welke druivensoorten zijn er?
Alle druiven vallen binnen GS-post 0806. Hierin worden vier soorten druiven
onderscheiden:
• OO: Druiven van de soort “empereur”. Deze worden maar zeer beperkt ingevoerd.
• EE: druiven voor tafelgebruik, zonder pit.
• FF: druiven voor tafelgebruik, met pit.
• PP: wijndruiven. Ook hierin is maar beperkte invoer.
Wat is de mogelijke oorzaak voor de vele controles? Hier is, voor zover na te gaan, geen
profiel verantwoordelijk voor.
Aan de invoer van fruit zijn veel voorwaarden verbonden. Zo kan de
plantenziektekundige Dienst reden hebben om een zending te controleren. Ook de
voedsel- en warenautoriteit kan een controle doen. Ook is de waarde van de invoer op
meerdere manieren te bepalen.
Wanneer de waarde van de goederen door schatting wordt bepaald, is er achteraf een
correctie nodig. Deze correctie leidt tot een gecontroleerde aangifte. Deze wordt dan wel
als conform aangemerkt (mits er geen andere gebreken geconstateerd worden).
Wat zijn de risico’s met betrekking tot de invoer van druiven?
• Er kan creatief worden omgegaan met de manier waarop de waarde opgegeven
mag worden. Met als doel zo min mogelijk heffingen te betalen. Mogelijk is er op
- 86 -
Bijlagen
•
•
•
•
basis van de schommeling in eenheidsprijzen iets te zeggen over de door de
importeur gekozen waardebepaling.
OO is onder bepaalde voorwaarden onder een gunstig tarief in te voeren. Hierbij
heeft Namibië een gunstiger tarief dan het naastgelegen Zuid-Afrika. Waardoor
oorsprongsfraude mogelijk is.
Tussen 21-7 en 20-11 ligt de invoer vanuit het zuidelijk halfrond stil. Wel is er
invoer vanuit Turkije waar geen invoerrecht op wordt geheven.. De waarde van de
druiven wordt dus niet belast. Wel is er een prijsmaatregel. Mogelijk van land van
oorsprongfraude.
Zie vorige; druiven kunnen worden aangegeven als wijndruiven, goederencode
PP. Hierbij geldt geen prijsmaatregel.
Druiven met opgegeven oorsprong Israël kunnen ook uit de door Israël bezette
gebieden komen.
- 87 -
Download