De verbetering van geaccumuleerde classificatieregels met data mining Toegepast op invoeraangiften bij de Douane P.A.W. Jolen Tilburg, december 2006 Faculteit der Economische Bedrijfswetenschappen Departement Informatiemanagement De verbetering van geaccumuleerde classificatieregels met data mining Toegepast op invoeraangiften bij de Douane Afstudeerscriptie Informatiemanagement Universiteit van Tilburg Uitgevoerd bij het Douane Informatiecentrum te Rotterdam in opdracht van PROTECT Auteur: P.A.W. Jolen Anr: 127760 Email: [email protected] Begeleider Universiteit van Tilburg: M. Jeusfeld Begeleider Douane Informatiecentrum: R. Geerts H. Knoester Examencommissie: M. Jeusfeld B.W.M. Bettonvil I II Managementsamenvatting In dit onderzoek is getracht een antwoord te vinden op de vraag hoe domeinkennis kan worden geïntegreerd in data mining modellen. Het onderzoek is verricht bij het Douane Informatiecentrum te Rotterdam. De uiteindelijke onderzoeksvraag is toegepast op de situatie bij de Douane. Het betreft invoeraangiften uit 2004. De Douane beoordeelt aan de hand van de gegevens op de ingediende aangifte of deze mogelijk foutief is. Deze verdeling in goed (conform) en fout (niet conform) is een klassiek classificatieprobleem. De onderzoeksvraag luidt vervolgens: Hoe kan de Douane, door een combinatie van domeinkennis en data mining technieken, tot een betere classificatie van aangiften komen? De primaire selectie van de aangiften wordt automatisch gedaan middels een selectiesysteem. Dit systeem is opgebouwd uit regels (business rules, profielen: IFTHEN) waar de aangiften doorheen worden geleid. Dit systeem vertegenwoordigt de domeinkennis binnen de Douane. Hierna volgt nog een handmatige beoordeling van de aangifte, hier wordt beslist of er daadwerkelijk tot controle wordt overgegaan. Als eerste is onderzocht of de profielen overeenkomen met regels die voorkomen uit een analyse met behulp van data mining technieken. Er is geconstateerd dat maar met een beperkt deel van de beschikbare data een vergelijking gemaakt kan worden. Tevens bleek het lastig te achterhalen welk profiel verantwoordelijk was voor een controle. Uit dit deelonderzoek kan worden geconcludeerd dat er voldoende mogelijkheid is om de profielen te verbeteren door gebruik te maken van data mining technieken. Hiernaast is in de vorm van een casestudy bepaald welke techniek het best geschikt is voor gebruik binnen de Douane. Ook is data mining opgenomen in het risicoanalyse proces. Drie classificatietechnieken zijn gebruikt, te weten beslisbomen, neurale netwerken en logistische regressie. Een vereiste is dat de modellen kunnen worden omgezet in profielen. Dit leidt ertoe dat, ondanks dat het logistische regressie model het best classificeert, beslisbomen het meest geschikt zijn voor gebruik in het risicoanalyse proces. De risicoanalyse bestaat uit verschillende stappen. Voor een goede analyse met behulp van data mining technieken is het van groot belang dat er een nauwe samenwerking is met de domeinexperts. Het probleemgebied moet goed afgebakend worden en de data moet in de juiste vorm gegoten worden. Ook de resultaten van de analyse worden besproken met de domeinexperts, met als doel een degelijke risicoafdekking te bewerkstelligen. Er zijn nog enkele andere zaken naar voren gekomen bij dit onderzoek. De beschikbaarheid én vorm van de data bijvoorbeeld. Deze kan nog volop verbeterd worden. Een groot voordeel van analyse met behulp van data mining technieken is dat het vele malen sneller gaat dan op de huidige manier en dat er effectiever gecontroleerd kan worden. III Voorwoord Voor u ligt de scriptie “De verbetering van geaccumuleerde classificatieregels met data mining – toegepast op invoeraangiften bij de Douane”. Dit is het resultaat van mijn afstudeerstage bij het Douane Informatiecentrum (DIC) te Rotterdam. Deze scriptie markeert het eindpunt van de studie Informatiemanagement aan de Universiteit van Tilburg. Zowel voor mij als het DIC was de stage een nieuwe ervaring. Voor mij was het zaak de opgedane kennis in de praktijk te brengen om succesvol af te kunnen studeren. Wat wil zeggen: uit de boeken en het echte werk in! Ik moet zeggen dat het me goed is bevallen. Het is een zeer leerzame ervaring geweest. En dat geldt denk ik niet alleen voor mij. Het DIC was namelijk niet bekend met afstudeerders. In het begin liepen sommige zaken daarom af en toe wat stroef, maar uiteindelijk is het allemaal goed gekomen, getuige deze scriptie. Mede door ieders bereidheid een helpende hand te bieden. Mijn vragen over van alles en nog wat werden graag beantwoord, waarvoor mijn dank. Dit was, zeker in het begin, nodig ook. Ik had al wel een idee van de Douane, maar als je er middenin zit merk je pas hoe groot en complex alles is. Er zijn een aantal mensen die ik in het bijzonder wil bedanken voor hun hulp. Ten eerste mijn begeleider van de Universiteit, Manfred Jeusfeld, hij heeft me regelmatig geholpen op het goede spoor te blijven. Ook de begeleiders vanuit de Douane, Henk Knoester en Rob Geerts, ben ik dank verschuldigd. Henk voor de data mining technische hulp en Rob voor alles er omheen. Rob’s kennis van de organisatie is van grote waarde gebleken voor mijn begrip van alle processen. Tevens een woord van dank richting Emiel Caron, hij was het aanspreekpunt vanuit de Erasmus Universiteit Rotterdam en heeft vaak goede kritieken geleverd op mijn werk. Vanwege het feit dat mij ongelimiteerde toegang tot zeer gevoelige informatie is verstrekt –hiervoor heb ik een geheimhoudingsverklaring moeten ondertekenen- zijn er twee versies van deze scriptie geproduceerd. Één volledige versie, die alleen voor intern gebruik bij de Douane bestemd is, en een gecensureerde versie, waar de gevoelige informatie uitgefilterd is. Voor u ligt de gecensureerde versie. Hieruit zijn alle namen van de Douanemedewerkers verwijderd of onherleidbaar gemaakt. Tevens zijn de goederencodes van de geanalyseerde probleemgebieden gecensureerd. Pieter Jolen, December, 2006 IV Inhoudsopgave Managementsamenvatting................................................................................... III Voorwoord .........................................................................................................IV Inhoudsopgave .................................................................................................... V Hoofdstuk 1 Achtergrond en probleemstelling ........................................................................- 1 1.1 Achtergrond............................................................................................- 1 1.2 Korte beschrijving van de Douane..............................................................- 1 1.3 Onderzoeksvraag en subvragen .................................................................- 2 1.3.1 Onderzoeksvraag...............................................................................- 2 1.3.2 Subvragen........................................................................................- 2 1.4 Wetenschappelijke relevantie ....................................................................- 3 1.5 Bedrijfskundige relevantie.........................................................................- 3 1.6 Onderzoeksmethode ................................................................................- 3 1.7 Opzet van de scriptie ...............................................................................- 4 Hoofdstuk 2 Beschrijving van de Douane...............................................................................- 5 2.1 Inleiding.................................................................................................- 5 2.2 Rechtshandhavingmodel Douane ...............................................................- 5 2.3 Douane Sagitta Invoer .............................................................................- 8 2.3.1 Inleiding...........................................................................................- 8 2.3.2 Risicodatabase ..................................................................................- 9 2.3.3 Risicokennisgroepen ..........................................................................- 9 2.3.4 Douane Informatieafdelingen ..............................................................- 9 2.3.5 Profielbeheer ..................................................................................- 10 2.3.6 Selectie..........................................................................................- 10 2.3.7 Regiekamer + Controle ....................................................................- 10 2.4 Beschikbare data ...................................................................................- 11 2.4.1 Beschrijving aanwezige data .............................................................- 11 2.4.2 Herkomst data ................................................................................- 12 2.4.3 Gecorrigeerde data ..........................................................................- 13 2.5 Data mining bij de Douane......................................................................- 14 2.5.1 Inleiding.........................................................................................- 14 2.5.2 Proof of concept Douane Sagitta Invoer ..............................................- 14 2.5.3 Proof of concept Douane Sagitta Uitvoer .............................................- 14 2.5.4 Huidige data mining activiteiten.........................................................- 15 2.6 Conclusie .............................................................................................- 15 Hoofdstuk 3 Data mining en domeinkennis ..........................................................................- 16 3.1 Inleiding...............................................................................................- 16 3.2 Data mining..........................................................................................- 16 3.2.1 Inleiding.........................................................................................- 16 3.2.2 Classificatie ....................................................................................- 17 3.2.3 Data preparatie ...............................................................................- 17 3.3 Data mining technieken..........................................................................- 17 3.3.1 Beslisbomen ...................................................................................- 17 3.3.2 Logistische regressie ........................................................................- 19 3.3.3 Neurale netwerken ..........................................................................- 20 3.3.4 Overfitting ......................................................................................- 21 3.3.5 Classificatietabellen .........................................................................- 22 3.4 Domeinkennis .......................................................................................- 23 3.5 Vergelijkbare onderzoeken......................................................................- 24 3.6 Conclusie .............................................................................................- 25 - V Hoofdstuk 4 Profielen valideren..........................................................................................4.1 Inleiding...............................................................................................4.2 Data preparatie .....................................................................................4.2.1 Data cleaning..................................................................................4.2.2.Data integratie en transformatie ........................................................4.2.3 Data reductie ..................................................................................4.3 Afleiden van regels ................................................................................4.4 Vergelijking profielen en regels................................................................4.5 Tweede validatie ...................................................................................4.6 Verbeteringen .......................................................................................4.7 Conclusie .............................................................................................Hoofdstuk 5 Casestudy druiven..........................................................................................5.1 Inleiding...............................................................................................5.2 Probleemgebied casestudy ......................................................................5.3 Analyse................................................................................................5.3.1 Data preparatie ...............................................................................5.3.2 Beslisboom .....................................................................................5.3.3 Neuraal netwerk..............................................................................5.3.4 Logistische regressie ........................................................................5.3.5 Vergelijking modellen.......................................................................5.4 Terugkoppeling .....................................................................................5.5 Conclusie .............................................................................................Hoofdstuk 6 Data mining in het risicoanalyseproces ..............................................................6.1 Inleiding...............................................................................................6.2 Verschillende stages risicoafdekking .........................................................6.3 Procesbeschrijving met data mining .........................................................6.4 Conclusie .............................................................................................Hoofdstuk 7 Conclusies en aanbevelingen............................................................................7.1 Conclusies ............................................................................................7.2 Aanbevelingen ......................................................................................Literatuuropgave............................................................................................Referenties ................................................................................................Geraadpleegde overheidsstukken ..................................................................Figuren- en tabellenlijst ..................................................................................Afkortingenlijst ..............................................................................................Bijlage I........................................................................................................I.1 Achtergrondinformatie Douane.................................................................I.1.1 Algemene taken Douane ...................................................................I.1.2 Douane Informatiecentrum................................................................I.1.3 Douane Informatieafdelingen .............................................................I.1.4 Risicokennisgroepen .........................................................................I.1.5 Risicodatabase.................................................................................I.1.6 Goederencodes ................................................................................I.2 Kolombeschrijving DSI............................................................................I.3 Betekenis symbolen................................................................................I.3a Aangifteprocedure .............................................................................I.3b Aangiftesymbool ...............................................................................I.3c Landen van verzending/oorsprong/herkomst .........................................I.3d Leveringscondities.............................................................................I.3e Gevraagde regeling ...........................................................................I.3f Voorafgaande regeling........................................................................I.3g Vrijstellingsregeling ...........................................................................- VI 26 26 26 26 27 28 29 30 31 32 34 - 35 35 35 36 36 37 38 39 41 43 44 - 46 46 46 47 49 - 50 50 52 54 54 56 58 59 60 60 60 62 63 63 64 64 66 67 67 67 68 68 68 69 69 - Bijlage II.......................................................................................................II.1 Data preparatie ....................................................................................Bijlage III .....................................................................................................III.1 Kengetallen geselecteerde goederen .......................................................III.2 Gebruik van training, validatie en test set in SAS EM ................................III.3 Gecorrigeerde goederencodes per goed...................................................III.4 Profielen en regels per goederencode......................................................III.5 Classificatietabellen per goederencode ....................................................Bijlage IV ......................................................................................................IV.1 Kengetallen druiven..............................................................................IV.2 Classificatietabellen beslisbomen ............................................................IV.3 Classificatietabellen neurale netwerken ...................................................IV.4 Frequentietabel per variabele .................................................................IV.5 Afgeleid logistisch regressie model..........................................................IV.6 Classificatietabellen logistische regressie modellen ....................................Bijlage V .......................................................................................................V.1 Overzicht van het gebruik van domeinkennis in een data mining project .......Bijlage VI ......................................................................................................VI.1 Gespreksverslagen ...............................................................................VI.1a Gespreksverslag Risicodatabase ........................................................VI.1b Gespreksverslag Profielbeheer...........................................................VI.1c Gespreksverslag risicokennisgroep .....................................................VI.1d Gespreksverslag Douane Informatieafdeling ........................................VI.1e Gespreksverslag domeinexperts ........................................................VI.1f Gespreksverslag druiven case ............................................................- VII 70 70 71 71 71 72 72 76 78 78 78 79 80 81 81 83 83 84 84 84 84 85 85 86 86 - “The greatest obstacle to discovery is not ignorance - it is the illusion of knowledge” (Daniel J. Boorstin – 1914-2004) VIII Achtergrond en probleemstelling Hoofdstuk 1 Achtergrond en probleemstelling 1.1 Achtergrond Dit onderzoek is onderdeel van een subproject van het TRANSUMO 1 (Transition to Sustainable Mobility) project PROTECT 2 (Protecting people, planet and profit) genaamd “Threat analysis in global supply chains”. In dit subproject wordt gekeken naar technieken om verdachte activiteiten te ontdekken door gebruik te maken van aanwezige data in informatiesystemen voor vrachtvervoer. Ook wordt gezocht naar technieken om uit andere informatiebronnen mogelijk verdachte activiteiten te ontdekken. Meer specifiek heeft PROTECT zich als doel gesteld om technieken voor Business Intelligence te evalueren, te ontwikkelen en toe te passen ten behoeve van logistieke informatiesystemen gebaseerd op (risico)profielen. Mijn onderzoek is een onderdeel van een lopend onderzoeksprogramma genaamd “The integration of data mining models with domain knowledge for business decision-making”. Dit programma maakt deel uit van het RSM 3 Erasmus Universiteit Rotterdam 4 onderzoeksprogramma in logistiek en informatiesystemen. De Erasmus Universiteit Rotterdam en PROTECT zijn een samenwerking aangegaan op dit onderzoeksgebied. Het onderzoek is verricht bij het Douane informatiecentrum (DIC) in Rotterdam. Het DIC is onderdeel van de Nederlandse Douane en heeft als taak de Douane te voorzien in haar informatiebehoeften. Hiervoor is onder andere een data mining groep ingesteld. Deze heeft in 2005 de proof-of-concept fase afgerond. Data mining is nu ook een middel om in de informatiebehoeften van de organisatie te voorzien. Jaarlijks komen er miljoenen containers de haven van Rotterdam binnen. De Douane verzamelt de aangiftegegevens van deze containers. Aan de hand van die gegevens wordt bepaald of een container “verdacht” of “niet verdacht” is, er moet dus een classificatie probleem worden opgelost. Dit proces is deels geautomatiseerd, een ander deel gebeurd nog handmatig. Door dit proces te optimaliseren kan veel tijd en geld bespaard worden. T 1.2 Korte beschrijving van de Douane De Douane maakt onder andere gebruik van een informatiesysteem genaamd “Douane Sagitta Invoer” (DSI). Dit systeem bestaat uit verschillende onderdelen: aangifteregistratie van de goederen, risicoanalyse en selectie. De selectie wordt gedaan door een module in DSI. Hierin staan de zogenaamde risicoprofielen 5 . Deze zijn bepaald met behulp van interviews met selecteurs en andere experts. De Douane gebruikt de risicoprofielen om een kwantitatieve risico-index aan een bepaalde aangifte te geven. Wanneer de risico-index een drempelwaarde overschrijdt krijgt de selecteur hiervan bericht. Hij beoordeeld dan of de risico-index terecht is en of er tot inspectie overgegaan moet worden. Inspectie kan een fysieke controle inhouden, bijvoorbeeld een containerscan, maar ook een administratieve controle behoort tot de mogelijkheden. Bovenstaande wordt weergegeven in figuur 1-1. 1 zie http://www.transumo.nl zie http://protect.transumo.nl 3 zie http://www.rsm.nl 4 zie http://www.eur.nl 5 Een risicoprofiel is een IF-THEN regel. Synoniemen hiervoor zijn o.a. profiel, (beslis)regels, classificatieregels, business rules. In dit verslag worden deze bewoordingen door elkaar gebruikt. 2 -1- Achtergrond en probleemstelling Verdachte aangiften Invoer aangiften aangiften Selectie op basis van profielen Selectie door selecteur Controle Administratieve afhandeling Administratieve afhandeling aangiften Figuur 1-1 Aangifteregistratie, -analyse en -selectie 1.3 Onderzoeksvraag en subvragen 1.3.1 Onderzoeksvraag Mijn onderzoek valt binnen het onderzoeksgebied Business Intelligence. Dit kan worden omschreven als het proces om gegevens om te zetten in informatie, die dan tot kennis leidt. Ik richt me hierbij op data mining. Er bestaan verschillende definities voor data mining, dit is een algemene: “data mining is het onderzoeksveld waarbij getracht wordt om op een geautomatiseerde manier patronen en relaties te ontdekken in grote hoeveelheden gegevens” [de Rijke, 2006]. Een aspect dat nauw gerelateerd is aan data mining is domeinkennis. Domeinkennis kan worden omschreven als kennis die niet expliciet is benoemd in een database. Over het algemeen wordt domeinkennis gebruikt om de effectiviteit en de efficiency van een data mining model te vergroten. Een andere reden is dat door gebruik te maken van deze kennis transparantie van het data mining model vergroot wordt. De combinatie van domeinkennis en data mining technieken toegepast op de omgeving waarbinnen de Douane werkt leidt tot de volgende onderzoeksvraag: Hoe kan de Douane, door een combinatie van domeinkennis en data mining technieken, tot een betere classificatie van aangiften komen? 1.3.2 Subvragen Om de onderzoeksvraag te beantwoorden zijn een aantal subvragen opgesteld. Deze zijn onder te verdelen in twee delen. Ten eerste het literatuur deel, de beschrijving van domeinkennis en data mining. Ten tweede is er het praktische onderzoek. Deze vragen moeten beantwoord worden om een onderbouwd antwoord te kunnen geven op de onderzoeksvraag. Literatuur deel (A): (1) Wat is data mining? (2) Welke data mining technieken zijn er? (3) Wat zijn de voor- en nadelen van deze data mining technieken? (4) Welke data mining technieken kunnen business rules als output produceren? (5) Wat is domeinkennis? Praktisch deel (B): (1) Hoe wordt domeinkennis bij de Douane gebruikt? (2) Is er door gebruik te maken van data mining technieken validatie te vinden voor de bestaande profielen? -2- Achtergrond en probleemstelling (3) Welke data mining techniek is het best bruikbaar binnen de Douane? (4) Hoe kan data mining worden geïntegreerd in het risicoanalyseproces? 1.4 Wetenschappelijke relevantie In dit onderzoek wordt bekeken hoe domeinkennis het best gecombineerd kan worden met data mining technieken. Data mining technieken zijn over het algemeen “data driven”, ze kijken alleen naar de data. Hierbij wordt geen gebruik gemaakt van aanwezige kennis in organisaties. Kennis die voor mensen misschien evident is, maar voor een machine niet. Als deze kennis wordt geïntegreerd in een data mining model, kan dit leiden tot betere resultaten. Het doel is dit op een manier te doen die tot de beste resultaten leidt. Wat er wordt verstaan onder “de beste” is per organisatie verschillend. Bij de Douane gaat het erom aangiften zo goed mogelijk te classificeren in “conform” en “niet conform” met de bestaande wet- en regelgeving. 1.5 Bedrijfskundige relevantie Momenteel maakt de Douane voor de classificatie van aangiften gebruik van profielen (business rules). Deze zijn, en worden, opgesteld aan de hand van expertsessies. Wanneer een aangifte als mogelijk verdacht (niet conform) wordt aangemerkt volgt een nadere controle door een zogenaamde selecteur. Deze bekijkt of de profielen werkelijk van toepassing zijn op de betreffende zending. Dit blijkt nogal eens niet het geval te zijn. Er zitten dus onvolkomenheden in de, door mensen opgestelde, profielen. En dit is ook niet vreemd gegeven het feit dat er ontzettend veel gegevens beschikbaar zijn, waarop de profielen gebaseerd zijn. Met behulp van verschillende data mining technieken kunnen ook profielen gegenereerd worden. Een onderdeel van dit onderzoek is de vergelijking tussen de door de Douane opgestelde profielen en de door data mining technieken afgeleide profielen. Hierbij wordt ook gekeken naar een combinatie van beide, i.e. de huidige profielen en de profielen afkomstig uit data mining technieken. Het uiteindelijke doel is om tot een betere classificatie te komen van aangiften. Dit leidt tot besparing van tijd en geld in meerdere opzichten. De selecteurs hebben minder aangiften te behandelen omdat er minder aangiften onterecht als verdacht worden aangewezen. Een gevolg hiervan kan zijn dat de controleteams minder onnodige, tijdrovende en kostbare, controles uitvoeren. 1.6 Onderzoeksmethode Het onderzoek begint met een beschrijving van de Douane organisatie. Deze wordt gemaakt door het combineren van interne Douane informatie -interne stukken zoals stukken op het intranet en overige documenten- en interviews met mensen die op een betreffende relevante afdeling werken. Dit zal worden onderverdeeld in twee delen. Een deel beschrijft de algemene kant van de verschillende afdelingen, dit deel is opgenomen in bijlage I.1. Het andere deel beschrijft hoe de profielen tot stand zijn gekomen. Hierna komt een literatuurstudie naar data mining (technieken) en domeinkennis. Het doel hiervan is om een beschrijving te geven van data mining in het algemeen en de verschillende data mining technieken. Hetzelfde geldt voor domeinkennis. Wat is het, wat heb je eraan en in hoeverre zijn er voorbeelden in de literatuur waar domeinkennis en data mining technieken worden gecombineerd? Vervolgens volgt, middels empirisch onderzoek, de toepassing van de verschillende data mining technieken. Voor de data preparatie en selectie wordt SAS 6 6 zie http://www.sas.com -3- Achtergrond en probleemstelling Enterprise Guide gebruikt. Het resultaat van de bewerking wordt geladen in SAS Enterprise Miner waar de verschillende modellen gerund worden. Het vergelijken van de modellen gebeurd ook in Enterprise Miner, deze kan grafisch en aan de hand van kengetallen een vergelijking van de gebruikte technieken geven. Hiernaast wordt SPSS gebruikt voor de statistische data mining technieken. 1.7 Opzet van de scriptie Hier volgt een korte beschrijving van de opzet van de scriptie. In Hoofdstuk 2 wordt de Douane organisatie beschreven. Alle afdelingen die met het aangifteproces te maken hebben komen ter sprake. Van iedere afdeling wordt beschreven welke rol zij spelen in het proces en van wie ze afhankelijk zijn. Het geheel is de praktische invulling van werken met domeinkennis bij de Douane. Hoofdstuk 3 beschrijft de theorie omtrent data mining en domeinkennis. Hier wordt uitgebreid ingegaan op data mining. Eerst volgt een beschrijving van wat data mining precies is. Daarna worden de verschillende technieken en de voor- en nadelen van deze technieken beschreven. Verder wordt wat dieper ingegaan op de data mining technieken die gebruikt zijn. Ook wordt er besproken op welke manier de verschillende technieken met elkaar vergeleken kunnen worden. In Hoofdstuk 4 wordt bekeken in hoeverre de bestaande profielen (i.e. de domeinkennis) overeenkomen met regels die zijn afgeleid middels beslisbomen. Hiervoor is eerst preparatie van de data vereist, waarbij een selectie gemaakt wordt op basis van geschiktheid. Na de preparatie worden beslisregels afgeleid, welke worden vergeleken met de bestaande profielen. Hierna worden bestaande profielen als startpunt genomen. Op basis daarvan wordt een data selectie gemaakt. Wederom wordt bekeken in hoeverre er overlap is te vinden. Vervolgens wordt beschreven wat de gevolgen zijn voor de risicoafdekking wanneer de profielen worden bepaald door data mining analyses. In Hoofdstuk 5 wordt de domeinkennis expliciet betrokken bij de data mining technieken. Bekeken zal worden of er significant betere modellen te ontwikkelen zijn wanneer je wel van de kennis gebruik maakt die er vooraf is. Er worden verschillende technieken gebruikt om eveneens te bekijken welke techniek het best geschikt is voor gebruik binnen de Douane. Hoofdstuk 6 behandelt de integratie van data mining in het risicoanalyseproces van de Douane. Hier komt een voorstel ter verbetering in de vorm van een procesbeschrijving uit voort om domeinkennis en data mining zo goed mogelijk te combineren. Er wordt aangegeven waar data mining van waarde is in het gehele proces. Ook wordt de belangrijkheid van domeinkennis per onderdeel van het data mining proces uiteengezet. In dit hoofdstuk wordt ook aangegeven wat de beperkingen zijn in het gebruik van data mining in de omgeving van de Douane. Het afsluitende Hoofdstuk (7) zal een samenvatting geven van de scriptie. De belangrijkste bevindingen worden hier nog eens opgesomd. De aanbevelingen sluiten de scriptie af. -4- Beschrijving van de Douane Hoofdstuk 2 Beschrijving van de Douane 2.1 Inleiding Het vorige hoofdstuk heeft een inleiding gegeven op het onderzoek dat verricht is. De onderzoeksvragen zijn er opgesteld en de context van het onderzoek is beschreven. In dit hoofdstuk wordt de Douane nader beschreven. In bijlage I.1 is achtergrondinformatie opgenomen over de Douane, haar taken en de verschillende afdelingen die een rol spelen bij de risicoafdekking. Deze beschrijving is aan te raden voor mensen die onbekend zijn met de Douane. Ook is in de bijlage, een subparagraaf opgenomen over goederencodes, een identificerende code waar veel mee gewerkt zal worden. In paragraaf 2.2 wordt het rechtshandhavingmodel van de Douane besproken. Dit is de basis van de risicobeheersing. Verder wordt in deze paragraaf een processchema gegeven dat de risicoanalyse weergeeft. Paragraaf 2.3 gaat dieper op een onderdeel van de Douane in, namelijk de aangifte voor in te voeren goederen en de daaraan gekoppelde risico-identificatie, Douane Sagitta Invoer. Van alle afdelingen die een rol spelen in dit proces wordt een beschrijving gegeven. Uiteindelijk zal duidelijk zijn welke rol iedere afdeling heeft in het risico-identificatieproces en hoe de profielen tot stand zijn gekomen. In paragraaf 2.4 volgt een beschrijving van de data waarmee gewerkt zal worden. Paragraaf 2.5 geeft de resultaten van de verschillende proofs of concept die het Douane Informatiecentrum heeft uitgevoerd. Hier is op verschillende datasets gedatamined met als doel het nut van data mining binnen de organisatie aan te tonen. Afsluitend volgt in paragraaf 2.6 een samenvatting/conclusie met de belangrijkste bevindingen van dit hoofdstuk. 2.2 Rechtshandhavingmodel Douane Binnen de Belastingdienst wordt risicobeheersing omschreven als “een systematische werkwijze gericht op het bestrijden van non-compliance 7 ”. Hiertoe is het noodzakelijk dat de kans op non-compliance in kaart gebracht wordt. Vervolgens moet worden nagegaan hoe dit kan worden ontdekt, en hoe er tegen kan worden opgetreden. Dit is een continu proces, want risico’s zijn niet statisch. Het rechtshandhavingmodel Douane (RMD) vormt de basis voor de risicogerichte aanpak. Deze bevat een aantal onderdelen, die samen de leercirkel vormen. Deze is weergegeven in figuur 2-1. 7 Hiermee wordt aangesloten bij de strategische doelstelling van de Belastingdienst; waarbij ernaar wordt gestreefd dat belastingplichtigen hun (wettelijke) verplichtingen vrijwillig nakomen. -5- Beschrijving van de Douane Risicovinding Evaluatie Risicoanalyse Afdekking Voorbereiding Detectie Figuur 2-1 Leercirkel van het RMD De leercirkel kent zes onderdelen. Ieder onderdeel wordt hieronder toegelicht. • Risicovinding: de risicovinding kent twee soorten herkomsten. Ten eerste, een “ontvangen signaal”, dit is een signaal dat men krijgt van bijvoorbeeld een douanemedewerker of de Europese Commissie. Ten tweede zijn er signalen uit eigen analyses. Waarbij het Douane Informatiecentrum (DIC), de Douane Informatieafdelingen (DIA) of de Risicokennisgroepen (RKG) 8 zelf onderzoek doen. • Risicoanalyse: risicoanalyse is een systematisch onderzoek aan de hand waarvan wordt beslist of een risico aangepakt moet worden. Dit onderzoek kent drie vragen die beantwoord worden; 1) Is er een theoretisch risico ja/nee? (kan er een risico zijn?); 2) Is er een potentieel risico ja/nee? (komt het risico voor? Zo ja, hoe vaak en wat is de impact?); 3) Is het een relevant risico ja/nee? (wordt het risico aangepakt? En zo ja hoe?) • Voorbereiding: Bij de voorbereiding wordt ervoor gezorgd dat het af te dekken risico ook daadwerkelijk afgedekt kan worden. Dit gaat op voor verschillende aspecten, denk aan de vereiste logistiek voor een controleactie en bijvoorbeeld scholing voor de controleurs. • Detectie: Detectie is het vaststellen of het relevante risico zich ook voordoet. • Afdekking: Afdekking omvat de maatregelen, die worden genomen om bevonden risico’s te bestrijden. Bijvoorbeeld het intrekken van de vergunning van een importeur. • Evaluatie: Bij de evaluatie wordt onderzocht of de gekozen aanpak juist is en of deze aanpassing behoeft. De onderdelen van de leercirkel gerelateerd aan het tot stand komen van de profielen kunnen worden weergegeven in een processchema. Het processchema is in DFD notatie 9 [Yourdon, 1999] weergegeven in figuur 2-2. Hierbij is per proces aangegeven welke afdeling(en) hiervoor verantwoordelijk zijn. De cijfers tussen haakjes staan voor: 1. Risicodatabase 2. Risicokennisgroep 3. Profielbeheer 4. Douane Informatieafdeling 5. Douane Informatieafdeling, Pro Actief. 8 Zie voor een uitgebreide beschrijving van DIC, DIA en RKG bijlage I.1 In DFD’s is normaal gesproken geen te volgen volgorde. In dit schema is dat wel het geval. Vanaf de aanleveraar van het risicosignaal kunnen de pijlen gevolgd worden die per risico de te volgen stappen weergeven. Er is voor DFD notatie gekozen, in plaats van een standaardstroomschema, omdat bij een DFD de processen (functies [Yourdon, 1999]) centraal staan en niet de datastromen. De processen zijn op deze manier eenvoudig te koppelen aan de afdelingen bij de Douane. 9 -6- Beschrijving van de Douane Aanleveraar risicosignaal Beoordeling signaal (1) Ontvangen signaal Potentieel risico Ontwikkelen (SPOED) (1,3) Geen risico Risicodatabase Evalueren risicoafdekking (4) Later/niet ontwikkelen Aan te passen risico Beoordeling risico (1,2) Implementeren (SPOED) (3) Ontwikkel risico (2,5) DSI profielbeheer Risico onderzoeken (2,5) Impact testen (4) Relevant risico Implementeren risico (3) Te evalueren risico’s Figuur 2-2 Processchema risicoanalyse In de volgende paragraaf worden aan de hand van dit schema de taken van de verschillende douaneonderdelen beschreven. -7- Beschrijving van de Douane Veiligheid, gezondheid, economie en milieu Nauw gerelateerd aan het RMD is de controle op de naleving van wetgeving op het gebied van veiligheid, gezondheid, economie en milieu, afgekort als VGEM. Deze wetgeving schrijft voor dat invoer, uitvoer of vervoer van bepaalde goederen in Nederland en/of de Europese Unie verboden is, of alleen is toestaan als wordt voldaan aan (strenge) voorwaarden, of als de goederen aan bepaalde eisen voldoen. De wetgeving op deze gebieden kan voortkomen uit andere ministeries. Vanwege de specifieke kennis en ervaring bij de Douane zijn zij aangewezen als handhavers van de VGEM wet- en regelgeving 10 . [BLD02] 2.3 Douane Sagitta Invoer 2.3.1 Inleiding Goederen die vanuit een niet-Europese Unie (EU) land (niet-communautair) de EU (communautair) binnenkomen zijn aan een aantal regels gebonden. Een hoofdregel is dat de goederen een Douanebestemming moeten krijgen. Dit kan ondermeer gedaan worden door ze onder een Douaneregeling te plaatsen. Er worden vijf Douaneregelingen onderscheiden. Deze zijn: in het vrije verkeer brengen, actieve- en passieve veredeling, tijdelijke invoer en behandeling onder douane toezicht [BLD03]. Een beschrijving van de regelingen valt buiten de scope van dit onderzoek, het komt erop neer dat bij iedere regeling een aangifte gedaan moet worden. Deze aangifte wordt vervolgens door de Douane op juistheid gecontroleerd. Jaarlijks worden er miljoenen invoeraangiften ingediend. Het is onbegonnen werk om deze stuk voor stuk op juistheid te controleren. Daarom is Douane Sagitta Invoer (DSI) ontwikkeld. Dit is een informatiesysteem dat een risicoselectie doet aan de hand van ingediende aangiften. Het centrale punt in DSI zijn de zogenaamde risicoprofielen. Een risicoprofiel is een regel die een bepaald risico vertegenwoordigt. Ze hebben de vorm van IF-THEN regels. Een dergelijke regel zou kunnen zijn: IF landVanHerkomst = “Colombia” AND goederenBeschrijving = “wit poeder” THEN risico = hoog Risicoprofielen vallen allemaal onder een Controle Opdracht. De Controle Opdracht omvat het risico, de profielen zijn de effectuering van de Controle Opdracht. Één Controle Opdracht kan meerdere profielen bevatten. Alle risicoprofielen worden verzameld in één systeem. Dit systeem is een module binnen DSI en bevat een verzameling van alle risicoprofielen. Deze module kan gezien worden als een expertsysteem 11 . Iedere aangifte wordt door dat systeem geleid. Wanneer er een aangifte is die dezelfde karakteristieken heeft als één of meerdere van de profielen dan geeft het systeem een output. De betreffende aangifte is dan “geraakt” door het profiel. De output is een kleur die de mate van verdachtheid weergeeft. Voordat er een profiel wordt geschreven, moet er eerst een risico geconstateerd worden. Het proces waarbij een risico tot een profiel leidt wordt hieronder beschreven. Achtereenvolgens komen de risicodatabase (2.3.2), de risicokennisgroepen (2.3.3), de Douane informatieafdelingen (2.3.4), profielbeheer (2.3.5), de selecteurs (2.3.6), de regiekamer + controle (2.3.7) aan bod. Van iedere afdeling wordt besproken wat de rol is bij het tot stand komen van een risicoprofiel. Het gehele proces is weergegeven in figuur 2-2. 10 Een uitgebreid overzicht van de VGEM taken van de Douane en de ministeries verantwoordelijk voor de wetgeving is te vinden op http://www.douane.nl/zakelijk/vgem/vgem-03.html. 11 Een expertsysteem is een tool om de kwaliteit en beschikbaarheid van benodigde kennis voor besluitnemers te vergroten. Ze breiden conventionele programma’s zoals databases, tekstverwerking en spreadsheet analyses uit [Boss, 2000]. -8- Beschrijving van de Douane 2.3.2 Risicodatabase Alle signalen in de risicodatabase worden beoordeeld met als doel de kwaliteit hoog te houden. Waar nodig wordt om extra informatie gevraagd. Bijvoorbeeld: een ingevoerd risico zou kunnen zijn dat er verdachte activiteiten zijn geconstateerd bij loods x. Om het risico concreter te maken is er meer informatie nodig, zoals de tijd en de precieze omschrijving van de “verdachte activiteit”. De risico’s worden gebundeld en ingedeeld in de groepen die verantwoordelijk zijn voor de behandeling van de risico’s. Vervolgens is het aan de verantwoordelijke om het risico op te pakken en actie te ondernemen. Waarbij het Centraal Punt de doorlooptijd van het risico bewaakt. Eerst wordt bepaald of er direct, later of niet ontwikkeld wordt. Hierna volgt de verdere analyse, die in de volgende paragraven wordt toegelicht. Wanneer er spoed is, bijvoorbeeld wanneer er goederen al onderweg zijn, wordt er door het Centraal Punt (bijvoorbeeld) in samenwerking met Profielbeheer een profiel opgesteld. Dit wordt dan direct geactiveerd om de goederen te kunnen onderscheppen. 2.3.3 Risicokennisgroepen Een risicokennisgroep (RKG) heeft inzicht in de risicodatabase. Zij bepalen welke risicosignalen, die aan hen zijn toegewezen, het eerst worden behandeld. Dit gebeurt op basis van de expertise die deze mensen hebben. Zij verrichten een onderzoek op basis van de signalen die uit de risicodatabase komen. Hierna wordt bepaald of er actie ondernomen moet worden om het risico af te dekken. Wanneer dat het geval is, kan de risicokennisgroep vier mogelijke acties ondernemen. Ten eerste; een profiel op laten stellen voor SBB, DSI, DSU of Koerier. Hiervoor is een standaardformulier aanwezig dat ingevuld wordt. Dit wordt doorgestuurd naar de DIA die het daadwerkelijke profiel controleert en zo nodig schrijft. Ten tweede kan er een opdracht voor Controle na Invoer (CNI) worden gegeven. Dit houdt in dat er achteraf een controle plaatsvindt. De betreffende aangifte wordt dan gecontroleerd op volledigheid en juistheid. Ten derde zijn er de administratieve controles. Deze zijn uitgebreider dan de CNI’s. Hierbij wordt afhankelijk van de situatie de gehele administratie van een bedrijf of de goederenstroom aan een nader onderzoek onderworpen. Daarnaast kan het hier gaan om controles op basis van accijnswetgeving. Bijvoorbeeld het controleren op juistheid van de teruggaaf verzoek accijns op minerale olie. De vierde mogelijkheid is een gerichte actie, dit is meestal een actie voor fysiek toezicht. Vaak zijn deze gericht op een enkel persoon of een goed. Bijvoorbeeld controle op illegale sigaretten. Een ander voorbeeld is een controle op een persoon die vermoedelijk op rode gasolie rijdt. 2.3.4 Douane Informatieafdelingen Zodra de risicokennisgroep een risico heeft geïdentificeerd dat moet worden afgedekt sturen zij hiervoor een opdracht naar de Douane Informatieafdeling (DIA). Wanneer er een profiel moet worden opgesteld, wordt dit door de DIA gedaan. Aan de hand van de opzet van de RKG concretiseren zij het profiel en de overige parameters. Bij de overige parameters moet men denken aan de ingangs- en vervaldatum, de controlediepgang en het selectiepercentage. De ingangs- en vervaldatum geven de looptijd van een profiel aan. Dit kan een aantal maanden zijn maar ook tot in het oneindige. De controlediepgang is de wijze van controle. Hierbij worden oranje en rood onderscheiden. Oranje is een controle aan de hand van bescheiden. Een rode controlediepgang houdt een fysieke controle in. Het selectiepercentage is de kans dat de zending die een profiel geraakt heeft nader wordt onderzocht. Voordat een profiel wordt doorgestuurd naar profielbeheer laat men het langs oude aangiften lopen. Aan de hand van het aantal hits, de impact, wordt het selectiepercentage bepaald. Dit is mede afhankelijk van het aantal te behandelen -9- Beschrijving van de Douane aangiften (i.e. het aantal selecteurs/controleurs, zie 2.3.6 en 2.3.7) en de belangrijkheid van het risico. Naast de opdrachten van de RKG’s heeft iedere DIA ook enkele hoofdstukken van de Gecombineerde Nomenclatuur toegewezen gekregen. Zij doen voor de goederen binnen deze hoofdstukken hetzelfde als de risicokennisgroepen. Dit valt onder de zogenaamde “Pro Actief” groep van de DIA’s. Wanneer een risico is geïdentificeerd wordt verdere actie ondernomen. Ieder profiel wordt, voordat het wordt doorgestuurd naar profielbeheer, vergeleken met bestaande profielen. Dit om overlap en doublures te voorkomen. Evaluatie Evaluatie van de Douane Sagitta Invoer profielen wordt gedaan door de DIA’s. Zoals hierboven is toegelicht heeft ieder profiel een bepaalde looptijd. Aan het eind van de looptijd wordt het profiel geëvalueerd. Het aantal keer dat geraakt is, de acties van de selecteurs en het resultaat van de actie worden dan bekeken. Aan de hand daarvan wordt bepaald of er een aanpassing van het profiel nodig is of dat het profiel verwijderd kan worden. Mocht dit niet direct vast te stellen zijn dan volgt er nader onderzoek. Het risicoprofiel wordt overgedragen aan de risico-eigenaar. Na zijn onderzoek geeft hij advies over de door te voeren veranderingen. Bij langlopende profielen wordt er ook tussentijds gecontroleerd. 2.3.5 Profielbeheer Profielbeheer heeft als taak de profielen in Douane Sagitta Invoer in te voeren. Het werkelijke profiel wordt ingevoerd alsmede enkele andere gegevens waaronder de beredenering voor het profiel. Inmiddels zijn er sinds het begin in 1985 ongeveer 9.000 profielen ingevoerd. Een fractie hiervan is nog in gebruik. Immers, mocht een profiel overbodig worden dan wordt deze uit het systeem verwijderd. Het kan voorkomen dat een geïdentificeerd risico direct moet worden ingevoerd in het systeem. Dit is het geval wanneer er spoed is vanuit de risicodatabase. In een dergelijk geval wordt het risico door profielbeheer omgezet in een profiel en direct in het systeem gezet. 2.3.6 Selectie Alle aangiften die geraakt zijn komen in een applicatie te staan. De selecteurs bekijken van iedere aangifte of deze terecht is aangewezen als risicovol. Het kan voorkomen dat een aangifte wel door een profiel geraakt wordt, maar dat het profiel niet van toepassing is op die aangifte. Een aanwijzing hiervoor kan de beredenering voor het risico zijn, die bij het geraakte profiel vermeld staat. Een profiel kan te ruim opgesteld zijn bijvoorbeeld. In principe wordt iedere aangifte die een rood risico meekrijgt ook daadwerkelijk fysiek gecontroleerd. Wanneer mogelijk wordt een controle achteraf uitgevoerd. Mocht een aangifte aangewezen worden voor controle en de selecteur bepaald dat dit onterecht is dan wordt deze aangemerkt als “groen” en alsnog administratief afgedaan. 2.3.7 Regiekamer + Controle Voor de volledigheid worden de regiekamer en controleurs genoemd. Zij spelen indirect een rol in het geheel. Een uitgebreide beschrijving valt buiten de scope van deze scriptie. De regiekamer stuurt de verschillende controlediensten aan. Nadat een selecteur heeft bepaald dat er daadwerkelijk een controle nodig is, wordt de regiekamer ingeschakeld. Deze verdeelt de controleopdrachten op een zo efficiënt mogelijke wijze. Een controleur controleert of een aangifte daadwerkelijk conform of niet-conform is. Dit kan zijn door een fysieke controle (FyCo). Hierbij wordt bekeken of het op de - 10 - Beschrijving van de Douane aangifte opgegeven goed daadwerkelijk in de container zit. Een andere mogelijkheid is een administratieve controle. Hier wordt achteraf de administratie van bijvoorbeeld de importeur gecontroleerd op fouten. De resultaten van de controles worden teruggekoppeld en de aangiften worden aangepast. 2.4 Beschikbare data 2.4.1 Beschrijving aanwezige data De data waarmee in dit onderzoek gewerkt wordt komt uit Douane Sagitta Invoer. Hiervan zijn beschikbaar de data van de jaren 2002, 2003, 2004 en de eerste helft van 2005. In totaal zijn dit ruim tien miljoen records, zie tabel 2-1. Dataset Records SIAVJ_2002 2.671.185 SIAVJ_2003 2.986.025 SIAVJ_2004 3.078.416 SIAVJ_2005 2.064.110 SI_1XPL_2004 12 (Ongecorrigeerd) 3.079.107 Tabel 2-1 Aanwezige datasets De uitgebreide varianten van de datasets uit tabel 2-1 bevatten 215 variabelen. Het merendeel hiervan is optioneel en wordt zelden ingevuld. Daarom wordt hier gewerkt met een beperkte dataset. In iedere tabel staan de gegevens van 64 relevante variabelen. Deze worden in bijlage I.2 beschreven. Alle waarden met “SI” aan het begin zijn gegevens die direct uit de aangiften komen. De waarden met een “c” aan het begin zijn “computed”. Ze zijn verkregen door een koppeling met een andere tabel of door een bewerking van een “SI”-cel. Niet alle kolommen worden gebruikt als input voor data mining. Dit heeft verschillende redenen. Ten eerste zou het hele proces onnodig ingewikkeld gemaakt worden door het hoge aantal variabelen. Ten tweede is er vaak een hoge correlatie tussen twee of meer variabelen. Zoals bijvoorbeeld het geval is bij de postcode en de plaats van de importeur. Ook komen er kolommen voor die optioneel zijn en grotendeels niet gevuld zijn, en daardoor onbruikbaar. Dit geldt ook voor kolommen die louter niet gestandaardiseerde tekst bevatten. En als laatste zijn er kolommen waarvan het zeer onwaarschijnlijk is dat deze een oorzakelijk verband hebben met het wel of niet conform zijn van een aangifte, denk hierbij bijvoorbeeld aan een datum 13 . In tabel 2-2 is te zien welke variabelen gebruikt worden voor de analyse. In de kolom bijlage staat een eventuele verwijzing naar de bijlage als toelichting op de voorkomende waarden/symbolen. Veldnaam Toelichting Bijlage SI_Apunt Aamgiftepunt - SI_Agevnr Aangever - SI_Aproc Aangifteprocedure I.3a SI_Asymbl Aangiftesymbool I.3b SI_Geadr Geadresseerde / Importeur (BTWnummer) - SI_LandVz Land van Verzending I.3c SI_LandBes Land van Bestemming I.3c SI_LevCond Leveringscondities I.3d 12 Deze tabel is tot mijn beschikking gekomen door de alertheid van HK. Hij herinnerde zich dat deze data ook is gebruikt in de proof of concept fase. Er is wel een verzoek gedaan nnaar de ongecorrigeerde datasets voor de jaren 2005 en 2006. Na vier(!) maanden is hier nog geen reactie op ontvangen. 13 Een datum an sich zal geen oorzakelijke factor zijn voor het wel of niet conform zijn van een aangifte. Wanneer er een periode van bijvoorbeeld een maand genomen wordt kan dit wel een indicatie zijn. Zo kan er een veel voorkomende fout zijn ontdekt die is afgedekt. Aangevers zullen deze fout niet meer maken vanwege de hoge pakkans. De desbetreffende aangiften zouden dan uitgesloten kunnen worden voor controle. - 11 - Beschrijving van de Douane SI_GdnCode Goederencode - SI_LvO Land van Oorsprong I.3c SI_GevrReg Gevraagde regeling I.3d SI_VrgReg Voorafgaande regeling I.3e SI_VrijReg Vrijstellings regeling I.3f SI_Bruto Bruto gewicht - SI_Netto Netto gewicht - SI_PrfCont Preferentie - Controleuitslag - SI_CtrUits Tabel 2-2 Gebruikte analysevariabelen Naast deze variabelen zijn er nog een aantal die benodigd zijn voor een goede preparatie van de data. Dit zijn het jaar, artikelnummer, aangiftenummer en controlesoort. 2.4.2 Herkomst data Alle aangiften worden opgeslagen op het centrale mainframe van de belastingdienst in Apeldoorn. Iedere statusverandering, zie 4.2.2, van een aangifte leidt tot een nieuwe versie van de gehele aangifte. Zo is het hele proces dat de aangifte doorloopt, in theorie, digitaal terug te vinden. Ieder verzoek om gegevens uit het mainframe gaat via B/CA SOB 14 Apeldoorn. De hieruit voortkomende datadump wordt verwerkt door de beheergroep douanegegevens. Deze beheergroep zet de gegevens om in een dusdanig formaat dat deze geschikt is voor verdere analyse, bijvoorbeeld data mining. Dit proces wordt het ontsluiten van data genoemd. Zoals is aangegeven zijn veel variabelen niet geschikt om als input te fungeren voor data mining. Een groot nadeel met betrekking tot de gegevenskwaliteit komt voort uit de oorspronkelijke opzet van het gehele systeem. Dit is namelijk opgezet als registratiesysteem. Er is indertijd geen rekening mee gehouden dat de opgeslagen gegevens ook voor andere doeleinden gebruikt zouden kunnen worden. Hierdoor zitten er een aantal onvolkomenheden in het registratieproces, waardoor de beschikbare data niet optimaal is voor data mining. Hieronder wordt opgesomd waar de knelpunten zitten. • Ongestandaardiseerde registratie bevindingen: er wordt onvoldoende gecontroleerd op correcte invoer van de bevindingen van de controleur. Hij/zij kan naar eigen inzicht een toelichting geven op de bevindingen. • Onjuiste toewijzing profielen: een aangifte die geraakt wordt door tenminste één profiel wordt ook geraakt door een wit profiel. De bedoeling hiervan is dat wanneer er een controle plaatsvindt en een bevonden fout heeft geen relatie met het profiel, deze wordt toegeschreven aan het witte profiel. Hierdoor is het a), mogelijk om nieuwe risico’s te ontdekken en b), een juiste weergave te krijgen van de effectiviteit van een profiel. Helaas is deze registratie niet altijd correct. • Onduidelijkheid over statussen: voordat een aangifte als afgedaan wordt beschouwd doorloopt deze een aantal statussen. Het is onduidelijk wat er veranderd wordt/mag worden bij verandering van status. Voor data mining zijn de originele en de eindaangifte het belangrijkst. Het kan echter zo zijn dat er essentiële informatie in een tussenstatus is opgenomen die ondertussen verwijderd is. Zelfs als een aangifte is afgedaan kan er nog een verandering plaatsvinden wanneer de aangever in beroep gaat tegen een opgelegde boete. Hierdoor kan het lang duren voordat een aangifte definitief is afgedaan. • Verschillende registratiesystemen: er zijn veel verschillende systemen waarin geregistreerd wordt. Een deel van deze systemen is op ad hoc basis gebouwd. Mede hierdoor is een onderlinge koppeling vaak lastig of helemaal niet mogelijk waardoor belangrijke informatie verloren gaat. Bovenstaande kan worden samengevat met de constatering dat er onvoldoende standaardisatie in het registratieproces is. En mocht deze er wel zijn dat wordt deze 14 B/CA SOB staat voor Belastingdienst/Centrale Administratie Sector Ondersteuning Bedrijfsvoering - 12 - Beschrijving van de Douane onvoldoende nageleefd danwel gecontroleerd. Mede gezien de beperkte massa, zie 4.2.3, is het essentieel dat de aanwezige data betrouwbaar en compleet is. En dit is niet alleen een vereiste voor data mining, ook management informatie wordt ontleend aan de registratiegegevens. Waardoor ook hier fouten in voor kunnen -en zullen- komen. Ook ontsluiting van de data gaat lastig. Zo blijkt het moeilijk om aangiften met een bepaalde status, anders dan de eindstatus, boven water te krijgen. Of dit door komt door onwil, onkunde of onmogelijkheid is niet geheel duidelijk. De Douane is zich hiervan bewust en tracht door middel van het opzetten van een gestructureerde data omgeving door middel van een data warehouse, in ieder geval een deel van, bovenstaande problemen op te lossen. Hiervoor zijn enkele opzetten gemaakt. Aan de hand hiervan zijn aan een aantal bedrijven offertes gevraagd. Dit is echter een lange termijn project/traject. Momenteel is de beschikbaarheid en kwaliteit van de data nog verre van optimaal. Bovenstaande bevindingen zijn summier beschreven en niet geheel compleet. Een uitgebreide analyse valt buiten de scope van deze scriptie en zou op zich al een onderzoek waard zijn. 2.4.3 Gecorrigeerde data Wanneer een aangifte niet conform wordt bevonden bij en controle, wordt deze aangepast door de controleur. In de gebruikte dataset staan daarom aangiften die niet conform zijn met de gecorrigeerde, dus nu correcte, waarden. Dit wordt ter verduidelijking aangegeven in figuur 2-3. Figuur 2-3 Correctie van de aangiften na controle In dit hypothetische geval is te zien dat een aangifte die voor controle is aangemerkt een goederencode van 45 heeft. De controleur kijkt deze aangifte na en komt tot de ontdekking dat de werkelijke goederencode 55 moet zijn. Deze wordt vervolgens aangepast. Het gevolg hiervan is dat met deze gegevens niet goed gedatamined kan worden. Omdat je dan aangiften die als niet conform bekend staan gaat classificeren op basis van correcte waarden. De oplossing hiervoor is de originele aangifte te vergelijken met de gecontroleerde, gecorrigeerde aangifte. Originele aangiften hebben een “SI_STATUS” van 20, waar gecontroleerde aangiften een hogere status hebben. Door een uniek veld aan te maken in beide tabellen kunnen ze gekoppeld worden. Zo wordt de goede (maar werkelijk foute) data verkregen voor de analyse. De ongecorrigeerde set is alleen beschikbaar voor het jaar 2004. Met als gevolg dat de analyses alleen op dat jaar worden uitgevoerd. - 13 - Beschrijving van de Douane 2.5 Data mining bij de Douane 2.5.1 Inleiding Doordat steeds meer aangiften digitaal verwerkt worden, wordt een groot deel administratief afgewerkt. Dat wil zeggen dat een deel van de aangiften waarschijnlijk correct is en geen verdere inspectie ondergaat. Dit impliceert echter dat er wel een kans bestaat dat de aangifte niet correct is. Om inzicht te krijgen in de mogelijke risico’s die hierdoor niet worden opgemerkt heeft de Douane opdracht gegeven tot het onderzoeken van de mogelijkheden van data mining. Met behulp van data mining kunnen mogelijk die risico’s wel geïdentificeerd worden. Hiertoe zijn drie proofs of concept (PoC) uitgevoerd. Iedere PoC heeft zich op een andere dataset gericht, te weten Douane Sagitta Invoer (DSI), Douane Sagitta Uitvoer (DSU) en KOERIER. Van DSI en DSU worden in de volgende paragrafen de uitkomsten beschreven. Zoals in de vorige paragraaf is beschreven is de data gecorrigeerd na controle. Men moet dus zeer voorzichtig zijn met het trekken van conclusies uit de afgeleidde modellen. 2.5.2 Proof of concept Douane Sagitta Invoer In de case beschrijving van DSI valt te lezen dat er mogelijkheden zijn om classificatie modellen te ontwikkelen. Er zijn een aantal onderzoeksvragen opgesteld die men heeft proberen te beantwoorden. Voorwaarde hiervoor is dat inzicht moet worden verkregen in de mate van correcties in de data. De aanbevelingen richten zich hier ook op: de structuur en de kwaliteit van de data moet dusdanig zijn dat er werkelijk modellen mee ontwikkeld kunnen worden. De belangrijkste concrete resultaten beperken zich vooralsnog tot analyse van afzonderlijke variabelen. Bijvoorbeeld of er correct gebruik wordt gemaakt van de sluitposten 15 . 2.5.3 Proof of concept Douane Sagitta Uitvoer In de eindrapportage van de data mining PoC valt te lezen dat de uitgevoerde analyses tot de identificatie van nieuwe risico’s heeft geleid. Veel van deze risico’s zijn gevonden middels de analyse van de variabelen afzonderlijk. Zo is bijvoorbeeld ontdekt dat er honderden aangiften zijn ingediend met een opgegeven douanewaarde van meer dan tien miljard euro. De verklaring wordt gegeven door valutawisselingen en onterecht in het systeem aanwezige testregels. Ook kan het bewust worden ingevuld door de aangever. Dit kan ertoe leiden dat de uitvoerende partij uiteindelijk te weinig omzetbelasting betaalt. Om dit risico af te dekken, is een profiel opgesteld dat aangiften die een bepaalde drempeldouanewaarde overschrijden, selecteert voor controle. Andere bevindingen waren dat er niet altijd voldoende controles waren om bepaalde variabelen te kunnen onderzoeken. Ook wordt aangegeven dat, vanwege gebrek aan kennis over bepaalde variabelen, samenwerking met experts noodzakelijk is om tot goede resultaten te komen. Verder is naar voren gekomen dat er veel onjuiste waarden in voorkomen, zoals in bovenstaand geval met betrekking tot de douanewaarden. 15 Sluitposten zijn goederencodes waarin overige (andere) goederen worden ingedeeld. Zoals goederencode 01019019 in bijlage I.1.6 - 14 - Beschrijving van de Douane 2.5.4 Huidige data mining activiteiten Na de PoC fase is er een data mining groep opgezet binnen het DIC. Zij staan open voor informatieverzoeken vanuit de organisatie die door middel van het gebruik van data mining technieken beantwoord zouden kunnen worden. Ook doen zij zelf enkele projecten. Zoals controle op Thaise rijst. Waarbij een clustermodel is gemaakt op basis van de verhouding tussen verpakking en gewicht. Met als doel deklading 16 te kunnen ontdekken. Ook lopen er projecten op het gebied van antidumpingheffing, afvalstoffen en China. 2.6 Conclusie Douane Sagitta Invoer is het systeem dat alle invoeraangiften verzamelt en selecteert voor controle. Controle vindt plaats op basis van opgestelde profielen. Profielen hebben de vorm van IF-THEN regels. De profielen worden opgesteld naar aanleiding van een onderkent risico. Alle risico’s worden samengebracht en gebundeld in de risicodatabase. Een risicokennisgroep pakt de gebundelde risico’s op en analyseert ze. Mocht er reden zijn tot het afdekken van het risico middels een profiel dan maken zij een conceptprofiel. Het concept wordt naar de DIA gestuurd, die het profiel concretiseert. Vervolgens wordt het profiel ingevoerd door profielbeheer. Evaluatie van de profielen wordt op periodieke wijze door de DIA gedaan. Hiermee is een antwoord gegeven op subvraag één van het praktische deel (B.1); hoe domeinkennis binnen de Douane wordt gebruikt. De data waarmee de analyses worden verricht komen uit het jaar 2004. De andere jaren zijn niet bruikbaar omdat hier de ongecorrigeerde aangiften niet van beschikbaar zijn. Het betreft alleen invoeraangiften, aangiften waarover heffing en inning plaatsvindt. Vanwege het feit dat het systeem oorspronkelijk is opgezet als registratiesysteem laat de kwaliteit van de data te wensen over. Middels verschillende proofs of concept in 2005 is het nut van data mining voor de Douane aangetoond. Momenteel worden er verschillende analyses op projectbasis uitgevoerd. 16 Deklading is een manier om smokkel te verbergen. Het deel van de lading dat te zien is bij het openen van de container, de deklading, is alleen om de rest van de lading (smokkelwaar) te verbergen. - 15 - Data mining en domeinkennis Hoofdstuk 3 Data mining en domeinkennis 3.1 Inleiding Dit hoofdstuk bespreekt de theorie met betrekking tot data mining en domeinkennis. De eerste paragraaf is een inleiding op data mining. Hier wordt besproken wat data mining is en welke stages er doorlopen moeten worden om uiteindelijk een model te construeren. Verder wordt toegelicht wat classificatie is en op welke gebieden het toepasbaar is. Paragraaf 3 bespreekt de data mining technieken beslisbomen, logistische regressie en neurale netwerken. Deze paragraaf wordt afgesloten met een bespreking van het probleem van overfitting. Paragraaf 4 bevat de theorie met betrekking tot domeinkennis. Waarna in paragraaf 5 een overzicht wordt gegeven van enkele onderzoekers die data mining en domeinkennis hebben gecombineerd. Het hoofdstuk wordt afgesloten met een conclusie. 3.2 Data mining 3.2.1 Inleiding Data mining kan worden omschreven als “de analyse van geobserveerde data sets met als doel het vinden van onverwachte relaties en het presenteren van de data in een manier die zowel begrijpbaar als nuttig is voor de eigenaar van de data” [Hand et al, 2001]. Vaak wordt data mining in de bredere context van Knowledge Discovery in Databases (KDD) gezien. Het KDD proces bevat verschillende stages: data selectie, voorbereiden van de data, transformatie van de data, data mining technieken toepassen en vervolgens de uitkomsten interpreteren [Hand et al, 2001; Feelders, 2000]. De eerste drie stappen vallen niet direct onder data mining maar zijn wel essentieel om tot goede resultaten te komen. Twee soorten modellen worden onderscheidden; beschrijvende en voorspellende [Han en Kamber, 2001; CIBIT, 2001]. Beschrijvende modellen zijn in de eerste plaats samengesteld ten behoeve van het verkrijgen van inzicht in het probleemgebied. Waarbij dit inzicht wordt verkregen door het toekennen van een bepaalde klasse aan een groep, i.e. classificatie. Voorspellende modellen daarentegen voorspellen de concrete waarde van een bepaalde variabele. Een voorbeeld van een beschrijvend (=classificatie) model is een applicatie die een uit een groep containers, aan de hand van de karakteristieken, die containers selecteert die mogelijk verdacht zijn en controle behoeven. Er kunnen verschillende soorten patronen worden ontdekt met data mining technieken. Zoals concept/klasse beschrijving, waarbij men data indeelt in klassen; associatie analyse, het ontdekken van associatie regels die laten zien dat bepaalde attributen en waarden vaak samengaan in een bepaalde dataset; cluster analyse, waarbij men onbekende klasse labels laat genereren; outlier analyse, waarbij men zich focust op de outliers (waarden die zich niet rijmen bij de overige waarden); en evolution analysis, waarbij men regelmatigheden of trends beschrijft en modelleert voor objecten die veranderen in de loop van de tijd [Han en Kamber, 2001]. Voor dit onderzoek is het indelen in klassen, beter bekend als classificatieanalyse, het meest geschikt. Alle in dit hoofdstuk besproken technieken worden toegelicht op basis van dit uitgangspunt. - 16 - Data mining en domeinkennis 3.2.2 Classificatie Classificatie is het proces waarbij men modellen (of functies) zoekt die data klassen beschrijven en onderscheiden, met als doel om de klasse te voorspellen van objecten waarvan de klasse onbekend is [Han en Kramer, 2001]. Dit wordt gedaan op basis van beschikbare trainingsvariabelen. Het model kan in verschillende vormen worden gepresenteerd, bijvoorbeeld classificatieregels (IF-THEN), beslissingsbomen, een formule of een neuraal netwerk. Waarbij de laatste drie direct voortkomen uit data mining technieken, en de eerste zowel voort kan komen uit een data mining techniek als kan worden afgeleid op basis van een gevonden model. De gebruikte technieken worden in de volgende paragrafen nader beschreven. Er zijn vele voorbeelden te vinden waar classificatiemodellen gebruikt worden. Bijvoorbeeld bij het classificeren van email in spam en niet-spam [Martin et al, 2004; Graham, 2002]. Ook bij het bepalen of iemand recht heeft op een lening of niet kunnen classificatiemodellen gebruikt worden. 3.2.3 Data preparatie Voordat men data mining technieken kan toepassen op de data is vaak nog een preparatie van de data nodig. De data is vaak niet van de beste kwaliteit, er kunnen bijvoorbeeld missende velden of foute waarden in voorkomen. Preparatie is onder te verdelen in data cleaning, data integratie en transformatie en data reductie [Han and Kamber, 2001]. Een uitgebreidere beschrijving van de drie manieren van data preparatie staat in bijlage II.1. Het prepareren van de data kost vaak de meeste tijd [Feelders et al, 2000]. Het is belangrijk data goed te prepareren. Want een computer weet niet of de input die verwerkt moet worden correct is. Zonder enige twijfel wordt de gegeven input verwerkt in output. Wanneer de input niet correct is zal de output dit hoogstwaarschijnlijk ook niet zijn. Dit wordt samengevat in het aforisme GIGO; Garbage In , Garbage Out [Hinde, 2004]. 3.3 Data mining technieken 3.3.1 Beslisbomen Een beslissingsboom bestaat uit een “root node”, met daaronder verschillende vertakkingen, de “nodes” (bladen), zie figuur 3-1. Met een beslissingsboom kunnen doelvariabelen met een discrete waarde geschat worden. De kennis die uit een beslissingsboom kan worden afgeleid wordt weergegeven door de beslissingsboom zelf [Mitchell, 1997]. Het doel van een beslissingsboom is om uiteindelijk een boom te verkrijgen met “nodes” (bladen) die “puur” zijn, wat betekent dat ze alleen gevallen bevatten die in dezelfde klasse vallen [Feelders, 2006]. Om dit te kunnen kwantificeren wordt gekeken naar de “impurity” van een node. Er zijn verschillende manieren om de impurity aan te geven. De meest simpele is de “resubstitution error”. De volgende formule geeft deze error weer R ( S ) = min( p1 , p 2 ) Waarbij R de resubstitution error is van een collectie S bevattende positieve (p1) en negatieve (p2) waarden van de doelvariabele [Berry en Linoff, 2000]. De resubstitution error meet welke fractie van de gevallen in een blad incorrect wordt geclassificeerd als ieder geval tot het blad met de grootste klasse wordt gerekend. Een nadeel van deze - 17 - Data mining en domeinkennis methode is dat het geen onderscheidt maakt tussen de het aantal pure bladen van een beslissingsboom. Zie bijvoorbeeld figuur 3-1. Figuur 3-1 Twee verschillende beslisbomen, gebaseerd op Feelders [2006] Wanneer hier gebruik wordt gemaakt van de resubstitution error, zijn beide bomen gelijk. In werkelijkheid wordt beslissingsboom 2 geprefereerd omdat deze een puur blad bevat. De Gini-coëfficiënt kent dit nadeel niet. Deze coëfficiënt is een methode om de mate van ongelijkheid van ontwikkelingen en verschijnselen te berekenen [Gini, 1912]. Het is een waarde tussen 0 en 1, waarbij 0 correspondeert met perfecte gelijkheid en een 1 met perfecte ongelijkheid. Gegeven een collectie S, bevattend positieve en negatieve waarden van de doelvariabele, de Gini-index van S in relatie tot de binaire classificatie is: Gini ( S ) = 1 − ( p12 + p 22 ) Waarbij p1 de proportie positieve waarden in S, en p2 de proportie negatieve waarden in S is. [Feelders, 2006] Een derde, vaak gebruikte, meetstaf om impurity te bepalen is de entropie. Gegeven een collectie S, bevattend positieve en negatieve waarden van de doelvariabele, de entropie van S in relatie tot de binaire classificatie is: Entropy ( S ) ≡ − p1 log 2 p1 − p 2 log 2 p 2 Waarbij p1 de proportie positieve waarden in S, en p2 de proportie negatieve waarden in S is. Met de entropie kan de Information Gain (IG) bepaald worden. Dit is de verwachte afname in entropie veroorzaakt door de opsplitsing in de attribuut. De IG, Gain(S,A) van een attribuut A in relatie tot een collectie S, wordt bepaald als Gain( S , A) ≡ Entropy( S ) − ∑ v∈Values ( A ) Sv S Entropy( s v ) Waar Values(A) de set van alle mogelijke waarden voor attribuut A zijn, en Sv de subset van S waar attribuut A de waarde v heeft (i.e., S v = {s ∈ S | A( s ) = v}) [Mitchell, 1997]. In figuur 3-2 zijn de resubstitution error, Gini-index en entropie grafisch weergegeven. Waarbij de entropie geschaald is om een maximum van 0,5 te hebben. Hierin is goed het verschil te zien tussen de drie impurity meetstaven. - 18 - Data mining en domeinkennis 0,5 0,4 0,3 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 p1 Gini-index Entropie Resubstitution error Figuur 3-2 Impurity meetstaven Wanneer men van het maximum in p1 naar links of rechts gaat is de richtingscoëfficiënt overal gelijk voor de resubstitution error. Oftewel, men maakt geen onderscheid tussen de splits in figuur 3-1. De curves van de Gini-index en de entropie hebben een grotere richtingscoëfficiënt naarmate de 0 of de 1 wordt genaderd. Dit concave verloop geeft aan dat beslisboom 2 wordt geprefereerd boven beslisboom 1. [Feelders, 2006] De meeste algoritmen volgen een topdown “greedy search” door het aantal mogelijke bomen. Een voorbeeld hiervan is ID3 (Quinlan, 1986). ID3 begint met het bepalen van het attribuut dat bovenaan de boom komt te staan. Dit wordt gedaan door alle attributen statistisch te testen en hieruit de beste te kiezen. Vervolgens wordt de training set gesorteerd op dit attribuut. Waarna het proces zich herhaald voor de ontstane bladen. Dit is een “greedy search” waarbij het algoritme niet terugkijkt of er betere splits mogelijk waren [Mitchell, 1997]. voor- en nadelen Het grote voordeel van beslisbomen is de eenvoudige interpretatie van de resultaten. Het model kan grafisch worden weergegeven, door middel van regels of in een tabel. Een ander sterk punt is dat beslisbomen overweg kunnen met missende waarden. Ook tillen de algoritmen niet zwaar aan fouten in de dataset. [Mitchell, 1997] Een nadeel is het gevaar op overfitting, waarover later meer. 3.3.2 Logistische regressie Met logistische regressie kan een keuze tussen twee discrete (dichotome, binaire) waarden gemodelleerd worden. In dit onderzoek is de vraag of een aangifte conform is ja of nee. Er is data beschikbaar over N containers (i = 1,...,N) en k variabelen, xi een vector van variabelen. Deze keuze, weergegeven door de binaire variabele yi, is weergegeven als Yi = 0 als de aangifte conform is Yi = 1 als de aangifte niet-conform is Het model komt er als volgt uit te zien - 19 - Data mining en domeinkennis P{y i = 1 xi } = G ( xi , β ) Waar P de kans is dat yi = 1 gegeven de variabelen xi. Dit wordt aangeduid in functie G. ' Over het algemeen stelt men dat G ( x i , β ) = F ( x i β ) . Zowel G als F moeten alleen waarden kunnen hebben tussen 0 en 1 [Menard, 2002; Verbeek, 2004]. Daarvoor wordt gebruik gemaakt van een verdelingsfunctie. De twee standaard verdelingsfuncties zijn de standaard logistische verdeling F ( w) = L( w) = ew 1+ ew wat leidt tot het logit model, en de standaard normaal verdeling, die leidt tot het probit model. [Verbeek, 2004] Het logit en probit model leveren ongeveer gelijke resultaten [Liao, 1994]. In dit onderzoek wordt alleen het logit model gebruikt. Bij lineaire regressie wordt de Ordinary Least Squares (OLS) methode gebruikt om de parameters te schatten [zie bijvoorbeeld McClave et al, 2002]. Bij logistische regressie kan OLS 17 niet gebruikt worden, in plaats daarvan wordt gebruik gemaakt van maximum likelihood (grootste aannemelijkheid) technieken [Menard, 2002]. Deze techniek is een middel om een set van parameters die de verdeling karakteriseren te schatten, wanneer men weet, of veronderstelt dat men weet, wat de vorm van de verdeling is. De log likelihood is het criterium voor het opnemen van parameters in het logistische regressie model. In softwarepakketten wordt de log likelihood (LL) vaak vermenigvuldigd met –2 (-2LL). Waar de log likelihood negatief is, is –2LL positief. Hogere waarden geven een slechtere voorspelling van de afhankelijke variabele aan. Door de verschillende waarden van de log likelihood te vergelijken kan het beste model worden geselecteerd, dit is een iteratief proces. Op basis van de log likelihood worden verschillende statistieken berekend die aangeven hoe goed het model “past” op de data (vergelijkbaar met R2 bij regressie) [Menard, 2002]. voor- en nadelen Een nadeel van deze techniek is dat er kennis van statistiek vereist is om het model te kunnen afleiden en interpreteren. Dit kan tevens ook een voordeel zijn omdat het model een stevige statische onderbouwing heeft. Een ander nadeel is dat er relatief veel preparatie van de data benodigd is. Een groot nadeel voor de Douane is dat de afgeleidde formule niet kan worden omgezet in profielen, waardoor een model niet in de praktijk toegepast kan worden 18 . Wel zijn er onderzoeken waarbij logistische regressie wordt gecombineerd met beslisboomanalyse [Abu-Hanna en de Keizer, 2003]. 3.3.3 Neurale netwerken Neurale netwerken worden getraind om een groot aantal problemen uit een steekproef op te lossen, om op deze manier nieuwe gevallen te kunnen voorspellen [Daniels, 2003]. Hiervoor is het noodzakelijk dat er veel voorbeelden met een bekende uitkomst worden aanwezig zijn. Door een nieuw geval te vergelijken met de opgeslagen voorbeelden kan een uitspraak worden gedaan over de (verwachte) uitkomst. Een neuraal netwerk is gebaseerd op de manier waarop het menselijk brein werkt. Waarbij in een netwerk van neuronen (nerve cells) signalen verstuurd worden om tot een output te komen. De basis van een neuraal netwerk is het perceptron. Perceptrons zijn neuronen gerangschikt in één laag, daardoor zitten de input knopen direct vast aan de output knopen [Daniels, 2003]. Een neuraal netwerk op basis van één laag kan maar een 17 In feite is OLS een vorm van maximum likelihood voorspelling, een waarbij men direct de oplossing kan berekenen zonder iteratie [Menard, 2002]. 18 In de toekomst is het wellicht wel mogelijk om te selecteren (classificeren) op basis van een formule. - 20 - Data mining en domeinkennis bepaald soort berekeningen uitvoeren, zoals in 1969 door Minsky en Papert [1969] is aangetoond. In 1974 vindt Werbos [1974] een manier om meerlagige netwerken te maken. Pas nadat in 1986 Rumelhart et al [1986] hetzelfde ontdekken wordt de techniek, back-propagation geheten, wijd verspreid. Het feed-forward 19 Multilayer Perceptron (MLP) model wordt het meest gebruikt als er met neurale netwerken gewerkt wordt [Hand et al, 2001]. In tegenstelling tot beslissingsbomen, is dit model niet lineair. Zoals de naam al aangeeft bestaat het MLP uit meerdere lagen. Om te bekijken hoe het model presteert wordt vaak de Sum of Squared Errors (SSE) gebruikt. De waarde hiervan is een positief getal, waarbij een relatieve lage waarde een goede voorspellingskracht aangeeft. Deze error, voor een binair neuraal netwerk, wordt weergegeven in de volgende formule: r 1 E ( w) ≡ ∑ (t kd − o kd ) 2 2 d∈D Waarbij D de set van trainingsvoorbeelden is, tkd de gewenste output voor de kde output eenheid en trainingsvoorbeeld d, en okd de werkelijke output van de kde output eenheid en trainingsvoorbeeld d; 20 [Mitchell, 1997]. Een andere manier om modellen onderling te vergelijken is door gebruik te maken van de Mean Squared Error (MSE). Dit is ook een positief getal, waarbij een relatieve lage waarde een beter model betekent. De MSE kan berekend worden voor de training set, de in-sample error alsook voor de validatie set, de out-of-sample error [Daniels, 2003]. Er zijn geen breed geaccepteerde procedures om een model af te leiden bij neurale netwerken. Vaak komt men tot een bevredigend model door trial-and-error [Hand et al, 2001]. White box Het grote voordeel van neurale netwerken is de voorspellende kracht. Het nadeel is dat de beslissingscriteria niet transparant zijn. Verschillende onderzoekers hebben hier een eind aan gemaakt. Zij hebben algoritmen ontwikkeld die regels kunnen afleiden uit neurale netweken. Waarbij de regels dezelfde voorspellende kracht hebben als het neurale netwerk. Enkele voorbeelden hiervan zijn Neurorule [Setiono and Liu, 1996], Trepan [Craven and Shavlik, 1996] en Nefclass [Nauck, 2000]. Voorgaande algoritmen zijn in een paper van Beasens et al [Baesens et al, 2003] vergeleken met het C4.5 algoritme en een logistisch regressie classificatie model op verschillende datasets van kredietverstrekkingmaatschappijen. Hun bevindingen zijn dat Neurorule en Trepan leiden tot goede classificatie resultaten in vergelijken met C4.5 en logistische regressie. Ook merken zij op dat de regels die voortkomen uit Neurorule en Trepan zeer compact en krachtig zijn. 3.3.4 Overfitting Bij het construeren van een model is er het gevaar dat dit model teveel op de beschikbare (steekproef) dataset gaat lijken. Hierdoor lijkt het dat het model zeer goed kan classificeren. Wordt het daarna echter in de werkelijkheid gebruikt dan zijn de resultaten vaak veel minder. Dit probleem heet overfitting en wordt grafisch weergegeven in figuur 3-3. 19 Feed-forward houdt in dat het model niet terugkijkt om een eerder gemaakte stap te heroverwegen. Het model begint bij de inputs en gaat via de hidden neurons naar de outputs. 20 E wordt weergegeven als functie van wi gedefinieerd is als r w omdat de output units o afhankelijk zijn van de gewichten wi; waar wi ← wi + Δwi . Een uitgebreide beschrijving is te vinden in Mitchell [1997] of op http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html. - 21 - Data mining en domeinkennis Figuur 3-3 Overfitting, gebaseerd op Daniels [2003] In deze figuur wordt de MSE weergegeven als functie van het aantal epochs (herhalingen). De MSE van de training set wordt steeds lager, terwijl de MSE van de test set een minimum heeft bereikt en weer omhoog gaat. Het minimum is op het moment waarop overfitting plaatsvindt, en waar het model zijn optimale punt heeft bereikt. Bij een beslissingsboom zijn er twee basismethoden om overfitting tegen te gaan te weten “stopping rules” en “pruning” [Feelders, 2006]. - stopping rules: Breidt een blad niet verder uit als de impurity afname van de beste splitsing ligt onder een bepaalde drempelwaarde. - Pruning: maak een hele grote boom en “snoei” terug. Het nadeel van stopping rules is dat er soms een zwakke splitsing nodig is om daarna een goede splitsing te kunnen maken. Bij pruning wordt een grote boom teruggebracht tot een kleine. De vraag is alleen tot hoever het snoeien moet gaan. Dit is opgelost door de beschikbare data op te verdelen in twee delen. Een training set, die wordt gebruikt om de boom te construeren. En een test set, die wordt gebruikt om de geconstrueerde boom te valideren. Wanneer en maar een kleine dataset beschikbaar is, kan cross-validatie gebruikt worden. Bij cross-validatie wordt de dataset opgedeeld in delen, bijvoorbeeld tien (10fold cross-validatie). Één deel wordt gebruikt voor het testen van het model dat is gegenereerd op basis van de andere negen delen. Vervolgens wordt een andere test set aangewezen en herhaald het proces zich totdat ieder deel is gebruikt als test set [Daniels, 2003]. Omdat nu alle beschikbare data al is gebruikt voor het bepalen van een model kan de out-of-sample R2 niet meer berekend worden op een test set. Daarom worden de (tien) R2’s berekent op basis van de test gemiddeld, om zo tot een schatting te komen van de out-of-sample error [Feelders, 2006]. 3.3.5 Classificatietabellen Een manier om inzicht te krijgen in de correctheid van het gegenereerde model is middels een classificatie tabel. Deze tabel zet de voorspelde en werkelijke waarden tegen elkaar uit. De opzet van een dergelijk tabel wordt hieronder weergegeven in tabel 3-1. ŷi 0 1 Total yi 0 n00 n01 N0 1 n10 n11 N1 Total n0 n1 N Tabel 3-1 Opzet classificatietabel - 22 - Data mining en domeinkennis Hier is yi de geobserveerde uitslag en ŷi de voorspelde uitslag. n10 geeft bijvoorbeeld aan de proportie (of het werkelijke aantal) van de waarden die voorspeld zijn als 0, maar een werkelijke uitslag van 1 hebben, i.e. het de valse negatieven. n00, n01 en n11 zijn respectievelijk het aantal werkelijk negatieven, valse positieven en werkelijk positieven [Verbeek, 2004]. Aan de hand van een classificatietabel kan een verscheidenheid aan technieken met elkaar vergeleken worden. Een vergelijking tussen de drie verschillende modellen wordt hier dan ook gemaakt op basis van deze tabellen. Hiervoor worden twee statistieken afgeleid, de prestatie-index en de McFadden σn. De prestatie-index is de fractie van het totale aantal aangiften dat correct voorspeld is en wordt gedefinieerd als het aantal het aantal correct voorspelde aangiften gedeeld door het totale aantal aangiften, in formulevorm: prestatie − index = n 00 + n11 . N Hierbij wordt geen rekening gehouden met het aantal valse negatieven. De methode van McFadden “straft” het model wanneer er meer valse negatieven voorkomen. De McFadden σn kan als volgt worden berekend σn = n00 + n11 − n02 − n12 (1 − n02 − n12 ) Beide indices worden positief gewaardeerd. Er zijn verschillende formules ontwikkeld om op basis van een classificatietabel de correctheid van een model te kwantificeren. Na onderzoek adviseren Veal en Zimmermann [1992] bovenstaande methode van McFadden. Deze twee indices worden gebruikt bij een onderlinge vergelijking van de modellen. 3.4 Domeinkennis Bovenstaande methoden om kennis te extraheren uit data zijn allen inductief. Dat wil zeggen dat het methoden zijn die generaliseren op basis van geobserveerde trainingsvoorbeelden door kenmerken te identificeren die empirisch positieve van negatieve trainingsvoorbeelden onderscheiden. Een nadeel van inductieve leermethoden is dat er limieten zitten aan de generaliseerbaarheid van de resultaten. Vooral wanneer er een beperkte hoeveelheid trainingsvoorbeelden beschikbaar is. Analytische leermethoden hebben dit nadeel niet. Bij analytisch leren wordt bestaande kennis (in het Engels: prior knowledge, domain knowledge) en deductieve redenatie gebruikt om de informatie van de trainingsvoorbeelden te vergroten. Een voorbeeld hiervan is explanation-based generalization (EBG) [Mitchell et al, 1986] Nadeel van analytische leermethoden is dat de bestaande kennis imperfect kan zijn, waardoor het model dat ook is. [Mitchell, 1997] Bestaande kennis wordt in deze scriptie in het vervolg domeinkennis genoemd. Domeinkennis kan worden omschreven als: “any information that is not explicitly presented in a database [Owrang en Gruppe, 1996]”. Dit kan iets heel triviaals zijn. Bijvoorbeeld het gegeven dat mannen niet zwanger kunnen raken. Dit hoeft niet in een database opgenomen te worden omdat dit algemene kennis is. Een preciezere omschrijving is: “domain knowledge relates to a discipline, such as software engineering, accounting, or insurance, and it is the entire corpus of data, rules, and processes that characterizes the discipline”. Een deel hiervan wordt beschreven in standaarden en handboeken of is in software ingebouwd. Het grootste deel is aanwezig in het collectieve geheugen van de uitoefenaars van de discipline. Een domein model kan worden - 23 - Data mining en domeinkennis omschreven als: “an abstraction that consists of only those parts of the domain knowledge that are relevant to a particular purpose”. Domein analyse vervolgens, kan worden omschreven als: ”the examination of the domain and its problems, and appropriateness means that the domain model”. [Berztiss, 1999] Er zijn verschillende typen domeinkennis [Daniels en van Dissel, 2002]; normatieve kennis over het te construeren model, kennis over de generatie van de data en kennis over het reduceren van de kosten en het verbeteren van de efficiency. Hierbij is de eerste het belangrijkst in dit onderzoek. Deze kennis kan bestaan uit een beslissingsmodel. Dit kan opgenomen zijn in een expert system. Expert systemen “attempt to capture knowledge pertinent to a specific problem” [Frawley et al, 1992]. Een expert systeem kan bestaan uit business rules. Deze regels hebben de IF-THEN vorm. Het grote voordeel van deze regels is dat ze makkelijk te begrijpen zijn. Een nadeel kan zijn dat ze vaak simpel van aard zijn, waardoor complexe relaties niet uitgedrukt worden. Domeinkennis wordt gebruikt om het data mining proces inzichtelijker te maken. Bij een analyse die zich alleen op de data richt komen verschillende problemen aan bod [Daniels en van Dissel, 2002]: - Incompatibiliteit met bestaande regels: bedrijven kunnen verplicht zijn bepaalde regels na te leven. Kennis, door data mining technieken afgeleid uit databases, kan strijdig zijn met deze regels. - beperkte interpreteerbaarheid: managers willen een model dat makkelijk te snappen is, ze accepteren vaak geen black box oplossing. Ook is het vaak belangrijker inzicht te krijgen in het beslissingsprobleem, dan dat er perfect voorspeld wordt. - Kennisrepresentatie op het verkeerde detailniveau: Vaak leiden data mining algoritmen tot modellen die te complex zijn om beslissingsondersteunend te kunnen werken. Verschillende aanpakken zijn ontwikkeld die zowel van inductieve als analytische methoden gebruik maken. KBANN 21 [Shavlik, 1989] is een algoritme dat een neural netwerk creëert aan de hand van de domeinkennis, waarna deze wordt verbeterd door gebruik te maken van de training data. TangentProp [Simard et al, 1992] kent als beginpunt domeinkennis in de vorm van een functie die inputs omzet. Deze wordt verbeterd met de training data en een vooraf bepaalde foutwaarde. EBNN 22 [Mitchell, 1993] gebruikt domeinkennis in de vorm van eerder geleerde neurale netwerken en training data om een uiteindelijke netwerk af te leiden. 3.5 Vergelijkbare onderzoeken Onder vergelijkbare onderzoeken worden onderzoeken verstaan die de resultaten van een analyse met behulp van data mining technieken combineren met een vorm van domeinkennis. In deze paragraaf zijn enkele van deze onderzoeken opgenomen. De bevindingen van deze onderzoeken worden kort beschreven. Daniels en Kamp [1999] hebben onderzocht hoe neuraal netwerk presteert tegenover een lineair netwerk. In het onderzoek wordt een casestudy beschreven waarbij de prijs van een huis aan de hand van een aantal karakteristieken wordt beschreven door een lineair model. Het neurale netwerk had zowel een hogere in-sample als out-ofsample error, wat een betere voorspellingskracht betekent. Een tweede casestudy in hetzelfde paper onderzoekt de classificatie van obligaties. Ook hier wordt een lineair model vergeleken met een neuraal netwerk. Het neurale netwerk classificeert iets beter dan het lineaire model. In een paper van Martens et al [2005] wordt domeinkennis gekoppeld aan een classificatietechniek genaamd AntMiner+ [Parpinelli et al, 2002]. Zij noemen het koppelen van kennis afgeleid uit de data met de aanwezige kennis bij de experts, 21 22 KBANN: Knowlegde-Bases Artificial Neural Network EBNN: Explanation-Based Neural Network - 24 - Data mining en domeinkennis “knowledge fusion”. De conclusie van het artikel is dat door gebruik te maken van domeinkennis de begrijpbaarheid en de verklaarbaarheid toenemen. Kopanas et al [2002] hebben het nut van domeinkennis onderzocht voor de verschillende stages in het KDD proces. Zij komen tot de conclusie dat domeinkennis in ieder stage zijn bedrage levert maar vooral belangrijk is bij de probleemdefinitie, data transformatie en het implementeren van het model. Ze stellen ook nadrukkelijk dat data mining een kennisgedreven proces moet zijn. Een vorm van domeinkennis is monotonicity. Wat dit is, kan het makkelijkst uitgelegd worden aan de hand van een voorbeeld. Stel dat er twee personen met dezelfde karakteristieken, op inkomen na, eenzelfde lening aanvragen en de aanvraag wordt gekeurd aan de hand van beslisregels. Monotonicity houdt in dit geval in dat je verwacht dat de persoon met het hoogste inkomen niet wordt afgewezen terwijl de lening aan de persoon met het lagere inkomen wel wordt toegewezen. Dit strookt ook niet met de intuïtie. Hier is en wordt veel onderzoek naar verricht. Onder andere door Feelders [2000]. Hij heeft onderzocht welke gevolgen het toepassen van een monotonicity beperking heeft voor een beslisboommodel. De conclusie is dat de modellen met de beperking iets slechter presteren maar dat ze wel een stuk simpeler zijn, waardoor ze meer inzicht in het probleem geven en makkelijker uit te leggen zijn. 3.6 Conclusie Dit hoofdstuk geeft antwoord op alle subvragen, zoals deze gesteld zijn in het literatuur deel (A) in hoofdstuk 1. Het doel van data mining is om voorheen onbekende verbanden en patronen te ontdekken aan de hand van geobserveerde data (A.1). Classificatie modellen kennen als doel het voorspellen van de klasse van een object waarvan de klasse onbekend is. Er zijn verschillende technieken voorhanden die dit mogelijk maken. Het is bij ieder van de technieken van belang dat er goede data preparatie plaatsvindt. De data preparatie bevat drie stappen: data cleaning, data integratie en transformatie en data reductie. Het prepareren van de data is de meest arbeidsintensieve kant van de analyse. Een beslisboom verdeelt de beschikbare data steeds verder in groepen aan de hand van een bepaalde statische methode totdat er geen significante split meer mogelijk is. Logistische regressie modellen produceren kennen een waarde toe aan iedere inputvariabele. Aan de hand daarvan kan een formule worden opgesteld waarvan de uitkomst de kans is dat de klasse 1 is. Neurale netwerken werken op basis van een aantal nodes in een of meerdere lagen die verbanden tussen de inputs weergeven. Het model is black box, dat wil zeggen dat je niet weet welke redenatie wordt gevolgd om tot een voorspelling van de klasse te komen (A.2). Bij alle modellen is er het gevaar van overfitting. Het model presteert dan goed op de trainingsvariabelen, maar slechter in de werkelijkheid. Dit probleem is af te vangen door gebruik te maken van een validatie en een test set. Ook cross-validatie is een mogelijkheid. Voordeel van beslisbomen is de eenvoudige interpretatie. Bij logistische regressie is dit de statistische onderbouwing. Neurale netwerken hebben een grote voorspellende kracht. (A.3) Uit beslisbomen komen direct regels voort. Bij neurale netwerken kan dit ook na bewerking met een bepaalde techniek (A.4). Domeinkennis kan worden omschreven als kennis die niet expliciet in een database aanwezig is. Domeinkennis kan worden gebruikt om de interpreteerbaarheid van de afgeleidde modellen te vergroten (A.5). Er blijkt zeer veel onderzoek gedaan te zijn naar domeinkennis en data mining. Veel richt zich echter op hele specifieke gebieden en maakt niet een vergelijking tussen modellen met en zonder domeinkennis. Dit gebeurt wel in de beschreven papers. In het volgende hoofdstuk wordt getracht validatie te vinden voor de bestaande profielen. Met als doel om te bekijken of de bestaande regels verbeterd kunnen worden, en zo ja, in welke mate. - 25 - Profielen valideren Hoofdstuk 4 Profielen valideren 4.1 Inleiding In dit hoofdstuk wordt getracht de bestaande profielen te valideren. Het gehele proces, van data preparatie tot interpretatie van het model, wordt beschreven. Zoals is hoofdstuk 3 is beschreven zijn er drie stappen die onder data preparatie vallen. Te weten data cleaning, data integratie en transformatie en data reductie. Ieder van deze stappen wordt in paragraaf 4.2 doorlopen. Hierbij wordt aangegeven wat er aangepast moet worden en hoe dat gedaan wordt. Na de preparatie kunnen data mining technieken worden toegepast op de data. Paragraaf 4.3 beschrijft de methoden en de resultaten. In paragraaf 4.4 worden de resultaten van het data mining gerelateerd aan de bestaande profielen. Er wordt bekeken of data mining dezelfde regels genereert als de regels die door de expertsessies zijn bepaald. In paragraaf 4.5 wordt vanuit een andere invalshoek geprobeerd onderbouwing voor de profielen vinden. Waarna in paragraaf 4.6 de verschillen worden aangegeven van risicoafdekking op basis van profielen en op basis van de gegenereerde modellen. Paragraaf 4.7 sluit het hoofdstuk af met een conclusie. 4.2 Data preparatie 4.2.1 Data cleaning Zoals beschreven in hoofdstuk twee wordt alleen de beschikbare data uit het jaar 2004 gebruikt. En daarvan alleen de geschikte variabelen (zie tabel 2-2). Om te zien in hoeverre data cleaning is vereist, wordt van de relevante kolommen, op basis van de hele dataset, een frequentietabel gemaakt. Aan de hand van die tabel kan worden bepaald of er cleaning nodig is. Er blijkt dat er voor enkele variabelen aanpassingen gedaan moeten worden. Bij land van oorsprong, land van bestemming en land van verzending komen cijfer- en lettercodes voor 23 , deze moeten worden gestandaardiseerd. Bij de omzetting komt naar voren dat er numerieke waarden voorkomen waarbij geen corresponderende lettercode gevonden kan worden. Deze waarden zijn óf landencodes van voor 1996 24 óf ze zijn fout ingevuld. Voor verdere analyse worden deze niet aangepast omdat ze een indicator voor non-compliance kunnen zijn. De kolom leveringscondities heeft al een standaardwaarde voor een niet geïdentificeerde leveringsconditie, namelijk “XXX”. Deze behoeft geen verdere aanpassing. Hetzelfde gaat op voor de kolommen vrijstellingsregeling en preferentie. Waarbij, als er geen vrijstelling of preferentie van toepassing is, de variabele de waarde “000” meekrijgt. Van de variabele importeur kan, vanwege een te grote belasting van de pc, geen frequentietabel gemaakt worden. Dit heeft wellicht te maken met het grote aantal verschillende waarden. Deze variabele wordt nogmaals bekeken wanneer de verkleinde datasets gemaakt zijn. Voor de overige kolommen is geen data cleaning nodig. Samenvattend worden alle aanpassingen, en de eventuele aanwezigheid van missende waarden, weergegeven in onderstaande tabel (4-1). 23 In 2005 is men definitief over gegaan van numerieke landenaanduiding naar landenaanduiding middels lettercodes. Deze overgang is de oorzaak van de verschillende codes. 24 In 1996 is er een revisie geweest van het codesysteem; er zijn landencodes aangepast en/of verwijderd. - 26 - Profielen valideren Veldnaam Uitgevoerde actie SI_Apunt --- SI_Agevnr --- SI_Aproc --- SI_Asymbl --- Evt. nieuwe kolom SI_Geadr Nog geen actie. SI_LandVz Numerieke code omgezet naar lettercode. SI_LandBes Numerieke code omgezet naar lettercode. SI_LANDVZ_LTR SI_LANDBES_LTR SI_LevCond --SI_GdnCode --SI_LvO Numerieke code omgezet naar lettercode. SI_LVO_LTR SI_GevrReg --SI_VrgReg --- SI_VrijReg --- SI_Bruto SI_Netto Beide continue variabelen. Mogelijk omzetten tot intervalvariabele. Nog niet gedaan. SI_PrfCont --- SI_CtrUits --Tabel 4-1 data cleaning per variabele Zoals in de tabel (4-1) te zien is zijn er geen verdere aanpassingen gedaan. De analyse die hier wordt uitgevoerd neemt geen Douane specifieke kennis mee. Er wordt dus niet uitgebreid gekeken naar de inhoud (evt. noise), maar meer naar de vorm van de waarden. Er zijn geen missende waarden in de gebruikte kolommen. Wel zijn er, zoals hierboven ook is aangegeven, waarden ingevuld die een onbekende waarde aangeven. Hier is verder geen actie voor vereist. Bij de interpretatie van de uitkomsten worden deze waarden, wanneer nodig, toegelicht. 4.2.2.Data integratie en transformatie Een aangifte doorloopt verschillende stappen voordat deze als afgedaan wordt beschouwd. Bij iedere stap krijgt de aangifte een status mee, welke wordt weergegeven in de kolom SI_STATUS. De belangrijkste zijn 20, 40 en >40. Een aangifte met status 20 moet worden geverifieerd. Inmiddels is gecontroleerd dat alle ingevoerde velden, qua vorm, zijn ingevuld conform de eisen. Nu wordt onderzocht of de opgegeven waarden ook correct zijn. Dit wordt bewerkstelligd door de aangiften “langs de profielen te laten lopen”. Wordt er een profiel geraakt dan krijgt de aangifte, afhankelijk van het gevonden risico, een status in de 30 toegewezen. Wordt er geen profiel geraakt, dan krijgt de aangifte status 40 en wordt administratief afgedaan 25 . Aangiften met status tussen de 30 en 39 worden door een selecteur bekeken, en waar nodig aangepast. Iedere handeling van de selecteur (en eventueel controleur) leidt tot een status 41 of hoger. Een aangifte met status 40 of hoger, met uitzondering van statussen 41 en 44, is afgedaan. Alleen in het geval van een status 41 of hoger is het controleresultaat bekend. In de kolommen SI_CTRSRT en SI_CTRUITS staan respectievelijk de controlesoort en de uitslag. De controle-uitslag is de doelvariabele. Deze komt echter niet voor in aangiften met een status van 39 en lager, simpelweg omdat de controle-uitslagen op dat moment nog niet bekend zijn. Daarom is een koppeling tussen de originele, ongecorrigeerde aangiften en de uiteindelijke controle-uitslagen noodzakelijk, zie ook paragraaf 2.4. Om de verschillende tabellen te koppelen is een unieke identificatiefactor vereist. Deze is standaard niet aanwezig en moet dus gecreëerd worden. Hiervoor worden de waarden van de kolommen SI_AGEVNR, SI_AJAAR, SI_AGIFNR en SI_ARTIKEL achter elkaar geplakt in een nieuwe kolom, UniekeID. De redenering hierachter is: iedere 25 i.e. SI_CTRSRT = 0 en SI_CTRUITS = 0 - 27 - Profielen valideren aangifte wordt gedaan door een aangever, deze heeft zijn eigen unieke 11-cijferige nummer, een aangever doet meerdere aangiften per jaar daarom is het 8-cijferige aangiftenummer vereist, een aangifte kan meerdere artikelen bevatten, dit wordt aangegeven in het aantal artikelen welke een 2-cijferige code bevat, aangiftenummers zijn uniek binnen een jaargang maar niet per definitie daarbuiten, daarom wordt de 2cijferige jaargang ook toegevoegd. Het resultaat is een unieke 23-cijferige code. 4.2.3 Data reductie Er zijn in 2004 ruim 770.000 invoeraangiften gecontroleerd. Het is zeer inefficiënt om met deze gehele set te gaan dataminen. Daarom worden er selecties gemaakt. De belangrijkste variabele is de goederencode, hier wordt dan ook primair op geselecteerd 26 . Van lang niet alle goederen zijn genoeg gecontroleerde aangiften beschikbaar om tot een generaliseerbare classificatie te komen. Na een aantal onderzoekende analyses is ervoor gekozen om goederencodes te selecteren waarvan tenminste 5% niet conform bevonden is (van de controles), en waarvan die 5% tevens 100 of meer aangiften bevat. Dit levert veertien 27 te analyseren goederen op. In tabel 4-2 worden de geselecteerde goederen weergegeven. Hiermee zijn de drie, in hoofdstuk drie, onderscheidden vormen van data cleaning toegepast. De vorm is nu voldoende om als input te dienen voor de vervolgstappen. Goederencode #Controles AA 983 BB 1.578 CC 978 DD 444 EE 5.923 FF 3.994 GG 1.454 HH 2.540 II 881 JJ 1.832 KK 337 LL 1.911 MM 1.173 NN 3.113 Tabel 4-2 Geselecteerde goederen #Positieve uitslag 147 332 114 134 976 562 254 152 124 118 147 141 110 189 voor analyse De goederencodes zijn afgekapt tot op tien-cijfer niveau omdat de cijfers elf t/m tweeëntwintig vrijwel uitsluitend nullen bevatten. In de tabel is het aantal uitgevoerde controles opgenomen en het aantal dat daarvan niet conform is bevonden. In bijlage III.1 is een tabel te vinden met meer kengetallen. Voor ieder goed worden de gecontroleerde aangiften geselecteerd, die wordt opgeslagen in een nieuwe tabel. Deze zijn de input voor de data analyse. In tabel 4-3 zijn de kengetallen van heel 2004 opgenomen. % van totaal Totaal aantal aangiften 3.078.416 100% Gecontroleerde aangiften 777.322 23,25% Niet-conform bevonden aangiften 26.709 0,87% (3,44% van gecontroleerde) Tabel 4-3 kengetallen 2004 Zoals besproken is in hoofdstuk 3 wordt de geselecteerde data verdeeld in verschillende sets ter voorkoming van overfitting. In SAS EM wordt naast een training en 26 De reden dat voor een selectie op basis van goederencodes gekozen is, is dat er binnen Sagitta Invoer hoofdzakelijk op goederencode wordt geselecteerd. Dit maakt een vergelijking achteraf makkelijker. Tevens is het niet efficiënt om de gehele dataset als input te nemen, er moet dus een keuze gemaakt worden. 27 Dit is natuurlijk zeer weinig, gezien de grote van de dataset. - 28 - Profielen valideren een test set nog een derde set onderscheiden, de validatie set. Deze wordt grofweg gebruikt om het uit de training set afgeleidde model te optimaliseren. In bijlage III.2 is opgenomen hoe SAS EM de verschillende sets gebruikt. De uitgevoerde analyses maken ook gebruik van de validatie set. De verdeling is als volgt, 40% training, 30% validatie en 30% test. 4.3 Afleiden van regels In deze paragraaf worden, op basis van de geselecteerde aangiften in paragraaf 4.2.3, regels afgeleid door middel van data mining technieken. Er wordt hierbij gebruik gemaakt van een beslissingsboom. Hiervoor is gekozen omdat beslisbomen makkelijk tot regels te herleiden zijn waardoor een vergelijking met de profielen mogelijk is. Is er op voorhand iets te zeggen over een mogelijke overlap? Aan de ene kant zou je kunnen denken dat er overlap moet zijn tussen de profielen en de af te leiden regels. Aan de andere kant is er ook voldoende reden om deze hypothese te verwerpen. Immers, van het aantal gecontroleerde aangiften is maar een klein deel (3,44%) werkelijk niet conform. Er lijkt dus voldoende mogelijkheid om de profielen scherper te stellen. Er zijn enkele beperkingen waarmee men rekening moet houden. Ten eerste, de uitgevoerde controles moeten een betrouwbare weerspiegeling van de werkelijkheid zijn. Dat wil zeggen dat er aangenomen moet worden dat de uitslag van een controle ook de werkelijke uitslag is 28 . Ten tweede, er is geselecteerd op goederencode, hierdoor is het niet mogelijk om verbanden te leggen tussen verschillende goederencodes. Om een indicatie te krijgen van de invloed van deze beperking op de analyse, wordt bekeken in hoeverre de goederencode van de oorspronkelijke en gecontroleerde aangifte verschillen. De resultaten hiervan zijn opgenomen in bijlage III.3. Er blijkt dat er in hoofdstuk 85 en 39 veel verkeerde goederencodes zijn opgegeven. Hier wordt in deze analyse verder geen rekening mee gehouden. Bij het maken van een classificatie model (hoofdstuk 5) moeten deze afhankelijkheden wel meegenomen worden. Een ander nadeel van deze aanpak is dat een aangifte geraakt kan worden op een andere variabele dan de goederencode. Daardoor zijn niet alle controles van de aangiften verricht op basis van de goederencode. Toch is voor deze aanpak gekozen omdat je anders in een cirkel terechtkomt waarbij er steeds meer data bij de analyse betrokken wordt. Waardoor de analyse ondoorzichtig wordt. Er kan bijvoorbeeld een profiel zijn dat primair op importeur selecteert en daarna op goederencode. Eigenlijk zouden die importeurs ook meegenomen moeten worden. Maar er is wellicht ook een profiel waar de importeur in voorkomt, maar waar primair op land van oorsprong wordt geselecteerd. Waardoor deze ook betrokken moet worden in de analyse. In deze aanpak is er dus steeds meer data nodig. Er wordt een beslisboom afgeleid met entropie als impurity meetstaf. Het maximale aantal takken is twee en de maximale diepte is zes. Dit zijn arbitraire keuzes die, wanneer er aanleiding toe is, aangepast kunnen worden. Er is besloten om de boom relatief klein te houden omdat het doel van de beslisboomtechniek en het doel van deze analyse niet geheel overeenstemmen. Een beslisboom heeft als doel de gehele populatie te classificeren. Ook wanneer dit betekent dat er maar enkele trainingsvariabelen in één blad worden ingedeeld. Dit kan wanneer men zeker weet dat de trainingsvariabelen correct zijn. In dit geval zijn er, wegens de hierboven beschreven beperkingen, te veel onzekerheden waardoor een blad met maar een paar waarden tot een ongegronde 28 Er zijn een aantal redenen waarom dit niet het geval is. Zo kan een aangifte geraakt zijn door een bepaald profiel, maar heeft de bevonden fout niets te maken met dat profiel. Mogelijk wordt er toch een positieve controle aan het profiel toegeschreven. Ten tweede kan het voorkomen dat een aangifte door meerdere profielen wordt geraakt, waarvan er uiteindelijk maar één gecontroleerd wordt of positief (i.e. niet conform) bevonden. Het is van de interpretatie van de controleur afhankelijk hoe hij dit registreert. Hierdoor kan het zijn dat er een positieve uitslag aan een verkeerd profiel wordt toegewezen. Ook komt het voor dat wanneer er maar een kleine fout wordt geconstateerd dat deze wordt verbeterd zonder dat er een positieve uitslag aan de aangifte wordt toegekend. - 29 - Profielen valideren generalisatie kan leiden. Concreet ligt de focus vooral op de grote splits waar een goede classificatie mogelijk blijkt. De beslisboom wordt gepruned op basis van de misclassificatie ratio. Dat houdt in dat de split met de kleinste misclassificatie wordt gekozen. Er zijn veertien goederen overgebleven voor vergelijking met de bestaande profielen. Voor deze goederen zijn regels gegenereerd op basis van de geconstrueerde beslissingsbomen. Deze regels zijn, wanneer relevant, te vinden in bijlage III.4. 4.4 Vergelijking profielen en regels Een overzicht van de lopende profielen in 2004, voor zover relevant en betrekking hebbend op de bovenstaande goederencodes, is te zien in bijlage III.4. Deze worden vergeleken met de afgeleide regels uit de vorige paragraaf. Per goederencode wordt hieronder de inhoud van de profielen opgesomd. • AA: Geen profielen gevonden in 2004. In 2005/2006 is er wel gecontroleerd op een onjuiste indeling. • BB: Het profiel waar deze goederencode in voorkomt is niet specifiek een profiel dat binnen het heffen en innen-kader valt. Er wordt gecontroleerd op sigarettensmokkel met een aantal goederen als deklading, waaronder BB. • CC: Dit profiel is opgenomen om te controleren op een ziekte. Een range van goederen wordt aan deze controle onderworpen. • DD: idem • EE: Geen profielen gevonden. Controle op oorsprong en indeling in 2006. • FF: Geen profielen gevonden. • GG: Geen profielen gevonden. Controle op indeling en waarde in 2006. • HH: Geen profielen gevonden. • II: Hier wordt gecontroleerd op een gevaar voor de volksgezondheid voor deze goederen uit een bepaald land. • JJ: Geen profielen gevonden. • KK: Er wordt gecontroleerd op een onjuist uitlekgewicht, specifiek voor deze goederencode en met een bepaalde netto massa. • LL: Er is gecontroleerd op cadmiumhoudende producten, waarbij een aantal landen van oorsprong wordt bekeken. • MM: In 2004 zijn hier geen lopende profielen op gevonden. In 2005 wordt er wel gecontroleerd op uitputting van het quotum. • NN: Hier zijn verschillende profielen op actief. Ze controleren allen op een onjuiste indeling van apparaten. Hierbij zijn na verloop van tijd enkele importeurs uitgesloten van controle. Van de goederencodes waarvan geen profielen zijn gevonden kan het zijn dat er andere variabelen zijn waardoor er tot controle overgegaan is. Het is lastig om deze variabele(n) te ontdekken en het nut ervan is beperkt. Dit is daarom ook niet gedaan. Eigenlijk zijn alleen de goederen AA, II, KK, LL en NN geschikt voor een verdere vergelijking. De bevindingen aan de hand van de vergelijking worden hieronder per goederencode opgesomd. • AA: In 2005 is er gecontroleerd op onjuiste indeling. Dit terwijl er is 2004 niet één keer een goederencode gecorrigeerd is. Het model stelt een uitsluiting voor van bepaalde aangiftepunten waarbij een relatief klein percentage niet-conforme aangiften ontdekt zijn. Hier is totaal geen overlap tussen de afgeleide regels en de profielen. • II: Het model geeft de importeur als significante waarde, waarbij het profiel op land van oorsprong en een bepaald minimum tonnage selecteert. Hier is ook totaal geen overlap. • KK: Hier wordt door het model geselecteerd op bruto tonnage en bij een split op aangiftepunt, waar het profiel een selectie op netto tonnage maakt. Er is hier een zekere overlap. - 30 - Profielen valideren • LL: Het model kan geen significante split maken. Waarschijnlijk komt dit door een combinatie van het grote aantal categorische variabelen (>1000) en het kleine aantal positieven. • NN: Het profiel zondert enkele importeurs uit van controle, waarbij het model de aangevers als significante variabele ziet. Een kleine overlap is het gevolg. Op basis van deze resultaten kan worden geconcludeerd dat er niet veel overlap is met de profielen en de regels gegenereerd door het beslisboom-model. Natuurlijk kan dit op basis van deze gegevens niet geconcludeerd worden voor de gehele set aan profielen. Wel bestaat sterk het vermoeden dat dit niet het geval is. De profielen zijn in de regel namelijk vrij algemeen. Ook bestaan er profielen die zich richten op een mogelijke quotumoverschrijding. Deze kan niet verder gespecificeerd worden omdat deze vaak voor een bepaald goed en land vastligt. Dit kan gezien worden als een beperking van het systeem. Makkelijker zou zijn als er op basis van de invoer berekend wordt wanneer het quotum overschreden wordt, waarna de volgende invoeraangiften automatisch geweigerd worden. Verder zijn er profielen die onder de stop-functie vallen, en dus strikt genomen niet binnen DSI aanwezig zouden moeten zijn. Voorbeelden hiervan zijn sigarettensmokkel en ziektes heersend bij bepaald fruit. Een andere reden waarom er minder overlap is, is dat er een selectie wordt gemaakt op de mogelijke opbrengst van de controle 29 . Bijvoorbeeld een minimale douanewaarde of tonnage. Dit is begrijpelijk gezien de beperkte controlecapaciteit. Het past echter niet binnen het rechtshandhavingmodel, waarbij alle risicovolle aangiften gecontroleerd zouden moeten worden. Een interessante constatering is het de selectie op importeur (profiel) en aangever (beslisboom) bij goed NN. In het Communautair Douanewetboek (CDW) wordt een aangever gedefinieerd als: “de persoon die in eigen naam een douaneaangifte doet of de persoon in wiens naam een douaneaangifte wordt gedaan [CDW, 1999]”. Deze vertegenwoordiging is indirect, “de vertegenwoordiger handelt in eigen naam, doch voor rekening van een andere persoon [CDW, 2001]”. Vanaf 2006 is ook directe vertegenwoordiging mogelijk, “de vertegenwoordiger handelt in naam en voor rekening van een andere persoon [CDW, 2001]”. Oftewel de aangever is verantwoordelijk voor de aangifte en een eventuele boete kan op hem verhaald worden. Je zou dus verwachten dat de aangever een zekere controle uitvoert op de juistheid van de aangifte. Bij een analyse op gegevens van 2006 zou het interessant zijn om te kijken of dit werkelijk zo is. Mogelijk kan dan een deel van de aangiften afgedaan worden met steekproefsgewijze controle. Door de gevonden regels te koppelen aan domeinkennis kan het mogelijk zijn nieuwe inzichten te verwerven. Ook kan door beter gebruik te maken van deze kennis een beter model worden gegenereerd. Aan de hand waarvan betere profielen kunnen worden opgesteld. 4.5 Tweede validatie Voor een verdere validatie van de profielen wordt een andere aanpak gekozen. De data wordt nu niet als basis genomen, maar een geschikt profiel. Het profiel is geschikt wanneer er genoeg data is (zie bovenstaande selectiecriteria) waar het profiel betrekking op heeft. Een mogelijke kandidaat is NN. Deze is tezamen met enkele andere goederen gecontroleerd op onjuiste indeling. Halverwege 2004 is er een importeur uitgezonderd van controles, verderop in het jaar zijn nog twee importeurs uitgezonderd. Is er op basis van analyse met beslisbomen een onderbouwing te vinden voor deze keuzes? Om dit uit te zoeken wordt een zelfde selectie gemaakt als het profiel. Deze totale selectie bevat 3.791 gecontroleerde aangiften, waarvan er 294 (7,76%) niet conform bevonden zijn. De 29 Een selectie die hier niet is gemaakt omdat dan ten eerste het aantal waarnemingen verder beperkt zou worden en ten tweede omdat er een vorm van domeinkennis nodig is om die keuze te rechtvaardigen. Ook niet onbelangrijk is het feit dat, wanneer er door de Douane geselecteerd wordt op massa of waarde, aangiften die onder de drempelwaarde vallen niet gecontroleerd worden en dus sowieso niet in de set voorkomen. - 31 - Profielen valideren selectie waarbij er nog geen importeurs zijn uitgezonderd bevat 2.496 gecontroleerde aangiften, waarvan er 169 (6,84%) niet conform bevonden zijn. Op basis van de controlebevindingen is besloten enkele importeurs uit te sluiten. Middels een beslisboom, met dezelfde parameters als in de vorige paragraaf, wordt bekeken of deze keuze te rechtvaardigen is. In totaal zijn er drie importeurs uitgezonderd. De eerste heeft op 42 controleopdrachten nooit positief gescoord, de tweede op 51 controleopdrachten zes (11,76%) positieve scores en de derde op 1820 controles 20 (1,10%) positieve scores. Uitsluiting van de eerste en derde valt zeker te rechtvaardigen. De tweede echter niet, omdat het percentage niet conforme aangiften ruim boven het gemiddelde (=6,84%) ligt. De regels afgeleid van de beslisboom stellen een andere split voor, op aangever, zoals is vermeld in paragraaf 4.4. De conclusie die hieruit getrokken kan worden is dat er zeker mogelijkheden zijn om de profielen te optimaliseren/scherper te stellen. Hiervoor is echter wel domeinkennis vereist. Al is het maar omdat niet alleen het streven naar 100% compliance bepalend is voor de inhoud van een profiel, maar ook andere zaken zoals de impact van een profiel. Een uitgebreidere validatie van de profielen is niet goed mogelijk, vanwege de in paragraaf 4.3 genoemde redenen. De methode in deze paragraaf biedt ook geen soelaas. Omdat alleen door handmatige selectie 30 vast te stellen is of de profielen voortkomend uit een Controle Opdracht tot voldoende controles hebben geleid. Wat onbegonnen werk is vanwege het grote aantal controle opdrachten. Deze controles moeten tevens voldoende positieve uitslagen kennen om als input te kunnen dienen voor classificatie. En juist dat is het grootste probleem. Bij deze analyse zijn maar een kleine 90.000 van de ruim 3.000.000 aangiften geschikt bevonden om een analyse op uit te voeren. Met behulp van domeinkennis kan een slimme (maar toereikende) selectie gemaakt worden. Dit komt in het volgende hoofdstuk uitgebreid aan bod. 4.6 Verbeteringen Aan de hand van de uitgevoerde analyses wordt in deze paragaaf de mogelijke verbetering gekwantificeerd. Er wordt een vergelijking gemaakt tussen de resultaten die voortkomen uit de controles aan de hand van de profielen en de regels aan de hand van de beslisboomanalyse. Dit is alleen mogelijk voor de in paragraaf 4.4 besproken goederencodes om de eenvoudige reden dat voor de overige goederen geen nuttige profielen gevonden zijn. Dit is met uitzondering van LL omdat van deze dataset geen model af te leiden is. Hieronder wordt per goederencode aangegeven wat de verbetering kan zijn. Hierbij moet worden aangetekend dat er niet zeker gesteld kan worden wat de reden voor selectie is geweest. Het kan het gevonden profiel zijn, maar evengoed is het een andere variabele die geraakt is. Als prestatie-index van de profielen wordt simpelweg de fractie genomen van het aantal niet conform bevonden aangiften ten opzichte van de controles. Om de mogelijke verbetering te bepalen zijn de resultaten van de al uitgevoerde beslisboomanalyses gebruikt. • AA: 14,95% van het aantal controles is positief bevonden, dit levert een index van 0,1495 op. De index van het gegenereerde model wordt bepaald aan de hand van de classificatie tabel. Deze wordt door SAS EM standaard in de output van de analyse weergegeven. Door het aantal werkelijk negatieven en werkelijk positieven op te tellen en te delen op het totaal aantal trainingsvariabelen krijgt men de prestatie-index van het model. Deze prestatie-index komt voort uit de trainingsset. Om zeker te zijn dat er geen overfitting heeft plaatsgevonden, wordt deze prestatie-index vergeleken met de prestatie-index op basis van de validatie set. Ook worden de SSE’s van de training, validatie en test set vergeleken. Wanneer hier grote verschillen in voorkomen is het model op basis van de training 30 De software voorziet niet in een mogelijkheid om snel verschillende overzichten weer te geven over het aantal lopende profielen, controle opdrachten, effect van de profielen enzovoorts. Hiervoor wordt een database in Excel gebruikt. De implementatie laat echter te wensen over waardoor de zoek- en rapportagemogelijkheden ook hier beperkt zijn. - 32 - Profielen valideren set niet betrouwbaar. Het komt echter voor dat de validatie en test set betere waarden voor prestatie-index en SSE hebben dan de training set. Met andere woorden, door het prunen van de boom is overfitting niet aan de orde. Het model kent een prestatie-index van 0,8954. • II: 14,07% van het aantal controles is positief bevonden, dit levert een index van 0,1407 op. De prestatie-index van het model is 0,9119. • KK: 43,62% van het aantal controles is positief bevonden, dit levert een index van 0,4362 op. De prestatie-index van het model is 0,8284. Hier ligt de prestatieindex van de validatie set (=0,6238) dik onder. Ook de SSE’s van de training set ten opzichte van de validatie en test set verschillen significant. Dit model kan daarom niet als betrouwbaar gekwalificeerd worden. • NN: 6,07% van het aantal controles is positief bevonden, dit levert een index van 0,0607 op. De prestatie-index van het model is 0,9567. De resultaten zijn samengevat in tabel 4-4. In bijlage III.5 zijn de classificatietabellen te vinden voor de vier goederencodes. Goederencode AA II KK NN Prestatie-index profiel 0,1495 0,1407 0,4362 0,0607 Tabel 4-4 Prestatie-index model SSE training, (validatie set) validatie en test set 0,8954 (0,9051) 61,00; 43,73; 46,21 0,9119 (0,8935) 54,05; 47.73; 42,08 0,8284 (0,6238) 35,36; 52,37; 47,69 0,9567 (0,9507) 81,92; 82,42; 77,25 Prestatieindex profielen ten opzichte van de modellen Hieruit blijkt dat de modellen een gigantische verbetering zijn ten opzichte van de profielen. Dit betekent echter niet dat men nu volledig zou moeten overstappen op beslisboomanalyses. Er kleeft namelijk een nadeel aan de hoge prestatie-index van de modellen. Dat is het relatief hoge aantal valse negatieven, waarbij aangiften als conform worden aangemerkt door het model terwijl ze in werkelijkheid niet conform zijn. Mocht het model geïmplementeerd worden, dan weet de Douane vooraf dat je nóóit aan de, door hen zelf nagestreefde, 100% compliance voldoet 31 . Daar staat tegenover dat het aantal controles drastisch te verminderen is. In onderstaande tabel is opgenomen hoeveel controles er op basis van de profielen zijn uitgevoerd en hoeveel er moeten worden uitgevoerd op basis van de gegenereerde modellen. Goederencode AA II KK NN #controles op basis van de profielen #controles op basis van het model (%) 983 134 (13,68%) 881 90 (10,24%) 337 155 (45,96%) 3.113 63 (2,00%) Tabel 4-5 Controles op basis van de profielen en modellen Deze getallen spreken voor zich. Aan de hand van de gegenereerde modellen wordt met een fractie van de controles een zeer hoge prestatie-index gehaald. Het is niet aan mij om te beoordelen welke van deze twee uitersten gekozen moet worden. Het geeft wel aan dat er ruimte te over is om de profielen te verbeteren. Het is ook niet zo dat één van beide gekozen moet worden. Er kan een tussenweg worden gevonden. Men zou bijvoorbeeld een andere insteek kunnen nemen, door in plaats van zich te richten op het classificeren van niet conforme aangiften, de focus te leggen op het classificeren van aangiften die wel conform zijn. Dit kan heel eenvoudig door in EM de grafisch weergegeven beslisboom te bekijken. Nu kan men zelf een, arbitraire, keuze maken of een geïdentificeerde groep aangiften wel of niet gecontroleerd dient te worden. Op deze manier kan men het verwachte aantal valse negatieven terugdringen. Dit gaat uiteraard wel ten koste van het aantal uit te voeren controles. 31 Daaraan voldoet de Douane nu, ongetwijfeld, ook niet. Het enige verschil is dat je na een dergelijke analyse weet hoeveel aangiften je ongeveer mist na implementatie van het model. - 33 - Profielen valideren Een voorbeeld van zo’n benadering is min of meer gegeven in de vorige paragraaf. Waarbij per importeur wordt bekeken of deze wel of niet uitgezonderd 32 wordt van controle. In EM kan dit zeer makkelijk door gebruik te maken van de zogenaamde “interactive tree”. Hier wordt deze methode niet gebruikt omdat het om onduidelijk redenen niet functioneerde in EM. Door gebruik te maken van de interactive tree kunnen zelf splits worden voorgesteld. EM berekent vervolgens de prestatie indicatoren. Zo kan zeer snel worden bekeken wat de gevolgen zijn van de gemaakte keuzes. 4.7 Conclusie In dit hoofdstuk is onderzocht of er middels classificatieregels, voortkomend uit een beslisboom, validatie te vinden is voor de bestaande profielen. Waarmee een antwoord is gegeven op subvraag B.2. Hiervoor zijn twee aanpakken gekozen. De data preparatie is voor beide aanpakken grotendeels gelijk. Het aantal missende waarden was beperkt. Wel bleek het nodig enkele kolommen te standaardiseren. Data selectie is voor beide aanpakken wel verschillend. De eerste aanpak zoekt naar geschikte datasets die als input kunnen dienen voor data mining. Na een tijdrovende analyse zijn veertien sets bruikbaar gevonden. Hieraan zijn, voor zover mogelijk, profielen gekoppeld. Het bleek lastig om bij iedere selectie één of meer profielen te vinden. De selecties waarbij wel een vergelijking mogelijk is laten weinig overlap zien tussen de gegenereerde regels en de profielen. De tweede aanpak neemt een Controle Opdracht als basis voor de data selectie. Aan de Controle Opdracht hangen verschillende profielen. De profielen zijn in de loop van het jaar aangepast. Middels een beslisboom is bekeken of de aanpassingen te rechtvaardigen zijn. Dit blijkt deels het geval te zijn. Het gegenereerde model vind een andere split, op aangever in plaats van importeur. Een implementatie van de afgeleidde modellen leidt tot een hogere prestatieindex. Het mes snijdt aan twee kanten; enerzijds zijn er minder controles nodig, anderzijds is de risicoafdekking efficiënter. Nadeel is dat er in totaal minder niet conforme aangiften onderschept worden. Door een combinatie van de profielen en de modellen kan een gulden middenweg gevonden worden. De beschikbaarheid van voldoende data blijkt de grootste beperking voor een gedegen analyse met data mining technieken. Mede hierdoor kan de vraag of data mining tot zelfde resultaten komt als de profielen niet worden beantwoord. In het volgende hoofdstuk wordt bekeken of er technieken zijn die met minder data een model kunnen afleiden. De validatie werd verder bemoeilijkt door het beperkte inzicht in het aantal lopende profielen/Controle Opdrachten. Het volgende hoofdstuk voegt het element domeinkennis toe aan het proces. Door het gebruik van domeinkennis kunnen er mogelijk betere selecties gemaakt worden. Ook kunnen de bevindingen van een model geïnterpreteerd worden zodat nieuwe inzichten verkregen worden. Dit wordt gedaan in de vorm van een casestudy. 32 Helemaal uitzonderen is geen goed idee, beter is om op die importeurs (of andere variabele) een steekproefsgewijze controle te houden. - 34 - Casestudy druiven Hoofdstuk 5 Casestudy druiven 5.1 Inleiding In het vorige hoofdstuk zijn bestaande profielen vergeleken met de regels voortkomend uit een beslisboom analyse. In dat hoofdstuk is beperkt gebruik gemaakt van domeinkennis. Dit hoofdstuk maakt expliciet gebruik van domeinkennis. Dit wordt gedaan in de vorm van een casestudy. Er wordt een bepaald risico, waar een Controle Opdracht uit voort is gekomen, als basis genomen. Gesprekken met een domeinexpert wijzen uit welke dataselectie gemaakt moet worden. In paragraaf 5.2 wordt het probleemgebied besproken. Paragraaf 5.3 behandelt het analyseproces. Er worden verschillende technieken gebruikt om op basis van de trainingsvariabelen een classificatiemodel te construeren. De analyses behorend bij deze technieken worden stuk voor stuk beschreven. Afsluitend wordt in de paragraaf een vergelijking gemaakt van de modellen. De resultaten van paragraaf 5.3 worden in 5.4 teruggekoppeld aan de domeinexpert. Paragraaf 5.5 sluit het hoofdstuk af met een conclusie. 5.2 Probleemgebied casestudy Het risicogebied omvat fraude met druivenaangiften. Onderstaande informatie is afkomstig van een Douanemedewerker. Deze Douanemedewerker is lid van de Risicokennisgroep Landbouw, kerngroep Groenten en Fruit. Hij is in deze functie onder andere belast met het risicogebied omtrent druiven. Een interview met de Douanemedewerker levert de benodigde domeinkennis welke zal worden gebruikt om de analyse te optimaliseren. Druiven zijn onderverdeeld in diverse soorten. De meest voorkomende zijn druiven met pit en druiven zonder pit. Andere, minder voorkomende, soorten zijn de empereur druiven en andere druiven, waaronder ook de wijndruiven vallen. In tabel 5-1 worden de verschillende vormen opgesomd (gecensureerd). Goederencode OO EE FF PP Conventioneel Douanerecht Variërend van 8% tot 17,6% + €9,6/100kg/net Idem Van 1 jan. t/m 14 jul.: 14,4% Van 15 jul. t/m 31okt: 17,6% Van 1 nov. t/m 31 dec.: 14,4% Tabel 5-1 soorten druiven De waardebepaling bij de invoer van fruit is minder eenvoudig dan bij andere producten. Dit komt omdat het een bederfelijk goed is en de invoer (i.e. de oogst) snel doorverkocht moet worden. De prijs is dus sterk afhankelijk van het aanbod en de vraag. Daarom is de waarde op het moment van invoer vaak niet bekend. Er zijn verschillende manieren om toch een waarde op te geven. Ten eerste kan er een schatting worden opgegeven. Deze wordt dan achteraf gecorrigeerd. Dit wordt in DSI weergegeven middels de code “O1” (Onvolledige aangifte) in de kolom aangifteprocedure. Ten tweede kan er de forfaitaire methode gebruikt worden. Hierbij stelt de Commissie van de Europese Gemeenschappen dagelijks de forfaitaire invoerwaarden vast per 100kg netto [NDFR, 2006]. Dit wordt geregistreerd door de code “E02” op de invoeraangifte. Ten derde kan de - 35 - Casestudy druiven eenheidswaarde gebruikt worden. Per periode van 14 dagen wordt door de Commissie van de Europese Gemeenschappen voor bepaalde producten een Eenheidswaarde vastgesteld. Die Eenheidswaarde wordt bepaald door medewerking van een aantal importeurs in de lidstaten. Zij verstrekken dagelijks of wekelijks de bruto verkoopprijzen van de importproducten, waarna een gemiddelde de eenheidswaarde voor dat product wordt vastgesteld en als verordening wordt gepubliceerd [Janssen, 2006]. Dit wordt geregistreerd door de code “E01” op de invoeraangifte. Een “S” bij de aangifteprocedure betekent een standaardaangifte, hier is de waarde bekend op moment van aangifte. Helaas zijn de codes “E01” en “E02” niet terug te vinden in de beschikbare dataset. In de analyse kan hier dan ook geen onderscheid in gemaakt worden. Aan de verschillende manieren van waardebepaling zitten bepaalde risico’s vast. Door creatief om te gaan met de manier van waardebepaling kan een importeur zich verzekeren van minimale heffingen. Door het gebrek aan registratie van de wijze van waardebepaling in de beschikbare dataset kunnen deze risico’s, zoals beschreven in het gespreksverslag, niet worden onderzocht. Andere risico’s zijn oorsprongfraude en fraude met goederencodes. De oorsprongfraude betreft druiven uit Namibië. Mogelijk komen deze uit het naastgelegen Zuid-Afrika. Druiven uit Namibië worden minder zwaar belast dan druiven uit Zuid-Afrika. Fraude met goederencodes heeft betrekking op verse tafeldruiven uit Turkije. Door deze aan te geven onder goederencode PP, wijndruiven, ontloopt men invoerrechten. 5.3 Analyse 5.3.1 Data preparatie De analyse beslaat dezelfde stappen als beschreven in hoofdstuk 4, er wordt ook met dezelfde data gewerkt. Allereerst data reductie; aan de hand van het gesprek met de Douanemedewerker wordt een selectie gemaakt van de invoeraangiften die interessant zijn voor verdere analyse. De kennis van de domeinexpert is essentieel voor de selectie omdat deze precies weet waar de risico’s zitten. Zoals in de beschrijving van het probleemgebied is aangegeven is er een risico dat er een verkeerde goederencode wordt opgegeven, of, om heffingen te omzeilen, een verkeerd land van oorsprong. Alle invoeraangiften van 2004 die één van de in paragraaf 5.2 genoemde goederencodes bevat worden geselecteerd. In tabel 5-2 zijn de kengetallen van de geselecteerde data weergegeven. In bijlage IV.1 is een uitgebreidere tabel te vinden. Totaal Goederencode Aangiften Controles Positieve uitslag OO 2 2 0 EE 6.244 5.923 976 FF 4.063 3.994 562 PP 3 1 1 10.312 9.920 1.539 Tabel 5-2 Kengetallen druiven De kolommen die geselecteerd worden voor analyse zijn dezelfde zoals gebruikt in het vorige hoofdstuk en zoals weergegeven in tabel 2-4. Voor analyse wordt net als in hoofdstuk 4 de data opgesplitst in een training, validatie en test set, met de gewichten 40%, 30%, 30% respectievelijk. Ten tweede data cleaning. Middels een frequentietabel wordt bekeken of er missende of incorrecte data is. Alleen bij land van bestemming komen missende waarden voor. Deze worden vervangen door “ONB”. De overige variabelen kennen al een notatie voor een missende waarde, deze zijn aangehouden. Daarnaast kennen de landen van oorsprong, bestemming en herkomst letter- en cijfercodes. Deze zijn in hoofdstuk 4 al aangepast en worden hier wederom gebruikt. - 36 - Casestudy druiven Als laatste data integratie en transformatie. Deze stap is vrijwel gelijk aan de preparatie in hoofdstuk 4. De tabel met eindaangiften en oorspronkelijke aangiften worden gekoppeld aan de hand van de UniekeID. De waarden van de velden zijn al van een dergelijke kwaliteit dat daar geen verdere transformatie nodig is. 5.3.2 Beslisboom Er worden vier beslisbomen afgeleid. Twee op basis van entropie als splitsingscriterium en twee op basis van de Gini-index. De beslisbomen hebben een maximale diepte van zes. Tevens moeten er ten minste vijf waarnemingen zijn in een volgend blad om een split te mogen maken. Per splitsingcriterium zijn er twee beslisbomen gegenereerd. Één met het maximale aantal takken per split op twee en één met het maximale aantal takken per split op vier. Dit is gedaan omdat bijna alle variabelen categorisch zijn en veel verschillende waarden hebben. Mocht er een ongelimiteerd aantal takken geoorloofd zijn, dan wordt er door SAS Enterprise Miner een boom gecreëerd met een diepte van één. De bladen hebben vervolgens niet genoeg trainingsvariabelen meer om een verdere split te rechtvaardigen. Per beslisboom worden in onderstaande tabel (5-3) enkele statistieken weergegeven. De classificatietabellen zijn opgenomen in bijlage IV.2. Beslisboom 1 Beslisboom 2 Beslisboom 3 Beslisboom 4 Splitsingscriterium Entropie Entropie Gini-index Gini-index Max. aantal takken 2 4 2 4 SSE training set 692,82 698,20 662,61 670,73 SSE validatie set 560,86 550,16 536,87 536,99 SSE test set 575,22 577,10 552,74 559,38 Prestatie-index (training) 0,9004 0,9002 0,8984 0,8971 Prestatie-index (validatie) 0,8938 0,8938 0,8955 0,8931 McFadden σn 35,78% 25,63% 21,00% 22,38% Valse negatieven (training) 337 372 362 370 Werkelijk negatieven (training) 278 243 253 245 Tabel 5-3 Statistieken per genereerde beslisboom Per statistiek is de beste waarde vetgedrukt. De beste beslisboom uiteindelijk is degene die het minste aantal valse negatieven levert. Het doel is immers om zoveel mogelijk niet-conforme aangiften te onderscheppen en niet om een zo effectief mogelijk model te construeren. Beslisboom 3 heeft de laagste SSE waarden, maar een relatief hoog aantal valse negatieven. Daarom is dit niet het beste model. Dat is het model voortkomend uit beslisboom 1. Hiervan liggen de SSE’s weliswaar een stuk hoger, het model classificeert beter. Dit is ook weergegeven in de relatief hoge waarde van σn. De verhouding tussen het aantal valse negatieven en werkelijk negatieven is opvallend. De voorspelling van het model leidt consequent tot meer valse negatieven dan werkelijk negatieven. Dit houdt in dat bij implementatie van het model een soortgelijke verhouding te verwachten is. De waarden van de SSE’s zijn bij de beslisbomen op basis van de Gini-index en die op basis van de entropie vrijwel aan elkaar gelijk onafhankelijk van het maximale aantal takken. Tussen de waarden van de bomen op basis van de Gini-index en de entropie zit wel een significant verschil. Ter vergelijking is ook een boom gegenereerd waarbij het maximale aantal takken op 50 is gezet. Het model heeft de volgende waarde voor de SSE’s: 660,39 (training), 541,89 (validatie), 570,50 (test). Dit zijn in relatie tot de bovenstaande bomen vergelijkbare waarden. De prestatie qua classificatie ligt ergens midden in de prestatie van de andere modellen. Deze boom wordt zeer uitgebreid en een omzetting in regels levert daarom veel regels op. Dit is niet bevorderlijk voor het inzicht op het gehele risicogebied. Daarom wordt het gebruik van een dergelijke boom niet geadviseerd. - 37 - Casestudy druiven Wanneer er naar de gegenereerde beslisbomen zelf wordt gekeken valt op dat er in ieder model primair wordt gesplitst op importeur. De daarop volgende split is ook altijd dezelfde namelijk op aangiftepunt. Dit is enigszins verassend omdat er in de profielen (zie paragraaf 4.4) niet op geselecteerd wordt. Een selectie op importeur is wel begrijpelijk (hier zit één persoon of bedrijf achter), de selectie op aangiftepunt ligt wat minder voor de hand. Dit wordt voorgelegd aan de domeinexpert, de Douanemedewerker, om te kijken of er een verklaring voor kan zijn. Andere variabelen waarop gesplitst wordt zijn aangever, bruto gewicht, land van oorsprong, aangifteprocedure, land van verzending en netto gewicht. Vooral de aangever ligt niet erg voor de hand omdat deze niet aansprakelijk is voor de aangifte (zie paragraaf 4.4). Op aangeven van de Douanemedewerker worden de aangiftepunten omgezet naar land, zee of lucht 33 . Mogelijk geeft dit meer informatie dan de aangiftepunten afzonderlijk omdat er verondersteld wordt dat de manier van vervoer relatie heeft tot het land van oorsprong. Dit in verband met de verschillende oogstperioden. De toevoeging van deze variabele levert echter minder informatie dan de aangiftepunten afzonderlijk. Voor verdere analyse wordt deze omzetting dan ook niet meegenomen. Wordt model 1 toegepast dan worden er een kleine 800 controles in plaats van 9.920 uitgevoerd. Ook hier geldt weer het nadeel van de valse negatieven. In paragraaf 5.4 worden de resultaten van deze analyse teruggekoppeld aan de domeinexpert. Het model voortkomend uit beslisboom 1 is in vergelijking met de lopende profielen erg uitgebreid. Dit model kan ingekort worden zonder dat er aan kwaliteit wordt ingeboet. Het aantal valse negatieven is zelfs iets lager (335). De SSE waarden voor de verschillende sets zijn training: 739,96; validatie: 581,71 en test: 595,12. Dit model kent een diepte van twee, waarbij primair wordt geselecteerd op importeur en daarna op aangiftepunt. Hiervoor zijn 883 controles vereist (8,9% van het aantal controles op basis van de profielen), met een prestatie-index van 0,8936 en een σn-waarde van 0,3664. 5.3.3 Neuraal netwerk De neurale netwerken worden geconstrueerd op basis van de multilayer perceptron (MLP) architectuur. Directe verbindingen worden niet toegestaan, alle modellen hebben één verborgen laag en het aantal hidden units is variabel. Per neuraal netwerk worden verschillende statistieken weergegeven om de netwerken met elkaar te kunnen vergelijken. Zie hiervoor tabel 5-4. De classificatietabellen zijn opgenomen in bijlage IV.3. Neuraal Neuraal Neuraal Neuraal Netwerk 1 Netwerk 2 Netwerk 3 Netwerk 4 Hidden units 10 15 20 25 SSE training set 641,55 651,32 650,44 657,54 SSE validatie set 527,52 542,34 532,85 537,90 SSE test set 540,01 554,84 538,70 543,88 Prestatie-index (training) 0,8974 0,8959 0,8981 0,8986 Prestatie-index (validatie) 0,8915 0,8865 0,8918 0,8885 McFadden σn 0,2477 0,3723 0,3230 0,3411 Valse negatieven (training) 365 333 347 342 Werkelijk negatieven (training) 250 282 268 273 Tabel 5-4 Statistieken per gegenereerd neuraal netwerk Er is niet één neuraal netwerk als dat er duidelijk als beste uitspringt. Het neurale net met 10 hidden units heeft de beste waarden voor de SSE. De overige netwerken 33 Er kan niet gegarandeerd worden dat deze omzetting correct is. In de uitgebreide dataset uit 2004 is een kolom opgenomen met vervoerswijze, deze is helaas zeer incompleet en daardoor niet geschikt voor analyse. De omzetting is nu gebeurd door te kijken naar de geografische locatie van de aangiftepunten. Dit biedt echter geen garantie voor de vervoerswijze omdat bij de aangiftepunten niet uitsluitend één type van vervoeren wordt behandeld. - 38 - Casestudy druiven kennen ongeveer vergelijkbare waarden. Ook de prestatie-indices zijn voor ieder netwerk vrijwel gelijk. De netwerken met 10 en 20 hidden units presteren het beste, de andere twee zitten er zeer dicht bij in de buurt. De McFadden σn is het hoogst bij het neurale netwerk met 15 hidden units. De doorslaggevende factor is het aantal valse negatieven. Deze is het laagst bij neuraal netwerk 2 (15 hidden units), wat terug te zien is in de relatief hoge waarde van σn. Ook hier is hetzelfde beeld te zien met betrekking tot de verhouding tussen het aantal valse en werkelijk negatieven. Het aantal valse negatieven is consequent hoger dan het aantal werkelijk negatieven. Bij de beslisbomen kan hier flexibel mee omgegaan worden. Het neurale netwerk biedt deze mogelijkheid niet, men zit vast aan het afgeleide model. Zoals in hoofdstuk 3 is vermeld is het nadeel van neurale netwerken dat ze een black box benadering geven. Interpretatie van de factoren die de meeste invloed hebben op de uitkomst is daardoor lastig. Dat maakt het moeilijk om dit soort modellen te optimaliseren. Gezien de kleine verschillen in de waarden van de SSE en de prestatieindex is het onwaarschijnlijk dat er significant betere modellen te construeren zijn op basis van het MLP. 5.3.4 Logistische regressie Er wordt een logistisch regressie model geconstrueerd op basis van de geselecteerde data. Omdat veel variabelen categorisch van aard zijn is verdere preparatie noodzakelijk. Deze variabelen worden omgezet in dummyvariabelen 34 . Hierbij wordt per variabele de waarde met de grootste frequentie uitgezonderd (alle dummy’s voor die variabele hebben dan de waarde “0”). De frequentietabellen zijn te vinden in bijlage IV.4. Per categorische variabele wordt hieronder beschreven hoe de omzetting in dummy’s is gedaan. • Aangiftepunt: voor alle categorische variabelen geldt dat sommige waarden maar een klein aantal keer voorkomen. Deze worden ingedeeld in een dummykolom “other”. Deze keuze is ietwat arbitrair, om een zo goed mogelijke keuze te maken worden de significante splits bij de beslisboom uit 5.3.2 in ogenschouw genomen. Zo komt aangiftepunt “129” voor in die boom. Deze wordt dan ook nog meegenomen als aparte variabele. Alle waarden die meer dan 0,5% voorkomen komen in een aparte dummykolom. • Aangever: alle waarden die meer dan 0.9% voorkomen krijgen een dummykolom, de overige komen in de dummykolom “AG_OTHER”. • Aangifteprocedure: in de beslisboom wordt een onderscheidt gemaakt tussen de waarden “O1” en “S”. De dummykolom krijgt de waarde “1” wanneer de waarde “S” is en “0” wanneer de waarde “O1” is. De waarde “V1” komt maar 10 keer voor, deze wordt ingedeeld bij de meest voorkomende waarde, “O1”. • Aangiftesymbool: deze variabele wordt uitgesloten van analyse omdat deze in alle gevallen, op één na, dezelfde waarde heeft. • Geadresseerde/importeur: De importeurs die meer dan 250 keer voorkomen krijgen een eigen kolom. De andere komen in de kolom “IM_OTHER”. • Land van verzending: alle numerieke codes die niet omgezet konden worden naar lettercodes krijgen een dummykolom. Verder krijgen alle landen die meer dan 1% voorkomen een eigen kolom. De rest wordt ingedeeld bij “LV_OTHER”. • Land van bestemming: zie land van verzending. De missende waarden worden in een aparte dummykolom gestopt. De restgroep is ingedeeld bij de hoofdgroep, “NL”. • Leveringscondities: de waarden die meer dan 1% voorkomen krijgen een eigen dummykolom. De onbekende waarden en de overige worden in “LC_OTHER” geplaatst. 34 De variabelen zijn nominaal en niet ordinaal. Bij ordinale variabelen zou ervoor gekozen kunnen worden om deze niet in dummy’s om te zetten, om zo het aantal variabelen tot een minimum te beperken. - 39 - Casestudy druiven • Goederencode: de goederencodes die maar een paar keer voorkomen worden ingedeeld bij de grootste groep. Dit leidt tot één dummykolom waarbij de waarde een “1” is als de goederencode FF0 is en “0” als de waarde anders is. • Land van oorsprong: zie land van verzending. • Gevraagde regeling: twee regelingen zijn hier onderscheiden, “040” en “042”. De overigen worden bij “040” ingedeeld. De dummy is “1” wanneer de regeling “040” is en “0” anderzijds. • Voorafgaande regeling: ook hier één dummykolom. Bij een regeling “071” “1”, de overige worden bij onbekend ingedeeld, dus “0” • Vrijstellingsregeling: deze wordt uitgesloten voor analyse omdat de waarden bijna allemaal gelijk zijn. • Preferentie: de waarde “060” wordt ingedeeld bij “040”. De andere waarden worden alle dummy’s. Dit resulteert in een totaal van 80 onafhankelijke variabelen. Wat vrij veel is. Vaak worden logistische regressie modellen gebruikt om een bepaald probleemgebied te beschrijven. Bijvoorbeeld, een aangifte met variabele X1 is 30% vaker niet conform dan een aangifte met variabele X2 35 . In dit onderzoek zijn dergelijke inzichten niet relevant. Hier wordt dan ook geen aandacht aan besteed. Wel interessant is om te bekijken hoe goed een logistisch regressie model classificeert. Voor dit doel wordt stepwise regression aangeraden, meer specifiek backward elimination [Menard, 2002]. Hierbij wordt eerst een model met alle variabelen afgeleid, waarna per stap een niet significante variabele wordt geëlimineerd. In deze analyse is een ander onderscheid gemaakt in verschillende sets. Voor de training is 75% gereserveerd, 25% wordt gebruikt als test set. Allereerst wordt bekeken of het model met alle variabelen tot een betere voorspelling leidt dan het een model met de intercept alleen. Oftewel of het afgeleide model significant is. Dit is af te leiden aan de hand van de waarde van de χ2 (Chi-square), deze ligt zeer hoog -2255 met 37 vrijheidsgraden, de significantie is nul- dus het model is significant. Het criterium waarmee wordt bepaald of een variabele niet significant is, is de likelihood ratio test [SPSS, 2006]. De variabele die de minste significantie heeft wordt uit het totale model verwijderd, waarna het proces zich herhaalt. Bij de selectie van het beste model wordt gekeken naar de verschillende classificatietabellen per stap. De laatste stappen laten dezelfde classificatietabellen zien, daarom wordt nu nog geen model geselecteerd. Vervolgens wordt de cutoff waarde aangepast. Standaard staat deze op 0,5. Er wordt vanuit gegaan dat de training set een even groot aantal “nullen” en “enen” bevat. De hier gebruikte dataset heeft 85% nullen en 15% enen, dus wordt de cutoff waarde gesteld op 0,15. Dit leidt tot een classificatie die stukken beter is. De beste classificatie is te zien bij stap 42, hiervan is de output van SPSS opgenomen in bijlage IV.5. Dit is tevens het afgeleide model. De betere classificatie, lees: reductie van het aantal valse negatieven, gaat ten koste van het aantal controles (en dus de prestatie-index). De classificatietabellen zijn opgenomen in bijlage IV.6. Tabel 5.5 geeft de statistieken van het model met de twee cutoff waarden. Cutoff = 0,50 Cutoff = 0,15 training test training test Prestatie-index 0,8975 0,8999 0,7570 0,7386 McFadden σn 0,2784 0,2544 0,4544 0,4201 Valse negatieven 679 220 243 84 Werkelijk negatieven 83 29 925 287 Tabel 5-5 Statistieken per model Het model is direct uit bijlage IV.5 uit te maken en komt er als volgt uit te zien Logit ( y ) = −2,051 + 1,471( AP _ 164) + .... − 1,627( LO _ EG ) 35 De waarde van een coëfficiënt is niet direct te interpreteren, het teken wel - 40 - Casestudy druiven Bijvoorbeeld een aangifte met de volgende kenmerken: aangiftepunt = “171”; aangever = “0394738”; aangifteprocedure = “S”; importeur = “80096706901”; leveringsconditie = “DDP”; gevraagde regeling = “042”; land van verzending = “AR”; land van bestemming = “NL”; land van oorsprong = “BR” geeft de waarde Logit ( y ) = −2,051 + 1,870(1) − 1,007(1) − 1,929(1) + 0,909(1) + 2,345(1) − 1,881(1) − 0,330(1) + 0,735(1) − 2,020(1) = −3.359 Deze waarde moet worden omgezet in een kans. De kans dat een aangifte met bovenstaande kenmerken niet conform is, is e-3,359/(1+e-3,359) = 0,0336. Een grote kans dus dat deze aangifte niet conform is. 5.3.5 Vergelijking modellen Vier manieren om aangiften te classificeren hebben nu de revue gepasseerd; selectie op basis van profielen, beslisbomen, neurale netwerken en logistische regressie modellen. In tabel 5-6 wordt weergegeven hoeveel controles iedere techniek vereist binnen het beschreven probleemgebied. Druiven #controles Profielen 9.920 Beslisboom 797 (8,0%) Neuraal netwerk 866 (8,7%) Logistische regressie 1.539(15,5%) Tabel 5-6 Aantal controles per techniek Direct valt op dat de modellen maar een fractie van de controles voorstellen dan wanneer er gebruik wordt gemaakt van de profielen. Zoals al eerder is gememoreerd is het nadeel hiervan het aantal valse negatieven. In tabel 5-7 worden per techniek de beste modellen en hun kenmerken opgesomd. Prestatie-index McFadden σn Valse negatieven Werkelijk negatieven Profielen beslisboom Neuraal netwerk Logistische regressie 0,1551 0,9004 0,8959 0,7570 -0,3578 0,3723 0,4544 0 36 337 333 243 1.539 278 282 925 Tabel 5-7 Vergelijking technieken 37 Het model afkomstig uit de logistische regressie techniek heeft de beste waarden. De McFadden σn is het hoogst, wat te verklaren is door de relatief gunstige verhouding tussen het aantal valse en werkelijk negatieven. De prestatie-index daarentegen ligt een stuk lager dan bij beslisbomen en neurale netwerken. Er zijn echter meer zaken om rekening mee te houden. Bij een selectie van het beste model kan niet alleen rekening gehouden worden met de goodness-of-fit statistieken, ook moet het model voldoen aan de in paragraaf 3.4 genoemde kenmerken. Dit zijn: incompatibiliteit met bestaande regels, beperkte interpreteerbaarheid en kennisrepresentatie op het juiste detailniveau. Qua compatibiliteit voldoen de 36 Het aantal van nul valse negatieven betekent niet dat de profielen hier het best presteren. In dit geval zijn er geen valse negatieven mogelijk omdat de profielen tegelijkertijd de datasets vertegenwoordigen. Van de niet gecontroleerde aangiften is niet met zekerheid te zeggen of deze wel of niet conform zijn. 37 Het aantal valse en werkelijk negatieven kan niet zonder meer met elkaar vergeleken worden omdat deze getallen voortkomen uit verschillende subsets van het totaal (9.920). De profielen bevatten de totale set, de beslisbomen en neurale netwerken 40% daarvan en logistische regressie 75%. De verhoudingen zijn wel vergelijkbaar, deze worden weergegeven in de prestatie-index en de McFadden σn. - 41 - Casestudy druiven beslisbomen perfect. Deze zijn immers direct om te zetten in regels (profielen). Neurale netwerken en logistische regressie leveren een model op dat gewichten toekent aan de waarden van de verschillende variabelen. Het is echter (nog) niet mogelijk om dergelijke modellen te implementeren in de selectiemodule van DSI (zie 2.3). Het is mogelijk om neurale netwerken om te zetten in beslisregels. Echter omdat de beslisboomanalyse in de classificatie vergelijkbaar presteert en een dergelijke analyse vele malen flexibeler is, is het nut hiervan beperkt. De interpreteerbaarheid is bij beslisbomen ook goed. De gegenereerde regels kunnen worden omgezet naar een vorm die voor iedereen begrijpbaar is. Met de interpreteerbaarheid van de overige twee technieken is het minder gesteld. Waarbij neurale netwerken door de black box benadering vrijwel niet te interpreteren zijn. Logistische regressie modellen zijn alleen leesbaar voor iemand met voldoende statistische kennis. Deze kennis is typisch aanwezig bij de analisten en niet bij de domeinexperts en het management. Ook op het gebied van het detailniveau komen de beslisbomen het best voor de dag. Het detailniveau van de beslisboom is na omzetting gelijk aan de profielen. Neurale netwerken zijn om te zetten in regels waardoor het detailniveau ook gelijk is. Het model direct voortkomend uit de techniek classificeert de aangiften in conform en niet conform, het detailniveau dat vereist is. Datzelfde geldt voor de logistische regressie modellen. De in de vorige alinea’s beschreven vereisten voor een goed model zijn samengevat in onderstaande tabel (5-8). Beslisbomen Neurale netwerken Logistische regressie Compatibiliteit Zeer goed Slecht Slecht Interpreteerbaarheid Zeer goed Slecht Voldoende Detailniveau Goed Goed Goed Tabel 5-8 Geschiktheid per model voor combinatie met domeinkennis Uit de tabel kan geconcludeerd worden dat een analyse op basis van beslisbomen het beste scoort. Gecombineerd met het feit dat de classificatie in beginsel goed, i.e. op één na beste, en zeer flexibel is worden beslisbomen aangewezen als de beste techniek om aangiften te classificeren. Logistische regressie classificeert weliswaar goed, maar is in deze vorm niet te implementeren en valt dus sowieso af. Wellicht wordt het in de toekomst wel mogelijk een dergelijk model te gebruiken. In tabel 5-8 kan tevens een kolom opgenomen worden waar de regels afgeleid uit neurale netwerken worden afgezet tegen de drie criteria. De kennisrepresentatie (beslisregels) is hetzelfde als bij beslisbomen, de waardering is dus ook gelijk. Op basis hiervan is er geen belemmering om deze techniek te gebruiken. Kijkend naar de beperkte middelen om de af te leiden regels te beïnvloeden en de extra stap die benodigd is voor de omzetting, in combinatie met de classificatie die vergelijkbaar is met beslisbomen, wordt deze techniek niet boven beslisbomen geprefereerd. Toch zijn regels, geëxtraheerd uit neurale netwerken, wel iets om wellicht in de toekomst te bekijken. Een studie van Gim en Whalen [1999] toont aan dat deze techniek tot goede resultaten kan leiden bij het voorspellen van faillisementen. In dit onderzoek worden de domeinexperts nauw betrokken bij de verbetering van de regels. Gegeven het feit dat alle bestudeerde technieken een hoog aantal valse negatieven 38 kennen, zullen de modellen niet één op één geïmplementeerd worden. Een nauwe samenwerking met de domeinexperts is ook na analyse van groot belang. Bij de terugkoppeling worden alleen de resultaten van de beslisboomanalyse verstrekt aan de domeinexpert. 38 Blijkbaar is het niet mogelijk om een significante verbetering te krijgen in het aantal valse negatieven. De data is van dien aard dat met de bestudeerde technieken de beste classificatie is bereikt. - 42 - Casestudy druiven 5.4 Terugkoppeling Zoals in de vorige paragraaf is beargumenteerd worden bij de terugkoppeling alleen de resultaten van de beslisboomanalyse bekeken. De geconstrueerde boom is uitgeprint tezamen met de regels die daar uit volgen. Op basis hiervan kan een middenweg worden gevonden tussen het model en de controles op basis van de profielen. Uit de onderzoeken komt naar voren dat er weliswaar een model afgeleid kan worden dat goed classificeert, maar dat dit ten koste gaat van het totale aantal niet conforme aangiften dat onderschept wordt. We hebben te maken met twee uitersten; enerzijds een selectiealgoritme waarbij met een relatief klein aantal controles een groot percentage (van de controles) niet conforme aangiften wordt onderschept (1) en anderzijds een selectiealgoritme waarbij met relatief veel controles een laag percentage niet conforme aangiften wordt onderschept (2). Waarbij in absolute waarden het laatste selectiealgoritme wel de meeste niet conforme aangiften identificeert Selectiealgoritme (1) is een goede keuze wanneer er weinig controlecapaciteit beschikbaar is en er zo effectief mogelijk gecontroleerd moet worden. Wanneer het tweede algoritme gekozen wordt dan is het bestrijden van non compliance het hoofddoel. Het is aan de domeinexpert een afweging te maken tussen deze tegenstrijdige belangen. De twee te onderzoeken risico’s, oorsprongfraude en indelingsfraude, worden niet direct door het model onderscheiden. Dit betekent niet dat de risico’s er niet zijn. Wel geeft het aan dat er andere, belangrijkere, factoren zijn die bepalen of een aangifte conform is of niet. Land van oorsprong komt voor als splitsingscriteria, al is dan reeds een groot deel van de data ingedeeld in andere groepen. Als risicovolle landen komen Turkije, Zuid-Afrika en 910 tevoorschijn. Dit zijn precies de landen die als risicovol geïdentificeerd zijn 39 . De goederencodes (indelingsfraude) komen niet voor in de beslisbomen. Dit was op voorhand ook niet te verwachten omdat de goederencodes OO en PP maar een enkele keer voorkomen en de overige twee weliswaar veel voorkomen maar een vergelijkbaar niet conform percentage hebben. Het risico betreffende de waardebepaling komt enigszins naar voren. De laatste split is op aangifteprocedure. Hier worden, binnen de overgebleven groep, aangiften die zijn ingediend met een onvolledige waardebepaling gescheiden van de aangiften met een standaard waardebepaling. De laatste groep is altijd conform terwijl in de eerste groep het merendeel niet conform is. Om het risico dat voortkomt uit de waardebepaling enigszins inzichtelijk te maken is er een overzicht gemaakt van het aantal aangiften per dag en de hoeveelheid conforme en niet-conforme aangiften. Hieraan zijn de toen geldende eenheidsprijzen gekoppeld om te bekijken of er opvallende schommelingen in de tabel te zien zijn. Op de overgangsgebieden van de eenheidsprijzen was dit niet het geval. Wel was er in de periode dat er geen invoerrechten geheven worden opeens een stijging te zien in het aantal niet conforme aangiften. Beide domeinexperts wisten hier niet direct een verklaring voor. Het is mogelijk dat de aangiften door verschillende personen gecontroleerd worden die er een andere manier van registreren op na houden. Dit leidt tot onbetrouwbare data en is iets dat in de toekomst veranderd (lees gestandaardiseerd) moet worden. Als tweede is de oorsprongsfraude teruggekoppeld aan de experts. Hier valt op dat er een land van oorsprong wordt opgegeven met de cijfercode 910. Deze code kan niet aan een land worden toegeschreven. Ook de domeinexperts hadden geen idee welk geografisch gebied er schuil moet gaan achter deze cijfercode. Wel zijn er 1.566 (15,8% van het totaal!) aangiften ingediend met dit land van oorsprong. Verder kwam naar voren dat er een importeur was waarvan dik 90% van de ingediende, gecontroleerde aangiften niet conform bevonden is. Voor de Douanemedewerker is dit reden om de aangiften van die importeur nog eens nader te bekijken. Het blijkt dat de niet-conformiteit bij het merendeel van de aangiften wordt 39 Met uitzondering van 910. Het is niet duidelijk voor welk land deze code staat, zie 4.2.1 - 43 - Casestudy druiven veroorzaakt door een foute registratie. Hierbij is een aangifte met een onvolledige waardebepaling als niet conform aangemerkt, terwijl dit niet geoorloofd is 40 . Zoals in subparagraaf 5.3.2 is gemeld is de tweede split altijd op aangiftepunt. Voor de Douanemedewerker kwam dit als een verassing. Hij kon geen verklaring bedenken voor het feit dat er bij het ene aangiftepunt meer niet conforme aangiften werden ingediend dan bij het andere. Aan de hand van de beslisboom kan nu bepaald worden welke, in de analyse geïdentificeerde, groepen wel of niet aan een controle onderworpen moeten worden. Om de flexibiliteit, en het inzicht, te vergroten is extra informatie uit de dataselectie onttrokken. Door een tabel te maken waarbij iedere waarde van iedere variabele wordt uitgezet tegen het aantal conform en niet conform bevonden aangiften, kunnen er ook andere groepen opgesteld worden. Vanwege het feit dat de data uit 2004 afkomstig is, en dus al is verouderd, is de laatste stap niet geconcretiseerd. Hier speelt ook mee dat het gegenereerde model niet te testen is op data uit 2005 en 2006 omdat deze niet beschikbaar is 41 . Uit de gesprekken met de domeinexperts blijkt dat men vooral geïnteresseerd is in de identificatie van risicovolle groepen. Hiervan wordt dan per aangifte bekeken wat de bevindingen van de controleur zijn geweest. Om op die manier een risico te ontdekken. Dergelijke informatie kan ook verkregen worden louter door het genereren van frequentietabellen, en dit valt niet onder data mining. Begrijpelijk is het echter wel omdat de kwaliteit van de data zodanig is dat je er niet zomaar vanuit kunt gaan dat de opgegeven waarden correct zijn. Zoals drie alinea’s terug reeds is bevestigd. Een andere reden dat men de afgeleide regels niet direct zal implementeren heeft te maken met een tweetal zaken. Ten eerste zijn de afgeleide regels niet altijd intuïtief, waardoor ze minder snel geaccepteerd zullen worden. Hierbij komt, ten tweede, dat men het data minen niet begrijpt. De huidige data mining groep probeert dit door voorlichting weg te nemen. Echte acceptatie zal pas komen wanneer er concrete resultaten worden geboekt. Een groot voordeel van een dergelijke analyse is de snelheid waarmee het afgerond kan worden. De data preparatie, zijnde het probleemgebied en eventuele data transformatie, kost de meeste tijd. Wanneer de data in de juiste vorm gegoten is, is het genereren van een model een kwestie van minuten. De interpretatie en implementatie kunnen afhankelijk van de case veel of weinig tijd in beslag nemen. Waarbij de implementatie eigenlijk alleen het overtypen van de afgeleide regels behelst. Samenvattend kost een analyse met behulp van data mining technieken enkele dagen, waar analyses voorheen wel weken in beslag konden nemen. 5.5 Conclusie In dit hoofdstuk is een analyse gedaan op een bepaald probleemgebied. Dit probleemgebied betreft invoer van verse druiven. Aan de hand van een gesprek met de domeinexpert is een selectie op de alle invoeraangiften uit 2004 gemaakt. Deze selectie is geanalyseerd door gebruik te maken van verschillende technieken, te weten beslisbomen, neurale netwerken en logistische regressie modellen. Uit de analyse blijkt dat met logistische regressie weliswaar de beste classificatie bereikt wordt maar dat het model niet te implementeren is. Beslisbomen classificeren ongeveer gelijkwaardig aan neurale netwerken. Beide zijn om te zetten in regels, maar vanwege de grote flexibiliteit van beslisbomen zijn deze het meest geschikt voor gebruik binnen de Douane (B.3). De resultaten van de analyse zijn teruggekoppeld aan de domeinexperts. Hierbij kwam naar voren dat de vooraf geïdentificeerde risico’s niet direct naar voren kwamen in de analyse. Als belangrijkste factor werd de importeur geïdentificeerd. Dit leidde ertoe dat een importeur, waarvan ruim 90% van de gecontroleerde aangiften niet conform 40 Dit onderstreept wederom het belang van correcte registratie. Deze aangiften zijn onterecht aangemerkt als niet conform waardoor het model minder betrouwbaar wordt. 41 De ongecorrigeerde set welteverstaan. - 44 - Casestudy druiven bevonden is, nader onder de loep werd genomen. Bij de oorsprongfraude werd ontdekt dat er landcodes zijn (met name 910) waarvan onduidelijk is voor welk land deze staan. De domeinexperts bleken vooral geïnteresseerd in geïdentificeerde risicovolle groepen die zij vervolgens handmatig aan een nader onderzoek willen onderwerpen. Het is de bedoeling dat aan de hand van de afgeleide beslisboom profielen worden opgesteld. Waarbij een tussenweg gevonden moet zien te worden tussen controle op basis van profielen (lage prestatie-index) en controle op basis van het model (valse negatieven). Omdat de beschikbare data verouderd is en het model niet getest kan worden op andere jaren is deze laatste stap niet geconcretiseerd. De domeinkennis is een essentieel onderdeel van het data mining proces. Ten eerste wordt op basis van deze kennis een selectie uit de data gemaakt. Ten tweede weet de analist waar de potentiële risico’s liggen, waar de analyse op aangepast kan worden. Bijvoorbeeld door een transformatie van de data. Ten derde kan de domeinkennis achteraf aanleiding geven tot verdere analyse, omdat uit de modellen nieuwe inzichten zijn gehaald. Er blijkt een weerstand te zijn tot het implementeren van regels voortkomend uit data mining. Enerzijds komt dit doordat de regels niet intuïtief zijn, anderzijds vanwege het feit dat men niet precies begrijpt wat data mining is. In het volgende hoofdstuk worden de resultaten van de casestudy veralgemeniseerd. Hier wordt aangegeven in welke stappen van het risicoafdekking proces data mining een rol kan spelen. En wat die rol inhoudt. - 45 - Data mining in het risicoanalyseproces Hoofdstuk 6 Data mining in het risicoanalyseproces 6.1 Inleiding In de vorige hoofdstukken is achtereenvolgens beschreven hoe domeinkennis binnen de Douane gebruikt wordt (hoofdstuk 2), dat er mogelijkheid is om middels data mining technieken deze profielen te verbeteren (hoofdstuk 4) en welke classificatie technieken het meest geschikt zijn voor gebruik binnen de Douane (hoofdstuk 5). In dit hoofdstuk worden de bevindingen veralgemeniseerd. Dit leidt tot een beschrijving van de waarde van domeinkennis voor de verschillende onderdelen in het risicoanalyseproces. Waarbij dit proces gezien moet worden als het proces dat door de data mining analist wordt doorlopen. Dit wordt gedaan aan de hand van de verschillende stages onderscheidden door Kopanas et al. [2002] en het processchema in figuur 2-5. Hetgeen leidt tot een koppeling van domeinkennis en data mining 42 . 6.2 Verschillende stages risicoafdekking Er wordt een vergelijking gemaakt tussen de, door Kopanas et al.[2002], onderscheidden stages en de verwante stages binnen het risicoanalyseproces van de Douane. Kopanas et al. onderscheidden zeven stages, genummerd één t/m zeven. Per stage wordt aangegeven welke douaneafdelingen de benodigde informatie verschaffen en wat de importantie van de domeinkennis (voor de Douane) is. 1) Problem definition: deze fase bevat de beschrijving van het probleemgebied. Er is inmiddels een risico geïdentificeerd dat ontwikkeld gaat worden. De analist en de domeinexpert bespreken hier het probleemgebied en waar de mogelijke risico’s liggen. Importantie domeinkennis: hoog 2) Creating target data set: hier wordt uit de beschikbare data een relevante selectie gemaakt. Dit gebeurt op basis van de informatie die verkregen is in stap 1. Mogelijk is er een koppeling nodig tussen data uit verschillende sets. Ook kan in deze fase al bekeken worden of er voldoende data beschikbaar is. Importantie domeinkennis: laag 3) Data preprocessing and transformation: deze stage is de meest arbeidsintensieve fase in het gehele proces. Hier wordt de data in een vorm gezet die geschikt is voor analyse. Hier speelt de domeinexpert een belangrijke rol. Deze heeft inzicht in de waarden van de verschillende variabelen en hun betekenis. De expert kan aangeven welke variabelen overbodig zijn en of er variabelen zijn die op een andere manier moeten worden gepresenteerd. Tevens kan er rekening gehouden worden met de kosten en de baten. En mogelijk kan een tijdsperiode worden aangegeven waarop analyse plaats moet vinden. In deze fase worden ook de missende waarden vervangen of verwijderd uit de dataset. Importantie domeinkennis: hoog 4) Feature and algorithm selection for data mining: de data mining technieken die worden gebruikt worden hier gekozen. Afhankelijk van de data en het onderzoeksdoel wordt een selectie gemaakt uit de beschikbare technieken. Importantie domeinkennis: medium 42 Onder data mining wordt hier het gehele KDD proces (zie 3.2.1) verstaan. - 46 - Data mining in het risicoanalyseproces 5) Data mining: hier komt het data minen aan bod, waar de geïdentificeerde risico’s worden onderzocht. Op basis van de geprepareerde data en de gekozen techniek wordt een model afgeleid. De rol van de domeinexpert is hier minimaal omdat deze (hoogstwaarschijnlijk) geen kennis heeft van de data mining technieken. Importantie domeinkennis: laag 6) Evaluation and interpretation of learned knowledge: samen met de domeinexpert wordt het resulterende model besproken. Men kan hier bekijken of het model tot nieuwe kennis heeft geleid en of deze kennis bruikbaar is. Ook worden hier besluiten genomen met betrekking tot het toelaatbare aantal, verwachte, negatieven. Hier kan ook de impact van een model worden getest, meestal wordt dit al weergeven bij de output van een analyse. Importantie domeinkennis: medium 7) Fielding the knowlegde base: in de fase wordt de kennis voortkomend uit het model geïmplementeerd in, in dit geval, de aangifteselectie module. Hieronder valt ook de omzetting van een model naar bruikbare kennis, de omzetting naar profielen. Importantie domeinkennis: laag De stappen 2 , 3 en 4 kunnen analoog lopen aan de risico-ontwikkeling bij de risicokennisgroepen en de Pro Actief-groepen van de DIA’s. Hierbij vereisen stappen 1 en 3 de meeste samenwerking met de domeinexpert. Het risico-onderzoek in stap 5 kan zonder de hulp van een domeinexpert worden uitgevoerd mits de vorige stappen voldoende zijn voltooid. De stappen 6 en 7 worden weer met de expert doorgesproken. De resultaten kunnen afgezet worden tegen de analyses van de risicokennisgroepen of de Pro Actief groepen. Zoals in het vorige hoofdstuk is aangegeven kunnen de afgeleide modellen worden verfijnd om aan de eisen van de omgeving te voldoen. Bijvoorbeeld een zo laag aantal valse negatieven. De laatste stap (7) verloopt formeel via profielbeheer, maar omdat de vorm van de implementatie (=profielen) altijd hetzelfde is behoeft deze hier geen aanpassing meer. Wordt bovenstaande gerelateerd aan de bevindingen van Kopanas et al (zie bijlage V.1) dan zijn er enkele verschillen waar te nemen. Stap 2 wordt door Kopanas et al. met medium importantie aangeduid, terwijl deze stage hier de importantie laag heeft. Het verschil is te verklaren doordat Kopanas et al. er van uit gaan dat de domeinexperts voldoende kennis hebben van de data bronnen. In de situatie bij de Douane hebben de analisten meer kennis van de data. Dit is vanwege de beschikbaarheidproblemen en de benodigde omzetting van de data waar zij nauw bij betrokken zijn. Stap 7 wordt door Kopanas et al. als hoog bestempeld, terwijl deze hier de importantie laag heeft. Deze discrepantie heeft te maken met het feit dat, bij de Douane, de implementatie van de modellen altijd hetzelfde, i.e. de profielen. Bij de analyse moet hier dus al rekening mee gehouden worden. Verder geven Kopanas et al. aan dat er afhankelijk van de resultaten van de analyse verder onderzoek nodig kan zijn en dat de domeinkennis van de expert hier een grote rol in speelt. Vanwege de nauwe samenwerking tussen domeinexperts en analisten zouden mogelijke verdiepingen van het onderzoek al in eerdere stappen geïdentificeerd moeten worden. Mocht dit wel het geval zijn dan kan dit gezien worden als een nieuw risico, waarmee de het risico-ontwikkelingsproces weer bij stap 1 begint. 6.3 Procesbeschrijving met data mining In de vorige paragraaf is aangegeven in welke stages domeinkennis vereist is voor een risicoanalyse waar gebruik wordt gemaakt van data mining. Dit is ook gekoppeld aan de procesbeschrijving in hoofdstuk 2 (figuur 2-2). Deze figuur kan nu worden uitgebreid met data mining. Dit is gedaan in figuur 6-1. De risicoafdekking blijft gelijk, data mining wordt toegevoegd aan de processen in het schema. - 47 - Data mining in het risicoanalyseproces Aanleveraar risicosignaal Beoordeling signaal (1) Ontvangen signaal Potentieel risico Ontwikkelen (SPOED) (1,3) Geen risico Risicodatabase Evalueren risicoafdekking (4) Later/niet ontwikkelen Aan te passen risico Beoordeling risico (1,2) Implementeren (SPOED) (3) Ontwikkel risico (2,5,6) DSI profielbeheer Risico onderzoeken (2,5,6) Impact testen (4,6) Relevant risico Implementeren risico (3) Te evalueren risico’s Figuur 6-1 Processchema met data mining In deze figuur is een extra afdeling opgenomen, de afdeling data mining (nummer 6). Omwille van de duidelijkheid zijn de processen waar data mining een onderdeel van uitmaakt geplaatst in een gearceerd blok. - 48 - Data mining in het risicoanalyseproces Uit de figuur kan direct worden opgemaakt waar data mining van waarde kan zijn in de risicoafdekking. De analyses met behulp van data mining komen overeen met de analyses van de Pro Actief groepen van de DIA’s en die van de risicokennisgroepen. Het testen van de impact van een risicoafdekking is een taak die voorheen door de DIA’s werd uitgevoerd. Dit kan data mining ook. Naast de gebruikelijke analyses, die in gang worden gezet door de aangedragen risico’s in de risicodatabase, kunnen er met data mining ook zelf nieuwe risico’s ontdekt worden. Ook kan de afdekking van bekende risico’s worden verbeterd 43 . Mocht er een nieuw risico worden ontdekt of reden zijn om een bestaand risico opnieuw te analyseren gebruik te maken van data mining dan kunnen deze als nieuwe risico’s worden ingevoerd in de risicodatabase. De afdekking van het risico doorloopt dan de processen zoals aangegeven in figuur 6-1 en beschreven in hoofdstuk 2. 6.4 Conclusie In dit hoofdstuk is de procesmatige koppeling gemaakt tussen domeinkennis en data mining. Aangegeven is bij welke stappen in het data mining proces domeinkennis vereist is en in welke mate. Vervolgens is data mining als afdeling opgenomen in de risicoafdekking. Dit wordt grafisch weergegeven in figuur 6-1. Dit is tevens het antwoord op de subonderzoeksvraag B.4. De analyses met behulp van data mining komen overeen met de analyses van de Pro Actief groepen van de DIA’s en die van de risicokennisgroepen. Hierbij treedt de domeinexpert op als de verschaffer van informatie ten behoeve van een goede analyse. Ook het testen van de impact van een risicoafdekking kan door de data mining afdeling worden uitgevoerd. Het volgende hoofdstuk is de afsluiting van de scriptie en bevat de conclusies en aanbevelingen. De antwoorden op subvragen en de hoofdvraag worden opgesomd. Ook worden er aanbevelingen gedaan met betrekking tot zaken die buiten het bereik van deze scriptie vallen, maar die de risicoanalyse wel kunnen verbeteren. 43 Het risico is in dit geval dat het relevante risico niet voldoende is afgedekt, of dat er een betere afdekking mogelijk is. - 49 - Conclusies en aanbevelingen Hoofdstuk 7 Conclusies en aanbevelingen 7.1 Conclusies In deze scriptie is een antwoord gezocht op de vraag hoe domeinkennis kan worden geïntegreerd in data mining technieken. Het onderzoek is verricht in opdracht van PROTECT voor het DIC te Rotterdam. Omdat het een praktisch onderzoek betreft is een meer praktische onderzoeksvraag opgesteld. Deze luidt: “Hoe kan de Douane, door een combinatie van domeinkennis en data mining technieken, tot een betere classificatie van aangiften komen.” Om deze vraag te beantwoorden zijn een aantal subvragen opgesteld. Deze worden eerst beantwoord, waarna een antwoord op de onderzoeksvraag wordt gegeven. A.1 Wat is data mining? Data mining kan worden omschreven als “de analyse van geobserveerde data sets met als doel het vinden van onverwachte relaties en het presenteren van de data in een manier die zowel begrijpbaar als nuttig is voor de eigenaar van de data”. Er kunnen verschillende soorten patronen worden ontdekt. Het doel van de Douane is om aangiften te classificeren in conform en niet conform, in dit onderzoek wordt dan ook uitsluitend gebruik gemaakt van technieken die deze classificatie mogelijk maken. A.2 Welke data mining technieken zijn er? Er zijn verschillende data mining technieken voorhanden die een classificatieprobleem kunnen oplossen. Er is voor gekozen om drie technieken te gebruiken namelijk beslisbomen, logistische regressie en neurale netwerken. Een beslisboom verdeelt de beschikbare data steeds verder in groepen aan de hand van een bepaalde statische methode totdat er geen significante split meer mogelijk is. Logistische regressie modellen kennen een teken en een gewicht toe aan iedere inputvariabele. Aan de hand daarvan kan een formule worden opgesteld waarvan de uitkomst de kans is dat de klasse 1 is. Neurale netwerken werken op basis van een aantal nodes in een of meerdere lagen die verbanden tussen de inputs weergeven. Het model is black box, dat wil zeggen dat je niet weet welke redenatie wordt gevolgd om tot een voorspelling van de klasse te komen. A.3 Wat zijn de voor- en nadelen van de in A.2 beschreven technieken? Het voordeel van een beslisboom is dat de uitkomst eenvoudig tot regels omgezet kan worden. Ook zijn de resultaten makkelijk interpreteerbaar. Verder gaat een beslisboom flexibel om met missende waarden. Het voordeel van logistische regressie is de sterke statistische onderbouwing van het model. Nadeel is dat er meer preparatie van de data benodigd is en dat het gebruik kennis van statistiek vereist. Tot slot neurale netwerken, hier word in de literatuur als grote voorbeeld de goede classificatie genoemd. Nadeel hiervan is dat het een black box techniek is. Een nadeel van ieder van de technieken is de kans op overfitting. Overfitting is het verschijnsel waarbij een model een zeer goede classificatie levert op de training set, maar waar de prestaties op een nieuwe data set een stuk minder zijn. Dit is op te lossen door verschillende sets aan te maken zodat het gegenereerde model getest en aangepast kan worden. - 50 - Conclusies en aanbevelingen A.4 Welke technieken kunnen business rules als output genereren. Deze vraag is al deels beantwoord bij A.3. Van de gekozen modellen kunnen beslisbomen en neurale netwerken omgezet worden naar business rules (IF-THEN regels). Bij beslisbomen is dit zeer eenvoudig, men volgt simpelweg alle mogelijke wegen naar de eindbladen. Neurale netwerken werden lange tijd gezien als black box oplossingen. Inmiddels is het ook mogelijk om regels af te leiden van een neuraal netwerk door gebruik te maken van speciale software. In dit onderzoek is daar echter geen gebruik van gemaakt. Een logistische regressie model kan niet worden omgezet naar een IFTHEN vorm. A.5 Wat is domeinkennis? Domeinkennis kan worden omschreven als kennis die niet expliciet in een database aanwezig is. Domeinkennis kan worden gebruikt om het data mining proces inzichtelijker te maken. Wanneer men geen gebruik maakt van domeinkennis in een analyse met behulp van data mining technieken moet rekening worden gehouden met een aantal beperkingen. Zo kan het model incompatibel zijn met de bestaande beslisregels, beperkt interpreteerbaar zijn of een kennisrepresentatie op het verkeerde detailniveau geven. Door gebruik te maken van domeinkennis kunnen deze problemen ondervangen worden. B.1 Hoe wordt domeinkennis bij de Douane gebruikt? De profielen zijn de concretisering van de domeinkennis binnen de Douane. Douane Sagitta Invoer is het systeem dat alle invoeraangiften verzamelt en selecteert voor controle. Controle vindt plaats op basis van opgestelde profielen. Profielen hebben de vorm van IF-THEN regels. De profielen worden opgesteld naar aanleiding van een onderkent risico. Alle risico’s worden samengebracht en gebundeld in de risicodatabase. Een risicokennisgroep (of DIA Pro Actief) pakt de gebundelde risico’s op en analyseert ze. Mocht er reden zijn tot het afdekken van het risico middels een profiel dan maken zij een conceptprofiel. Het concept wordt naar de DIA gestuurd, die het profiel concretiseert. Vervolgens wordt het profiel ingevoerd door profielbeheer. Evaluatie van de profielen wordt op periodieke wijze door de DIA gedaan. B.2 Is er door gebruik te maken van data mining technieken validatie te vinden voor de bestaande profielen? Hiervoor zijn twee aanpakken gekozen. De data preparatie is voor beide aanpakken grotendeels gelijk. Het aantal missende waarden was beperkt. Wel bleek het nodig enkele kolommen te standaardiseren. Data selectie is voor beide aanpakken wel verschillend. De eerste aanpak zoekt naar geschikte datasets die als input kunnen dienen voor data mining. Na een tijdrovende analyse zijn veertien sets bruikbaar gevonden. Hieraan zijn, voor zover mogelijk, profielen gekoppeld. Het bleek lastig om bij iedere selectie één of meer profielen te vinden. Bij de selecties waarbij wel een vergelijking mogelijk is laten weinig overlap zien tussen de gegenereerde regels en de profielen. De tweede aanpak neemt een Controle Opdracht als basis voor de data selectie. Een Controle Opdracht bestaat uit één of meerder profielen. De profielen zijn in de loop van het jaar aangepast. Middels een beslisboom is bekeken of de aanpassingen te rechtvaardigen zijn. Dit blijkt deels het geval te zijn. Het gegenereerde model vind een andere split, op aangever in plaats van importeur. Samenvattend, er is weinig overlap tussen de afgeleide regels en de bestaande profielen. Voldoende uitdaging dus om betere profielen te construeren door gebruik te maken van data mining. De beschikbaarheid van voldoende data blijkt de grootste beperking voor een gedegen analyse met data mining technieken. De validatie werd verder bemoeilijkt door het beperkte inzicht in het aantal lopende profielen/Controle Opdrachten. - 51 - Conclusies en aanbevelingen B.3 Welke data mining techniek is het best bruikbaar binnen de Douane? Uit een vergelijking van de verschillende modellen blijkt dat de correctheid van de classificatie ongeveer hetzelfde is bij beslisbomen en neurale netwerken. De classificatie van het model resulterend uit de logistische regressie techniek classificeert het beste. Het nadeel van alle technieken is dat er valse negatieven in voorkomen. Een vergelijking op basis van statistieken is niet voldoende om de beste techniek aan te wijzen. De in A.3 gestelde beperkingen zijn bepalend voor de definitieve selectie. Beslisbomen scoren goed op zowel compatibiliteit, interpreteerbaarheid en detailniveau. Neurale netwerken en logistische regressie modellen scoren beide slecht op compatibiliteit. De interpreteerbaarheid van neurale netwerken is ook slecht, deze is bij logistische regressie modellen voldoende. Het is duidelijk dat de beslisbomen het best scoren, deze wordt daarom aangewezen als best bruikbare techniek. B.4 Hoe kan data mining worden geïntegreerd in het risicoanalyseproces? De analyses met behulp van data mining komen overeen met de analyses van de Pro Actief groepen van de DIA’s en die van de risicokennisgroepen. Ook het testen van de impact van een risicoafdekking kan door de data mining afdeling worden uitgevoerd. Door data mining als aparte afdeling in het risicoanalyseproces op te nemen is integratie een feit. Wel is veelvuldig overleg met de domeinexpert vereist voor een degelijke analyse. Waar de expert eerst zelf de analyse uitvoerde, is deze nu tevens de verschaffer van informatie voor data mining. Het antwoord op de onderzoeksvraag is vervolgens: “Uit het onderzoek is gebleken dat de huidige profielen, die de invulling van domeinkennis binnen de Douane zijn, significant verbeterd kunnen worden door gebruik te maken van data mining technieken. De classificatietechniek die hiervoor het meest geschikt is, is beslisboomanalyse. Om een zo goed mogelijk model af te leiden is een nauwe samenwerking met de domeinexpert vereist. Deze kent het probleemgebied, de risico’s en kan helpen bij het meest arbeidsintensieve deel van de analyse, de data preparatie. Het nadeel van classificatietechnieken zijn de valse negatieven. Op basis van het afgeleide model kunnen er, in samenspraak met de domeinexpert, profielen worden opgesteld die het aantal valse negatieven tot een minimum beperken. Het resultaat van deze werkwijze is een hogere pakratio met minder uit te voeren controles.” 7.2 Aanbevelingen De aanbevelingen zijn opgedeeld in twee delen. Enerzijds een deel waar de te maken verbeteringen aan bod komen, anderzijds een deel waar mogelijke vervolgonderzoeken worden aangegeven. Tot slot nog een paar opmerkingen met betrekking tot de gebruikte soft- en hardware. Er zijn twee grote verbeterpunten aan te wijzen om de analyses met behulp van data mining te verbeteren. Ten eerste, de kwaliteit van de data. Deze is niet optimaal, dit is ook niet vreemd aangezien het systeem is opgezet als registratiesysteem. Maar zeker voor data mining (en ook voor management informatie) is het van belang dat er correct geregistreerd wordt en dat de data zo uniform mogelijk is. De Douane is inmiddels bezig met het opzetten van een data warehouse. Dit is echter een lange termijn project. En hiermee wordt wel de beschikbaarheid van de data verbeterd, de kwaliteit echter niet. De kwaliteitsverbetering moet plaatsvinden bij de aangevers (strakkere controle) en de controleurs (gestandaardiseerde bevindingbeschrijvingen en correcte toewijzingen aan o.a. profielen). Hierbij zou het ook lonen het gehele registratietraject eens kritisch onder de loep te nemen en waar nodig aan te passen aan de eisen van bijvoorbeeld data mining. Denk bijvoorbeeld aan de reeds gememoreerde onduidelijkheid met betrekking tot de statussen van een aangifte. Een dergelijk onderzoek zou mijns inziens gedaan kunnen worden door een (informatiekunde-) student. Waarbij de het onderzoeksdoel is - 52 - Conclusies en aanbevelingen om de kwaliteit van de data te optimaliseren (mede door standaardisatie). Want nogmaals, het zou zonde zijn veel geld uit te geven aan een data warehouse en alleen de beschikbaarheid te verbeteren zonder de kwaliteit van de data te verbeteren. Denk hierbij ook aan het eerder aangehaalde aforisme, Garbage In, Garbage Out. Ten tweede de aanwezige massa. Er is van de gehele dataset maar een zeer klein deel geschikt 44 bevonden om een model mee te construeren. Om een betrouwbare generalisatie mogelijk te maken zijn voldoende controles nodig. Waarbij controles met een negatieve uitslag net zoveel waarde hebben als controles met een positieve uitslag. De ervaring heeft hier geleerd dat er een minimum hoeveelheid van 5% niet conform bevonden aangiften in de training set aanwezig moet zijn om überhaupt een model af te kunnen leiden. Deze set moet zelf ook genoeg waarnemingen bevatten, denk hierbij aan enkele honderden. Het is onmogelijk om alles te gaan controleren, daarom zal er creatief met deze beperking omgegaan moeten worden. Zo kan er door de data slim te selecteren, mogelijk na een eerste inventarisatie middels een beslisboom, een juiste verhouding gevonden worden tussen conforme en niet-conforme aangiften. Ook kunnen er na het constateren van een potentieel risico extra controles worden uitgezet om wel de juiste massa te krijgen. Verder zitten er verschillen in de mogelijke modellen, waarbij het ene model toleranter is ten opzichte van noisy data dan het andere. Maar zelfs dan zullen er gebieden zijn waar data mining simpelweg niet bruikbaar is. Data mining is ook geen doel, maar een middel. Vervolgonderzoeken Er zijn een drietal vervolgonderzoeken mogelijk. De eerste is in de vorige alinea al genoemd, een onderzoek dat zich richt op het verbeteren van de kwaliteit van de data. Een ander onderzoek zou zich kunnen richten op het minimaliseren van de valse negatieven. Waarbij twee gebieden onderscheidden kunnen worden; ten eerste fiscale zaken, waarbij een kosten baten analyse gemaakt kan worden; en ten tweede de VGEM zaken waarbij met een 100% onderschepping nastreeft. Het derde onderzoek kan zich richten op andere data mining technieken dan de hier beschreven classificatietechnieken. Gebruikte soft- en hardware SAS Enterprise Guide is een zeer goed bruikbare applicatie gebleken. Hiermee kan men snel en eenvoudig data selecteren, koppelen en manipuleren. Hiermee kom ik tot dezelfde conclusie als in de eindrapportage van de proof of concept. In Enterprise Guide kan niet gedatamined worden, hiervoor is Enterprise Miner. Over Enterprise Miner ben ik iets minder te spreken. De applicatie werkt snel maar ondoorzichtig. Het bleek moeilijk te achterhalen welke algoritmen werden gebruikt bij bepaalde berekeningen. Ook is het jammer dat alle flexibiliteit qua data manipulatie niet aanwezig is in Enterprise Miner. Verschillende keren ben ik aangelopen tegen zaken die ik wilde veranderen na aanleiding van de uitkomsten van een analyse, dit bleek vervolgens alleen mogelijk in Enterprise Guide. En aangezien er geen directe koppeling tussen de twee is kost dit veel tijd. Qua documentatie kan SAS een voorbeeld nemen aan SPSS (versie 14). Deze heeft per gebruikt algoritme een document opgesteld met daarin beschreven met welke methode (formule) wordt gewerkt. Nadeel van SPSS is dat de nadruk licht op het beschrijvende aspect en minder op het voorspellende. Waar de data preparatie voor Enterprise Miner gedaan werd in Enterprise Guide, is er voor SPSS nog een tussenslag gemaakt in Excel. Vooral het aanmaken van de dummy’s is een zeer tijdrovend proces. 44 Ruwweg 1% van de totale dataset. Hierbij moet aangetekend worden dat selecties zijn gemaakt op basis van goederencode, al valt niet te verwachten dat andere selecties, bijvoorbeeld op importeur, een ander beeld laten zien. - 53 - Literatuuropgave Referenties Abu-Hanna, A. en de Keizer, N. (2003), “Integrating classification trees with local logistic regression in Intensive Care prognosis”, Artificial Intelligence in Medicine 29 (2003) 5–23 Baesens B., Setiono R., Mues C., Vanthienen J. (2003), “Using Neural Network Rule Extraction and Decision Tables for Credit-Risk Evaluation”, Management Science, 49 (3), pp. 312-329 Berry, M.J.A. en Linoff, G. (2000), “Mastering data mining: the art and science of customer relationship management”, Wiley New York Berztiss, A. (1999), “Domain analysis for business software systems”, Information systems, Vol. 24, No.7, 555-568 Boss, R.W. (2000), “What Is An Expert System? ERIC Digest”, ERIC Clearinghouse on Information Resources Syracuse NY CIBIT (2001), “Business Intelligence Instrumenten, Reporting, OLAP and Data mining”, CIBIT White paper Craven, M. W., Shavlik, J. W. (1996), “Extracting tree-structured representations of trained networks”, Advances in Neural Information Processing Systems Vol. 8., MIT Press, Cambridge, MA, 24–30. Daniels, H.A.M. (2003), “Introduction to neural networks” Daniels, H.A.M. en van Dissel, H. (2002), “Risk management based on expert rules and data mining: A case study in insurance.”, ERIM Daniëls, H.A.M., en Kamp, B. (1999), “Application of MLP networks to house pricing and bond rating. Neural Computing and Applications”, 8(3), 226-234. Feelders, A. (2000), “Prior Knowledge in Economic Applications of Data Mining” Lecture Notes In Computer Science; Vol. 1910, Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery pages: 395 - 400 Feelders, A. (2006), “Classification trees”, collegedictaat Universiteit Utrecht Feelders, A., Daniels H., Holsheimer M. (2000), “Methodological and practical aspects of data mining”, Information & Management 37 271-281 Frawley, W.J., Piatetsky-Shapiro, G., Matheus, C.J. (1992), “Knowledge Discovery in Databases: an Overview”, AI Magazine Gim, G. en Whalen, T. (1999), “Logical second order models: Achieving synergy between computer power and human reason”, Information Sciences 114 (1999) 81-104 Gini, C. (1912), "Variabilitá e mutabilita", Reprinted in Memorie di metodologia statistica (Ed. E. Pizetti and T. Salvemini.) Rome: Libreria Eredi Virgilio Veschi, 1955. - 54 - Graham, P. (2002), “A plan for spam”, http://www.paulgraham.com Han, J. en Kamber, M. (2001), “Data Mining: Concepts and techniques”, Academic Press Hand, D., Manilla, H., Smyth, P. (2001), “Principles of data mining” The MIT Press Hinde, S. (2004) “The transmutation of GIGO and the cult of assumption”, Computer fraud & security vol.2004 nr.4 Janssen, H. (2006), “Eenheidswaarde tarieven regime per 19 mei 2006”, http://www.agf.nl/opinie/janssen/06juni06.htm Kopanas, I., Avouris, N. M., Daskalaki S. (2002), “The Role of Domain Knowledge in a Large Scale Data Mining Project”, Methods and Applications of Artificial Intelligence : Second Hellenic Conference on AI, SETN Liao, T. F. (1994), “Interpreting probability models, Logit, Probit, and other generalized linear models”, Sage University papers Martens, D., De Backer, M., Haesen, R.,Baesens, B., Mues, C., Vanthienen, J. (2005), “Ant-Based Approach to the Knowledge Fusion Problem”, Department of Decision Sciences & Information Management, K.U.Leuven, Belgium Martin, S., Sewani, A., Nelsom, B., Chen, K., Joseph, A.D. (2004), “Analyzing behavioural features for email classification”, University of California Berkeley McClave, J.T., Benson, P.G., Sincich, T. (2001), “Statistics for business and economics”, Prentice Hall International inc. Menard, S. (2002), “Applied logistic regression analysis, second edition”, Sage University papers Minsky and Papert (1969), "Perceptrons", Cambridge, MIT-press Mitchell, T. (1997) “Machine learning”, McGrawHill Mitchell, Tom M. ; Keller, Richard M. ; Kedar-Cabelli, Smadar T. (1986), “Explanation-Based Generalization: A Unifying View” Machine learning vol.01 nr. 1 p. 4780 Mitchell, T. M., Thrun, S. B. (1993), “Explanation-Based Neural Networks Learning for Robot Control”, Advances in Neural Information Processing Systems, volume 5, Denver, CO 287--294. Nauck, D. (2000), “Data analysis with neuro-fuzzy methods”, Habilitation thesis, University of Magdeburg, Germany. Owrang, M. M. en Grupe, F.H. (1996), “Using domain knowledge to guide database knowledge discovery”, Expert systems with applications, Vol.10, No. 2, 173-80 Parpinelli, R. S., Lopes, H. S., Freitas, A. A. (2002), “Data mining with an ant colony optimization algorithm”, IEEE Transactions on Evolutionary Computation, 6(4):321– 332 Quinlan, J.R. (1986), “Induction of Decision Trees”, Machine learning vol.01 nr.1 p.81106 - 55 - Rijke, de, M. (2006), “data mining 2005/2006”, Informatics Institute University of Amsterdam Rummelhart, Hinton and Williams (1986), "Learning Representations by Back Propagating Errors", Nature, 323, pp. 533-536 Setiono, R., Liu., H. (1996), “Symbolic representation of neural networks”, IEEE Comput. 29(3) 71–77. Shavlik, J.; Towell, G. (1989) “Combining Explanation-based and Neural Learning: An Algorithm ans Empirical Results” Connection Science, 1, pp. 233-255 Simard P. Y., Victorri, B., Le Cun, Y., Denker, J. (1992) “Tangent Prop: A formalism for specifying selected invariances in adaptive networks”, In Moody, J. et al Advances in Neural Information Processing Systems 4, Morgan Kaufman, 1992. Veal, M. R., Zimmermann, K. F. (1992), “Performance measures from prediction realization tables”, University of Munich Verbeek. M. (2004) “A guide to modern econometrics, second edition”, John Wiley & Sons Werbos (1974), "Beyond Regression: New tools for Prediction and Analysis in the Behavioral Sciences", Ph.D.Thesis, Harvard University Wind, I. (2005), “The harmonized system: the language of international trade”, WCO, http://www.wcoomd.org Yourdon, E. (1999), “Gestructureerde analyse”, Prentice Hall [CDW, 1999] Handboek van in- en uitvoer, algemene wetgeving inzake Douane (1999), “supplement 101”, Kluwer Samson [CDW, 2001] Handboek van in- en uitvoer, algemene wetgeving inzake Douane (2001), “supplement 128”, Kluwer Samson [Dou01] Douane (2002), “Handboek Douane I.85.C.1 Voorschrift Douanetarief”, Belastingdienst [NDFR, 2006] Nederlandse documentatie fiscaal recht, “Algehele herziening van de douanewetgeving (Algemene douanewet)”, http://www.ndfr.nl/pdfroot/douanewet_mvt_algemeen.pdf [SPSS, 2006] SPSS Algorithm description, “Logistic regression”, (SPSS 14) [TK, 2003] Tweede Kamer der Staten-Generaal (2003), “Accijnzen op minerale oliën: toezicht doorgelicht”, Tweede Kamer, vergaderjaar 2003–2004, 29 365, nrs. 1–2 Geraadpleegde overheidsstukken Interne stukken [DIC, 2006] DIC Team 5 handhaving (2006), “Douane Informatiecentrum DIC”, Cluster Relatie- en Accountbeheer - 56 - [BDI01] Belastingdienst intranet (2006), “Algemene informatie kennisgroepen”, http://belastingnet.belastingdienst.nl/bdienst/digiboek/data/aikg/boek.htm, geraadpleegd op 15-06-2006. [BDI02] Belastingdienst intranet (2006), “Zoeken in informatie per kennisgroep”, http://belastingnet.belastingdienst.nl/bdienst/kg/forms/zoek.htm, geraadpleegd op 1207-2006. Gespreksverslagen “Gespreksverslag RDB”, DIC, bijlage VI.1a “Gespreksverslag Profielbeheer”, DIC, bijlage VI.1b “Gespreksverslag RKG”, DIC, bijlage VI.1c “Gespreksverslag DIA”, DIC, bijlage VI.1d “Gespreksverslag domeinexperts”, DIC, bijlage VI.1e “Gespreksverslag druiven case”, DIC, bijlage VI.1f - 57 - Figuren- en tabellenlijst Figuur Figuur Figuur Figuur Figuur Figuur Figuur Figuur Figuur Figuur Figuur Figuur Figuur Figuur Figuur Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel Tabel 1-1 Aangifteregistratie, -analyse en -selectie ..............................................- 2 2-1 Leercirkel van het RMD ......................................................................- 6 2-2 Processchema risicoanalyse ................................................................- 7 2-3 Correctie van de aangiften na controle ...............................................- 13 3-1 Twee verschillende beslisbomen ........................................................- 18 3-2 Impurity meetstaven .......................................................................- 19 3-3 Overfitting .....................................................................................- 22 6-1 Processchema met data mining.........................................................- 48 I-1 Vier Douaneregio’s...........................................................................- 60 I-2 De drie kernfuncties van de Douane. ..................................................- 61 I-3 Organigram Douane.........................................................................- 62 III-1 Afgeleide beslisboom voor AA .........................................................- 72 III-2 Afgeleide beslisboom voor II ...........................................................- 74 III-3 Afgeleide beslisboom voor KK .........................................................- 75 III-4 Afgeleide beslisboom voor NN .........................................................- 76 2-1 Aanwezige datasets ..........................................................................2-2 Gebruikte analysevariabelen ..............................................................3-1 Opzet classificatietabel......................................................................4-1 data cleaning per variabele................................................................4-2 Geselecteerde goederen voor analyse .................................................4-3 kengetallen 2004 .............................................................................4-4 Prestatieindex profielen ten opzichte van de modellen ...........................4-5 Controles op basis van de profielen en modellen ...................................5-1 soorten druiven ...............................................................................5-2 Kengetallen druiven..........................................................................5-3 Statistieken per genereerde beslisboom...............................................5-4 Statistieken per gegenereerd neuraal netwerk ......................................5-5 Statistieken per model ......................................................................5-6 Aantal controles per techniek .............................................................5-7 Vergelijking technieken .....................................................................5-8 Geschiktheid per model voor combinatie met domeinkennis ...................I-1 Voorbeeld van de Gecombineerde Nomenclatuur ..................................I-2 Overzicht cijferposities goederencode .................................................- - 58 - 11 12 22 27 28 28 33 33 35 36 37 38 40 41 41 42 65 65 - Afkortingenlijst AR Algemene rekenkamer B/CA SOB Belastingdienst/Centrale Administratie Sector Ondersteuning Bedrijfsvoering CDW Communautair Douanewetboek CNI Controle na Invoer DFD Data Flow Diagram DIA Douane Informatieafdeling DIC Douane informatiecentrum DSI Douane Sagitta Invoer DSU Douane Sagitta Uitvoer EBG Explanation-based Generalization EBNN Explanation-based Neural Network EEG Europese economische gemeenschap EU Europese Unie FIOD-ECD Fiscale Inlichtingen en Opsporingsdienst FyCo Fysieke Controle GIGO Garbage In, Garbage Out GN Gecombineerde nomenclatuur GS Geharmoniseerd systeem KBANN Knowledge-based Artificial Network KDD Knowledge Discovery in Databases MLP Multilayer Perceptron MSE Mean Squared Error PoC Proof of Concept PROTECT Protecting people, planet and profit RKG Risicokennisgroep RMD Rechtshandhavingmodel Douane RSM Rotterdam school of management SAS EG SAS Enterprise Guide SAS EM SAS Enterprise Miner SBB Sagitta Binnenbrengen SSE Sum of Squared Errors Taric Tarif intégré communautaire TRANSUMO Transition to sustainable mobility VGEM Veiligheid, gezondheid en milieu - 59 - Bijlagen Bijlage I I.1 Achtergrondinformatie Douane I.1.1 Algemene taken Douane De Douane is een onderdeel van de Belastingdienst en valt onder het ministerie van Financiën. De Belastingdienst beslaat met ruim 33.000 medewerkers verreweg het grootste deel van het ministerie. De Douane telt ongeveer 5.000 medewerkers. Deze medewerkers zijn verdeeld over vier Douaneregio’s. Deze zijn: Douane Noord, Douane Zuid, Douane West en Douane Rotterdam, zie figuur I-1. Zij verzorgen de controle op de buitengrenzen; de grenzen met de niet- Europese Unie landen en controles binnen de grenzen; op accijnzen en dergelijke. [BLD01] Figuur I-1 Vier Douaneregio’s Iedere regio is opgedeeld in drie teams; aangiftebehandeling, klantbehandeling en fysiek toezicht. Aangiftebehandeling controleert of een aangifte juist en volledig is ingevuld en of de betreffende goederen nader onderzocht moeten worden. Ook verzorgen zij de controle op heffing van goederen. Het team klantbehandeling geeft vergunningen af, verwerkt klachten en doet administratieve controles. Fysiek toezicht ten slotte, regelt de fysieke controles van de binnengebrachte goederen en doet surveillancewerkzaamheden. De drie kernfuncties van de Douane zijn stoppen, bewaken en heffen/innen. De stopfunctie houdt in dat de Douane geen goederen het land in laat die er niet in mogen. Voorbeelden hiervan zijn verdovende middelen, wapens en munitie, dieren die lijden aan een besmettelijke ziekte (zoals mond- en klauwzeer en varkenspest) en producten die gevaar opleveren voor de consument. Er worden maatregelen genomen om te zorgen dat dergelijke goederen worden geweerd en niet Nederland of de Europese Unie inkomen. Ook voor uitvoer geldt de stopfunctie. Er mogen bijvoorbeeld geen wapens en munitie - 60 - Bijlagen getransporteerd worden naar landen waar oorlog woedt of waartegen internationale sancties zijn opgelegd. De bewakingsfunctie bestaat uit het juist toepassen van de nationale en Europese douanewetgeving. Het bewaken van goederen betreft goederen die al wel fysiek in Nederland zijn maar waar nog geen invoerbelasting over betaald is. Deze goederen mogen wel in Nederland worden opgeslagen, vervoerd en verwerkt mits aan bepaalde voorwaarden wordt voldaan. Hier is een uitgebreid systeem van formaliteiten en verplichtingen voor opgesteld, waarbij voorop staat dat de verschuldigde belastingen worden betaald. Dit geldt ook voor de uitvoer van goederen. Bij het uitvoeren van goederen kan er een recht op belastingteruggave ontstaan. Een goed is uitgevoerd wanneer het daadwerkelijk de Europese Unie heeft verlaten, dit wordt door de Douane gecontroleerd. De heffing- en inningfunctie houdt in dat de Douane berekent hoeveel belasting verschuldigd is (heffen) en ook zorgt dat deze belasting wordt betaald (innen). Dit kan betrekking hebben op heffingen bij invoer van goederen, zowel voor Nederland als Europa. In- en uitvoerrechten worden immers op Europees niveau geïnd en verdeeld. Ook zorgt de Douane voor de heffing en inning van binnenlandse accijnzen en belastingen op personenauto’s en motorrijwielen. Daarnaast wordt ook omzetbelasting geheven en geïnd in de gevallen waarin een aangever niet over de juiste vergunningen beschikt om dit op een later tijdstip te mogen afhandelen. De controles vinden plaats op verschillende gebieden. Deze gebieden hebben hun specifieke aandachtpunten en risicofactoren. In figuur I-2 wordt dit grafisch weergegeven. Figuur I-2 De drie kernfuncties van de Douane. De stopfunctie omvat KOERIER, de koeriersdiensten en Sagitta BinnenBrengen (SBB), de pré-arrival selectie (van binnenkomende goederenstromen wordt beoordeeld of deze gecontroleerd moeten worden). Ook uit te voeren goederen vallen onder de stopfunctie. - 61 - Bijlagen Invoer (Douane Sagitta Invoer; DSI) en Uitvoer (Douane Sagitta Uitvoer; DSU) representeren de systemen die in- en uitvoer aangiften behandelen. Over ingevoerde goederen (DSI) kan belasting verschuldigd zijn, op uitgevoerde goederen (DSU) kan restitutie verkregen worden, deze vallen onder de heffing- en inningfunctie. Tot slot Vervoer, dit zijn vaak goederen die doorgevoerd worden naar een ander EU-land. Deze goederen hebben een aparte status en worden bewaakt zolang ze niet daadwerkelijk inof uitgevoerd worden. I.1.2 Douane Informatiecentrum Het Douane informatiecentrum (DIC) voorziet in de informatiebehoefte van de Douane. Dit is de eenheid voor vragen aan de Nederlandse en buitenlandse Douane en andere overheidsorganisaties met taken die het werkterrein van de Douane raken. Door de toename van de complexiteit van de omgeving door onder andere de mondialisering van de economie is er veel vraag naar informatie, bijvoorbeeld over bepaalde goederenstromen. [DIC, 2006] Het DIC heeft verschillende taken. Één ervan is informatieverwerking. Het DIC verzamelt, beoordeelt, veredelt en verspreidt nationale en internationale informatie voor de ondersteuning van Douanetaken. Deze informatie wordt door het DIC onder andere gebruikt voor het uitvoeren van risicoanalyses en trendanalyses op nationaal niveau. Het DIC treedt bij landelijke crisissituaties (zoals de Vogelpest) op als nationaal coördinatiepunt voor de Douane. Hiervoor is een landelijk draaiboek dat door het DIC actueel wordt gehouden. Ook heeft het DIC een belangrijke taak in de controleaansturing binnen de Douane. Op basis van de resultaten van de trendanalyses worden landelijke controleopdrachten uitgezet en opsporingsonderzoeken in werking gezet. Verder is het DIC het informatiecentrum voor Nederlandse en buitenlandse Douane- en overige overheidsdiensten met taken die het werkterrein van de Douane bestrijken. Het DIC coördineert verlening van internationale wederzijdse bijstand en zorgt voor administratieve samenwerking bij uitwisseling van gegevens. Onder aansturing van een coördinator op het DIC zijn Douane attachés gestationeerd in een aantal Europese landen. Deze fungeren als schakel tussen de douanediensten in deze landen en de Nederlandse Douane om zo tot een zo optimaal mogelijke uitwisseling en samenwerking te komen. Tenslotte houdt het DIC rekening met toekomstige ontwikkelingen, zoals de uitbreiding van de Europese Unie en technologische ontwikkelingen op het gebied van risicobeheersing. Het DIC is gestationeerd in de regio Rotterdam. Zie figuur I-3 voor een organigram (DIA = Douane Informatieafdeling; RKG = RisicoKennisGroep, zie volgende subparagraven). Figuur I-3 Organigram Douane - 62 - Bijlagen I.1.3 Douane Informatieafdelingen De Douane kent vier Douane Informatieafdelingen (DIA), één per regio; DIA Noord, DIA Zuid, DIA West en DIA Rotterdam. De DIA’s hebben een informatie- en analysefunctie voor de desbetreffende Douaneregio [Arts, 2006]. Deze taak wordt in iedere regio anders ingevuld omdat de omgeving verschillend is. In Rotterdam bijvoorbeeld is de zeehaven het belangrijkste goederenvervoermiddel, in West is dit de luchthaven Schiphol. Naast de informatie- en analysefunctie hebben de DIA’s andere taken toegewezen gekregen. Zij ondersteunen de risicobeheersingactiviteiten van de risicokennisgroepen (zie I.1.4), ondersteunen de uitvoering van landelijke acties en de operationele inzet van de Douane in crisissituaties. Verder doen ze risicovinding en risicoanalyse ten behoeve van de risicokennisgroepen en in de gevallen waarin het DIC daarom verzoekt. Ook coördineren de DIA’s regionale acties, zijn een regionaal aanspreekpunt voor andere handhavingdiensten en doen profielbeheer in relatie met DSI en DSU, de zogenaamde Pro Actief groep. De verdere beschrijving beperkt zich tot regio Rotterdam. Binnen de DIA Rotterdam zijn twee team gedefinieerd; “Productie en Profielen” (P&P) en “Onderzoek en Ontwikkeling” (O&O). De teams zijn onderverdeeld in enkele clusters. Zo bevat O&O het cluster “risicokennisgroep minerale oliën en chemie” (zie volgende paragraaf). Ook bestaat er een cluster “risicobeheersing algemeen” waaronder de Pro Actief groepen vallen (zie volgende paragraaf). Het team P&P kent een cluster profielbeheer, waarover meer in 2.3.4. I.1.4 Risicokennisgroepen De Belastingdienst gebruikt de volgende definitie voor een kennisgroep [BDI01]: “Een kennisgroep is een niet regiogebonden groep van medewerkers uit de uitvoering, met expertise op het terrein waarvoor de DRB/Groepsraad 45 in overleg de kennisgroep heeft ingesteld. Een kennisgroep is een virtueel samenwerkingsverband waarvan de medewerkers worden benoemd op basis van hun competenties.“ Er zijn tientallen kennisgroepen actief binnen de Belastingdienst. Deze zijn onderverdeeld in vier clusters. Een van deze clusters is risicobeheersing. Binnen het cluster risicobeheersing is een verdere onderverdeling in drie clusters gemaakt. Deze bestaat uit een cluster voor Winst en Niet-Winst, Douane en FIOD-ECD. In deze beschrijving wordt alleen het cluster Douane besproken. Het cluster Douane is opgedeeld in vier zogeheten risicokennisgroepen, te weten minerale oliën en chemie; consumentengoederen en nonfood; landbouw en landbouwproducten; tabak, alcohol en dranken. De risicokennisgroepen zijn verdeeld over de vier Douane regio’s, Rotterdam, West, Noord en Zuid respectievelijk. Ondanks deze geografische indeling werken zij wel landelijk. Over het algemeen kan worden gesteld dat iedere groep de volgende opdrachten heeft [BDI02]: • • • • 45 Onderzoek naar risico’s op het terrein van de specifieke kennisgroep en mogelijkheden en werkwijzen om de onderkende risico’s te detecteren en af te dekken. Initiëren van landelijke detectie en afdekking van risico’s. Inrichten en onderhouden van de leercirkel met betrekking tot de risico’s, de detectie en de afdekking daarvan gerelateerd aan de specifieke kennisgroep. Verzamelen en ter beschikking stellen aan de Douane (-medewerkers) van actuele kennis op het specifieke terrein van de kennisgroep. Directoraat Belastingdienst/Groepsraad - 63 - Bijlagen • Adviseren over de uitvoerbaarheid van wetgeving gerelateerd aan het specifieke terrein van de kennisgroep. Daarnaast heeft iedere risicokennisgroep haar eigen specifieke taakomschrijving. Dit hangt af van de goederen waarvoor zij de risico’s moeten afdekken. De indeling is gemaakt op basis van goederencodes. Met een goederencode worden goederen ingedeeld aan de hand van indelingsregels, zie I.1.6. Hiermee wordt ongeveer 80% van de goederenstromen door de risicokennisgroepen afgedekt. De overige 20% worden door de Pro Actief groepen van de Douane Informatie Afdelingen behandeld. I.1.5 Risicodatabase De risicodatabase is ontstaan naar aanleiding van een onderzoek van de algemene rekenkamer (AR). De AR heeft een onderzoek [TK, 2003] uitgevoerd op het gebied van de minerale oliën waarbij zij constateerden dat onduidelijk is wat de precieze risico’s zijn met betrekking tot accijnsheffing. Daaruit kwam de aanbeveling om een risicoreservoir in te richten, waarin deze risico’s onderkend kunnen worden. Daarom is in het kader van risicobeheersing in samenwerking met “blauw” de risicodatabase opgericht. Dit is een applicatie die is geïntegreerd in Lotus Notes 46 waarin iedere ambtenaar zijn risico’s kan invoeren. Deze risico’s kunnen van alles zijn, bijvoorbeeld men ziet mogelijk verdachte activiteiten in een loods. Onderdeel van de risicodatabase is ook terugkoppeling. De ambtenaren kunnen op verschillende momenten volgen wat er met de aangegeven risico’s gebeurt. Dit is gedaan om meer signalen te krijgen, immers wanneer men weet dat er daadwerkelijk iets mee gebeurt, is men eerder geneigd ook signalen aan te leveren. Verder heeft het centraal punt als taken de werking van de risicodatabase te verbeteren. I.1.6 Goederencodes Een goederencode is een code die aan een goed wordt toegekend aan de hand van bepaalde indelingsregels. Bij het opstellen van deze indelingsregels is rekening gehouden met de wensen van handel en bedrijfsleven voor vervoer en statistiek. Het totaal aan goederencodes wordt het Geharmoniseerd Systeem (GS) genoemd. De goederencodes van het GS bestaan uit zes cijfers. Het GS is opgesteld door de Wereld Douane Organisatie, en wordt bijna overal ter wereld gebruikt voor de indeling van goederen [Wind, 2005]. De Europese Unie heeft het Geharmoniseerd Systeem overgenomen en tevens uitgebreid. De uitbreiding bestaat uit twee extra cijfers die aan de goederencode zijn toegevoegd. Het totaal wordt de Gecombineerde Nomenclatuur (GN) genoemd. Deze is vastgesteld bij Verordening (EEG) nr. 2658/87 47 van de raad van de Europese Gemeenschappen (op Raadsniveau nu Europese Unie) van 3 juli 1987. In tabel I-1 is een voorbeeld opgenomen van een hoofdstuk uit de GN. 46 E-mail en agenda applicatie die gebruikt wordt binnen de belastingdienst, zie http://www306.ibm.com/software/lotus/ 47 Verordening (EEG) nr. 2658/87 van de Raad van 23 juli 1987 met betrekking tot de tarief- en statistieknomenclatuur en het gemeenschappelijk douanetarief. - 64 - Bijlagen Goederencode 01.01 0101 10 0101 10 10 0101 10 90 0101 90 Omschrijving Levende paarden, ezels, muildieren en muilezels: - fokdieren van zuiver ras: - - paarden - - andere - andere: - - paarden 0101 90 11 - - - slachtpaarden 0101 90 19 - - - andere 1011 90 30 - - ezels 0101 90 90 - - muildieren en muilezels Tabel I-1 Voorbeeld van de Gecombineerde Nomenclatuur [DOU01] Met de gecombineerde nomenclatuur kunnen statistische gegevens over de buitenlandse handel van de Europese Gemeenschap worden bijeengebracht, uitgewisseld en bekendgemaakt. De nomenclatuur kan eveneens worden gebruikt voor het verzamelen en het verspreiden van statistische gegevens over de buitenlandse handel in het kader van het handelsverkeer binnen de EG. Op basis van de GN is door de Europese Commissie een geïntegreerd douanetarief vastgesteld voor de EG. Het geïntegreerde douanetarief, Tarif intégré communautaire, wordt algemeen aangeduid met de afkorting Taric. In Taric zijn de douanerechten vermeld en is de regelgeving opgenomen die van toepassing is op de buitenlandse handel van de EG. Rechtsgrond van het douanetarief van de EG is bovengenoemde Verordening (EEG) nr. 2658/87. Taric breidt de lengte van de goederencode uit tot een maximum van 18 cijfers. Vervolgens kunnen er nog maximaal vier nationaal aanvullende cijfers worden toegevoegd, zie tabel 2-2 voor een overzicht. Codering Cijferposities GS-post 1-4 GS-onderverdeling 5-6 GN-onderverdeling 7-8 Taric-code 9-10 Eerste aanvullende Taric-code 11-14 Tweede aanvullende Taric-code 15-18 Nationale aanvullende code: 19-22 - 2 cijfers voor nationale aanvullende code (19-20) - 2 cijfers voor accijnscode (indien van toepassing) (21-22) Tabel I-2 Overzicht cijferposities goederencode [DOU01] In de praktijk wordt vaak alleen de eerste tien cijfers gebruikt 48 . Taric vormt de basis van de nationale gebruikstarieven, welke zijn samengesteld uit een verzameling van communautaire en nationale wettelijke bepalingen en voorschriften. De Douane gebruikt het gebruikstarief om de juistheid van in- en uitvoeraangiften te bepalen. Op basis van de goederencode wordt gecontroleerd op een juiste toepassing van fiscale en niet-fiscale maatregelen. Een fiscale maatregel is bijvoorbeeld de heffing van Douanerechten. Nietfiscale maatregelen zijn bijvoorbeeld maatregelen op het gebied van gezondheid en kwaliteit; marktordeningmaatregelen (bijvoorbeeld restituties bij uitvoer van landbouwgoederen) en handelseconomische maatregelen (bijvoorbeeld de verplichting een invoervergunning te overleggen). Goederencodes spelen dus een essentiële rol in het controle aspect van de Douane. Tevens kunnen ze als identificerende factor gebruikt worden bij statistiek, in dit geval data mining. [DOU01] 48 In DSI worden de aanvullende Taric-codes gebruikt om maatregelen in het kader van VGEM of restitutie/heffingen aan te sturen. - 65 - Bijlagen I.2 Kolombeschrijving DSI Veldnaam SI_Apunt SI_Agevnr SI_Ajaar SI_Agifnr SI_Aproc SI_Asymbl SI_Atype SI_Aanlwyz SI_AvDat Type ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII DATE SI_Geadr SI_LandVz SI_LandBes SI_LevCond SI_Artikel SI_Status SI_StatDat SI_GdnCode SI_GdnOms1 SI_GdnOms2 SI_GdnOms3 SI_LvO SI_GevrReg SI_VrgReg SI_VrijReg SI_Bruto SI_Netto SI_PrfCont SI_CtrSrt SI_CtrUits SI_AanvEhd SI_Verkopr SI_PltsLos SI_Ambtenr SI_ADis SI_APost SI_IPosCod cImpDistrict cImpDiversen cImpHuisnr cImpHuisnrToev cImpLand cImpNaam cImpNaam2 cImpNaam3 cImpOverig cImpPlaats cImpPostc cImpStraat cInvVerg ASCII ASCII ASCII ASCII ASCII ASCII DATE ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII NUMERIC NUMERIC ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII ASCII Toelichting Aangiftepunt Aangever Aangiftejaar Aangiftenummer Aangifteprocedure Aangiftesymbool Aangiftetype Aanleverwijze AangifteAanvaardingsdatum Geadresseerde / Importeur (BTWnummer) Land van Verzending Land van Bestemming Leveringscondities Artikel Status Statusdatum Goederencode Goederenomschrijving 1 Goederenomschrijving 2 Goederenomschrijving 3 Land van Oorsprong Gevraagde regeling Voorafgaande regeling Vrijstellings regeling Bruto Netto Preferentie Controlesoort Controleuitslag Aanvullende eenheden Verkoper Plaats van lossing Ambtenaar District van aangever Douanepost van Aangever Postcode importeur District van Importeur Diverse gegevens van importeur Huisnr Importeur Huisnr toevoeging Imp Land imp Naam Imp naam vervolg imp naam vervolg imp Overige gegevens imp Plaats imp Postcode importeur Straat imp Invoervergunningen - 66 - Voorbeeld 164 9880200 05 1020513 <leeg> IM A CE 27012005 295318302 NO NL DDP 1 40 08/19/05 852431000000000 Software kits US 40 71 D24 1 1 040 1 0 00000000 ADOMA LTD <leeg> HARSKAMP 568 032 3079DC 000 7 a Helmond CENTOCOR BV 5985NG/R’dam 2908LP Zeesluizen Bijlagen cEurCert cFactVerk cFormA cFormL_F cStatwEUR cGemdwkg_E ccvo_text cpercir cjaar cmnd dagnaam weeknr si_lvoltr Si_lvbltr si_lvvltr ASCII ASCII ASCII ASCII NUMERIC Eurcertificaat c.q. Factuurverklaring Factuurverklaring Textiel Formulier A FormulierL(f) Douanewaarde (EUR) faktuur <leeg> <leeg> <leeg> 1912,00 Land van Oorsprong in lettercode Land van Bestemming in lettercode Land van Verzending in lettercode I.3 Betekenis symbolen I.3a Aangifteprocedure Code Verklaring en of Wettelijke omschrijving A O1 Achteraf aangifte Onvolledige aangifte (aangifte ten aanzien waarvan toestemming is verleend bepaalde gegevens of bescheiden later te verstrekken) O2 Ex-onvolledig. S Standaard aangifte Aangifte vooraf (ingevuld aangifteformulier dat wordt ingeleverd voor goederen die nog niet op de plaats van inlevering zijn gebracht). Aanvulling voorafaangifte (deze code wordt niet gebruikt in een aangifte doch in de verklaring omtrent de plaats waar de goederen zich bevinden. V1 V2 V3 Ex-voorafaangifte. M Maandaangifte I.3b Aangiftesymbool Code Verklaring en of Wettelijke omschrijving (1) Aangifte van communautaire goederen waarvoor bijzondere bepalingen gelden tijdens de overgangsperiode na de toetreding van de nieuwe Lid- Staten of (2) Aangifte van communautaire goederen COM in het kader van het handelsverkeer met de Canarische eilanden, de Franse overzeese departementen, de Kanaal- eilanden, Jungholz, Mittelberg en de berg Athos EU IM Aangifte voor het vrije verkeer uit een EVA-land Aangifte ten invoer of tot plaatsing onder de regeling behandeling onder douanetoezicht van nietcommunautaire goederen, met uitzondering van goederen uit een EVA-land - 67 - Bijlagen I.3c Landen van verzending/oorsprong/herkomst Code FR Land Frankrijk m.i.v. Monaco en de Franse overzeese departementen (Réunion, Guadeloupe, Martinique en Frans Guyana) NL Nederland DE Duitsland m.i.v. Helgoland; m.u.v. het gebied Büsingen IT Italië m.i.v. Livigno; met uitzondering van de gemeente Campione d'Italia ES Spanje m.i.v. de Balearenen en de Canarische eilanden; m.u.v. Ceuta en Melilla BE België SE Zweden TR Turkije EG Egypte SL Sierra Leone AO Angola met inbegrip van Cabinda ZA Zuid-Afrika NA Namibië BR Brazilië CL Chili PY Paraguay AR Argentinië IN India VN Vietnam NZ Nieuw-Zeeland m.u.v. de onderhorigheid Ross (Antarctica) I.3d Leveringscondities Code EXW Verklaring en of Wettelijke omschrijving Plaats van de fabriek FAS Overeengekomen haven van inscheping FOB Overeengekomen haven van inscheping CFR Overeengekomen haven van bestemming CIF Overeengekomen haven van bestemming DAF Overeengekomen plaats van levering aan de grens DDP Overeengekomen plaats van bestemming CIP Overeengekomen plaats van bestemming FCA Aangegeven plaats. DES Overeengekomen haven van bestemming DDU Overeengekomen haven van bestemming DEQ Overeengekomen haven van bestemming CPT Overeengekomen plaats van bestemming XXX Andere Leveringsvoorwaarde I.3e Gevraagde regeling Code Verklaring en of Wettelijke omschrijving 040 Tariefpreferentie/overige 041 Tariefpreferentie/overige 042 Tariefpreferentie/overige 061 Ergo omnes tariefcontingent/beheert door de Douane - 68 - Bijlagen I.3f Voorafgaande regeling Code 000 Verklaring en of Wettelijke omschrijving 023 Tijdelijke uitvoer van goederen die in ongewijzigde staat zullen terugkeren. Plaatsing onder het stelsel douane-entrepots daaronder begrepen plaatsing in andere inrichtingen onder douanetoezicht. 071 Geen voorafgaande regeling. I.3g Vrijstellingsregeling Code Verklaring en of Wettelijke omschrijving 470 Monsters van goederen van onbeduidende waarde welke slechts kunnen dienen om bestellingen te werven (art.91 Vo (EEG) nr. 918/83 en art.101 van de Douaneregeling). 590 Goederen die na tijdelijk of definitief uit het douanegebied van de EEG te zijn uitgevoerd hierin weder worden ingevoerd om er in het vrije verkeer te worden gebracht (terugkerende goederen (art.185 Cdw en art.100 van de Douaneregeling). Deze code alleen gebruiken indien: (1) de goederen tijdens hun verblijf buiten het douanegebied van de Gemeenschap niet in waarde zijn vermeerderd door een noodzakelijke herstelling of revisie; (2) het geen goederen betreft die tevoren vanuit een accijnsgoederenplaats dan wel met teruggaaf van accijns of met teruggaaf van omzetbelasting op de voet van artikel 24 van de Wet op de omzetbelasting 1968 uit het grondgebied van de Gemeenschap zijn uitgevoerd (artikel 106, tweede lid); (3) het goederen betreft waarvoor bij uitvoer toegekende of toe te kennen restituties of andere bedragen, dan wel andere eveneens in het kader van het gemeenschappelijk landbouwbeleid bij uitvoer toegekende financiële voordelen, overeenkomstig artikel 844 van de toepassingsverordening Communautair dou - 69 - Bijlagen Bijlage II II.1 Data preparatie Preparatie is onder te verdelen in data cleaning, data integratie en transformatie en data reductie. Ten eerste data cleaning. De te analyseren data kan incompleet (missende waarden of geaggregeerde data), noisy (foute waarden of outliers) en niet consistent (bijvoorbeeld, discrepanties in de toepassing van codes om objecten te categoriseren) zijn. Er zijn verschillende manieren om met incomplete data om te gaan. Men kan de rij simpelweg negeren, de missende waarde handmatig invullen, een vaste waarde invullen voor het missende veld, het gemiddelde van de attributen invullen, het gemiddelde van alle attributen die tot dezelfde klasse behoren invullen of de meest waarschijnlijke waarde invullen. Het wegwerken van noise (smoothing) valt ook onder data cleaning. Noise wordt gedefinieerd als een random error in een gemeten variabele. De noise kan worden weggewerkt door de data in “buckets” onder te verdelen (binning), te groeperen in clusters (clustering), de data in een functie om te zetten (regressie) en een combinatie van inspectie door computer en mens waarbij de noise wordt verwijderd. Inconsistente data kan worden aangepast na een handmatige zoekactie. Ook kan er aan de hand van afhankelijkheden gezocht worden naar inconsistentie. Ten tweede data integratie en transformatie [Han and Kamber, 2001]. Soms is het nodig om data uit verschillende bronnen met elkaar te combineren. Hiervoor is idealiter een identificerende kolom beschikbaar aan de hand waarvan de tabellen te combineren zijn. Wanneer dit niet het geval is kan door middel van correlatie analyse overlap gevonden worden in verschillende kolommen waardoor integratie alsnog mogelijk is. Andere problemen waarmee rekening gehouden moet worden zijn data conflicten, bijvoorbeeld een prijs die in verschillende muntsoorten is uitgedrukt. Data transformatie is het proces waarbij data wordt omgezet in een vorm die geschikt is voor data mining. Technieken die hiervoor gebruikt kunnen worden zijn: smoothing (zie hierboven), aggregatie (bijvoorbeeld van dagelijkse opbrengsten naar maandelijkse), generalisatie (bijvoorbeeld van straat naar plaats), normalisatie (het indelen van de attributen in schalen bijvoorbeeld van 10 tot 20) en het aanmaken van nieuwe attributen (nieuwe attributen worden aangemaakt vanuit de oude om het data mining proces te verbeteren). Ten derde data reductie [Han and Kamber, 2001]. Wanneer de dataset te groot is om efficiënt mee te kunnen werken moet de dataset verkleind worden. Dit kan door de data te aggregeren (zie hierboven), het aantal dimensies te verkleinen (door middel van het verwijderen van niet of weinig relevante of redundante attributen), compressie toe te passen, numerosity reduction (hier wordt de data vervangen door een kleinere data representatie) en discretization and concept hierarchy generation (hier zijn veel technieken voor beschikbaar, het komt erop neer dat het volume van de data wordt verkleind door verschillende attributen in te delen in intervals, cluster enzovoort). - 70 - Bijlagen Bijlage III III.1 Kengetallen geselecteerde goederen Goederencode AA Aangiften1 985 BB* 2.278 CC 1.084 DD 466 EE* 6.244 FF* 4.063 GG* 1.480 HH 2.618 II 890 JJ 1.866 KK 775 LL 27.850 MM 27.670 NN* 10.251 Controles2 Positieve uitslag (% van 1) (% van 1)(% van 2) 983 147 (14,92%)(14,95%) (99,80%) 1.578 332 (14,57%)(21,04%) (69,27%) 978 114 (10,52%)(11,66%) (90,22%) 444 134 (28,76%)(30,18%) (95,28%) 5.923 976 (94,86%) (15,63%)(16,48%) 3.994 562 (98,30%) (13,83%)(14,07%) 1.454 254 (17,16%)(17,47%) (98,24%) 2.540 152 (5,81%)(5,98%) (97,02%) 881 124 (13,93%)(14,07%) (98,99%) 1.832 118 (6,32%)(6,44%) (98,18%) 337 147 (18,97%)(43,62%) (43,48%) 1.911 141 (0,51%)(7,38%) (6,86%) 1.173 110 (0,40%)(9,38%) (4,24%) 3.113 189 (1,84%)(6,07%) (30,37%) III.2 Gebruik van training, validatie en test set in SAS EM Overview of the Data Partition Node: Most data mining projects utilize large volumes of sampled data. After sampling, the data is usually partitioned before modeling. Use the Data Partition node to partition your input data into one of the following data sets: • Train: is used for preliminary model fitting. The analyst attempts to find the best model weights using this data set. • Validation: is used to assess the adequacy of the model in the Model Comparison node. The validation data set is also used for model fine-tuning in the following nodes: o Decision Tree node — to create the best subtree. o Neural Network node — to choose among network architectures or for the early-stopping of the training algorithm. o Regression node — to choose a final subset of predictors from all the subsets computed during stepwise regression. • Test: is used to obtain a final, unbiased estimate of the generalization error of the model. - 71 - Bijlagen III.3 Gecorrigeerde goederencodes per goed Goederencode AA BB CC DD EE FF GG HH II JJ KK LL MM NN verschillen 0 0 1 2 5 11 2 6 2 2 2 67 2 63 III.4 Profielen en regels per goederencode AA profiel: geen profiel in 2004 beslisboom: Figuur III-1 Afgeleide beslisboom voor AA IF SI_APUNT IS ONE OF: 156 278 157 THEN CTRUITS = 1 NODE : 3 (zie figuur) N : 84 (aantal waarnemingen (training set)) 0 : 98.8% (aantal conforme aangiften) 1 : 1.2% (aantal niet conforme aangiften) IF 403 <= SI_BRUTO < THEN CTRUITS = 1 NODE : 9 N : 71 409 AND SI_APUNT EQUALS 164 - 72 - Bijlagen 0 1 : : 95.8% 4.2% IF 409 <= SI_BRUTO < THEN CTRUITS = 1 NODE : 10 N : 39 0 : 46.2% 1 : 53.8% 411 AND SI_APUNT EQUALS 164 IF 411 <= SI_BRUTO AND SI_APUNT EQUALS 164 THEN CTRUITS = 1 NODE : 11 N : 30 0 : 86.7% 1 : 13.3% IF SI_BRUTO < THEN CTRUITS = 1 NODE : 12 N : 148 0 : 89.9% 1 : 10.1% 400 AND SI_APUNT EQUALS 164 IF SI_AGEVNR EQUALS 00009300200 AND THEN CTRUITS = 1 NODE : 20 N : 5 0 : 100.0% 1 : 0.0% 400 <= SI_BRUTO < 403 AND SI_APUNT EQUALS 164 IF SI_AGEVNR EQUALS 00004280801 AND THEN CTRUITS = 1 NODE : 21 N : 15 0 : 0.0% 1 : 100.0% 400 <= SI_BRUTO < 403 AND SI_APUNT EQUALS 164 II: profiel: IF GNCODE IS II AND LANDVO IS (land) AND SI_NETTO > (tonnage) THEN CTRUITS = 1 (CTRSRT = 1 OR 2 OR 3) - 73 - Bijlagen Beslisboom: Figuur III-2 Afgeleide beslisboom voor II IF SI_GEADR IS ONE OF: 80936149801 00617893501 00882653501 80586275401 THEN CTRUITS = 1 NODE : 2 N : 39 0 : 25.6% 1 : 74.4% IF SI_GEADR IS ONE OF: 00442237508 00715127501 80111027001 80655384402 80523119501 00888477808 80392384301 00754262801 00566630201 00124595801 80834694501 00717020802 00962484301 80082783101 80293666002 80373206501 THEN CTRUITS = 1 NODE : 3 N : 313 0 : 93.3% 1 : 6.7% KK: profiel IF GNCODE IS KK AND SI_NETTO > (tonnage) THEN CTRUITS = 1 (CTRSRT = 1 OR 2 OR 3) - 74 - Bijlagen beslisboom: Figuur III-3 Afgeleide beslisboom voor KK IF SI_BRUTO < NODE : 2 N : 35 1 : 2.9% 0 : 97.1% 4670 THEN CTRUITS=1 IF 72192 <= SI_BRUTO THEN CTRUITS=1 NODE : 7 N : 32 1 : 21.9% 0 : 78.1% IF SI_APUNT EQUALS 253 AND NODE : 9 N : 49 1 : 81.6% 0 : 18.4% 4670 <= SI_BRUTO < 72192 THEN CTRUITS=1 IF 4670 <= SI_BRUTO < NODE : 12 N : 7 1 : 42.9% 0 : 57.1% 17300 AND SI_APUNT EQUALS 157 THEN CTRUITS=1 IF 17300 <= SI_BRUTO < NODE : 13 N : 11 1 : 72.7% 0 : 27.3% 72192 AND SI_APUNT EQUALS 157 THEN CTRUITS=1 NN: profiel: IF GNCODE IS ONE OF NN (….) AND GEADR <> NN AND <> 80662912501 THEN CTRUITS = 1 (CTRSRT = 1 OR 2 OR 3) - 75 - Bijlagen beslisboom: Figuur III-4 Afgeleide beslisboom voor NN IF SI_AGEVNR IS ONE OF: 00001340700 00001442403 00001442404 00002960900 00003833707 00004341200 00004696600 00004906200 00005341704 00005414800 00006017300 00006017301 00006793311 00006881002 THEN CTRUITS=1 NODE : 2 N : 1041 1 : 0.4% 0 : 99.6% IF SI_AGEVNR IS ONE OF: 00002925701 00002980400 00003038700 00003199900 00003717500 00004747800 00004906202 00006047103 00006425701 00006781700 THEN CTRUITS=1 NODE : 6 N : 179 1 : 26.8% 0 : 73.2% IF SI_AGEVNR IS ONE OF: 00004184104 00004184109 THEN CTRUITS=1 NODE : 7 N : 26 1 : 92.3% 0 : 7.7% III.5 Classificatietabellen per goederencode AA ŷi 0 yi 0 KK 1 Total 0 315 18 333 (80,36%) (4,59%) (84,95%) 1 23 36 59 (5,87%) (9,18%) (15,05%) 338 54 392 (86,22%) (13,78%) Total ŷi yi 0 1 Total 63 12 75 (47,01%) (8,96%) (55,97%) 1 11 48 59 (8,21%) (35,82%) (44,03%) 74 60 134 (55,22%) (44,78%) Total McFadden σn 0,5597 McFadden σn 0,6529 prestatie-index 0,8954 prestatie-index 0,8284 - 76 - Bijlagen II ŷi 0 yi 0 NN 0 292 10 302 (82,95%) (2,84%) (85,80%) 1 21 29 50 (5,97%) (8,24%) (14,20%) 313 39 352 (88,92%) (11,08%) Total ŷi 1 Total yi 0 1168 2 1170 (93,74%) (0,16%) (93,90%) 1 52 24 76 (4,17%) (1,93%) (6,10%) 1220 26 1246 (97,91%) (2,09%) Total McFadden σn 0,5530 McFadden σn prestatie-index 0,9119 prestatie-index - 77 - 1 Total -0,0606 0,9567 Bijlagen Bijlage IV IV.1 Kengetallen druiven Aangiften1 Goederencode OO Totaal Controles2 (% van 1) 2 EE 6.244 FF 4.063 PP 3 - Positieve uitslag (% van 1)(% van 2) 2 (100%) 5.923 (94,86%) 3.994 (98,30%) 1 (33,33%) 9.920 (96,20%) 10.312 0 (0%)(0%) 976 (15,63%)(16,48%) 562 (13,83%)(14,07%) 1 (33,33%)(100%) 1.539 (14,92%)(15,51%) IV.2 Classificatietabellen beslisbomen boom1 ŷi 0 yi 0 3293 (83,03%) 1 337 (8,50%) Total boom3 1 Total 58 278 3630 336 (8,47%) 0,3578 prestatie-index 0,9004 0 3320 (83,71%) 1 372 (9,38%) Total 615 1 31 3966 Total 0,0996 243 McFadden σn 0,2100 prestatie-index 0,8984 (82,30%) 1 335 (8,45%) Total 287 (7,24%) 0,9002 (83,54%) Total 0,1016 3351 (2,19%) (84,49%) 280 615 (7,06%) (15,51%) 3599 367 (90,75%) (9,25%) McFadden σn 0,3664 prestatie-index 0,8936 370 (9,33%) 1 Total 87 3313 1 3966 3966 0,1064 - 78 - 615 3966 0,0998 ŷi 0 615 ŷi 0 3679 prestatie-index (6,13%) (15,51%) 274 253 (6,38%) (15,51%) 0,2563 yi 3351 (0,86%) (84,49%) (92,76%) 0 3351 1 Total 34 McFadden σn (0,78%) (84,49%) (6,91%) 3264 362 (9,13%) boom4 3692 0 3317 1 Total (93,09%) boom dept=3 0 (83,64%) ŷi 0 yi yi (7,01%) (15,51%) McFadden σn yi 0 3351 (1,46%) (84,49%) (91,53%) boom2 ŷi 1 Total 38 3351 (0,96%) (84,49%) 245 615 (6,18%) (15,51%) 3683 283 (92,86%) (7,14%) McFadden σn 0,2238 prestatie-index 0,8971 3966 0,1029 Bijlagen IV.3 Classificatietabellen neurale netwerken 15 ŷi 0 yi 0 10 1 Total 0 3271 80 3351 (82,48%) (2,02%) (84,49%) 1 333 282 615 (8,40%) (7,11%) (15,51%) 3604 362 3966 (90,87%) (9,13%) Total McFadden σn 0,3723 prestatie-index 0,8959 25 yi 0 42 3351 (83,43%) (1,06%) (84,49%) 1 365 250 615 (9,20%) (6,30%) (15,51%) 3674 292 3966 (92,64%) (7,36%) Total McFadden σn 0,2477 prestatie-index 0,8974 (82,98%) (1,51%) (84,49%) 342 273 615 (8,62%) (6,88%) (15,51%) 3633 333 3966 (91,60%) (8,40%) McFadden σn 0,3411 prestatie-index 0,8986 yi 0 57 3351 (83,06%) (1,44%) (84,49%) 347 268 615 (8,75%) (6,76%) (15,51%) 3641 325 3966 (91,81%) (8,19%) Total - 79 - 1 Total 3294 1 0,1014 0,1026 ŷi 0 3351 1 Total 3309 20 60 Total 0 1 Total 3291 1 yi 0,1041 ŷi 0 ŷi McFadden σn 0,3230 prestatie-index 0,8981 0,1019 Bijlagen IV.4 Frequentietabel per variabele gecensureerd - 80 - Bijlagen IV.5 Afgeleid logistisch regressie model gecensureerd - 81 - Bijlagen IV.6 Classificatietabellen logistische regressie modellen training training logit c=0,5 ŷi 0 yi 0 logit c=0,15 0 6182 83 6265 (83,17%) (1,12%) (84,29%) 679 489 1168 (9,13%) (6,58%) (15,71%) 6861 572 7433 (92,30%) (7,70%) 1 Total ŷi 1 Total McFadden σn 0,2784 prestatie-index 0,8975 yi 1 Total 4702 1563 6265 (63,26%) (21,03%) (84,29%) 243 925 1168 (3,27%) (12,44%) (15,71%) 4945 2488 7433 (66,53%) (33,47%) 1 Total 0,1025 test 0 McFadden σn 0,4544 prestatie-index 0,7570 0,2430 test logit c=0,5 ŷi 0 yi 0 logit c=0,15 1 Total 0 2087 29 2116 (83,92%) (1,17%) (85,08%) 220 151 371 (8,85%) (6,07%) (14,92%) 2307 180 2487 (92,76%) (7,24%) 1 Total ŷi McFadden σn 0,2544 prestatie-index 0,8999 yi 0 566 2116 (62,32%) (22,76%) (85,08%) 84 287 371 (3,38%) (11,54%) (14,92%) 1634 853 2487 (65,70%) (34,30%) 1 Total 0,1001 - 82 - 1 Total 1550 McFadden σn 0,4201 prestatie-index 0,7386 0,2614 Bijlagen Bijlage V V.1 Overzicht van het gebruik van domeinkennis in een data mining project [Kopanas et al, 2002] stage Use of Domain Knowledge (DK) Type of DK (1) Problem definition HIGH Business and domain knowledge, requirements Implicit, tacit knowledge (2) Creating target data set MEDIUM Attribute relations, semantics of corporate DB Data warehouse (3) Data prepossessing and transformation HIGH Tacit and implicit knowledge for inferences Database tools, statistical analysis (4) Feature and algorithm selection MEDIUM Interpretation of the selected features Statistical analysis (5) Data Mining LOW Inspection of discovered knowledge Data mining tools (6) Evaluation of learned knowledge MEDIUM Definition of criteria related to business objectives Data mining tools (7) Fielding the knowledge base HIGH Supplementary domain knowledge necessary for implementing the system Knowledge-based system shells and development tools - 83 - Tools used Bijlagen Bijlage VI VI.1 Gespreksverslagen VI.1a Gespreksverslag Risicodatabase Hoe is de risicodatabase ontstaan? Vanuit de algemene rekenkamer, die vroeg zich af welke risico’s er nu waren (met betrekking tot het goederenvervoer). Hierop wist niemand een antwoord. Daarom is er in samenwerking met blauw de risicodatabase opgericht. Wat is de risicodatabase? De risicodatabase is een applicatie binnen Lotus Notes waarin iedere ambtenaar risico’s kwijt kan. Dat kan van alles zijn, bijvoorbeeld een signaal dat er gefraudeerd wordt bij een bepaald soort goed. Alle signalen worden door de risicodatabase groep bekeken en ingedeeld in groepen. (welke groepen?) Wat gebeurt er met de signalen? Dat licht aan de aard van het risico. Bij spoedgevallen spelen wij het meteen door aan profielbeheer. Zij maken er een profiel van en zetten het in Sagitta Invoer. Dit zijn vaak signalen die directe actie vereisen omdat de goederen al onderweg zijn en een risico vormen voor de veiligheid of gezondheid. Als er geen spoed is blijven de signalen in de database staan totdat ze worden opgepikt door de risico kennisgroepen of de DIA’s. VI.1b Gespreksverslag Profielbeheer Wat is de taak van profielbeheer? Wij krijgen een formulier met het risico en het profiel welke wij verwerken in Sagitta Invoer/Uitvoer. De update gebeurd normaal gesproken een keer per dag. Wanneer er een spoed risico binnenkomt, schrijven we zelf het profiel en zetten we het direct in Sagitta Invoer. Wat is de historie van Invoer en Uitvoer profielen? Sagitta Invoer bestaat sinds 1985 en er zijn zo’n 9000 profielen ingevoerd sindsdien. Hiervan is een groot deel niet meer in gebruik. Sagitta uitvoer bestaat sinds 1996. Invoer heeft een maximale profiellengte van 50 regels en bij uitvoer is dat 60. Wat bepaald de kleur van het risico? Die wordt bepaald door de DIA. Maar over het algemeen kun je zeggen dat als er fysiek gecontroleerd moet worden de kleur rood wordt meegegeven. De goederen mogen dan niet de opslagplaats verlaten. Een lager risico komt voor bij controles die administratief kunnen worden afgedaan, bijvoorbeeld de douane waarde. Is er controle op de kwaliteit/juistheid van de gegevens? In zoverre dat het systeem controleert of de vorm van de input valide is. Bijvoorbeeld nummers in een numeriek veld of een geldige goederencode, ook wordt gecontroleerd of er daadwerkelijk iets in wordt gevuld bij de verplichte velden. Nadeel is dat wanneer er een andere schrijfwijze is dan dat in het profiel systeem, je geen hit krijgt op de aangifte. De gemaakte aangifte is wel officieel, dus wanneer iemand een fout maakt staat hier direct een boete tegenover. Worden de profielen geëvalueerd? - 84 - Bijlagen Ja, maar dat doen de risico-eigenaren, i.e. de risico kennisgroepen of de DIA’s. Zij bepalen of een profiel er in blijft of dat hij eruit gaat of dat het percentage gewijzigd moet worden. Wat houdt het percentage in? Het percentage wordt gebruikt bij steekproeven op bepaalde risico’s. Het systeem laat dan een deel van de hits door en een ander deel niet. Ook als het aantal hits van een profiel te groot wordt kan er een steekproef aan vast worden gehangen. Zodat de te beoordelen zendingen behapbaar wordt. VI.1c Gespreksverslag risicokennisgroep Wat is een risico kennisgroep? Een risico kennisgroep is een groep mensen die verantwoordelijk zijn voor de risico’s die onder een bepaalde groep vallen. Zij hebben expertise op dit gebied en bepalen of er actie moet worden ondernomen aan de hand van de signalen uit de risicodatabase. Er zijn 4 risico kennisgroepen (tabak&alcohol, consumentengoederen, landbouw, minerale olien) en 13 doelgroepen. Deze zijn ingedeeld aan de hand van goederencodes. De risico kennisgroepen zijn verantwoordelijk voor zo’n 80% van de goederencodes, de overige 20% zijn toegewezen aan de DIA’s. Welke mogelijkheden heeft een RKG? Een risico kennisgroep kan een profiel laten maken voor prisma/invoer/uitvoer; een CNU/CNI instellen; een administratieve controle laten uitvoeren; en een gerichte actie laten ondernemen (bijvoorbeeld controle op sigaretten.) Een opdracht wordt doorgestuurd naar de DIA. Doet de RKG aan evaluatie van de risico’s? De DIA’s doen de cijfermatige analyse. Die wordt doorgestuurd aan ons waarna wij bepalen of er iets met het risico (profiel) moet gebeuren. Verwijderen, percentage veranderen, bepaalde partij uitsluiten enz. VI.1d Gespreksverslag Douane Informatieafdeling Hoe zijn de DIA’s landelijk georganiseerd? Er zijn 4 DIA’s, Noord, West, Zuid en Rotterdam. Allemaal hebben zie dezelfde taak, alleen de invulling is anders. Dit komt door de verschillende omgeving waarin ze werken. Rotterdam heeft de zeehaven, West heeft de luchthaven. En hoe is de DIA Rotterdam georganiseerd? Binnen het DIA Rotterdam zijn twee teams, een team Productie en Profielen (P&P) en een team Onderzoek en Ontwikkeling (O&O). Ieder team is onderverdeeld in clusters. Het team O&O bevat onder andere het cluster risicokennisgroep MO&C. Ook is er een cluster risicobeheersing algemeen. Hieronder valt Pro Actief, dat risicoanalyses uitvoert. Het team P&P kent een cluster profielbeheer, zij analyseren profielvoorstellen, beheren en evalueren profielen. Wat is de taak van de DIA? Een uitgebreide taakbeschrijving is te vinden in het verslag “van signaal tot evaluatie”. De DIA is samen met het DIC en de RKG onderdeel van de risicobeheersing. Doel hiervan is compliance. Dat men zich aan de wet houdt. Dit wordt bereikt middels verschillende vormen van toezicht, waaronder controles. Hoe is de 80-20% indeling gemaakt? - 85 - Bijlagen Dat is niet op basis van hoofdstukken, maar op basis van goederenstromen. Het is ook maar een indicatie, goederenstromen zijn namelijk variabel. VI.1e Gespreksverslag domeinexperts De resultaten van de analyse in hoofdstuk 5 worden voorgelegd aan de domeinexperts. Per risico, zoals geconstateerd in het gespreksverslag met de Douanemedewerker, worden de resultaten van de analyse voorgelegd en de reactie van de domeinexperts hierop besproken. • waardebepaling: vanwege een tekortkoming in de data kon dit risico niet precies onderzocht worden. Wel is er een overzicht gemaakt van het aantal aangiften per dag en de hoeveelheid conforme en niet-conforme aangiften. Hieraan zijn toen geldende eenheidsprijzen gekoppeld om te bekijken of er opvallende schommelingen in de tabel te zien zijn. Op de overgangsgebieden van de eenheidsprijzen was dit niet het geval. Wel was er in de periode dat er geen invoerrechten geheven worden opeens een stijging te zien in het aantal niet conforme aangiften. Beide domeinexperts wisten hier niet direct een verklaring voor. Het is mogelijk dat de aangiften door verschillende personen gecontroleerd worden die er een andere manier van registreren op na houden. • Oorsprongfraude: Hier valt op dat er een land van oorsprong wordt opgegeven met de cijfercode 910. Deze code kan niet aan een land worden toegeschreven. Ook de domeinexperts hadden geen idee welk geografisch gebied er schuil moet gaan achter deze cijfercode. Wel zijn er 1.566 (15,8% van het totaal!) aangiften ingediend met dit land van oorsprong. • Fraude met goederencodes: niet te onderzoeken vanwege beperkte aantal aangiften met risicovolle goederencodes. Verder kwam naar voren dat er een importeur was waarvan dik 90% van de gecontroleerde ingediende aangiften niet conform bevonden is. Voor de Douanemedewerker is dit reden om die aangiften nog eens nader te bekijken. VI.1f Gespreksverslag druiven case Welke druivensoorten zijn er? Alle druiven vallen binnen GS-post 0806. Hierin worden vier soorten druiven onderscheiden: • OO: Druiven van de soort “empereur”. Deze worden maar zeer beperkt ingevoerd. • EE: druiven voor tafelgebruik, zonder pit. • FF: druiven voor tafelgebruik, met pit. • PP: wijndruiven. Ook hierin is maar beperkte invoer. Wat is de mogelijke oorzaak voor de vele controles? Hier is, voor zover na te gaan, geen profiel verantwoordelijk voor. Aan de invoer van fruit zijn veel voorwaarden verbonden. Zo kan de plantenziektekundige Dienst reden hebben om een zending te controleren. Ook de voedsel- en warenautoriteit kan een controle doen. Ook is de waarde van de invoer op meerdere manieren te bepalen. Wanneer de waarde van de goederen door schatting wordt bepaald, is er achteraf een correctie nodig. Deze correctie leidt tot een gecontroleerde aangifte. Deze wordt dan wel als conform aangemerkt (mits er geen andere gebreken geconstateerd worden). Wat zijn de risico’s met betrekking tot de invoer van druiven? • Er kan creatief worden omgegaan met de manier waarop de waarde opgegeven mag worden. Met als doel zo min mogelijk heffingen te betalen. Mogelijk is er op - 86 - Bijlagen • • • • basis van de schommeling in eenheidsprijzen iets te zeggen over de door de importeur gekozen waardebepaling. OO is onder bepaalde voorwaarden onder een gunstig tarief in te voeren. Hierbij heeft Namibië een gunstiger tarief dan het naastgelegen Zuid-Afrika. Waardoor oorsprongsfraude mogelijk is. Tussen 21-7 en 20-11 ligt de invoer vanuit het zuidelijk halfrond stil. Wel is er invoer vanuit Turkije waar geen invoerrecht op wordt geheven.. De waarde van de druiven wordt dus niet belast. Wel is er een prijsmaatregel. Mogelijk van land van oorsprongfraude. Zie vorige; druiven kunnen worden aangegeven als wijndruiven, goederencode PP. Hierbij geldt geen prijsmaatregel. Druiven met opgegeven oorsprong Israël kunnen ook uit de door Israël bezette gebieden komen. - 87 -