De grootste kennisbank van het HBO

Inspiratie op jouw vakgebied

Vrij toegankelijk

Terug naar zoekresultatenDeel deze publicatie

CR1M3 F1GH7ING M3T 5TAT1STI3K

Open access

Rechten:Alle rechten voorbehouden
1e Prijs H/Link Afstudeerprijs 2013

CR1M3 F1GH7ING M3T 5TAT1STI3K

Open access

Rechten:Alle rechten voorbehouden
1e Prijs H/Link Afstudeerprijs 2013

Samenvatting

Management samenvatting

Xiraf is een database van digitale sporen en heeft als doel om de enorme hoeveelheid data doorzoekbaar te maken door middel van filters en data analyses om uiteindelijk misdaadzaken sneller op te lossen. Wat betreft data analyses is er genoeg ruimte voor verbetering. Deze data analyses kunnen betrekking hebben op foto's, video's, Microsoft Office bestanden, e-mail berichten enzovoort.

In deze scriptie wordt de nadruk gelegd op data analyse die betrekking heeft op de e-mail berichten in Xiraf. Deze data analyse is een e-mail content analyse. Dit houdt in dat er wordt gekeken naar de inhoud van de e-mail. Iedere e-mail is anders en voor rechercheurs is het belangrijk om e-mails te vinden die betrekking hebben op de zaak waaraan zij werken. Om deze paar belangrijke e-mails te vinden is deze e-mail content analyse gemaakt.

De e-mail content analyse is gebaseerd op het online e-mail spamfilter en maakt gebruik van Bayesiaanse statistiek. Het online e-mail spamfilter filtert spam e-mails van legitieme e-mails door onder andere te kijken naar de verschillende woorden die in de e-mail staan. Enkele woorden die vaak in spam berichten voorkomen zijn 'viagra' en 'sex'. In legitieme e-mails komen deze woorden nauwelijks voor. Door gebruik te maken van Bayesiaanse statistiek kan het online e-mail spamfilter van iedere inkomende e-mail berekenen wat de kans is dat het een spam e-mail is. De e-mail content analyse werkt vrijwel op dezelfde manier als het online e-mail spamfilter. Het verschil is echter, het onderwerp van de e-mail. In de e-mail content analyse moet niet worden gezocht naar spam berichten, maar moet worden gezocht naar e-mails die van belang zijn voor de zaak. Woorden als 'geweer', 'vermoord', 'kinderporno' en 'fraude' zijn in dit geval belangrijk, afhankelijk van de soort zaak waaraan wordt gewerkt.

Voordat de content e-mail analyse zijn werking goed kan doen, moet eerst informatie worden doorgegeven aan het filter. Deze informatie wordt doorgegeven door e-mails te markeren als zaak gerelateerd of niet zaak gerelateerd. Het filter kijkt naar de woorden die in deze e-mails voorkomen en kan daaruit opmaken welke woorden belangrijk zijn voor de zaak en welke woorden dit niet zijn. Des te meer e-mail berichten zijn gemarkeerd, des te nauwkeuriger het filter zal werken. Een woord dat relatief vaak voorkomt in zaak gerelateerde e-mails en relatief weinig in niet zaak gerelateerde e-mails, kan worden gezien als een belangrijk woord.

Om de werking van de e-mail content analyse te testen is gebruik gemaakt van een testcase. Deze testcase heeft betrekking op het fraude schandaal van het Amerikaanse bedrijf 'Enron Corporation' in 2001. Dit was destijds het grootste en meest complexe fraude schandaal in de Amerikaanse historie. Vanwege de omvang van de fraude en de impact op de zakenwereld, is een set van ongeveer een half miljoen e-mail berichten van het hoger management publiekelijk gemaakt ter onderzoek. Als testcase moet de e-mail content analyse de belangrijke e-mails, waarin aspecten van het fraude schandaal in voorkomen, kunnen scheiden van de niet belangrijke e-mails.

Uit de testcase is gebleken dat de e-mail content analyse werkt zoals deze zou moeten. Tijdens het draaien van de analyse treden er geen fouten op en de heuristiek en de formules worden correct in de applicatie toegepast. Dit zorgt ervoor dat voor alle e-mail berichten kan worden berekend of de e-mail is gerelateerd aan de zaak of niet.
Voor de testcase is een beperkte hoeveelheid e-mails gemarkeerd. Er zijn slechts 414 e-mails gemarkeerd van de 238.281 e-mails. Ondanks deze beperkte hoeveelheid gemarkeerde e-mails heeft dit ervoor gezorgd dat ongeveer drie kwart van alle e-mails uitgefilterd werden als niet zaak gerelateerd. Bij een grotere hoeveelheid gemarkeerde e-mails zou de e-mail content analyse nog nauwkeuriger zijn werk kunnen doen, waardoor er nog meer e-mails uitgefilterd kunnen worden. In verband met het gebrek aan nauwkeurigheid en de enorme onbalans van e-mail verkeer tussen de verschillende medewerkers van Enron Corporation, heeft de e-mail content analyse niet kunnen achterhalen wie de hoofdpersonen waren achter het fraude schandaal.

Er wordt aanbevolen om te onderzoeken hoeveel e-mails er gemarkeerd moeten worden, wil de e-mail content analyse nauwkeurige resultaten geven en hoe deze resultaten fluctueren indien er meer of minder e-mails zijn gemarkeerd. Daarnaast dient ook gekeken te worden naar de meegegeven waarde voor de sterkte van zeldzame woorden en een variabele hoeveelheid woorden dat maximaal gebruikt mag worden om de zaak gerelateerdheid van een e-mail te bepalen. Hierin is het ook interessant hoe de analyse zijn resultaten geeft naarmate hier waarden veranderen.

Er zijn nog vele manieren om de e-mail content analyse doelgerichter en nauwkeuriger te laten werken. Voor de doelgerichtheid kan gebruik gemaakt worden van een zogenaamde woordenboost. Dit houdt in dat bepaalde woorden zwaarder worden meegerekend in de e-mail analyse. Deze woordenlijst kan door de gebruiker zelf worden samengesteld. Om de e-mail analyse nauwkeurigere resultaten te laten geven kan er gebruik gemaakt worden van de analyse van extra eigenschappen van de e-mail. Zoals tekst dat voorkomt in het onderwerp van de e-mail. De meeste online e-mail spamfilters maken ook gebruik van meerdere kenmerken in een e-mail om te bepalen of een e-mail spam is of niet. Daarnaast kunnen ook nog zaakprofielen worden toegepast ter nauwkeurigheid van de resultaten. Dit houdt in dat er per misdaadprofiel (moord, fraude, zedenmisdrijf) een eigen filter bestaat. In ieder verschillend profiel moet immers worden gezocht op een andere set woorden in de e-mails.

Toon meer
OrganisatieDe Haagse Hogeschool
OpleidingTISD Bedrijfswiskunde
AfdelingAcademie voor Technologie, Innovatie & Society Delft
PartnerNCIM Groep
Jaar2012
TypeBachelor
TaalNederlands

Op de HBO Kennisbank vind je publicaties van 26 hogescholen

De grootste kennisbank van het HBO

Inspiratie op jouw vakgebied

Vrij toegankelijk