Het data science model – Classificatie

Ruben Peters

Data Scientist

Als mensen het over data science hebben is er een grote kans dat ze classificatie als eerste in gedachten hebben. Classificatie is namelijk één van de bekendste en meest toegepaste methoden van data science.

Introductie

Simpel gezegd willen we bij classificatie voor elke nieuwe observatie voorspellen tot welke categorie deze behoort. Dit doen we door te kijken naar historische observaties waarvan de categorie bekend is. In het plaatje hieronder wordt dit weergegeven door oranje rondjes en zwarte driehoekjes. Voor het scheiden van deze twee categorieën dienen we rekening te houden met twee kenmerken*: kleur en het aantal hoeken. Als we vervolgens voor een nieuwe observatie willen weten tot welke categorie deze behoort gebruiken we datzelfde model om dit te voorspellen.

Het voorbeeld van oranje rondjes en zwarte driehoekjes is nogal triviaal, maar hetzelfde concept kan je op ontelbaar verschillende manieren toepassen. Een klassiek voorbeeld is het voorspellen of een e-mailbericht tot de categorie Spam of Inbox behoort. In dit voorbeeld bestaan de kenmerken niet uit kleur of de hoeveelheid hoeken, maar uit complexere dimensies als het taalgebruik, het aantal spelfouten of jouw eerdere contact met de afzender.

Naast het toewijzen naar twee categorieën is het met classificatie ook mogelijk meerdere categorieën te onderscheiden. Toepassingen hiervan zijn het voorspellen van plantsoorten, het herkennen van gezichten in foto’s, het herkennen van handschriften of het voorspellen van het type nieuwsbericht aan de hand van de inhoud.

classificatie

Hoe werkt het?

Voor classificatie kunnen verschillende modellen gebruikt worden. Eén van de bekendste en makkelijkst uit te leggen modellen is de decision tree. Een decision tree splitst de data elke keer in twee groepen door op elk punt een vraag te stellen die de categorieën zo goed mogelijk splitst**.

decision_tree

Hiernaast staat een voorbeeld van een decision tree om te voorspellen welke personen de Titanic-ramp hebben overleefd (Zie ook: https://www.kaggle.com/c/titanic)

Als je weet waar je moet kijken, kan je uit het model afleiden dat veel vrouwen (73%) en veel jongens, jonger dan 10 met minder dan 3 broers of zussen (89%) deze ramp overleefden.

Er zijn nog veel meer modellen te gebruiken voor classificatie. Een voorbeeld hiervan is RandomForest. Een RandomForest bestaat, zoals de naam als suggereert, uit een ‘bos’ met heel veel decision trees, waarbij elke boom maar een deel van de data te zien krijgt en ook maar een deel van de kenmerken kan categoriseren. Het grote voordeel van een RandomForest is dat het bij grote hoeveelheden data een krachtige voorspelling kan maken. Tegelijkertijd kent het ook een nadeel: door het grote aantal verschillende bomen kan je als mens letterlijk door de bomen het bos niet meer zien en is het interpreteren van de unieke kenmerken lastig.

Bij elk nieuw vraagstuk zoeken onze data scientists naar een geschikt classificatie model. Hierbij hebben ze ook nog de keuze uit modellen gebaseerd op wiskunde (logistische regressie), kansrekenen (Naive Bayes of Bayesian networks), neuronen (Neural networks) of iets compleet anders (Support vector machines).

Toepassingen Ynformed

Bij Ynformed maken we veel gebruik van classificatiemodellen om maatschappelijke problemen op te lossen. Zo hebben we laten zien hoe je op basis van deze techniek kan voorspellen welke bijstandsgerechtigden binnen bepaalde tijd uit een uitkering stromen. Daarmee bieden we werkbedrijven inzicht in welke interventie bij wat voor type re-integreerders het meest effect heeft. (Zie ook: http://stay.ynformed.nl/werk/datagedreven-aanpak-re-integratie/)

Ook hebben we een classificatie model ontwikkeld om te voorspellen welke leerlingen hun startkwalificatie gaan halen. Ons model maakt hierbij gebruik van data die DUO voor alle leerlingen bijhoudt over hun schoolloopbaan. Omdat we uit historische data kunnen achterhalen welke leerlingen hun startkwalificatie alsnog gehaald hebben, kunnen we voor alle nieuwe voortijdig schoolverlaters in Nederland een voorspelling doen of zij gebaat zijn bij extra ondersteuning vanuit de gemeente. (Zie ook: http://stay.ynformed.nl/onderwijs/nu-en-toekomst-schoolverlaten-voorkomen/)

Ben je benieuwd of data science je kan helpen bij een maatschappelijk probleemstuk waar jij je mee bezig houdt? Wij vinden het altijd leuk om hier tijdens een kop koffie over door te praten!

*Data scientists gebruiken in plaats van kenmerken graag het woord feature(s). Hetzelfde maar dan Engels

**Decision trees bieden vaak een dieper inzicht in doelgroepen, doordat ze doelgroepen met elke nieuwe vertakking verder uitsplitsen op basis van overige kenmerken.

Deel dit artikel
Share on LinkedInTweet about this on TwitterShare on FacebookEmail this to someone