Een kijkje in de e-mails van Hillary Clinton

Er is het afgelopen jaar veel te doen geweest over het gebruik van e-mail door Hillary Clinton; ze zou de regels hebben overtreden door via een persoonlijke account gevoelige informatie te versturen. Op Hillary’s campagne-website is overigens in vier zinnen te lezen dat de oud minister van buitenlandse zaken niks verkeerd deed.

In de loop van 2015 zijn de e-mails publiek gemaakt door het Amerikaanse ministerie van Buitenlandse Zaken. De 55.000 berichten zijn vervolgens door The Wall Street Journal doorzoekbaar gemaakt. Tevens zijn de berichten door Kaggle (het zelfbenoemde ‘home of data science’) klaargemaakt om te analyseren. Vanaf Kaggle zijn de bestanden al meer dan 2500 keer gedownload, en zijn er al meer dan 500 scripts beschikbaar. Een beschijving van de data, en een overzicht van de analyses, is hier te vinden.

Wordcloudclinton_wordcloud
Een van de analyses kijkt naar frequenties van woorden, en heeft dat gevisualiseerd in een wordcloud, waar woorden die vaker voorkomen, groter weergegeven worden. Om het nog wat actueler te maken, is de wordcloud in de vorm van een poster voor het presidentschap van Clinton. Een mooi stukje werk, maar het geeft nog niet echt inzicht.

Buitenlandse bemoeienis
Een andere analyse zoekt in de e-mails naar de frequenties van namen van landen, om inzicht te krijgen in de buitenlandse bemoeienis van de Verenigde Staten. Op de resulterende kaart is duidelijk te zien dat het Midden-Oosten en Noord Afrika meer aandacht krijgen, wat met oog op het nieuws van het afgelopen jaar wel te verklaren is.

clinton_countries

Uitdaging
E-mails zijn een voorbeeld van ongestructureerde data, waaruit het vaak moeilijker is waardevolle informatie te destilleren dan uit gestructureerde data (denk hierbij aan data in databases). Volgens een schatting van zakenbank Merrill Lynch zit rond 80% van informatie in ongestructureerde data, waardoor het zeker de moeite waard is om hiermee bezig te zijn. De uitdaging is om er ook echt waardevolle informatie uit te halen!

Deel dit artikel
Share on LinkedInTweet about this on TwitterShare on FacebookEmail this to someone