Textmining partijprogramma’s verkiezingen 2017

Loes Knoben

Data Scientist

De verkiezingen van 2017 staan weer voor de deur. Dit betekent dat de promotiefilmpjes en slogans van de partijen je om de oren vliegen. De beste strategie om een goed geïnformeerde keuze te maken, is natuurlijk om alle partijprogramma’s door te nemen. Gezien de grote hoeveelheid standpunten van de meeste partijen, is dit echter niet in een middagje te doen. Als data scientist ga ik dan ook liever te werk met de hulp van de computer. Door het toepassen van textmining heb ik gekeken of er interessante inzichten uit de partijprogramma’s te halen zijn. 

Het analyseren van teksten, ook wel textmining genoemd, kan patronen in teksten bloot leggen om zo tot bepaalde inzichten te komen. Eerder heb ik binnen Ynformed ervaring opgedaan met het analyseren van teksten om de GGD te helpen met de signalering van kindermishandeling. Hierbij gebruiken we de teksten die zorgprofessionals maken in de kind-dossiers, tijdens het afnemen van een consult. Op basis van de patronen in deze teksten berekenen we dan een risicoscore voor ieder kind. In een ander project hebben we de teksten van meldingen openbare ruimte geanalyseerd. Door een machine learning model de meldingen te laten categoriseren, kunnen we het werk binnen de gemeente verlichten. Textmining is dus een techniek die erg breed inzetbaar is. In deze blog laat ik de meest interessante uitkomsten zien van de analyse van de verschillende partijprogramma’s.

Textmining

Bij textmining wordt er met behulp van wiskundige technieken waardevolle informatie gehaald uit grote hoeveelheden tekstmateriaal. Met deze technieken wordt geprobeerd om patronen en tendensen bloot te leggen. Concreet worden de teksten softwarematig gestructureerd en ontleed, getransformeerd en opgeslagen, en ten slotte geëvalueerd en geïnterpreteerd.

Meest gebruikte stopwoorden.

Simpel gezegd komt dit erop neer dat de data eerst opgeschoond wordt. Hiervoor worden bijvoorbeeld hoofdletters en speciale tekens eruit gefilterd, zodat hier geen hiërarchisch onderscheid in wordt gemaakt. Daarnaast worden ook zogenaamde stopwoorden eruit gefilterd, zoals lidwoorden en voorzetsels, aangezien deze meestal geen interessante informatie bevatten, maar wel het inzicht vertroebelen doordat ze erg vaak voorkomen.

Bij textmining wordt er met behulp van wiskundige technieken waardevolle informatie gehaald uit grote hoeveelheden tekstmateriaal.

Na deze opschoning wordt geteld hoe vaak ieder woord voorkomt in elke tekst. Deze informatie wordt opgeslagen in een grote tabel, ook wel een term-document matrix genoemd. De gehele tekstanalyse kan vervolgens gedaan worden aan de hand van deze matrix. Bij de analyse van de verkiezingsprogramma’s betekent dit dat iedere kolom naar een bepaalde partij verwijst, terwijl de rijen de verschillende woorden bevatten die voorkomen.

Voor de analyse ben ik begonnen met een algemene verkenning, waarbij ik bijvoorbeeld heb gekeken naar de lengte van de partijprogramma’s en de meest gebruikte woorden. Hierna heb ik gekeken of er een verschuiving in taalgebruik is geweest door de jaren heen, door ook de partijprogramma’s van 1998 tot en met 2012 mee te nemen in de analyse. Ook heb ik onderzocht wat de grootste verschillen zijn tussen het taalgebruik van linkse en rechtse partijen in 2017. Daarna heb ik me vooral gericht op de verschillen tussen partijen door bijvoorbeeld te kijken welke woorden een partij significant vaker gebruikt dan andere partijen of welke woorden erg uniek zijn voor een partij.

Algemene inzichten

Een van de eerste dingen die opvallen is dat de lengtes van de programma’s erg verschillen. Meestal wordt er voor de lengte vooral gekeken naar het aantal pagina’s, maar dit kan erg afhankelijk zijn van de opmaak. Het aantal woorden is daardoor een betere manier om de verschillen te bekijken. In onderstaande grafiek is het aantal woorden per partijprogramma weergegeven.

Lengte van de partijprogramma’s voor de verkiezingen van 2017.

De verschillen in lengte zijn belangrijk om bij stil te staan, aangezien deze de resultaten kunnen vertekenen. Als we bijvoorbeeld kijken welke woorden in totaal het vaakst voorkomen, zullen dit voornamelijk woorden zijn uit de langste programma’s (zoals D66 met bijna 30.000 woorden) en minder uit de kortste (zoals PVV met ongeveer 200 woorden). In de onderstaande grafiek is een overzicht van de meest voorkomende woorden over alle programma’s samen.

Dertig meest gebruikte woorden en hun frequentie, geteld over alle programma’s samen.

Woordgebruik door de jaren

Om te bekijken hoe het woordgebruik door de jaren is veranderd met iedere nieuwe verkiezing, hebben we alle partijprogramma’s van 1998 tot en met 2017 gegroepeerd per verkiezingsjaar. Hierdoor ontstaat een soort ‘historische doorsnede’ van wat er toentertijd speelde. Deze is weergegeven in onderstaande comparison wordcloud. Bij ieder label in de wordcloud staan woorden die in dit verkiezingsjaar relatief vaker voorkomen dan in andere jaren. De kleur van een woord geeft aan bij welk verkiezingsjaar het woord hoort. De grootte is gerelateerd aan hoe vaak het woord voor komt. Wanneer het relatief vaker voorkomt in de verkiezingsprogramma’s van een bepaald jaar, is het woord groter weergegeven.

Historische trend van het woordgebruik
Verschillen in woordgebruik door de jaren heen. Hoe groter het woord hoe unieker voor dit jaar.

Zo kun je hier bijvoorbeeld zien dat het in de partijprogramma’s van 2010 en 2012 meer ging over banken, crisis, economie en woningmarkt, terwijl anno 2017 deze woorden niet meer aanwezig zijn. Dat is ook niet zo gek als je bedenkt dat de economie weer is aangetrokken.

Links versus Rechts

Het woordgebruik van linkse en rechtse partijen kunnen we ook met een comparison wordcloud vergelijken. Hiervoor hebben we de volgende verdeling aangehouden tussen links en rechts:

Links Rechts
PvdA VVD
SP PVV
ChristenUnie SGP
50Plus D66
GroenLinks CDA
PvdD

Onderstaande wordcloud visualiseert de verschillen tussen links en rechts in 2017. Rode woorden zijn woorden die door linkse partijen relatief vaker worden gebruikt dan door rechtse partijen. Blauwe woorden worden juist veel vaker door rechtse partijen gebruikt. Hoe groter en verder naar het midden het woord, hoe groter het verschil in gebruik door links en rechts.

Verschillen in woordgebruik tussen links en rechts

Vergelijking grootste partijen

Momenteel is veel van de aandacht gericht op de 5 partijen die bovenaan in de huidige peilingen staan (Peilingenwijzer). Het is dan ook interessant om te weten wat de verschillen zijn tussen deze partijen. Ook dit heb ik geprobeerd weer te geven in een comparison wordcloud. Je kunt in deze vergelijking zien waar de partijen veel over spreken in hun programma. Het geeft echter geen context. Hierdoor wordt het dus niet duidelijk of partijen juist vóór of tegen bepaalde onderwerpen zijn die bij hen zijn weergegeven. Het geeft wel aan of ze deze onderwerpen belangrijk vinden of niet. De woorden zijn ook dit keer woorden die relatief vaker worden gebruikt door een partij dan door andere partijen.

Verschillen in woordgebruik tussen de 5 partijen die bovenaan staan in de huidige peilingen.

Unieke woorden per partij

Hierboven zagen we welke woorden veel meer door de ene partij worden gebruikt dan door de andere partij. Daarnaast is het ook interessant om te weten welke woorden heel uniek zijn voor een partij. We bepalen deze unieke woorden, aan de hand van de tf-idf score. Een woord is een uniek woord, wanneer dit redelijk vaak door een partij wordt gebruikt, terwijl de andere partijen dit woord (bijna) niet gebruiken. Voor iedere partij hebben we de twintig meest unieke woorden weergegeven in onderstaande figuren.

Conclusie

Wat kunnen we nu concluderen uit deze verschillende overzichten? In de verschillende wordclouds en grafieken kun je terugzien waar de partijen de nadruk op leggen en wat ze belangrijke onderwerpen vinden. Deze overzichten kunnen worden gezien als een soort samenvattingen van de partijprogramma’s ten opzichte van de andere partijen. Voor mij geeft dit een betere afspiegeling van waar deze partijen voor staan, dan wanneer ik slechts de StemWijzer doe. Deze legt de focus namelijk sterk op een bepaald aantal standpunten, terwijl 4 jaar regeren natuurlijk veel meer is dan deze 30 geselecteerde stellingen. Textmining van de partijprogramma’s vormt daarom in mijn ogen een goede aanvulling om erachter te komen waar partijen het meest voor staan.

Deel dit artikel
Share on LinkedInTweet about this on TwitterShare on FacebookEmail this to someone