R en SPSS, een vergelijking

Anton Kuijer

Data Scientist

Tijdens de masterclasses die wij verzorgen laten wij gemeentes en andere publieke partijen kennismaken met statistisch pakket R. Niet per se om mensen tot nieuwe software te verplichten, maar vooral als kennismaking met R en de bijbehorende (oneindige) mogelijkheden. Vaak werkt de afdeling O&S al jaren met SPSS. Het is dan ook niet gek dat we vaak de vraag krijgen: “Wat zijn nou precies de verschillen tussen SPSS en R?”. Hieronder een samengesteld overzicht van de verschillen. Hopelijk kun je op basis hiervan een afweging maken welke voor jou het meest geschikt is.

Het volgende citaat kwam ik op internet tegen en raakt wat mij betreft de kern van het verschil tussen SPSS en R: “My impression is they (programma’s als SPSS) get used by people who want the easiest way possible to do the sort of standard statistical analyses that are very orthod33183d55358089ae4bdbf9b258e8f7b7ox in many academic disciplines (ANOVA, multiple regressions, t- and chi-squared significance tests, etc.).  Certain types of scientists, like physicists, computer scientists, and statisticians, often do weirder stuff that doesn’t fit into these traditional methods.

SPSS biedt goede handvatten om traditionele datavragen te beantwoorden die vaak worden gesteld aan O&S afdelingen. Zoals: Is er een significant tussen twee variabelen en verklaart variabele x de toename in variabele y? Echter, kunnen er tegenwoordig veel ‘gekkere’ dingen met data, zoals classification trees, clustering, forests, association rule mining en text mining. Sommige van deze technieken kun je uitvoeren in SPSS, maar een deel zijn niet beschikbaar in SPSS.

SPSS is een bus
Als veel van deze nieuwe analyses ook in SPSS kunnen waarom zou je dan R moeten leren? Via stackoverflow kwam ik op de volgende analogie. Programma’s als SPSS kun je zien als een bus: gebruiksvriendelijk en hij brengt je meestal naar of in de buurt van de bestemming. Het wordt lastiger als je naar een bestemming wilt die niet is voorgeprogrammeerd bijvoorbeeld plaatsen in Zeeland of de waddeneilanden. Auto’s daarentegen vereisen meer werk: benzine, rijbewijs, google maps, sturen, APK, wegenbelasting etc. De auto brengt je echter wel sneller naar de precieze locatie. In deze context wordt R vergeleken met een “4-wheel drive SUV (though environmentally friendly) with a bike on the back, a kayak on top, good walking and running shoes in the passenger seat, and mountain climbing and spelunking gear in the back.” Met andere woorden: met R kom je overal, maar het kost extra tijd om met al het materiaal overweg te kunnen. Dat duurt nou eenmaal langer dan slechts de dienstregeling van de bus te bestuderen.

Andere voordelen die ik zie van R ten opzichte van SPSS zijn:

  • R kost precies €0,-, terwijl je voor SPSS al gauw €2.500,- per jaar voor één licentie betaalt.
  • R is Open-source. Dit maakt werk reproduceerbaar en het is fijn om precies te kunnen achterhalen welke bewerkingen er zijn uitgevoerd.
  • R heeft een grote actieve community. Jij bent nooit de eerste die een bepaalde analyse heeft uitgevoerd. Hierdoor kun je op internet altijd hulp vinden.
  • Alle analyses die je maar kunt bedenken worden ondersteund in R door middel van packages. Van websites scrapen tot interactieve geo-visualisaties.
  • Packages worden vaak ontwikkeld door academici en nagenoeg gelijktijdig met gepubliceerde theorie beschikbaar gemaakt.
  • R-syntax volgt niet perfect, maar wel een stuk beter dan SPSS, algemene programmeer standaarden.
  • Visueel (grafieken, dashboards en rapportages) is R een stuk sterker dan SPSS. Vooral de rapportage-functie en dashboardmogelijkheden in R (Rmarkdown en Shiny) bieden oneindig veel mogelijkheden.
  • De meest geavanceerde en nieuwe technieken (random forests, boosted trees etc.) zijn niet beschikbaar in SPSS.

Hier vind je een andere vergelijking tussen een aantal veelgebruikte pakketten voor data-analyse. En hier vind je een visueel aantrekkelijke infographic die ook deze vergelijking maakt, maar dan vanuit een andere invalshoek.

 

rlogo1359391_140826210849_ibm_spss_logo

 

BI, GEO en O&S samen in R
Wat ik ook nog als een groot voordeel zie van pakketten zoals R, is het feit dat het pakket een breed spectrum beslaat. Vele zeer diverse technieken en analyses zijn uitvoerbaar binnen één pakket. Binnen gemeentes zien wij namelijk vaak dat de business intelligence (BI)-afdeling nog niet voldoende samenwerkt met een onderzoek & statistiek-afdeling. Dit wordt mede veroorzaakt doordat zij in compleet andere pakketten werken. Dit zou je kunnen wegnemen door (deels) met R te gaan werken. Hetzelfde geldt voor de GEO-afdeling.

Publieke organisaties en de ‘weirder stuff’
Hoewel de mogelijkheden in R (en deels ook in SPSS) oneindig zijn, gebruiken veel publieke organisaties data op een traditionele manier. Er worden gemiddeldes berekend, trends gevisualiseerd en significante verbanden aangetoond. Deze analyses zijn prima uit te voeren in SPSS. Maar er kan nog zoveel meer met data! Zeker in R.

We horen steeds vaker dat publieke organisaties hun data beter willen benutten. Maar voor hen is het vaak erg lastig om te bepalen wat ze dan precies willen. Dit komt doordat er nog weinig kennis is over wat de nieuwe mogelijkheden (weirder stuff) zijn. Managers, beleidsmakers en professionals weten niet welke ‘nieuwe’ datavragen ze kunnen stellen aan onderzoekers. En onderzoekers kunnen vaak nog onvoldoende werken met nieuwe technieken om te laten zien wat er mogelijk is. Hierdoor is de urgentie om een nieuwe programma als R te leren niet hoog.

Toch zien we steeds meer dat publieke organisaties de nieuwe mogelijkheden aan het verkennen zijn. Zo gaan onderzoekers een opleiding data science volgen en leren ze een nieuw analyseprogramma zoals R of Python. Ook zien managers en beleidsmedewerkers steeds beter hoe data bij kan dragen aan hun maatschappelijke opgaven. Er wordt ruimte in de organisatie om de ‘weirder stuff’ aan de slag te gaan.

Dus?spssr
De vraag is dan natuurlijk wanneer je toe bent aan die “weirder stuff” en er zijn uiteraard situaties waarin SPSS sneller of beter werkt dan R. Sterker nog, een deel van de projecten die we bij Ynformed doen hadden ook met SPSS gekund. In dat geval zouden we echter sterk beperkt zijn in de keuze van verschillende algoritmen met als gevolg dat (bijvoorbeeld) onze voorspellingsmodellen een stuk minder goed zouden zijn. Ook de implementatie van een voorspellingsmodel bij een gemeente wordt moeilijker als je dit via SPSS-modeller wilt gaan doen.

Zelf ben je het best in staat te beoordelen of je toe bent aan de “weirder stuff”. Echter, gezien de ontwikkelingen van de technieken, hoeveelheden data en vragen vanuit zowel management als primair proces, is het niet gek dat wij voorzien dat gebruik van R (of equivalenten) binnen de publieke sector de komende jaren zal toenemen.

 

Conclusie
R lijkt momenteel de beste optie om een breed scala aan technieken ter beschikking te hebben. Dit betekent echter niet dat iedereen onmiddellijk R moet gaan leren. Als je gewend bent om bijvoorbeeld data-bewerking (vaak toch 70% van de tijd) in SPSS uit te voeren, dan kan dit nog altijd. Je zou R dan kunnen gebruiken voor het modeleer-gedeelte. Al met al ben je zelf het beste in staat om te beoordelen of je met de bus gaat of dat je toch echt een auto nodig hebt om op je bestemming te komen.

Bronnen
http://datacamp.wpengine.com/wp-content/uploads/2014/05/infograph.png

https://www.researchgate.net/post/Which_is_better_R_or_SPSS

http://stackoverflow.com/questions/3787231/r-and-spss-difference

http://brenocon.com/blog/2009/02/comparison-of-data-analysis-packages-r-matlab-scipy-excel-sas-spss-stata/

http://blog.revolutionanalytics.com/2016/12/the-value-of-rs-open-source-ecosystem.html

 

Deel dit artikel
Share on LinkedInTweet about this on TwitterShare on FacebookEmail this to someone