Welke programmeertaal gebruik jij als Data Scientist?

22 februari 2022 | Kristian Cörvers

De twee meest gebruikte programmeertalen die door een Data Scientist worden gebruikt zijn R en Python. Ze zijn beiden open-source en hoewel je met beiden hetzelfde kan bereiken verschillen ze wel zeker van elkaar.

R wordt beschreven als de taal die vóór en dóór statistici is gebouwd. Het is speciaal ontwikkeld voor statische berekeningen en visualisaties. Voor al je analyse vraagstukken zal er hoogstwaarschijnlijk al een package bestaan op CRAN die je hiermee kan helpen. En voor al je plots zit je goed met ggplot2. Daarnaast heeft R een wat langere leercurve dan andere programmeertalen. Doordat R gemaakt is voornamelijk voor statistische doeleinden is het minder geschikt voor algemenere doelen zoals je project omzetten in productie.

Python is ontworpen door een Nederlander, namelijk Guido van Rossum, en is op dit moment één van de populairste programmeertalen. Doordat het een traditionele object georiënteerde taal is zullen de meeste de overstap naar Python snel kunnen maken. Waar R voornamelijk door statistici wordt gebruikt is Python een meer generieke programmeertaal. Python code zijn makkelijker te beheren en meer robuust dan R. Met maar 5 Python libraries heb je al genoeg om je Data Science werk te kunnen doen: Numpy, Pandas, Scipy, Scikit-learn en Seaborn. Een groot verschil met R is dat je met Python correct gebruik moet maken van tabs en spaties waar R haakjes gebruikt. Dit kan vervelend worden ervaren, terwijl anderen het juist leesbaarder vinden.

Conclusie is dat beiden programmeertalen voor verschillende doeleinden beter tot zijn recht komen. Wil je complexe data gaan analyseren en visualiseren is er naar mijn mening geen betere taal dan R. Wil je Machine Learning modellen ontwikkelen en vervolgens in productie brengen, dan is Python je beste keuze. Vaak als je één van de talen kent is de ander makkelijk te leren. Ik zou zeggen leer beiden en gebruik ze naar hun eigen kracht!

Voor degene die nog een groot verschil weten tussen R en Python  :