Hoe een Data Engineer te worden?

Gepubliceerd op 31 juli 2022

Lees hier een aantal principes en handvaten over hoe een data engineer te worden. Data engineers beheren en verzamelen data. Ze vormen een cruciaal onderdeel van elke data operatie. Dit doen ze door de architectuur te creëren voor het vergaren en verwerken van ‘raw data’ en deze vervolgens voor te bereiden. Data-scientists kunnen deze informatie analyseren en er inzichten uit halen.

Leer T-SQL

  • Aggregaties met GROUP BY
  • Joins (INNER, LEFT, FULL OUTER)
  • Window Functions
  • Common table expressions

Leer Python, C# en/of Scala

  • Leer loops en IF-statements
  • Probeer een aantal echt solide libraries

Leer meer over gedistribueerde rekenkracht

  • Lees over MapReduce en zie hoe het het ontwerp van het hedendaagse gedistribueerde computergebruik heeft geleid
  • Lees over Apache Spark
  • Leer over partitioneren, scheeftrekken en verspillen naar opslag

Leer Data Modellering

  • Lees over gegevensnormalisatie en de 3e normaalvorm (3NF)
  • Lees over feiten-, dimensie- en aggregatietabellen
  • Lees over efficiënte tafelontwerpen zoals bijvoorbeeld cumulatieve tabellen
  • Leer over complexe gegevenstypen zoals MAP, ARRAY en STRUCT

Leer meer over gegevenskwaliteit

  • Hoe schrijf je een goede datacheck?
  • Hoe kun je ‘write-audit-publish’ patronen implementeren in je pipelines?

Pas gedistribueerde rekenprincipes toe

  • Probeer Apache Spark in Databricks of Microsoft Synapse