MapReduce - Het fundament voor big data-analyse
Gepubliceerd op 8 december 2022
Het beschrijven van de verplaatsing van bron gegevens in de loop van de tijd binnen uw organisatie omvat, kort gezegd, de term Data Lineage. Data Lineage geeft inzicht en vereenvoudigt tegelijkertijd de mogelijkheid om fouten terug te leiden naar de hoofdoorzaak in een gegevensanalyseproces.
Data Lineage op entiteitsniveau: Bron(nen) > Proces > Doel(en)
- Data Lineage wordt visueel weergegeven. Meestal bevat het bron- en doelentiteiten in data opslag systemen die zijn verbonden door een proces, als Data Energy. Het proces wordt aangeroepen door een dynamische reken capactieit.
- Data systemen maken verbinding met de Data Catalog om een uniek object te genereren en te rapporteren. Deze verwijst naar het fysieke object van het onderliggende data systeem, bijvoorbeeld: SQL Stored-procedure, notebooks, enzovoort.
- Zeer betrouwbare lineage met andere metadata zoals eigenaarschap wordt vastgelegd om de data lineage in een voor mensen leesbaar formaat weer te geven voor bron- en doelentiteiten. bijvoorbeeld: data lineage op hive-tabelniveau in plaats van partities of bestandsniveau.
Een belangrijke functie van Data Lineage is het, binnen uw data domein, de kwaliteits-, betrouwbaarheids- en auditscenario’s te ondersteunen. Het doel van een Data Catalogus is om een robuust raamwerk te bouwen waarin alle datasystemen binnen uw omgeving op natuurlijke wijze verbinding kunnen maken. Alsmede de data bron te kunnen rapporteren. Zodra de metadata beschikbaar is, kan de Data Catalogus de metadata van datasystemen samenbrengen om use cases op het gebied van Data Governance aan te sturen.
Azure Purview is een voorbeeld van een cloud tool voor het maken van een Data Catalog.
Data Lineage: hoe verplaatst data zich binnen uw organisatie?