18. Dezember 2022

Libelle IT-Glossar Teil 21: Wie funktioniert eine Datapipeline?

AuthorMichael Schwenk

Laut einer IDC Studie, werden weltweit schätzungsweise zwischen 88 bis 97 Prozent der Daten nicht mehr gespeichert. In der Studie wird der Zeitraum von 2018 bis 2025 betrachtet. Die Alternative zum Speichern von Daten ist laut IDC das Erfassen, Verarbeiten und Analysieren durch den Arbeitsspeicher der Daten in Echtzeit. Dies könnte einer der Gründe für den wachsenden Bedarf an skalierbaren Datenpipelines sein.

Weitere Gründe sind zum Beispiel:

  • Beschleunigte Datenverarbeitung
  • Mangel an Data Engineers
  • Innovationen geben das Tempo vor

Welche Arten von Datenpipelines es gibt, haben wir in unserem Glossar-Beitrag „Was ist eine Datenpipeline?“ genauer beschrieben.

So funktioniert eine Datapipeline

Eine Datenpipeline ist der gesamte Weg der Daten durch ein Unternehmen. Dabei durchlaufen die Daten folgende vier Schritte in der Datapipeline:

1. Erfassen und Extrahieren der Roh-Datasets

In diesem Schritt werden alle Daten erfasst und extrahiert. Man spricht dabei von Roh-Datensets, da die Daten nicht strukturiert oder klassifiziert sind. Ein Datensatz enthält hier kombinierte Daten, die aus mehreren verschiedenen Quellen stammen können. Sie liegen in unterschiedlichen Formaten vor, zum Beispiel:

  • Datenbanktabellen
  • Dateinamen
  • Themen (Kafka)
  • Warteschlangen (JMS)
  • Dateipfade (HDFS)

Es lassen sich bei der riesigen Menge an Daten noch keine sinnvollen Schlüsse daraus ziehen.

2. Datenmanagement

In der nächsten Phase der Datenpipeline werden die Roh-Datensätze mithilfe einer bestimmten Methode umfassend organisiert. Der Fachbegriff für diesen Schritt ist Data Governance. Es werden zunächst die Rohdaten in einen geschäftlichen Kontext gebracht. Anschließend erfolgt die Kontrolle der Datenqualität und -sicherheit. Nun sind die Daten für die Massennutzung organisiert.

3. Datentransformation

Im dritten Schritt erfolgt nun die Datentransformation, hierbei werden die Datensätze entsprechend der passenden Berichtsformate bereinigt und geändert. Die Basis für die Datentransformation sind die vom Unternehmen aufgestellten Regeln und Richtlinien, nach denen das Data-Pipeline-Programm die verbleibenden Daten mit Informationen anreichert und unnötige / ungültige Daten löscht. Folgende Schritte sollten dabei berücksichtig werden, um die Qualität und Zugänglichkeit der Daten zu gewährleisten:

  • Standardisierung: Das Unternehmen muss definieren, welche Daten sinnvoll sind und wie diese formatiert und abgespeichert werden sollen.
  • Duplizierung: Das Unternehmen meldet sämtliche Duplikate den Data Stewards. Redundante Daten gilt es zu löschen und / oder auszuschließen.
  • Prüfung: Eine Durchführung automatisierter Checks empfiehlt sich, um ähnliche Informationen wie Transaktionszeiten und Zugriffsprotokolle zu vergleichen. Durch Prüfungen lassen sich unbrauchbare Daten weiter aussortieren und Anomalien in Systemen, Anwendungen oder Daten identifizieren.
  • Sortierung: Durch das Gruppieren von Elementen wie Rohdaten oder Multimediadateien in entsprechende Kategorien lässt sich die Effizienz der Datenpipeline steigern. Transformationsregeln legen fest, wie jeder Datenteil klassifiziert wird und welchen Schritt er als Nächstes durchläuft. Diese Transformationsschritte reduzieren die Menge an unbrauchbarem Material und wandeln sie in qualifizierte Daten um.
  • Weitergabe der Daten: Nach der Transformation erhält das Unternehmen verlässliche Daten, die sie nutzen können. Die Daten werden häufig in einem Cloud Data Warehouse oder in einer Anwendung ausgegeben.

4. Datenverarbeitung und -integration

Die Datenintegration ist Ziel jeder Datenpipeline, denn Verbraucher möchten verwertbare Daten in Echtzeit erhalten. Daher sollten Unternehmen im besten Fall einen reproduzierbaren Prozess für die Data Pipeline nutzen.

Wissenswertes über Datenpipelines

In eine Datenpipeline lassen sich verschiedenste Tool integrieren, zum Beispiel bei der Anonymisierung von Daten. In einem weiteren Blogbeitrag „Anonymisierte Daten in der Datenpipeline“ finden sich zwei Praxisbeispiele, welche die Vorteile eine nahtlose Integration von Libelle DataMasking genauer erläutern.


Empfohlenener Artikel
22. Dezember 2022 Libelle IT-Glossar Teil 22: Was ist DevOps?

Alle Blogartikel