14. Dezember 2022

Libelle IT-Glossar Teil 20: Was ist eine Datenpipeline?

AuthorMichael Schwenk

In jedem Unternehmen wird täglich mit großen Datensätzen gearbeitet, sei es für das Anstoßen von Produktionsketten, das Versenden von Auftragsbestätigungen oder die Nachbereitung von bestehenden Verträgen. Auch in internen Prozessen spielen Daten eine wichtige Rolle, gerade im Bereich Human-Ressource-Management.

Datenmanagement ist eine der Königsdisziplinen der IT. Die Anzahl an Anwendungen, Datenbanken und anderen Informationsquellen ist in Unternehmen sehr umfangreich. Gerade deshalb müssen diese in der Lage sein, untereinander Informationen auszutauschen. Immer mehr Unternehmen setzen dabei auf Datenpipelines, um das Potenzial ihrer Daten möglichst schnell entfalten zu können und die Wünsche ihrer Kunden zu erfüllen.

Was ist eine Datenpipeline?

Wie der Name nahelegt, fungieren Datenpipelines als „Leitungssystem" für Daten. Es ist eine Methodik, um Daten von einem System in ein anderes zu überführen. Diese Pipelines bilden in zahlreichen Unternehmen die Grundlage für datenbasiertes Arbeiten in der IT.

Im Wesentlichen durchlaufen die Daten beim Verschieben vom Quellsystem zum Zielsystem folgende Schritte:

  • Erfassen und Extrahieren der Roh-Datasets
  • Datenmanagement
  • Datentransformation
  • Datenverarbeitung und -integration

Diese Schritte haben wir in unserem Blogbeitrag „Wie funktioniert eine Datenpipeline?“ genauer erklärt. Um diese Schritte durchzuführen, gibt es verschiedene Arten von Datenpipelines.

Welche Arten von Datenpipelines gibt es?

Um das Ziel der Datenintegration zu erreichen, werden meist die zwei Hauptarten von Datenpipelines, die Stapelverarbeitung und die Verwendung von Streamingdaten, genutzt.

Stapelverarbeitung

Die Stapelverarbeitung ist ein wichtiger Bestandteil bei der Erstellung einer zuverlässigen und skalierbaren Dateninfrastrukturen.

Bei der Stapelverarbeitung werden, wie der Name schon sagt, „Stapel" von Daten innerhalb von festgelegten Zeitintervallen in ein Repository geladen. Hierbei wird darauf geachtet, dass der Zeitraum nicht während der Hauptgeschäftszeiten ist, da sich das große Datenvolumen der Stapelverarbeitungsjobs sich negativ auf andere Workloads auswirken könnte.

Das Verfahren der Stapelverarbeitung ist optimal für Datenpipelines, sofern keine direkte Notwendigkeit besteht, einen bestimmten Datenbestand (z. B. monatliche Buchhaltung) zu analysieren. Sie wird eher dem ETL-Datenintegrationsprozess (ETL = Extrahieren, Transformieren und Laden) zugeordnet.

Stapelverarbeitungsjobs sind ein automatisierter Workflow aus folgegebundenen Befehlen. Dabei führt die Ausgabe eines Befehls zur Eingabe des nächsten Befehls.

Beispiel: Ein Befehl startet eine Datenaufnahme, anschließend wird mit dem nächsten Befehl die Filterung bestimmter Spalten ausgelöst und danach wickelt der Folgebefehl die Aggregation ab. Diese Reihe wird fortgeführt, bis die Daten vollständig transformiert sind.

Streamingdaten

Streamingdaten kommt als Verfahren zum Einsatz, wenn Daten fortlaufend aktualisiert werden müssen. Gerade in den Bereichen in welchen Apps oder Point-of-Sale-Systeme genutzt werden, muss mit Echtzeitdaten gearbeitet werden.

Beispiel: Ein Unternehmen will den Bestand und Verkaufshistorie ihrer Produkte aktualisieren, so können Verkäufer ihre Verbraucher darüber informieren, ob ein Produkt auf Lager ist oder nicht. Dabei gilt eine einzelne Maßnahme, wie z. B. ein Produktverkauf, als „Ereignis" und zugehörige Ereignisse, wie z. B. das Hinzufügen eines Artikels zum Check-out, werden in der Regel als „Thema" oder „Datenstrom" gruppiert. Um diese Ereignisse zu übertragen, werden dann über Messaging-Systeme oder Nachrichtenbroker, wie z. B. die Open-Source-Lösung Apache Kafka, genutzt.

Streamingverarbeitungsysteme haben eine niedrigere Latenz als die Stapelverarbeitungssysteme und werden deshalb eher für die Verarbeitung von Datenereignisse kurz nach Auftreten genutzt.

Wissenswertes über Datenpipelines

In eine Datenpipeline lassen sich verschiedenste Tool integrieren, zum Beispiel bei der Anonymisierung von Daten. In einem weiteren Blogbeitrag „Anonymisierte Daten in der Datenpipeline“ finden sich zwei Praxisbeispiele, welche die Vorteile einer nahtlosen Integration von Libelle DataMasking genauer erläutern.


Empfohlenener Artikel
22. Dezember 2022 Libelle IT-Glossar Teil 22: Was ist DevOps?

Alle Blogartikel