Laut einer IDC Studie, werden weltweit schätzungsweise zwischen 88 bis 97 Prozent der Daten nicht mehr gespeichert. In der Studie wird der Zeitraum von 2018 bis 2025 betrachtet. Die Alternative zum Speichern von Daten ist laut IDC das Erfassen, Verarbeiten und Analysieren durch den Arbeitsspeicher der Daten in Echtzeit. Dies könnte einer der Gründe für den wachsenden Bedarf an skalierbaren Datenpipelines sein.
Weitere Gründe sind zum Beispiel:
Welche Arten von Datenpipelines es gibt, haben wir in unserem Glossar-Beitrag „Was ist eine Datenpipeline?“ genauer beschrieben.
Eine Datenpipeline ist der gesamte Weg der Daten durch ein Unternehmen. Dabei durchlaufen die Daten folgende vier Schritte in der Datapipeline:
1. Erfassen und Extrahieren der Roh-Datasets
In diesem Schritt werden alle Daten erfasst und extrahiert. Man spricht dabei von Roh-Datensets, da die Daten nicht strukturiert oder klassifiziert sind. Ein Datensatz enthält hier kombinierte Daten, die aus mehreren verschiedenen Quellen stammen können. Sie liegen in unterschiedlichen Formaten vor, zum Beispiel:
Es lassen sich bei der riesigen Menge an Daten noch keine sinnvollen Schlüsse daraus ziehen.
2. Datenmanagement
In der nächsten Phase der Datenpipeline werden die Roh-Datensätze mithilfe einer bestimmten Methode umfassend organisiert. Der Fachbegriff für diesen Schritt ist Data Governance. Es werden zunächst die Rohdaten in einen geschäftlichen Kontext gebracht. Anschließend erfolgt die Kontrolle der Datenqualität und -sicherheit. Nun sind die Daten für die Massennutzung organisiert.
3. Datentransformation
Im dritten Schritt erfolgt nun die Datentransformation, hierbei werden die Datensätze entsprechend der passenden Berichtsformate bereinigt und geändert. Die Basis für die Datentransformation sind die vom Unternehmen aufgestellten Regeln und Richtlinien, nach denen das Data-Pipeline-Programm die verbleibenden Daten mit Informationen anreichert und unnötige / ungültige Daten löscht. Folgende Schritte sollten dabei berücksichtig werden, um die Qualität und Zugänglichkeit der Daten zu gewährleisten:
4. Datenverarbeitung und -integration
Die Datenintegration ist Ziel jeder Datenpipeline, denn Verbraucher möchten verwertbare Daten in Echtzeit erhalten. Daher sollten Unternehmen im besten Fall einen reproduzierbaren Prozess für die Data Pipeline nutzen.
In eine Datenpipeline lassen sich verschiedenste Tool integrieren, zum Beispiel bei der Anonymisierung von Daten. In einem weiteren Blogbeitrag „Anonymisierte Daten in der Datenpipeline“ finden sich zwei Praxisbeispiele, welche die Vorteile eine nahtlose Integration von Libelle DataMasking genauer erläutern.