17. Dezember 2021

Libelle IT-Glossar Teil 4: Der Unterschied zwischen Produktivdaten und synthetischen Daten

AuthorMichael Schwenk

Datenschutz ist seit vielen Jahren ein wichtiges Thema und gerade im Softwarebereich beschäftigen sich zahlreiche Unternehmen mit der Sicherung und dem DSGVO-konformen Umgang von Datensätzen.

Entwickler stehen vor der Herausforderung, das Softwaretests nur mit logisch konsistenten und DSGVO-konformen Daten wirklich sinnvoll und compliance-konform sind. Deshalb sollten Testdaten den Produktivdaten bestenfalls so ähnlich wie möglich sein, ohne dabei Rückschlüsse auf die jeweiligen Personen zuzulassen. Doch was sind eigentlich Produktivdaten? Und wie unterscheiden diese sich zu synthetischen Daten? Im vierten Teil unseres Libelle IT-Glossars schauen wir uns diese Fragen genauer an.

Was genau sind Produktivdaten?

Die EU-Datenschutz Grundverordnung (DSGVO) bedeutet für Unternehmen, dass sie Maßnahmen ergreifen müssen, um bei allen im Einsatz befindlichen Applikationen einen höchstmöglichen Schutz der personenbezogenen Daten sicherzustellen. Dies umfasst den gesamten Lebenszyklus von Produktivdaten, angefangen bei deren Erfassung bis hin zur Archivierung.

Produktivdaten sind die Daten, die tatsächlich „produktiv“, also live in Benutzung sind. Beispielsweise werden diese für die Angebots- und Rechnungserstellung genutzt. Mit diesen Datensätzen wird im sogenannten Produktivsystem, dem Herzstück einer Systemlandschaft, gearbeitet.

Jede dieser IT-Systemlandschaften wird immer wieder auf die Bedürfnisse des Unternehmens und seiner Kunden angepasst. Dabei ist zu beachten, dass bei der Erstellung neuer Applikationen oder auch bei der Wartung von Systemen umfangreich getestet werden muss.

Definition und Nutzen von synthetischen Daten

Im Gegensatz zu Produktivdaten werden synthetische Daten künstlich und somit nicht aus „realen“ Ereignissen erzeugt. Sie werden mit Hilfe von Algorithmen erstellt und als Testdaten genutzt.

Synthetische Daten bieten somit die Möglichkeit, beispielsweise neue Applikationen zu testen, ohne dabei das Risiko einzugehen, einen einzelnen Kunden zu identifizieren.

Beispielsweise bauen unsere Kunden Lasttestsysteme auf, also Systeme, die einen produktionsnahen Datenbestand haben sollen, um neue oder weiterentwickelte Applikationen einem Last- oder Stresstest zu unterziehen. Und in diesen Systemen darf es keinerlei Rückschlüsse auf real existierende Kunden, Geschäftspartner und dergleichen geben.

Andere Kunden möchten Analysen und statistische Berechnungen mit Mitarbeiterdaten durchführen. Die hierzu erfassten Daten dürfen ausnahmslos nicht auf einzelne Personen, die gesamte Belegschaft sowie auf Abteilungen des Unternehmens zurückzuführen sein.

Datenschutz gewährleiten und Daten nutzen

Synthetische Daten ermöglichen Unternehmen, bei der Entwicklung mit realistischen Datensätzen zu arbeiten. So können sie unter anderem branchenspezifische Erkenntnisse gewinnen oder die interne und externe Zusammenarbeit mit Partnern und Abteilungen verbessern. Und das alles DSGVO-konform.

Die Libelle IT Group hat hier mit Libelle DataMasking eine Lösung für die erforderliche Anonymisierung und Pseudonymisierung entwickelt. Konzipiert wurde die Lösung zur DSGVO-konformen Nutzung anonymisierter, logisch konsistenter Daten auf Entwicklungs-, Test- und QS-Systemen über alle Plattformen hinweg.

Die eingesetzten Anonymisierungsverfahren liefern realistische, logisch korrekte Werte, mit denen relevante Geschäftsfälle beschrieben und sinnvoll Ende-zu-Ende getestet werden können. Des Weiteren steht Entwicklern sowie Anwendern eine „saubere“ Datenbasis zur Verfügung, mit der sie sich keine Sorgen um den Datenschutz machen müssen.

Mehr Begriffe aus dem Libelle IT-Glossar

Sie möchten noch mehr zu Begriffen aus der IT lernen? Zum Beispiel worin sich die Anonymisierung von der Pseudonymisierung unterscheidet? Dann besuchen Sie gerne unseren Blog oder folgen Sie uns auf LinkedIn und Facebook.


Empfohlenene Artikel
22. Dezember 2022 Libelle IT-Glossar Teil 22: Was ist DevOps?
18. Dezember 2022 Anonymisierte Daten in der Datenpipeline

Alle Blogartikel