13. Oktober 2022

Testdatenanonymisierung: Herausforderung bei DSGVO-konformen CSV-Dateien

AuthorMichael Schwenk

Im Bereich der Europäischen Datenschutzgrundverordnung (EU-DSGVO), Compliance-Vorgaben und Testdatenmanagement denkt man oftmals zunächst an Daten, die in Datenbanken gespeichert werden. Doch neben den Datenbanken speichern Unternehmen ihre Daten in vielfältigen weiteren Formen, darunter zum Beispiel JSON, XML- und Text- bzw. CSV-Dateien. Auch in diesen Dateien können sensible, wie personenbezogene Daten gespeichert werden.

In produktiven Umgebungen gilt: Sowohl für die Informationen, die in Datenbanken vorgehalten werden, als auch für die Dateien auch Betriebssystemebene bedarf es eines stringenten Berechtigungswesens, sodass nur berechtigte Personen bzw. Personenkreise Zugriff auf die sensiblen Daten haben.

Sollen personenbezogene Daten z.B. in CSV-Dateien auch zu Testzwecken genutzt werden, sind diese Dateien zwingend mit in das Testdatenmanagementkonzept aufzunehmen.

Was ist eine CSV-Datei eigentlich genau?

Die Abkürzung CSV steht für „Comma-Separated Values“. Es handelt sich um den Aufbau einer Textdatei zur Speicherung oder zum Austausch einfach strukturierter Daten.

Bei einer CSV-Datei kann es sich um eine Tabelle oder Liste handeln. Innerhalb der Textdatei haben einige Zeichen eine Sonderfunktion zur Strukturierung der Daten.

Herausforderungen bei der Anonymisierung von CSV-Dateien

In unseren Projekten mit Libelle DataMasking standen wir schon das ein oder andere Mal vor der Herausforderung, dass zusätzliche strukturierte Daten auf Betriebssystemebene ebenfalls anonymisiert werden mussten. Dank der zahlreichen Schnittstellen, die das Tool bietet, macht es für diese Lösung keinen Unterschied, ob sich die Daten in einer Datenbank oder im Dateisystem befinden. Weil die Dateien im Grunde genommen als Datenbanktabelle interpretiert werden, ist es jedoch wichtig, dass die Überschriften der einzelnen Spalten vorhanden sind.

Es gibt in den Projekten auch Konstellationen, bei welchen die Dateien durch den Export aus einer Drittanbietersoftware erstellt werden. Hierbei wird die erste Zeile mit den Headerinformationen allerdings nicht mit exportiert. Leider gibt es auch keine Option, diese Informationen hinzuzufügen. Anfangs wurden diese Informationen zunächst manuell in die Dateien eingefügt. Doch auch dieser Schritt kann mit Libelle DataMasking automatisiert werden, um eine mögliche Fehlerquelle zu vermeiden.

Natürlich gilt das auch im umgekehrten Fall, denn im selben Projekt werden die Headerinformationen für die weitere Verarbeitung der Dateien nicht benötigt, ergo werden sie mit Hilfe von Libelle DataMasking unmittelbar nach der Anonymisierung aus den Dateien entfernt.

Eine Herausforderung, vor der wir in den Projekten mit CSV-Dateien immer wieder sehen, ist der Zeichensatz, in dem die CSV-Dateien gespeichert sind. Auch wenn stets dieselbe standardisierte Software für die Erstellung der CSV-Dateien genutzt wird, war es in manchen Projekten nicht gegeben, dass die Dateien immer denselben Zeichensatz vorwiesen. Oft haben wir erlebt, dass einige Dateien aus der Drittanbietersoftware mit dem ANSI-Zeichensatz exportiert wurden. Mit Libelle DataMasking gehen wir im Standard vom UTF8-Zeichensatz aus. Wenn eine Quelldatei in einem anderen Zeichensatz vorliegt, hat das zur Folge, dass unter den anonymisierten Werten nicht lesbare Zeichen vorkommen können, zum Beispiel im Fall von Umlauten.

Auch hier ging der Kunde anfangs her und hat die Datei manuell konvertiert. Doch auch dieser Schritt kann mit Libelle DataMasking komplett automatisiert werden.

Insbesondere wenn die CSV-Dateien mit Zusammenhang mit Microsoft Excel gespeichert werden, kann es zu Unterschieden kommen, je nachdem, mit welchen Ländereinstellungen Excel betrieben wird. Im englischsprachigen Raum ist das Komma der Standardseparator in diesen Dateien – daher stammt auch die Dateiendung CSV, die für „Comma Separated Values“ steht.

Im deutschsprachigen Raum hat sich jedoch das Semikolon als Separator durchgesetzt. Als weiterer Trenner wäre auch der Tabulator möglich. Ganz gleich, welches Trennzeichen in den Dateien vorzufinden ist, mit Libelle DataMasking lassen sich länderspezifische Einstellungen problemlos konfigurieren, sodass die Informationen in den definierten Feldern mit dem jeweils hinterlegten Algorithmus korrekt anonymisiert werden können.

Schützen Sie jetzt Ihre personenbezogenen Daten

Egal ob auf Datenbankebene oder Dateien auf Betriebssystemebene (z.B. CSV-Dateien) mit der Lösung Libelle DataMasking meistern Sie erforderliche Anonymisierung und Pseudonymisierung. Konzipiert wurde die Lösung zur Herstellung anonymisierter, logisch konsistenter Daten auf Entwicklungs-, Test- und QS-Systemen über alle Plattformen hinweg. Stellen Sie sich der Herausforderung DSGVO-konforme Testdaten mit Libelle DataMasking.


Empfohlenene Artikel
22. Dezember 2022 Libelle IT-Glossar Teil 22: Was ist DevOps?
18. Dezember 2022 Anonymisierte Daten in der Datenpipeline

Alle Blogartikel