Anonymisierung indirekter Identifikatoren zur Verringerung des Re-ID-Risikos

Quasi-Identifikatoren oder indirekte Identifikatoren sind persönliche Attribute, die wahr, aber nicht unbedingt eindeutig für eine Person sind. Beispiele sind Alter oder Geburtsdatum, Rasse, Gehalt, Bildungsstand, Beruf, Familienstand und Postleitzahl. Vergleichen Sie diese mit direkten, eindeutigen Identifikatoren wie dem vollständigen rechtsgültigen Namen, der E-Mail-Adresse, der Telefonnummer, dem Personalausweis, der Pass- oder Kreditkartennummer usw. einer Person.

Die meisten Verbraucher sind sich bereits der Risiken bewusst, die mit der Weitergabe ihrer einzigartigen, persönlich identifizierbaren Informationen (PII) verbunden sind. Auch die Datensicherheitsbranche konzentriert sich in der Regel auf diese direkten Identifikatoren. Aber nur mit Geschlecht, Geburtsdatum und Postleitzahl können 80–90 % der US-Bevölkerung identifiziert werden.

Fast jeder kann aus einem ansonsten maskierten Datensatz reidentifiziert werden, wenn genügend indirekte Identifikatoren übrig bleiben, und kann mit ähnlichen Werten zu einer übergeordneten Population hinzugefügt werden.

Die HIPAA Expert Determination Method Rule in Bezug auf geschützte Gesundheitsinformationen (PHI) und das FERPA-Gesetz zum Datenschutz von Studenten berücksichtigen diese Bedenken und verlangen, dass Datensätze eine statistisch geringe Wahrscheinlichkeit der Wiederidentifizierbarkeit aufweisen (unter 20 % ist heute der Standard). Diejenigen, die Gesundheits- und Bildungsdaten für Forschungs- und/oder Marketingzwecke verwenden möchten, müssen diese Gesetze einhalten, sich aber auch auf die demografische Genauigkeit der Quasi-Identifikatoren verlassen, damit die Daten wertvoll sind.

Aus diesem Grund können Datenmaskierungsaufträge im Produkt IRI FieldShield oder IRI Voracity (Datenverwaltungsplattform) eine oder mehrere zusätzliche Techniken anwenden, um die Daten zu verschleiern, während sie für Forschungs- oder Marketingzwecke dennoch genau genug bleiben. Beispielsweise erzeugen numerische Unschärfefunktionen zufälliges Rauschen für bestimmte Alters- und Datumsbereiche, wie in diesem Artikel beschrieben.

Aufbauend auf dem Artikel hier zeigt dieses Beispiel, wie IRI Workbench Set-Dateien erstellen und verwenden kann, um Quasi-Identifikatoren zu anonymisieren.

Beginnen Sie mit der Generalisierung über Bucketing Assistent, verfügbar in der Liste der Datenschutzregeln:

Beginnen Sie nach dem Öffnen des Assistenten damit, die Quelle der Werte für die Satzdatei zu definieren, einschließlich des Quellformats und des Felds, das einen generalisierten Ersatzwert erfordert.

Auf der nächsten Seite gibt es zwei Arten von Set-Datei-Ersetzungen:Set-Datei als Gruppe verwenden und Set-Datei als Bereich verwenden Optionen. Dieses Beispiel verwendet die Set-Datei als Gruppe verwenden Möglichkeit. Der Artikel zum Verwischen von Daten demonstriert die Set-Dateien als Bereich verwenden Möglichkeit. Die hier erstellten Lookup-Sets werden verwendet, um die ursprünglichen Quasi-Identifikatoren mit dem neuen Generalisierungswert zu pseudonymisieren.

Auf dieser Seite werden die Gruppierungen zwischen jedem der ursprünglichen quasi-identifizierenden Feldwerte erstellt. Auf der linken Seite befinden sich die eindeutigen Werte im zuvor ausgewählten Feld. Die Gruppen können entweder durch Ziehen und Ablegen in die Gruppenwerte auf der linken Seite oder durch manuelles Eingeben von Werten erstellt werden. Jede Gruppe benötigt auch einen eindeutigen Wiederbeschaffungswert. Dies ist der Wert, der den ursprünglichen Wert in der Gruppe ersetzt. In diesem Beispiel wird jeder Wert von „9th“ durch „High School“ ersetzt.

Das Hinzufügen von Gruppen, bis alle Quellwerte abgedeckt sind, erzeugt die folgende Lookup-Set-Datei zum Anonymisieren der Bildungsstatus-Quasi-Kennung:

Wenn weitere Bucketing-Ebenen erforderlich sind, kann der Bucketing-Assistent erneut ausgeführt werden, indem diese Set-Datei als Quelle verwendet wird.

Wenn die Set-Datei in einem Datenanonymisierungsjob verwendet wird, werden die Quelldaten mit den Werten in der ersten Spalte der Set-Datei verglichen. Wenn eine Übereinstimmung gefunden wird, werden die Daten durch den Wert in der zweiten Spalte ersetzt. Die obige Set-Datei wird im Skript unten in Zeile 38 verwendet.

Die Verwendung von Workbench zur Anwendung von fünf verschiedenen Anonymisierungstechniken führt zu folgendem Skript:

Die ersten zehn Zeilen der Originaldaten werden hier angezeigt:

Die anonymisierten Ergebnisse nach Ausführung des Jobs werden hier angezeigt:

Vor diesen Verallgemeinerungen war das Risiko einer Reidentifikation anhand der ursprünglich indirekt identifizierenden Werte zu hoch. Aber wenn der allgemeinere Ergebnissatz erneut den Risikobewertungsassistenten durchläuft, um eine weitere Bestimmung des Reidentifikationsrisikos zu erstellen, ist das Risiko akzeptabel und die Daten sind immer noch für Forschungs- oder Marketingzwecke nützlich.

Wenn Sie Fragen zu diesen Funktionen oder zur Re-ID-Risikobewertung haben, wenden Sie sich an .