Database
 sql >> Datenbank >  >> RDS >> Database

Welche Datenmaskierungsfunktion sollte ich verwenden?

Laut Simson L. Garfinkel vom Information Technology Laboratory der NIST Information Access Division,

Die Anonymisierung ist keine einzelne Technik, sondern eine Sammlung von Ansätzen, Algorithmen und Werkzeugen, die mit unterschiedlicher Effektivität auf verschiedene Arten von Daten angewendet werden können. Im Allgemeinen verbessert sich der Schutz der Privatsphäre, wenn aggressivere Anonymisierungstechniken eingesetzt werden, aber der resultierende Datensatz verbleibt weniger Nutzen.

-Anonymisierung personenbezogener Daten, NISTIR 8053

Statische Datenmaskierung (SDM) ist der branchenweit anerkannte Begriff für diese verschiedenen Mittel zur Anonymisierung von Datenelementen im Ruhezustand. Bei den Elementen handelt es sich in der Regel um Datenbankspalten- oder Flatfile-Feldwerte, die als sensibel gelten. In der Gesundheitsbranche werden sie als Schlüsselidentifikatoren bezeichnet. Besonders gefährdet sind personenbezogene Daten (PII), geschützte Gesundheitsinformationen (PHI), primäre Kontonummern (PAN), Geschäftsgeheimnisse oder andere sensible Werte.

Das datenzentrische Sicherheitsprodukt „Startpoint“ IRI FieldShield – oder das IRI CoSort-Produkt und die IRI Voracity-Plattform, die dieselben Funktionen beinhalten – bieten mehrere Datenerkennungs- und SDM-Funktionen für mehrere Datenquellen. Zu den verfügbaren Maskierungsfunktionen pro Feld/Spalte gehören:

  1. mehrere, NSA Suite B- und FIPS-konforme Verschlüsselungs- (und Entschlüsselungs-)algorithmen, einschließlich formaterhaltender Verschlüsselung
  2. SHA-1- und SHA-2-Hashing
  3. ASCII de-ID (Bitverschlüsselung)
  4. binäre Codierung und Decodierung
  5. Datenunschärfe oder Bucketing (Anonymisierung)
  6. zufällige Generierung oder Auswahl
  7. Redaktion (Zeichenverschleierung)
  8. umkehrbare und nicht umkehrbare Pseudonymisierung
  9. Logik für benutzerdefinierte Ausdrücke (Berechnung / Mischen)
  10. bedingtes/partielles Filtern oder Entfernen (Auslassung)
  11. benutzerdefinierte Wertersetzung
  12. Byte-Shifting und String-Funktionen
  13. Tokenisierung (für PCI)

Sie können auch Ihre eigene externe Datenmaskierungsfunktion „rollen“. Dadurch können Sie zur Laufzeit eine benutzerdefinierte Routine auf Feldebene anstelle einer integrierten Routine aufrufen.

Bleibt die Frage, welche Maskierungsfunktion soll ich verwenden (bei jedem Item)? Das hängt von Ihren geschäftlichen Anforderungen und Regeln sowie den geltenden Datenschutzgesetzen ab. Auf technischer Ebene bedeutet dies normalerweise, zu entscheiden, wie der resultierende Chiffretext (maskierte Daten) aussehen muss, ob er reversibel oder eindeutig sein muss, wie sicher er ist und möglicherweise welche Art von Rechenressourcen und Zeit für den Prozess verfügbar sind . Sehen wir uns diese allgemeinen Entscheidungskriterien im Detail an:

Aussehen (Realismus)

Sollen die neu maskierten Daten mehr oder weniger wie die Originaldaten aussehen? Was ist mit seiner Größe und seinem Format? Pseudonymisierung und formaterhaltende Verschlüsselung sind die beiden gängigsten Methoden, 

behalten das Erscheinungsbild von Eigennamen und alphanumerischen Konto- bzw. Telefonnummern bei. Aber Substring-Maskierung (eine/k/a partielle Feldredaktion, z. B. XXX-XX-1234) kann für Dinge wie Sozialversicherungsnummern ganz gut sein. Denken Sie an die Persistenz und Anzeige der Daten für Analysen usw.

In diesem Zusammenhang können Aussehen und Realismus des Chiffretextes auch die Verwendbarkeit der Ergebnisse bestimmen. Anwendungs- und Datenbanktabellenziele (Ladedienstprogramm) erfordern möglicherweise, dass das Format der Daten nicht nur vordefinierten Strukturen entspricht, sondern auch in nachgelagerten Abfragen oder anderen betrieblichen Kontexten weiterarbeitet.

Mit anderen Worten, wenn maskierte Daten, die hübsch sind, und/oder funktionale Daten erforderlich sind, entscheiden Sie sich nicht für eine vollständige Schwärzung, Randomisierung, Hashing oder direkte Verschlüsselung (die die Ergebnisse erweitert und verschleiert). Vielleicht kommen Sie mit kleineren Optimierungen wie Alterung und Sub-String-Manipulation davon, aber bedenken Sie die Auswirkungen dieser Entscheidungen auf Ihre anderen Entscheidungskriterien …

Reversibilität (Re-Identifikation)

Müssen die ursprünglichen Daten wiederhergestellt werden? Die Antwort darauf kann davon abhängen, ob Sie die Quelldaten in Ruhe lassen, wie Sie es bei der dynamischen Datenmaskierung tun würden, oder ob Sie die maskierten Daten in neue Ziele schreiben. In diesen Fällen ist die Antwort nein.

Wenn die Antwort nein lautet, brauchen Sie möglicherweise immer noch Realismus. In diesen Fällen ist eine nicht umkehrbare Pseudonymisierung möglicherweise die beste Wahl. Wenn dies nicht der Fall ist und das Erscheinungsbild keine Rolle spielt, verwenden Sie die Zeichenschwärzung. Und wenn beides nicht zutrifft, erwägen Sie die vollständige Löschung der Quellspalte aus dem Ziel.

Wenn die Antwort ja ist, werden IRI-Datenmaskierungsfunktionen wie Verschlüsselung, reversible Pseudonymisierung oder Tokenisierung, Codierung oder ASCII-Re-ID (Bit-Scrambling) angezeigt. In fortgeschritteneren Anwendungsfällen benötigen Sie möglicherweise auch eine differenzielle Umkehrung; d.h. wenn verschiedene Empfänger desselben Ziels autorisiert sind, verschiedene Dinge in demselben Datensatz zu sehen. In solchen Fällen können private Verschlüsselungsschlüssel, benutzerspezifische Offenlegungs-Jobskripte oder sogar benutzerdefinierte Anwendungen bereitgestellt werden.

Einzigartigkeit (Konsistenz)

Muss der gleiche Originalwert immer durch den gleichen, aber unterschiedlichen Wiederbeschaffungswert ersetzt werden? Werden die Daten mit den Ersatzwerten verknüpft oder nach diesen gruppiert? Wenn dies der Fall ist, muss der gewählte Ersetzungsalgorithmus Ergebnisse liefern, die eindeutig und wiederholbar sind, um die referenzielle Integrität trotz der aufgetretenen Maskierung zu wahren.

Dies kann durch Verschlüsselung erreicht werden, wenn derselbe Algorithmus und dieselbe Passphrase (Schlüssel) für denselben Klartext verwendet werden. Die Datenklassifizierungs- und tabellenübergreifenden Schutzassistenten in der IRI Workbench IDE für FieldShield, Voracity usw. erleichtern dies durch tabellenübergreifende (oder globalere) Anwendung der angepassten Maskierungsregel. Auf diese Weise erhält derselbe Klartextwert unabhängig von seiner Position immer dasselbe Chiffretext-Ergebnis.

Die Pseudonymisierung ist hier jedoch schwieriger, da es an eindeutigen Ersatznamen, doppelten Originalnamen und Änderungen ( Einfügungen, Aktualisierungen oder Löschungen) auf die ursprünglichen Werte in Quelltabellen oder -dateien. IRI befasste sich in diesem Voracity-Workflow-Beispiel mit dem Problem der konsistenten tabellenübergreifenden Pseudonymisierung.

Stärke (Sicherheit)

Ein Blick auf die Algorithmen in jeder Funktion kann Ihnen helfen, ihre relative „Knackbarkeit“ zu bestimmen und dies im Vergleich zu anderen Chiffretext-Überlegungen wie Aussehen und Geschwindigkeit zu bewerten. Zum Beispiel ist die AES256-Funktion von IRI stärker als die AES128-Option, SHA2 ist stärker als SHA1 und alle sind stärker als base64-Codierungs-/Decodierungs- und ASCII-De-ID/Re-ID-Funktionen.

Reversible Funktionen sind definitionsgemäß typischerweise schwächer als solche, die nicht umkehrbar sind. Beispielsweise ist die irreversible Pseudonymisierungsmethode (Foreign Lookup Set) von IRI sicherer als die reversible Pseudonymisierungsmethode (verschlüsselter Originalsatz). Allerdings kann der AES-256-Verschlüsselungsalgorithmus auch bei Verlust des Schlüssels sehr schwer zu knacken sein.

Eine noch stärkere Sicherheit ist natürlich die Unterlassung, gefolgt von der Zeichenverschleierung (Schwärzung), die irreversibel sind. Der Nachteil ist jedoch die mangelnde Benutzerfreundlichkeit. Im HIPAA-Safe-Harbor-Kontext entspricht die Entfernung von Schlüsselkennungen. Wenn Sie jedoch einen Teil der Quelldaten für Analyse, Forschung, Marketing oder Demonstration verwenden müssen, benötigen Sie stattdessen eine Maskierungsfunktion und einen Experten, der feststellt (und bestätigt), dass Ihre Technik(en) eine niedrige Statistik aufweist Wahrscheinlichkeit einer erneuten Identifizierung.

Da wir gerade beim Thema HIPAA-Anonymisierung sind, denken Sie daran, dass auch mit sogenannten Quasi-Identifikatoren (wie Postleitzahl und Alter) ein Risiko verbunden sein kann. Diese Werte können in Verbindung mit anderen Datensätzen verwendet werden, um eine Reidentifikationsspur zu erstellen, und sind daher in vielen Fällen auch eine Maskierung wert; das Ob und Wie unterliegen denselben Überlegungen.

Berechnung (Leistung)

Eines der netten Dinge am Datenmaskierungsansatz – selbst wenn rechenintensive Verschlüsselungsalgorithmen beteiligt sind – ist, dass der Overhead im Vergleich zur groben Verschlüsselung (eines gesamten Netzwerks, einer Datenbank, einer Datei/eines Systems, eines Laufwerks) viel geringer ist. Nur die Datenelemente (Spaltenwerte), die Sie zum Schutz festlegen, müssen in die Maskierungsfunktion aufgenommen, verarbeitet und von ihr zurückgegeben werden.

Je komplexer (und stärker) der Algorithmus ist, desto länger dauert die Anwendung im Allgemeinen. Die Datenmaskierungsgeschwindigkeiten hängen auch von der Anzahl der angewendeten Funktionen, der Anzahl der DB-Spalten und -Zeilen, der Anzahl der im Prozess zu beachtenden Lookup-Einschränkungen (für die referenzielle Integrität), der Netzwerkbandbreite, RAM, E/A, gleichzeitigen Prozessen usw. ab bald.

Das folgende nicht wissenschaftliche Diagramm schlüsselt die meisten der oben beschriebenen Attribute zur bequemen Bezugnahme auf, für einige (aber nicht alle!) unterstützte IRI-Datenmaskierungs-Funktionskategorien und im Allgemeinen nur relativ. Selbstverständlich lehnt IRI jegliche Eignungsgarantie oder Haftung für dieses Diagramm ab!

IRI-Datenmaskierungsfunktionen (in FieldShield &Voracity)


Unabhängig davon, ob Sie integrierte IRI-Datenmaskierungsfunktionen oder von Ihnen definierte benutzerdefinierte Funktionen verwenden, besteht die Idee darin, sie basierend auf Ihren Geschäftsregeln auf bestimmte Zeilen oder Spalten und/oder über Tabellen hinweg anzuwenden. Und Sie tun dies durch Datenmaskierungsregeln, die Sie definieren, speichern und wiederverwenden können. Es ist auch möglich (und vorzuziehen), diese Datenmaskierungsfunktionen auf automatisch klassifizierte Daten als Regeln für Komfort und Konsistenz anzuwenden. Und Sie können mehrere davon in dynamischen Datenmaskierungsanwendungen über einen API-Aufruf nutzen.

Benutzer von FieldShield (oder Voracity) können Ihre Datenmaskierungsaufträge in einer kostenlosen, hochmodernen GUI erstellen, ausführen und verwalten, die auf Eclipse™ basiert. Oder sie können kompatible, selbstdokumentierende 4GL-Skripte bearbeiten und ausführen, die ihre definieren Quell-/Zieldaten und Maskierungsfunktionen und führen Sie diese Skripte auf der Befehlszeile aus.

Weitere Informationen finden Sie unter https://www.iri.com/solutions/data-masking oder wenden Sie sich an Ihren IRI-Vertreter.