Database
 sql >> Datenbank >  >> RDS >> Database

So finden und maskieren Sie PII in Elasticsearch

Elasticsearch ist eine Java-basierte Suchmaschine, die über eine HTTP-Schnittstelle verfügt und ihre Daten in schemafreien JSON-Dokumenten speichert. Leider werden Online-Elasticsearch-Datenbanken weiterhin von einer Flut kostspieliger und schmerzhafter Verstöße gegen personenbezogene Daten (PII) heimgesucht:

Wurden jedoch alle PII oder andere vertrauliche Informationen in diesen DBs maskiert, sind erfolgreiche Hacks und Entwicklungskopien möglicherweise nicht problematisch. Der Zweck von IRI DarkShield besteht darin, diese Informationen in der Produktion oder beim Testen mit datenschutzkonformen Anonymisierungsfunktionen zu sperren.

Der Elasticsearch Such- und Maskenassistent in der grafischen IDE der IRI Workbench für IRI DarkShield verwendet dieselben Tools wie die in diesem Artikel beschriebenen MongoDB- und Cassandra-Konnektoren. Dieser Assistent kann verwendet werden, um PII und andere vertrauliche Informationen, die in Elasticsearch-Sammlungen gespeichert sind, zu klassifizieren, zu lokalisieren und zu de-identifizieren oder zu löschen und um Such- und Prüfergebnisse zu erstellen.

Einrichten

Wenn Sie keinen Elasticsearch-Cluster haben, mit dem Sie sich verbinden können, können Sie ganz einfach einen lokalen Cluster erstellen, indem Sie Elasticsearch von hier herunterladen und der Anleitung folgen.

Für meine Demonstration dieses Assistenten verwende ich einen einzelnen Index namens Kunden auf einem lokal gehosteten Cluster. Dieser Index speichert grundlegende Kundeninformationen, die normalerweise in einem Konto zu sehen wären, und ein reichhaltiges Ziel für Fehlverhalten darstellen. Dazu gehören:E-Mail, Name und Telefonnummer:

Suchen

Wie bei den anderen von DarkShield unterstützten Datenquellen müssen Sie eine .search erstellen Auftragsspezifikationsdatei, um Ihre Scan- und Marktkriterien zu definieren. Wählen Sie wie bei MongoDB oder Cassandra den Neuen NoSQL-Such-/Maskierungsjob … aus aus dem DarkShield-Menü oben in der IRI Workbench-Symbolleiste. Wählen Sie einen Projektordner aus und geben Sie einen Namen für den Job ein.

Erstellen Sie auf der nächsten Seite einen Quell-URI:

Hier geben Sie die Parameter für Ihren Elasticsearch-Cluster ein. Der Standardhost und -port für Elasticsearch sind localhost und 9200, wenn diese Felder leer gelassen werden.

Wenn der Cluster, mit dem Sie sich verbinden, einen Benutzernamen und ein Passwort benötigt, geben Sie diese im Abschnitt Authentifizierung ein. Für dieses Beispiel verwende ich Host:localhost, Port:9200 und den Cluster:Elasticsearch.

Auf dieser Seite können auch ein Benutzername und ein Passwort hinzugefügt werden. Zur Vereinfachung dieser Demonstration wurde der lokale Cluster nicht im Hinblick auf Sicherheit konfiguriert. Jeder echte Cluster sollte Login und Berechtigungen für echte Anwendungsfälle aktiviert haben.

Klicken Sie auf OK zu beenden und Sie kehren zur vorherigen Seite zurück. Geben Sie den Index ein, den Sie durchsuchen möchten. In diesem Beispiel verwende ich den Index namens customers .

Als Nächstes müssen Sie einen Ziel-URI für die maskierten Ergebnisse festlegen. Beachten Sie, dass nur von Elasticsearch maskierte Ergebnisse nur an Elasticsearch-Ziele gesendet werden können. In diesem Fall verwende ich denselben Kunden-URI, der zuvor erstellt wurde, jedoch mit einem anderen Index. Dadurch wird ein neuer Index mit den maskierten Ergebnissen erstellt, die später in dieser Demonstration erstellt werden.

Als Nächstes werden Sie aufgefordert, einen Search Matcher zu erstellen, der für die Zuordnung einer Datenklasse zu einer entsprechenden Daten-(Maskierungs-)Regel verantwortlich ist. Dies ist ein notwendiger Schritt, da ohne ihn keine Maskierung angewendet werden kann.

Wie im Artikel Datenklassifizierung erläutert, katalogisieren und definieren Datenklassen globale Kriterien zum Auffinden und Maskieren von PII in strukturierten, halbstrukturierten oder unstrukturierten Quellen für FieldShield und DarkShield zentral. IRI Workbench wird mit mehreren vordefinierten Datenklassen (z. B. Namen, E-Mail- und IP-Adressen, Kreditkartennummern) ausgeliefert, die unter Fenster> Einstellungen> IRI> Datenklassen und Gruppen zu finden sind . Sie können diese bearbeiten und Ihre eigenen hinzufügen.

Klicken Sie auf Durchsuchen oder Erstellen in der Datenklassenzeile. Beim Durchsuchen können Sie Ihre eigenen Datenklassen oder eine von mehreren vordefinierten Klassen oder Gruppen auswählen, einschließlich E-Mail, Telefonnummer und Namen. In diesem Fall enthält die Datenklassengruppe NAMEN eine Datenklasse Vornamen.

Hier habe ich die Datenklasse EMAIL ausgewählt, die nach E-Mails in meinem Elasticsearch-Index sucht:

Auf die gewählte Datenklasse muss nun eine Maskierungsregel angewendet werden. Klicken Sie auf Erstellen Schaltfläche, um eine neue Datenregel zu erstellen, oder Durchsuchen um bereits definierte zu verwenden.

Für E-Mails wähle ich eine Schwärzungsfunktion:

Natürlich können auch mehrere Datenklassen gleichzeitig maskiert werden. Ich habe Klassen hinzugefügt und Telefonnummern eine formaterhaltende Verschlüsselungsfunktion sowie ein zufälliges Pseudonym (festgelegte Dateisuche) für Personennamen zugewiesen:

Falls Suchfilter benötigt werden, können diese auf der vorherigen Seite hinzugefügt werden. Filter können verwendet werden, um bestimmte Ergebnisse zu finden oder bestimmte zu maskierende Felder in CSV-, XML-, JSON- oder RDBs zu isolieren, sodass Zeileninhalte nicht gescannt werden müssen. Ich habe in diesem Fall jedoch keine angegeben.

Klicken Sie auf Fertig stellen wenn fertig. Dies schließt den Assistenten ab und erstellt eine .Suche Datei, die die DarkShield-Konfigurationsdetails zum Ausführen der Such- und/oder Maskierungsjobs enthält.

Hinweis: Wenn Sie den lokal gehosteten Standardcluster wie den in diesem Beispiel verwenden, stellen Sie sicher, dass der Cluster aktiviert ist, da sonst alle Such- oder Maskierungsaufträge fehlschlagen. Sie können überprüfen, ob der Server läuft, indem Sie einen Webbrowser öffnen und „http://localhost:9200/“ in die Adressleiste eingeben.

Suchen und Maskieren

DarkShield unterstützt das Suchen und Maskieren als separate oder gleichzeitige Vorgänge. In diesem Fall möchte ich zuerst suchen und sehen, was ich gefunden habe, bevor ich es maskiere. Das liegt daran, dass (größere) Maskierungsaufträge einige Zeit in Anspruch nehmen können und ich möglicherweise meine Suchmethoden verfeinern und erneut überprüfen möchte.

Klicken Sie dazu mit der rechten Maustaste auf .search Datei und führen Sie die Datei als Suchauftrag aus. Dadurch wird eine .darkdata erstellt mit den Ergebnissen der gerade durchgeführten Suche. Das Artefakt erscheint in Workbench folgendermaßen:

Nachdem Sie die Ergebnisse überprüft haben, können Sie .darkdata ausführen Datei als Maskierung Job, um die Sammlung mit der von mir angegebenen Schwärzungsfunktion zu reparieren.

Die zuvor gesuchten Ergebnisse werden am Zielort maskiert. Um dies zu überprüfen, können Sie eine erneute Suche durchführen und sehen, dass die Daten nun wie angegeben mit „DarkShield“ versehen wurden; d.h. E-Mails geschwärzt, Vornamen pseudonymisiert und Telefonnummern mit formaterhaltender Verschlüsselung maskiert:

Wenn Sie Hilfe beim Schutz Ihrer Elasticsearch-Sammlungen benötigen, indem Sie ihre Daten im Ruhezustand über diese DarkShield-Schnittstelle in IRI Workbench oder deren CLI oder halb-/unstrukturierte Daten im Flug über die REST-API von DarkShield maskieren, senden Sie bitte eine E-Mail an [email protected].