Database
 sql >> Datenbank >  >> RDS >> Database

Datenklassifizierung in IRI Workbench

Benutzer von PII-Maskierungstools wie FieldShield, DarkShield und CellShield EE in der IRI Data Protector Suite oder der Voracity Plattform können ihre Daten katalogisieren und durchsuchen – und Datentransformations- und Schutzfunktionen als Regeln anwenden – mit integrierten Daten Klassifizierung Infrastruktur in ihrer gemeinsamen Front-End-IDE, IRI Workbench, die auf Eclipse™ basiert.   

Datenermittlungs-(Such-)Einrichtungen aus mehreren Quellen in IRI Workbench können die von Ihnen definierten Datenklassen nutzen oder Ihnen dabei helfen, Ihren Daten basierend auf Ihren Suchergebnissen, Geschäftsregeln und/oder Datenklassen oder Datenklassengruppen zuzuweisen Domänenontologien.

Sie können Ihre Datenklassenbibliothek in Regeln für wiederverwendbare Felder (z. B. Datenmaskierung) verwenden. Und Sie können diese Regeln auch zuweisen, wenn Sie Daten automatisch klassifizieren.

Diese Funktionen bieten Datenarchitekten und Governance-Teams Komfort, Konsistenz und Compliance-Funktionen. In diesem Artikel finden Sie ein End-to-End-Beispiel der Verwendung von Datenklassen, um Daten konsistent über mehrere Tabellen in RDB-Schemata zu finden und zu maskieren.

Dieser Artikel beschreibt, wie Sie diese Klassen definieren können. Es gibt verwandte Artikel zu Datenklassen-Validierern, die verwendet werden können, um Daten basierend auf Mustersuchen zu unterscheiden und zu überprüfen.

Mehrere andere Artikel im IRI-Blog behandeln die Anwendung von Datenklassen in verschiedenen Kontexten (hauptsächlich Datenmaskierung). Einen vollständigen Index dieser Artikel finden Sie in diesem Abschnitt der IRI-Software-Selbstlernseite.

Datenklassen erstellen

Die Klassifizierung beginnt mit der Einrichtung von Datenklassen in den Einstellungen der Workbench Bildschirm, mit dem Sie Klassen global in mehreren Projekten in Ihrem Arbeitsbereich verwenden können. Workbench hat einige Klassen vorinstalliert, einschließlich der Klassen FIRST_NAME, LAST_NAME und PIN_US, die in diesem Beispiel verwendet werden.

Die Datenklassen funktionieren, indem sie (1) den Namen der Klasse mit dem Namen des Felds, (2) ein Muster mit den Daten im Feld abgleichen oder (3) Dateiinhalte mit den Daten im Feld vergleichen. Das erste Element wird automatisch im Klassifizierungsprozess für Sie erledigt, wenn diese Option ausgewählt wird. Sie können so viele Muster hinzufügen und Dateiabgleicher festlegen, wie Sie für jede Klasse benötigen, um die gewünschten Ergebnisse zurückzugeben.

Die Eingabe eines regulären Ausdrucks als Datenklassenname ist eine zusätzliche Möglichkeit, den Spaltennamen abzugleichen. Beispielsweise kann es eine Spalte namens LNAME oder LASTNAME geben. Ich kann also L(AST)?[_-]?NAME verwenden (Unterstrich und Bindestrich in Klammern), um einige Variationen von NACHNAME zu erfassen.

Sie können Ihre Datenklassen und Gruppen auch deaktivieren. Wenn Sie viele Klassen haben, aber die Elemente herausfiltern möchten, die in Ihrem speziellen Projekt nicht verwendet werden, können Sie sie deaktivieren. Dadurch können Sie eine Kopie davon behalten, aber die Dropdown-Liste, die diese Klassen verwendet, nicht überladen.

Datenklassengruppen

Sie können auch Datenklassengruppen haben. Beispielsweise enthält die enthaltene Gruppe „NAMES“ die Datenklassen FIRST_NAME, LAST_NAME und FULL_NAME. Wenn Sie eine Regel auf mehrere Klassen anwenden möchten, können Sie eine Gruppe verwenden, anstatt Datenklassen einzeln auszuwählen.

Für dieses Beispiel habe ich den Unterstrich aus der Datenklasse FIRST_NAME entfernt, um die Namensabgleichsoption der Klassifizierung zu demonstrieren.

Datenklassifizierungsquellen-Assistent

Nachdem die Matcher zu den benötigten Klassen hinzugefügt wurden, können Sie den Datenklassifizierungsquellen-Assistenten ausführen. Der Assistent akzeptiert die folgenden Datenformate:CSV, Delimited, LDIF, ODBC oder XML. Dieser Assistent bietet die Möglichkeit, Quellen für Ihre Datenklassenbibliothek zur späteren Klassifizierung auszuwählen.

Beginnen Sie auf der Einrichtungsseite mit der Auswahl des Speicherorts Ihrer neuen „iriLibrary.dataclass ”-Datei, die die Ausgabe dieses Assistenten ist. Der Dateiname ist schreibgeschützt, da es in jedem Projekt nur einen dieser Dateitypen geben kann. Sie können auch das Kontrollkästchen aktivieren, wenn alle Ihre Quellen Tabellen in einem Verbindungsprofil sind.

Wenn Sie dieses Kästchen auswählen, wird eine Eingabeseite wie die folgende geöffnet, auf der Sie die einzuschließenden Tabellen auswählen können:

Wenn das Kontrollkästchen nicht aktiviert ist, können Sie Dateien oder ODBC-Quellen in derselben Eingabemaske hinzufügen. Auf dieser Art von Eingabeseite müssen Sie auch die Metadaten für jede Quelle hinzufügen. In diesem Beispiel habe ich eine CSV-Datei und zwei Oracle-Tabellen eingebunden.

Wenn Sie Daten in einem oder mehreren vollständigen Datenbankschemata gleichzeitig suchen und klassifizieren müssen, verwenden Sie die Assistenten Schemamustersuche und Schemamustersuche zu Datenklassenzuordnung.

Wenn Sie auf Fertig stellen klicken, wird eine Datenklassenbibliothek mit den ausgewählten Quellen erstellt. Mit dem sich öffnenden Datenklassen-Formular-Editor können Sie die Daten in diesen Quellen klassifizieren.

Klassifizierung der Daten in Ihren ausgewählten Quellen

Sie beginnen den Klassifizierungsprozess, indem Sie auf eine der Datenquellen klicken, um die Details zu dieser Quelle anzuzeigen. Der obere Teil des Bildschirms hat einen erweiterbaren Abschnitt, der die Datei- oder Tabellendetails anzeigt.

Der Klassifizierungsabschnitt beginnt mit einem Kontrollkästchen, um den Abgleich über den Feldnamen mit dem Datenklassennamen einzubeziehen. Zum Beispiel habe ich eine Datenklasse namens FIRSTNAME und ein Feld namens FIRSTNAME (bei der Übereinstimmung wird die Groß-/Kleinschreibung nicht berücksichtigt).

In diesem Fall wählt der Klassifizierungsprozess diese Datenklasse für dieses Feld aus, ohne den Dateninhalt zu lesen.

Der nächste Abschnitt zeigt eine Tabelle mit Feldnamen mit Kontrollkästchen, eine Spalte für die Datenklasse und eine Spalte für die übereinstimmenden Ergebnisse. Die untere Tabelle ist eine Vorschau der Daten in der Quelle. Die benötigten Datenklassen sollten erstellt worden sein, bevor Sie diesen Formulareditor verwenden, aber Sie können sie hier hinzufügen oder bearbeiten.

Sie können die Datenklasse manuell auswählen, indem Sie auf das Dropdown-Feld in der Datenklassenspalte des Felds klicken, das Sie klassifizieren möchten. Sie können auch auf "Automatisch klassifizieren" klicken und die Felder auswählen, die Sie klassifizieren möchten. Wenn Sie auf OK klicken, wird der automatische Klassifizierungsprozess gestartet, der je nach Datenmenge in Ihrer Quelle lange dauern kann.

Der Prozess kann im Hintergrund ausgeführt werden, wenn Sie diese Option im angezeigten Eclipse-Standarddialogfeld auswählen. Zusätzlich können Sie den Prozessstatus in der Fortschrittsansicht einsehen.

Nach Abschluss werden die Datenklasse und die Datenklassenkarte in der Bibliothek für die ausgewählten Felder erstellt. In diesem Beispiel hat der Klassifizierungsprozess eine Übereinstimmung von 87 % im Feld "SSN", eine Übereinstimmung von 11 % im Feld "NACHNAME" und eine Namensübereinstimmung im Feld "FIRSTNAME" gefunden. Die Prozentsätze geben die Menge der abgeglichenen Daten in Ihrer Quelle über die Abgleicher für diese Datenklasse an.

Wenn „Name“ in der übereinstimmenden Spalte angezeigt wird, wurde die Datenklasse basierend auf dem Namen abgeglichen. Wenn Sie eine Datenklasse manuell ausgewählt haben, wird in der entsprechenden Spalte „Benutzer“ angezeigt.

Der endgültige Inhalt der Bibliothek wird unten angezeigt. Genauso wie Sie die Details der Quellen sehen können, können Sie auch auf die Datenklassen und Karten klicken, um ihre Details anzuzeigen.

Die Datenklassenzuordnungen verwenden Verweise auf die Datenklassen und Felder, weshalb die Bibliothek neben der Zuordnung selbst auch die Quellen und Datenklassen speichert. Durch das Löschen einer Quelle oder Datenklasse werden auch alle zugeordneten Datenklassenzuordnungen entfernt, die auf dieses gelöschte Element verweisen.

Wenn Sie auf Entfernen klicken, wird eine Warnung angezeigt, um Sie daran zu erinnern. Der Vorgang kann für die anderen enthaltenen Quellen wiederholt werden, und es können jederzeit weitere Quellen hinzugefügt werden.

Die Klassifizierungsergebnisse dieser Bibliothek können nun verwendet werden, um Feldregeln auf diese Datenquellen anzuwenden. Der Vorgang wird in meinem nächsten Artikel über das Anwenden von Feldregeln mithilfe der Klassifizierung erklärt.