Datenbank-Subsetting – Anleitung in IRI Voracity

Sobald eine Datenbank eine bestimmte Größe überschreitet, wird es teuer – und aus Sicherheitssicht riskant – Kopien in voller Größe für Entwicklung, Tests und Schulung bereitzustellen. Die meisten Teams benötigen kleinere Kopien der größeren Datenbank und haben die PII oft maskiert.

Datenbank-Subsetting ist der Prozess der Erstellung einer kleineren, referenziell korrekten Kopie einer größeren Datenbank aus echten Tabellenextrakten. Teilsätze können mit oder anstelle von Maskierungsdaten oder Synthetisierung von Testdaten verwendet werden, um die mit vollständigen Sätzen verbundenen Kosten und Risiken zu reduzieren. Der Prozess der manuellen Erstellung sinnvoller Teilmengen ist komplex und mühsam, wenn man bedenkt, dass Sie kleinere Datenbanken mit zufälligen Stichproben aus jeder Produktionstabelle füllen und sicherstellen müssten, dass jede relationale Struktur zwischen den Tabellen in der Teilmenge noch korrekt ist.

Ein End-to-End-Wizard für Datenbank-Subsetting-Jobs in der IRI Workbench macht diesen Prozess schneller und einfacher. Der Assistent steht lizenzierten Benutzern der Datenverwaltungsplattform IRI Voracity, IRI RowGen zur Generierung von Testdaten und IRI FieldShield zur Datenmaskierung zur Verfügung. Dieser Artikel stellt den Assistenten vor und zeigt, wie er referenziell korrekte Teilmengen erstellt, mit Optionen für Spaltenmaskierung und felderhaltende Verschlüsselung.

Der Assistent für die Subset-Erstellung lässt den Benutzer die Quelle des Subsets auswählen, die Größe und Sortierung davon, die Namen für die Subset-Ziele und jegliche Verschlüsselung oder Maskierung, die die subset-Daten erhalten sollen. Der Assistent erstellt dann eine Reihe von Jobskripten, die entweder Teilmengentabellen oder Flatfiles erstellen.

Joboptionen

Diese Seite definiert den Ausgabetyp. Wenn der Loader leer gelassen wird, wird eine flache Datei mit einem Tabulator-Trennzeichen erstellt. Als Datenbankoptionen kann entweder ODBC oder der spezifische Datenbanklader ausgewählt werden.

Subset-Optionen

Auf dieser Seite geben Sie die Details der Teilmenge an. Wählen Sie das Verbindungsprofil und die Tabelle aus, die die erstellte Teilmenge „treiben“ soll. Stellen Sie sich die Fahrtabelle als die Haupttabelle vor, aus der die Teilmenge stammen soll. Wenn Sie beispielsweise eine Verkaufstabelle und alle damit verbundenen Tabellen unterteilen möchten, würden Sie hier die Tabelle mit den Verkaufsinformationen auswählen. Wählen Sie außerdem die Größe der Teilmenge aus. Um beispielsweise eine Teilmenge der 100 höchsten verkauften Mengen zu erhalten, würden Sie nach dem Feld "Menge verkauft" sortieren (wie in diesem Beispiel) und 100 in die Anzahl der Zeilen eingeben. Der Treibertabelle kann auch ein Filter hinzugefügt werden.

Sortierung

Auf dieser Seite geben Sie die Sortierreihenfolge der Teilmenge an. Wenn die Zeilen jedoch zufällig ausgewählt werden sollen, lassen Sie die Liste der Schlüsselfelder leer.

Die Sortierseite hat 3 bemerkenswerte Abschnitte:

Die Liste der Eingabefelder
Die Liste der Schlüsselfelder
Schlüsseloptionen

Schritte:

Wenn Sie eine Teilmenge sortierter Daten wünschen, wählen Sie die Spalte aus, nach der sortiert werden soll, und klicken Sie auf „Schlüssel hinzufügen“.
Einige Optionen sind im Feld Schlüsseloptionen verfügbar:
- Aktivieren Sie das Kontrollkästchen Stabil, um Datensätze zu duplizieren und in der Reihenfolge zu laden, in der sie sich in der Produktionstabelle befinden.
- Wenn Sie keine Duplikate oder nur Duplikate in Ihrer Teilmenge haben möchten, aktivieren Sie das Kontrollkästchen Duplikate und das entsprechende Optionsfeld.

Zielbenennung

Diese Seite wird angezeigt, wenn der Ausgabetyp eine Datenbank ist. Es hat zwei Funktionen. Die erste ermöglicht Ihnen, die Beziehungen Ihrer Treibertabelle anzuzeigen. Die zweite besteht darin, die Ausgabeziele für die Teilmenge zu benennen.

Die Seite Zielbenennung hat 5 bemerkenswerte Abschnitte:

Das Zielprofil und Schema
Der Ausgabemodus ist immer create, da dieser Job alle vorhandenen Tabellen mit demselben Namen abschneidet
SQL-Optionen für den Job
Die Benennungsoptionen
Die Referenzliste

Schritte:

Wählen Sie das Verbindungsprofil aus.
Wählen Sie das Schema aus.
Geben Sie die SQL-Optionen an.
Wählen Sie die Benennungsoption aus, um die Teilmengenziele zu benennen. Wenn ein anderes Profil oder Schema verwendet wird, ist dieser Schritt optional:
- Alle voranstellen fügt jedem Tabellennamen ein Präfix hinzu und legt es als Ziel dieser Tabelle fest.
- Postfix alle fügt jedem Tabellennamen ein Postfix hinzu und legt es als Ziel dieser Tabelle fest.
- Individuell benennen ermöglicht die Benennung jedes Teilmengenziels unabhängig von den anderen Zielen.
Überprüfen Sie die Verwiesen von und Referenzen Listen, um zu überprüfen, ob die Beziehungen der Tabelle korrekt gefunden wurden:
- In Importiert von list werden alle Tabellen aufgelistet, von denen Ihre ausgewählte Tabelle importiert wird.
- In den Importen list werden alle Tabellen aufgelistet, zu denen Ihre ausgewählte Tabelle eine Beziehung hat.

Regeln

Auf dieser Seite können Regeln zu allen Zielen hinzugefügt werden. In diesem Beispiel wurde allen Feldern, die auf das Wort „NAME“ enden, ein Regelabgleich hinzugefügt. Die Regel wird auf die übereinstimmende Zieltabelle angewendet. Diese Regel maskiert diese beiden Felder mit Sternchen. Es muss darauf geachtet werden, keine Regeln für Fremdschlüsselfelder einzuschließen.

Zusammenfassung

Diese Seite fasst den Job zusammen. Es zeigt deutlich die Spalten an, die mit einer Regel übereinstimmen, und die Zieltabellen, die mit den Quelltabellen übereinstimmen, falls sie nicht vorhanden sind. Beachten Sie, dass DDL für alle neuen Tabellen erstellt wird.

Wenn alle diese Seiten ausgefüllt sind, können Sie Finish auswählen. Der Assistent erstellt dann Auftragsskripte und eine ausführbare Stapeldatei für Windows oder Unix, die Sie von Workbench oder der Befehlszeile aus starten können, um Teilmengen aus der Treibertabelle und den zugehörigen Tabellen zu extrahieren.

Hier ist ein Flussdiagramm, das diese acht Aufgaben zeigt, die für den Job in Voracity erstellt wurden:

Kontaktieren Sie info@iri.com, wenn Sie Fragen haben.