Database
 sql >> Datenbank >  >> RDS >> Database

Datenbankprofilierung in IRI Workbench

Aktualisierung:Q2’16 :Zusätzlich zum unten beschriebenen Datenbankprofilierungsassistenten in der Menügruppe zur Datenerkennung in IRI Workbench hat IRI eine robuste Datenklassifizierung eingeführt, die die Anwendung von Feldregeln für die Transformation von Daten aus mehreren Quellen und den Schutz durch Datenklassenbibliotheken ermöglicht. Update Q2’18 :IRI hat auch einen schemaweiten Suchassistenten für Muster eingeführt, um PII zu finden, die mit RegEx- oder Literalwerten in mehreren Tabellen gleichzeitig übereinstimmen. Update Q2’19 :IRI bietet jetzt auch die Inter-/Intra-Schema-Datenklassensuche und Maskierung für Benutzer IRI FieldShield oder Voracity. Und IRI hat gerade diesen Artikel veröffentlicht, um zu zeigen, wie die DB-Profiling-Ergebnisse unten in Splunk angezeigt werden.

Da heute immer mehr Daten aus immer mehr Geschäftsaspekten gesammelt werden, ist es wichtig, dass Sie sich ihres Inhalts und ihrer Art bewusst sind, um die Qualität, Quantität und Sicherheit dieser Sammlungen zu gewährleisten. Die Datenprofilerstellung ist der wesentliche Entdeckungsprozess, der Ihnen hilft, Daten in Ihren Repositories zu analysieren, zu klassifizieren, zu bereinigen, zu integrieren, zu maskieren und zu melden.

Zusätzlich zu den Assistenten für die Erkennung dunkler und strukturierter Daten (und die Definition von Metadaten) sowie die DB-übergreifende E-R-Diagrammerstellung in Eclipse ermöglicht das neue DB-übergreifende Profilerstellungstool in IRI Workbench den Benutzern, die Struktur und Vollständigkeit von Datenbankdaten zu untersuchen und diese zu validieren Die richtigen Daten werden an den richtigen Stellen gespeichert. In diesem Artikel untersuchen wir dieses Tool und zeigen, wie es Tabellenwert-Suchergebnisse und statistische Metadaten liefert.

Um auf den Datenbank-Profiler zuzugreifen, navigieren Sie im Datenquellen-Explorer zu der Tabelle, auf die Sie zugreifen möchten. Klicken Sie mit der rechten Maustaste auf die Tabelle und bewegen Sie die Maus über die IRI-Option. Wählen Sie im angezeigten Menü Neues Datenbankprofil aus .

Richten Sie auf der ersten Seite des Assistenten den Speicherort und das Ziel des Jobs ein und wählen Sie die Ausgabe des Profilberichts als .csv- oder .txt-Datei oder beides aus.

  • das .csv-Format ist nützlich für den Import in neue Tabellen und Datenbanken, wohingegen
  • das .txt-Format ist ein vorformatierter Bericht, der nützlich ist, um Ergebnisse schnell zu überprüfen.

Statistische Profilinformationen

Der nächste Teil des Assistenten wird mit zwei Tabellen angezeigt:

  1. Die oberste Tabelle ist eine Liste aller Tabellen in der Datenbank, wobei die Tabelle, die den Assistenten gestartet hat, standardmäßig hervorgehoben ist.
  2. Mit diesem Kontrollkästchen können Sie mit einem Klick jede Tabelle und Zeile in Ihrer Datenbank scannen.
  3. Die untere Tabelle zeigt die Profilerstellungsoptionen, gefolgt von den Spalten der hervorgehobenen Tabelle, in der Sie die Optionen ausführen möchten.

Klicken Sie auf eine beliebige Tabelle in der Liste, die Sie anzeigen und profilieren möchten. Die Optionsmatrix ändert sich automatisch, um die Spalten der ausgewählten Tabelle darzustellen. Es gibt mehrere Möglichkeiten, die Anzeigeoptionen zu handhaben:

  • Klicken Sie für alle Optionen auf das oberste Kontrollkästchen in der Tabelle mit der Bezeichnung Alle, und alle Metadaten werden gemeldet.
  • Aktivieren Sie nur für grundlegende Optionen (Zählung und Werte) das Kontrollkästchen "Grundlagen".
  • Nur für Längenoptionen (Wertlängen), aktivieren Sie das Kontrollkästchen "Längen".

Wenn Sie viele Spalten in Ihrer Tabelle haben und für alle dieselbe Option auswählen möchten, klicken Sie auf den Optionsnamen selbst, und für alle Spalten wird diese Option ausgewählt. Sie können Spalten innerhalb der Option abwählen.

Wenn alles eingestellt ist, klicken Sie auf Fertig stellen und dann wird das Profil für Sie generiert.

Ausdruckssuche

Eine einzigartige Auswahl in der Optionstabelle ist die -Expression Search-. Mit dieser Option können Sie Spalten mit einer Vielzahl von Suchoptionen durchsuchen. Diese Optionen sind:

  • Reguläre Ausdrücke (Mustersuche). Dadurch wird ermittelt und gezählt, wie oft ein Wert mit dem Format eines Suchmusters übereinstimmt.
  • Fuzzy-String. Mit dieser Option können Sie nach Zeichenfolgen suchen, die den von Ihnen eingegebenen ähneln, und Suchbedingungen auswählen oder festlegen.
  • Wertedatei. Mit dieser Option können Sie einen String mit jedem String in einer Satzdatei vergleichen und jeden String mit Übereinstimmung zählen.

Die Seite Ausdruckssuche hat 6 wichtige Abschnitte

  1. Ein Suchtyp-Kombinationsfeld zur Auswahl des durchzuführenden Suchtyps.
  2. Die Optionsgruppe, die sich je nach ausgewähltem Suchtyp ändert
    • Regulärer Ausdruck:hat zwei Schaltflächen; browse, das die vorhandenen regulären Ausdrücke durchsucht, und Create…, das die Erstellung neuer regulärer Ausdrücke ermöglicht.
    • Fuzzy-String:hat ein Zählfeld, das den Schwellenwert der Fuzzy-Suche angibt (wie nahe die Strings sein müssen, um als Übereinstimmung zu gelten), und ein Kombinationsfeld, um den zu verwendenden Fuzzy-Suchalgorithmus auszuwählen.
    • Wertedatei:hat eine Schaltfläche Durchsuchen…, mit der Sie nach der Satzdatei suchen können, die für die Wertesuche verwendet werden soll.
  3. Ein Textfeld, in das Sie die Daten für Ihre Suche eingeben.
  4. Eine Dropdown-Liste der Tabellen, auf die Sie die Ausdruckssuche anwenden können.
  5. Eine Drop-down-Liste der Spalten, auf die Sie die Ausdruckssuche anwenden können.
  6. Eine Tabelle mit den von Ihnen erstellten Suchen, die vom Profiler durchgeführt werden.

So erstellen Sie einen Filter für reguläre Ausdrücke:

  1. Wählen Sie im Kombinationsfeld Suchtyp die Option Regulärer Ausdruck aus .
  2. Klicken Sie auf Durchsuchen zu (Ihre Bibliothek mit gespeicherten Ausdrücken) oder klicken Sie auf Erstellen  um einen regulären Ausdruck anzugeben, der bei der Suche nach Spaltenwerten verwendet werden soll.
  3. Wählen Sie im Menü Tabelle die Tabelle aus, die die zu filternde Spalte enthält.
  4. Wählen Sie im Menü Spalte die Spalte aus, auf die der reguläre Ausdruck angewendet werden soll.
  5. Klicken Sie auf Zur Tabelle hinzufügen , und in der Tabelle unten wird ein Element angezeigt, das den Dateinamen, den Spaltennamen, die Suchquelle, den Schwellenwert und das Label für reguläre Ausdrücke enthält, aus denen der Filter besteht.
  6. Wiederholen Sie diesen Vorgang für jede Spalte, der Sie einen Filter hinzufügen möchten. Wenn Sie zu viele Spalten haben, um diesen Prozess praktisch zu gestalten, können Sie stattdessen mit diesem Assistenten trotzdem mehrere Spalten und Tabellen automatisch scannen, um Daten mit Ihren Mustern über ein gesamtes Datenbankschema hinweg abzugleichen.

So erstellen Sie eine Fuzzy-String-Suche:

  1. Wählen Sie aus der Suchtyp-Kombination Fuzzy String aus .
  2. Geben Sie die Zeichenfolge ein, die für die Suche verwendet werden soll.
  3. Wählen Sie die Anzahl der zurückzugebenden Ergebnisse aus (diese Option wird angezeigt, wenn die Fuzzy-Suche ausgewählt ist).
  4. Wählen Sie den zu verwendenden Fuzzy-Suchtyp (diese Option wird angezeigt, wenn Fuzzy-String ausgewählt ist).
  5. Wählen Sie im Tabellenmenü die Datei aus, die die Spalte für die Fuzzy-Suche enthält.
  6. Wählen Sie im Menü Spalte die Spalte aus, für die die Fuzzy-Suche durchgeführt werden soll.
  7. Klicken Sie auf Zur Tabelle hinzufügen , und in der Tabelle unten wird ein Element angezeigt, das den Dateinamen, den Spaltennamen, die Suchquelle, den Schwellenwert und den Suchtyp der auszuführenden Fuzzy-Suche enthält.
  8. Wiederholen Sie diesen Vorgang für jede Spalte, in der Sie eine Fuzzy-String-Suche durchführen möchten.

So erstellen Sie eine Wertedateisuche:

  1. Wählen Sie aus dem Kombinationsfeld „Suchtyp“ die Option Wertedatei aus .
  2. Klicken Sie auf Durchsuchen , um eine Satzdatei auszuwählen, mit der die Spalte geprüft wird.
  3. Wählen Sie im Menü Tabelle die Tabelle aus, die die zu filternde Spalte enthält.
  4. Wählen Sie im Spaltenmenü die Spalte aus, auf die der reguläre Ausdruck angewendet werden soll.
  5. Klicken Sie auf Zur Tabelle hinzufügen , und in der Tabelle unten wird ein Element angezeigt, das den Dateinamen, den Spaltennamen, die Suchquelle, den Schwellenwert und das Suchlabel der Werteliste enthält, aus denen der Filter besteht.

Prüfung der referenziellen Integrität

Eine weitere Option in der Optionstabelle ist -Check Referential Integrity-. Mit dieser Option kann der Profiler eine oder mehrere Spalten mit einer anderen Spalte vergleichen und feststellen, ob die Spalten referenzielle Integrität aufweisen. Um diese Funktion zu verwenden, aktivieren Sie die -Check Referential Integrity-Kästchen in den Spalten, um die referenzielle Integrität zu vergleichen. Die Schaltfläche „Weiter“ wird aktiviert und ermöglicht Ihnen, die Parameter für die Überprüfung der referenziellen Integrität anzugeben (Einzelheiten siehe unten).

Wenn Sie für eine Ihrer Spalten die Option Referentielle Integrität prüfen ausgewählt haben, klicken Sie auf Weiter , um zur Seite "Prüfung der referenziellen Integrität" zu gelangen. Diese Seite hat die folgenden Funktionen:

  1. Zwei Kombinationsfelder, eines zur Auswahl der Tabelle, in der sich der Primärschlüssel befindet, das andere zur Angabe der Primärschlüsselspalte.
  2. Zwei Kombinationsfelder, eines zur Auswahl der Tabelle, in der sich der Fremdschlüssel befindet, das andere zur Angabe der Fremdschlüsselspalte. Es gibt auch eine Schaltfläche zum Hinzufügen des Fremdschlüssels zu einer Liste von Fremdschlüsseln, um sie mit dem Primärschlüssel zu vergleichen.
  3. Eine Schaltfläche "Integritätsprüfung erstellen", um die primären und fremden Spalten zur Liste unten hinzuzufügen.
  4. Eine Liste, die alle referenziellen Integritätsprüfungen speichert, die vom Profiler durchgeführt werden.


So erstellen Sie eine referenzielle Integritätsprüfung:

  1. Wählen Sie im Kombinationsfeld der Tabelle unter Primärschlüsselspalte die Tabelle aus, in der sich der Primärschlüssel befindet.
  2. Wählen Sie im Spaltenkombinationsfeld unter Primärschlüsselspalte den Primärschlüssel aus.
  3. Wählen Sie im Kombinationsfeld der Tabelle unter "Fremdschlüsselspalte" die Tabelle aus, in der sich der Fremdschlüssel befindet.
  4. Wählen Sie im Spaltenkombinationsfeld unter "Fremdschlüsselspalte" den Fremdschlüssel aus.
  5. Klicken Sie auf die Schaltfläche Zur Fremdschlüsselliste hinzufügen…
  6. Wiederholen Sie die Schritte 3-5 für jeden Fremdschlüssel, der mit dem Primärschlüssel verglichen werden soll
  7. Klicken Sie auf die Schaltfläche Integritätsprüfung erstellen…
  8. Wiederholen Sie die obigen Prozesse für jede durchzuführende Prüfung der referenziellen Integrität.

Beispielprofilausgaben

 .csv wird in LibreOffice angezeigt / .txt wird in EditPad Lite angezeigt