Oracle
 sql >> Datenbank >  >> RDS >> Oracle

Data Warehousing ETL-Datenprofilerstellung mit Oracle Warehouse Builder

Einführung in die Datenprofilerstellung

Datenprofilierung ist der Prozess der systematischen Dokumentation des Aufbaus und Inhalts von Daten in einer Datei, Tabelle oder einem Schema. Datenprofilierung ist ein wichtiger erster Schritt, wenn ein Data Warehouse in der Planungsphase ist. Für Data-Warehouse-Architekten und -Designer ist es wichtig, die Qualität und Gesamtbeschaffenheit der zugrunde liegenden Betriebssystemdaten zu verstehen, bevor sie ein größeres Data-Warehousing-Projekt durchführen. Zu den spezifischen Aspekten von Quelldaten, die durch die Profilerstellung offengelegt werden können, gehören:

  • Die Gesamtgröße (in Bytes) jeder Quelltabelle oder -datei, einschließlich Angaben zum Datentyp jedes Felds/jeder Spalte.
  • Anzahl, Mittelwerte, Bereiche und Vorhandensein von Nullen für jede Spalte.
  • Beziehungen zwischen Datenspalten innerhalb von Tabellen (wie funktionale Abhängigkeiten).
  • Beziehungen zwischen Tabellen (z. B. Fremdschlüsselbeziehungen).

Die Ergebnisse der Phase der Datenprofilerstellung können weiter verwendet werden, um Regeln zur Überprüfung der Datenqualität und Regeln zur Behebung von Datenproblemen während der ersten Phasen einer ETL-Pipeline zu entwickeln.

Oracle Warehouse Builder bietet eine leistungsstarke Funktion zur Erstellung von Datenprofilen, mit der Sie den Umfang und die Merkmale von Daten in einem Schema im Detail erfahren können. Die offizielle OWB-Dokumentation zum Data Profiling finden Sie unter diesem Link. Oracle Warehouse Builder wird zusammen mit Standard- und Enterprise-Versionen von Oracle 11g Database installiert. Hier finden Sie einige Anweisungen zur Installation von Oracle 11g Release 2 unter Windows.

Wenn Sie über einen zentralen Oracle 11g-Server verfügen, können Sie den Oracle Warehouse Builder-Client verwenden, um auf dieses zentrale Repository zuzugreifen.

In dieser Demonstration werden die wichtigsten Schritte vorgestellt, die zum Profilieren eines OLTP-Systemschemas erforderlich sind. Das Zielschema ist das Oracle „Order Entry“-Schema (OE), das auf Oracle 11g-Datenbanken installiert und aktiviert werden kann. Beachten Sie, dass der Oracle Warehouse-Benutzer Zugriff (Berechtigungsnachweise) auf das OE-Schema haben muss, um das entsprechende Modul in OWB einzurichten.

Der erste große Schritt bei der Profilerstellung besteht darin, ein Modul zu erstellen, das auf das Schema der Quelldatenbank verweist. OWB unterstützt eine große Anzahl von Datenbankquellen sowie flache (Text-)Dateien.

Einrichtung eines neuen Moduls für das Auftragseingabeschema

In dieser Reihe von Schritten wird das Order Entry (OE)-Schema als neues Modul in Oracle Warehouse Builder erstellt.

  1. Melden Sie sich zunächst bei Oracle Warehouse Builder an. Öffnen Sie das Fenster Projektnavigator und dann MY_PROJECT
    Öffnen Sie die Datenbanken Ordner und dann das Oracle Ordner.
    Klicken Sie mit der rechten Maustaste auf das Oracle Ordner und wählen Sie Neues Oracle-Modul wie unten gezeigt:
  2. Wenn der Begrüßungsbildschirm angezeigt wird, klicken Sie auf Weiter> Schaltfläche
  3. Geben Sie einen neuen Namen und eine Beschreibung für die Datenbank an. Beachten Sie, dass Sie im Namen der Datenbank keine Leerzeichen verwenden dürfen.
    Klicken Sie auf Weiter> Schaltfläche zum Fortfahren.
  4. Der nächste Hauptschritt besteht darin, den Speicherort der Datenbank anzugeben. Dies ist höchstwahrscheinlich das erste Mal, dass Sie diese Schritte ausführen, und daher wurde der Speicherort des Oracle OE-Schemas nicht festgelegt. Klicken Sie in diesem Fall auf Bearbeiten... Schaltfläche, die neben dem Standort angezeigt wird Eingabeaufforderung
  5. Geben Sie den Namen, die Beschreibung und die Verbindungsinformationen ein (Hostname, Benutzername, Passwort, Portnummer, Oracle-Dienstname usw.). Klicken Sie auf OK Taste, wenn Sie fertig sind.
  6. Bestätigen Sie die Verbindungsinformationen und klicken Sie auf die Option Import After Finish .
    Klicken Sie dann auf Weiter> Schaltfläche zum Fortfahren:
  7. Der abschließende Zusammenfassungsbildschirm wird angezeigt und zeigt an, dass die Modulerstellung erfolgreich war.
    Klicken Sie auf Fertig stellen Schaltfläche, um diesen Bildschirm zu schließen.

Importieren von Metadaten für das Auftragseingabeschema

  • Indem Sie Import After Finish aktivieren Option in Schritt 6, dem Assistenten zum Importieren von Metadaten wird automatisch gestartet, sobald das Datenbankmodul erstellt wurde. Wenn Sie diese Option übersprungen haben, klicken Sie mit der rechten Maustaste auf das neue Order_Entry-Modul und wählen Sie Metadaten importieren aus dem Menü.
    Sobald der Assistent zum Importieren von Metadaten startet, klicken Sie auf Weiter> Schaltfläche zum Fortfahren.
  • Die Filterinformationen Als nächstes erscheint der Bildschirm. In diesem Fall möchten wir Metadaten für alle Schemainhalte importieren, also klicken Sie auf Alle Option und klicken Sie dann auf Weiter> Schaltfläche zum Fortfahren.
  • Der nächste erscheinende Bildschirm bietet die Möglichkeit, einige oder alle der im Schema erkannten Objekte auszuwählen. Zunächst die Objektauswahl Bildschirm erscheint wie folgt:
  • Klicken Sie auf das Symbol mit dem Doppelpfeil nach rechts, um alle Objekte aus dem Bereich Verfügbar zu verschieben Seite zu Ausgewählt Seite wie unten gezeigt. Klicken Sie dann auf Weiter> Schaltfläche zum Fortfahren.
  • Die Zusammenfassung und der Import Als nächstes erscheint der Bildschirm. Überprüfen Sie den Bildschirm, um sicherzustellen, dass alle Objekte ausgewählt wurden, und klicken Sie auf Fertig stellen Schaltfläche, um den Import abzuschließen.
  • Ein Ergebnisse importieren Der Zusammenfassungsbildschirm wird angezeigt. Klicken Sie auf OK Schaltfläche zum Schließen.
  • Im Oracle Warehouse Builder Projects Navigator wird die ORDER_ENTRY-Datenbank mit all ihren Objekten gefüllt, einschließlich der unten gezeigten Tabellen:
  • An diesem Punkt wurde ein neues Datenbankmodul für das Oracle Order Entry-Datenbankschema erstellt und alle Metadaten des Schemas wurden in Oracle Warehouse Builder importiert. In den nächsten Schritten ein neues Datenprofil wird erstellt.

    Erstellen eines Datenprofils in Oracle Warehouse Builder

    Der nächste große Schritt ist die Erstellung eines Datenprofils .

    1. Klicken Sie im Oracle Warehouse Builder-Projektnavigator mit der rechten Maustaste auf die Datenprofile Gruppe und wählen Sie Neues Datenprofil
    2. Wenn der Begrüßungsbildschirm angezeigt wird, klicken Sie auf Weiter> Schaltfläche
    3. Geben Sie einen Namen und eine Beschreibung des neuen Datenprofils an. In diesem Beispiel haben wir das neue Profil benannt:Order_Entry_Schema_Profile (Beachten Sie, dass Leerzeichen im Profilnamen nicht zulässig sind). Klicken Sie auf Weiter> Schaltfläche zum Fortfahren.
    4. Der nächste Bildschirm enthält eine Liste von Schemaobjekten. Öffnen Sie die Tabellen Ordner und fügen Sie alle Tabellen hinzu (mit Ausnahme der PURCHASEORDER Tabelle), die unter der Auftragseingangsdatenbank aufgeführt sind zu den Ausgewählten Seite des Bildschirms.
      Fügen Sie keine der Ansichten hinzu.
      Klicken Sie auf Weiter> Schaltfläche zum Fortfahren.
    5. An dieser Stelle die Zusammenfassung Bildschirm erscheint und das Datenprofil wurde eingerichtet. Klicken Sie auf Fertig stellen Schaltfläche.
    6. Sobald das neue Profil eingerichtet ist, wird der Datenprofil-Editor Bildschirm erscheint.

    Der nächste Schritt besteht darin, den Profiler für das Schema auszuführen.

    Arbeiten mit dem Profileditor in Oracle Warehouse Builder

    Der letzte Hauptschritt besteht darin, im Profileditor zu arbeiten, um einen Datenprofilierungsauftrag zu starten und dann die Ergebnisse anzuzeigen. Wenn Sie die vorherigen Schritte befolgt haben, um ein neues Datenprofil zu erstellen, sollte OWB den Datenprofil-Editor gestartet haben . Alle Anweisungen ab diesem Punkt gehen davon aus, dass wir im Datenprofil-Editor arbeiten.

    1. Unten ist eine Ansicht des Datenprofil-Editors. Beachten Sie, dass das Datenbankmodul ORDER_ENTRY in den Profilobjekten geöffnet wird Fenster und alle Tabellen sollten hier aufgelistet sein.
    2. Sie können Änderungen an den Profiling-Schritten in den Abschnitten des Eigenschafteninspektors vornehmen, z. B. Konfiguration laden und Aggregationskonfiguration . Beschreibungen dieser Einstellungen finden Sie unter diesem Link.
      Stellen Sie für dieses Beispiel sicher, dass die folgenden Profiling-Standardeinstellungen ausgewählt sind:

      • Common Format Discovery aktivieren
      • Typenerkennung aktivieren
      • Mustererkennung aktivieren
      • Domänenerkennung aktivieren
      • Erkennung eindeutiger Schlüssel aktivieren
      • Erkennung funktionaler Abhängigkeiten aktivieren
      • Erkennung redundanter Spalten aktivieren
      • Datenregel-Profilerstellung aktivieren
    3. Um mit der Datenprofilerstellung zu beginnen, ziehen Sie das Profil herunter Menü und wählen Sie Profil
    4. Sobald der Profilauftrag gestartet wurde, erscheint ein Dialogfeld, das den Fortschritt der Validierung des Profils anzeigt. Dies kann abhängig von der Geschwindigkeit des Servers und der Anzahl der Datenbankobjekte im Profil einige Minuten dauern.
    5. Wenn der Validierungsschritt abgeschlossen ist, wird der eigentliche Profiljob ausgeführt. Beachten Sie, dass dieser Job asynchron im Hintergrund läuft. Klicken Sie auf OK Schaltfläche, um das Profil initiiert zu schließen Dialogbox.
    6. Sobald der Profilauftrag abgeschlossen ist, werden die Profilergebnisse abrufen angezeigt Bildschirm erscheint. Klicken Sie auf Ja um die Profilergebnisse in den Profileditor abzurufen.
    7. Die Profilergebnisse werden im Profileditor angezeigt. Klicken Sie auf einen Tabellennamen, um die Metadaten im Leinwand für Profilergebnisse anzuzeigen . Klicken Sie auf einen Spaltennamen, um die Einzelheiten einer Spalte im Daten-Drill-Bereich anzuzeigen
      In der Abbildung unten (zum Vergrößern anklicken) die KUNDEN Tabelle zur Ansicht im Profile Results Canvas ausgewählt wurde und das NLS_TERRITORY Spalte wurde ausgewählt, um im Data Drill-Bereich angezeigt zu werden.

    Weitere Informationen zu Oracle OWB-Datenprofilen

    Zusätzlich zur Dokumentation stellt Oracle auch eine Reihe von Tutorials zu Oracle By Example (OBE) für OWB bereit, darunter:Oracle Warehouse Builder:Examining Source Data Using Data Profiling.