Einführung in die Datenprofilerstellung
Datenprofilierung ist der Prozess der systematischen Dokumentation des Aufbaus und Inhalts von Daten in einer Datei, Tabelle oder einem Schema. Datenprofilierung ist ein wichtiger erster Schritt, wenn ein Data Warehouse in der Planungsphase ist. Für Data-Warehouse-Architekten und -Designer ist es wichtig, die Qualität und Gesamtbeschaffenheit der zugrunde liegenden Betriebssystemdaten zu verstehen, bevor sie ein größeres Data-Warehousing-Projekt durchführen. Zu den spezifischen Aspekten von Quelldaten, die durch die Profilerstellung offengelegt werden können, gehören:
- Die Gesamtgröße (in Bytes) jeder Quelltabelle oder -datei, einschließlich Angaben zum Datentyp jedes Felds/jeder Spalte.
- Anzahl, Mittelwerte, Bereiche und Vorhandensein von Nullen für jede Spalte.
- Beziehungen zwischen Datenspalten innerhalb von Tabellen (wie funktionale Abhängigkeiten).
- Beziehungen zwischen Tabellen (z. B. Fremdschlüsselbeziehungen).
Die Ergebnisse der Phase der Datenprofilerstellung können weiter verwendet werden, um Regeln zur Überprüfung der Datenqualität und Regeln zur Behebung von Datenproblemen während der ersten Phasen einer ETL-Pipeline zu entwickeln.
Oracle Warehouse Builder bietet eine leistungsstarke Funktion zur Erstellung von Datenprofilen, mit der Sie den Umfang und die Merkmale von Daten in einem Schema im Detail erfahren können. Die offizielle OWB-Dokumentation zum Data Profiling finden Sie unter diesem Link. Oracle Warehouse Builder wird zusammen mit Standard- und Enterprise-Versionen von Oracle 11g Database installiert. Hier finden Sie einige Anweisungen zur Installation von Oracle 11g Release 2 unter Windows.
Wenn Sie über einen zentralen Oracle 11g-Server verfügen, können Sie den Oracle Warehouse Builder-Client verwenden, um auf dieses zentrale Repository zuzugreifen.
In dieser Demonstration werden die wichtigsten Schritte vorgestellt, die zum Profilieren eines OLTP-Systemschemas erforderlich sind. Das Zielschema ist das Oracle „Order Entry“-Schema (OE), das auf Oracle 11g-Datenbanken installiert und aktiviert werden kann. Beachten Sie, dass der Oracle Warehouse-Benutzer Zugriff (Berechtigungsnachweise) auf das OE-Schema haben muss, um das entsprechende Modul in OWB einzurichten.
Der erste große Schritt bei der Profilerstellung besteht darin, ein Modul zu erstellen, das auf das Schema der Quelldatenbank verweist. OWB unterstützt eine große Anzahl von Datenbankquellen sowie flache (Text-)Dateien.
Einrichtung eines neuen Moduls für das Auftragseingabeschema
In dieser Reihe von Schritten wird das Order Entry (OE)-Schema als neues Modul in Oracle Warehouse Builder erstellt.
- Melden Sie sich zunächst bei Oracle Warehouse Builder an. Öffnen Sie das Fenster Projektnavigator und dann MY_PROJECT
Öffnen Sie die Datenbanken Ordner und dann das Oracle Ordner.
Klicken Sie mit der rechten Maustaste auf das Oracle Ordner und wählen Sie Neues Oracle-Modul wie unten gezeigt:
- Wenn der Begrüßungsbildschirm angezeigt wird, klicken Sie auf Weiter> Schaltfläche
- Geben Sie einen neuen Namen und eine Beschreibung für die Datenbank an. Beachten Sie, dass Sie im Namen der Datenbank keine Leerzeichen verwenden dürfen.
Klicken Sie auf Weiter> Schaltfläche zum Fortfahren.
- Der nächste Hauptschritt besteht darin, den Speicherort der Datenbank anzugeben. Dies ist höchstwahrscheinlich das erste Mal, dass Sie diese Schritte ausführen, und daher wurde der Speicherort des Oracle OE-Schemas nicht festgelegt. Klicken Sie in diesem Fall auf Bearbeiten... Schaltfläche, die neben dem Standort angezeigt wird Eingabeaufforderung
- Geben Sie den Namen, die Beschreibung und die Verbindungsinformationen ein (Hostname, Benutzername, Passwort, Portnummer, Oracle-Dienstname usw.). Klicken Sie auf OK Taste, wenn Sie fertig sind.
- Bestätigen Sie die Verbindungsinformationen und klicken Sie auf die Option Import After Finish .
Klicken Sie dann auf Weiter> Schaltfläche zum Fortfahren:
- Der abschließende Zusammenfassungsbildschirm wird angezeigt und zeigt an, dass die Modulerstellung erfolgreich war.
Klicken Sie auf Fertig stellen Schaltfläche, um diesen Bildschirm zu schließen.
Importieren von Metadaten für das Auftragseingabeschema
Sobald der Assistent zum Importieren von Metadaten startet, klicken Sie auf Weiter> Schaltfläche zum Fortfahren.
An diesem Punkt wurde ein neues Datenbankmodul für das Oracle Order Entry-Datenbankschema erstellt und alle Metadaten des Schemas wurden in Oracle Warehouse Builder importiert. In den nächsten Schritten ein neues Datenprofil wird erstellt.
Erstellen eines Datenprofils in Oracle Warehouse Builder
Der nächste große Schritt ist die Erstellung eines Datenprofils .
- Klicken Sie im Oracle Warehouse Builder-Projektnavigator mit der rechten Maustaste auf die Datenprofile Gruppe und wählen Sie Neues Datenprofil
- Wenn der Begrüßungsbildschirm angezeigt wird, klicken Sie auf Weiter> Schaltfläche
- Geben Sie einen Namen und eine Beschreibung des neuen Datenprofils an. In diesem Beispiel haben wir das neue Profil benannt:Order_Entry_Schema_Profile (Beachten Sie, dass Leerzeichen im Profilnamen nicht zulässig sind). Klicken Sie auf Weiter> Schaltfläche zum Fortfahren.
- Der nächste Bildschirm enthält eine Liste von Schemaobjekten. Öffnen Sie die Tabellen Ordner und fügen Sie alle Tabellen hinzu (mit Ausnahme der PURCHASEORDER Tabelle), die unter der Auftragseingangsdatenbank aufgeführt sind zu den Ausgewählten Seite des Bildschirms.
Fügen Sie keine der Ansichten hinzu.
Klicken Sie auf Weiter> Schaltfläche zum Fortfahren.
- An dieser Stelle die Zusammenfassung Bildschirm erscheint und das Datenprofil wurde eingerichtet. Klicken Sie auf Fertig stellen Schaltfläche.
- Sobald das neue Profil eingerichtet ist, wird der Datenprofil-Editor Bildschirm erscheint.
Der nächste Schritt besteht darin, den Profiler für das Schema auszuführen.
Arbeiten mit dem Profileditor in Oracle Warehouse Builder
Der letzte Hauptschritt besteht darin, im Profileditor zu arbeiten, um einen Datenprofilierungsauftrag zu starten und dann die Ergebnisse anzuzeigen. Wenn Sie die vorherigen Schritte befolgt haben, um ein neues Datenprofil zu erstellen, sollte OWB den Datenprofil-Editor gestartet haben . Alle Anweisungen ab diesem Punkt gehen davon aus, dass wir im Datenprofil-Editor arbeiten.
- Unten ist eine Ansicht des Datenprofil-Editors. Beachten Sie, dass das Datenbankmodul ORDER_ENTRY in den Profilobjekten geöffnet wird Fenster und alle Tabellen sollten hier aufgelistet sein.
- Sie können Änderungen an den Profiling-Schritten in den Abschnitten des Eigenschafteninspektors vornehmen, z. B. Konfiguration laden und Aggregationskonfiguration . Beschreibungen dieser Einstellungen finden Sie unter diesem Link.
Stellen Sie für dieses Beispiel sicher, dass die folgenden Profiling-Standardeinstellungen ausgewählt sind:- Common Format Discovery aktivieren
- Typenerkennung aktivieren
- Mustererkennung aktivieren
- Domänenerkennung aktivieren
- Erkennung eindeutiger Schlüssel aktivieren
- Erkennung funktionaler Abhängigkeiten aktivieren
- Erkennung redundanter Spalten aktivieren
- Datenregel-Profilerstellung aktivieren
- Um mit der Datenprofilerstellung zu beginnen, ziehen Sie das Profil herunter Menü und wählen Sie Profil
- Sobald der Profilauftrag gestartet wurde, erscheint ein Dialogfeld, das den Fortschritt der Validierung des Profils anzeigt. Dies kann abhängig von der Geschwindigkeit des Servers und der Anzahl der Datenbankobjekte im Profil einige Minuten dauern.
- Wenn der Validierungsschritt abgeschlossen ist, wird der eigentliche Profiljob ausgeführt. Beachten Sie, dass dieser Job asynchron im Hintergrund läuft. Klicken Sie auf OK Schaltfläche, um das Profil initiiert zu schließen Dialogbox.
- Sobald der Profilauftrag abgeschlossen ist, werden die Profilergebnisse abrufen angezeigt Bildschirm erscheint. Klicken Sie auf Ja um die Profilergebnisse in den Profileditor abzurufen.
- Die Profilergebnisse werden im Profileditor angezeigt. Klicken Sie auf einen Tabellennamen, um die Metadaten im Leinwand für Profilergebnisse anzuzeigen . Klicken Sie auf einen Spaltennamen, um die Einzelheiten einer Spalte im Daten-Drill-Bereich anzuzeigen
In der Abbildung unten (zum Vergrößern anklicken) die KUNDEN Tabelle zur Ansicht im Profile Results Canvas ausgewählt wurde und das NLS_TERRITORY Spalte wurde ausgewählt, um im Data Drill-Bereich angezeigt zu werden.
Weitere Informationen zu Oracle OWB-Datenprofilen
Zusätzlich zur Dokumentation stellt Oracle auch eine Reihe von Tutorials zu Oracle By Example (OBE) für OWB bereit, darunter:Oracle Warehouse Builder:Examining Source Data Using Data Profiling.