Database
 sql >> Datenbank >  >> RDS >> Database

Datenprofilierung:Ermittlung von Datendetails

Datenprofilerstellung oder Datenermittlung bezieht sich auf den Prozess der Gewinnung von Informationen und beschreibenden Statistiken über verschiedene Datenquellen. Der Zweck der Datenprofilerstellung besteht darin, den Inhalt von Daten sowie ihre Struktur, Beziehungen und das aktuelle Maß an Genauigkeit und Integrität besser zu verstehen.

Die Erstellung von Datenprofilen kann Fehler oder falsche Schlussfolgerungen in Bezug auf Metadaten (Daten über Daten) aufdecken. Das frühzeitige Erkennen dieser Probleme trägt dazu bei, die Qualität der Quelldaten zu verbessern, bevor sie in ein Data Warehouse integriert oder gespeichert werden. Das Verstehen der Attribute von Daten in einer Datenbanktabelle oder einer extrahierten Datei und das Untersuchen von Datenwerten hilft bei der Validierung, dass der Dateninhalt tatsächlich mit seiner Metadatendefinition übereinstimmt. Das Anzeigen der Daten und Metadaten hilft auch dabei, zu identifizieren, welche Elemente sensibel sind oder personenbezogene Daten (PII) enthalten, sodass bestimmte Spalten für Schutzmaßnahmen gekennzeichnet werden können. Die Datenprofilerstellung deckt somit die Merkmale von Quelldaten auf, die für die Identifizierung, Verwendung und Abstammung von Daten in Integrations-, Sicherheits-, Berichts- und anderen nachfolgenden Prozessen erforderlich sind.

Obwohl gesammelte Daten oft gutartig oder nutzlos erscheinen können, insbesondere wenn sie aus mehreren Quellen stammen, sollten Sie bedenken, dass alle Daten mit der richtigen Anwendung oder dem richtigen Algorithmus nützlich sein können. Die Erstellung von Datenprofilen ist daher auch ein erster Schritt zur Bestimmung dieser Nützlichkeit (durch ein besseres Verständnis der Daten selbst).

Da sich viele Unternehmen letztendlich auf Rohdatenquellen verlassen, um Einblicke in Dinge wie Produktbestände, Kundendemografie, Kaufgewohnheiten und Verkaufsprognosen zu erhalten, kann die Fähigkeit eines Unternehmens, wettbewerbsfähig von ständig wachsenden Datenmengen zu profitieren, direkt proportional zu seiner Fähigkeit sein, diese Daten zu nutzen Vermögenswerte. Das Gewinnen/Verlieren von Kunden und der Erfolg/Misserfolg als Unternehmen können sehr wohl durch das spezifische Wissen bestimmt werden, das die gesammelten Daten einer Organisation vermitteln. Daher sind das Identifizieren der richtigen Daten, das Feststellen ihrer Nützlichkeit auf der richtigen Ebene und das Bestimmen, wie Anomalien zu handhaben sind, bei der Gestaltung von Data-Warehousing-Operationen und Business-Intelligence-Anwendungen von entscheidender Bedeutung.

Laut Doug Vucevic und Wayne Yaddow, Autoren von Testing the Data Warehouse Practicum, „… besteht der Zweck der Datenprofilerstellung sowohl darin, Metadaten zu validieren, wenn sie verfügbar sind, als auch darin, Metadaten zu entdecken, wenn dies nicht der Fall ist. Das Ergebnis der Analyse wird sowohl strategisch verwendet, um die Eignung der Kandidaten-Quellsysteme zu bestimmen und die Grundlage für eine frühe Go/No-Go-Entscheidung zu schaffen, als auch taktisch, um Probleme für das spätere Lösungsdesign zu identifizieren und die Erwartungen der Sponsoren zu nivellieren.

Datenbehörden empfehlen, Datenprofilerstellung zufällig und wiederholt für begrenzte Datenmengen durchzuführen, anstatt zu versuchen, große, komplexe Mengen auf einmal zu bewältigen. Auf diese Weise können die Entdeckungen bestimmende Faktoren dafür sein, was als nächstes profiliert werden sollte. Das Identifizieren von Datenregeln, Einschränkungen und Voraussetzungen stellt die Integrität der Metadaten sicher, für die zukünftiges Profiling durchgeführt wird. Wissen, was angeblich ist in bestimmten Dateien sein und was eigentlich ist es kann sein, dass es nicht dasselbe gibt. Wann immer also die Qualität oder Eigenschaften einer neuen Quelle unbekannt sind, schlagen Experten vor, zuerst Datenprofile zu erstellen, bevor sie in ein bestehendes System integriert werden.

Zu den Schritten im Daten-Profiling-Prozess gehören: Importieren aller Objekte, Erstellen von Konfigurationsparametern, Ausführen des eigentlichen Profiling und Analysieren der Ergebnisse; Keines davon ist so einfach, wie es sich anhört! Basierend auf den Erkenntnissen können dann Schema- und Datenkorrekturen sowie andere Feinabstimmungen zur anschließenden Verbesserung der Datenprofilerstellung implementiert werden.

IRI-Profilerstellungstools

Mitte 2015 veröffentlichte IRI in seiner Eclipse-GUI, IRI Workbench, eine Reihe kostenloser Datenbank-, strukturierter und unstrukturierter (dunkler) Datenerkennungstools. Sie sind unter http://www.iri.com/products/workbench/discover-data zusammengefasst und verlinken auf andere Artikel in diesem Blog, die mehr ins Detail gehen.