Database
 sql >> Datenbank >  >> RDS >> Database

Einführung in langsam veränderliche Dimensionen (SCD)

Eine Dimension ist eine Struktur, die eine Sammlung von Informationen kategorisiert, sodass aussagekräftige Antworten auf Fragen zu diesen Informationen erhalten werden können. Dimensionen im Datenmanagement und in Data Warehouses enthalten relativ statische Daten; Diese Dimensionsdaten können sich jedoch im Laufe der Zeit und in unvorhersehbaren Intervallen langsam ändern. Diese Arten von Dimensionsdaten sind als Slowly Changing Dimensions (SCD) bekannt.

In einer Data-Warehouse-Umgebung hat eine Dimensionstabelle einen Primärschlüssel, der jeden Datensatz und andere Informationen, die als Dimensionsdaten bezeichnet werden, eindeutig identifiziert. Der Primärschlüssel wird mit diesem Schlüssel mit einer Faktentabelle verknüpft. Daher ist es wichtig, ein Modell zur Aktualisierung und Handhabung der aktuellen Daten und der historischen Daten zu haben. Es gibt anerkannte Modelle, die durch ihre Typen bekannt sind:

  • Typ 1 – Bei diesem Modell wird der alte aktuelle Wert mit dem neuen aktuellen Wert überschrieben. Es wird kein Verlauf gepflegt.
  • Typ 2 – Die aktuellen und die historischen Aufzeichnungen werden in derselben Datei oder Tabelle aufbewahrt und gepflegt.
  • Typ 3 – Die aktuellen Daten und historischen Daten werden in derselben Aufzeichnung aufbewahrt. Der Benutzer entscheidet, wie viel Verlauf in der Aufzeichnung aufbewahrt wird.
  • Typ 4 – In diesem Modell werden die aktuellen Daten in zwei verschiedenen Tabellen verwaltet; eine für die aktuellen Daten und eine, die alle historischen Daten enthält.
  • Typ 6 – Dieses Modell ist eine Mischung aus Typ 1, Typ 2 und Typ 3.

Alle Aktualisierungsmethoden für die verschiedenen SCD-Modelle können mit dem SortCL-Programm in IRI CoSort oder IRI Voracity durchgeführt werden. Voracity bietet jetzt auch einen einzigen End-to-End-Assistenten zur Erstellung von Jobs, um diese Programme automatisch zu erstellen; siehe unten. Die meisten Typen verwenden eine vollständige äußere Verknüpfung, um Datensätze aus der Stammdatenquelle mit Datensätzen in der Aktualisierungsquelle abzugleichen, basierend auf der Gleichsetzung eines eindeutigen Schlüssels von jedem. Datensätze mit Übereinstimmungen müssen im Master aktualisiert werden. Datensätze in der Aktualisierungsquelle, die keine Übereinstimmung aufweisen, müssen dem Master hinzugefügt werden.

Meine Artikel zu den verschiedenen SCD-Typen zeigen die Quell- oder Eingabedaten in Dateien und zeigen die SortCL-Skripte, die zum Aktualisieren der Masterdateien verwendet werden. Tabellen können bei diesen Skripten auch eine Quelle sein.

In jedem Beispiel behandle ich die Schritte zum Aktualisieren einer Dimensionsquelle, die Produktkosten verwaltet, die sich in unregelmäßigen Abständen ändern. Das Schlüsselfeld oder die Schlüsselspalte ist ProductCode. Alle Quell-Master-Dateien enthalten die folgenden Daten:

Die Quelle master1.dat enthält:

ProductCode Kosten Startdatum
C123 125,50 20110228
F112 2365,00 20120101
G101 19.25 20110930
J245 450,50 20110430
S022 98,75 20110515

Die Aktualisierungsdaten haben alle das gleiche Startdatum. Die Update-Quelle enthält die folgenden Daten:

ProductCode Kosten Startdatum
F112 2425,00 20120701
J245 550,50 20120701
M447 101,75 20120701
S022 101,75 20120701

SCD-Berichte werden auch hier auf der IRI-Website diskutiert. Siehe diese Artikel speziell für SCDs: Typ 1, Typ 2, Typ 3, Typ 4 und Typ 6.

Neuer grafischer SCD-Assistent

Voracity-Benutzer können jetzt auch einen speziell entwickelten Job-Erstellungsassistenten verwenden, um über die SCD-Typen 1, 2, 3, 4 und 6 in der IRI Workbench-GUI, die auf Eclipse basiert, zu berichten. Der Assistent unterstützt auch die Integration von Sortierung, Ausdrucksauswertung, Aggregation, neuer Formatierung, Verschlüsselung und mehr.

Nach dem Einrichten des Jobs und der Auswahl des SCD-Typs im Assistenten legen Sie die Stammdaten und Aktualisierungsinformationen fest. Danach geben Sie die Zuordnungen für das Ziel an, platzieren die Felder in Übereinstimmung mit den übereinstimmenden Quellfeldern und verwenden die Kombinationsfelder nach Bedarf, um mit aktuellen und historischen Feldsätzen zu arbeiten. Nach dem Zusammenführen der angegebenen Informationen auf der Seite Join Sources wird das entsprechende Skript erstellt und kann grafisch dargestellt, ausgeführt, geändert oder geteilt werden.

Die mit den oben genannten Typen verbundenen Artikel werden aktualisiert, um wiederzugeben, wie der neue SCD-Assistent in Voracity diese Jobs automatisch für Sie erstellen kann.