Eines der Hauptanliegen von DBAs, die große Datenmengen aus sehr großen Datenbanktabellen (VLDB) entladen müssen, ist die Geschwindigkeit. Durch das schnellere Entladen sind Daten in verschiedenen Formen für unterschiedliche Zwecke und Plattformen zugänglich. Je schneller Daten erfasst werden, desto schneller können sie verarbeitet und bereitgestellt werden. Das Endergebnis ist eine schnellere Lösungszeit und damit die Produktivität und Wettbewerbsfähigkeit von Unternehmen, die mit Informationen Geld verdienen.
Die meisten verfügbaren Tools und Methoden, die derzeit zum Extrahieren von Daten aus großen Faktentabellen verwendet werden, sind einfach zu langsam. Diejenigen, die vorgeben, schneller zu sein, sind kompliziert, proprietär oder erfordern den Kauf eines kostspieligen ETL-Pakets. Ein Wechsel zu einem ELT- oder Hadoop-Paradigma erfordert große Ausgaben für Hardware (oder DB-Appliance), belastet die zugrunde liegende DB, die sich jetzt umwandelt, und erlegt steile Lernkurven und Wartungslasten auf.
Gibt es nicht andere Optionen für das Entladen und nachgelagerte Prozesse, die schneller, einfacher und kostengünstiger sind?
Warum VLDB-Tabellen entladen?
Es gibt viele Gründe, warum Sie Daten aus diesen Tabellen überhaupt per Bulk-Entladung entladen sollten:
Datenbankmigration :Je schneller Sie Daten aus der/den Legacy-Datenbank(en) abrufen können, desto schneller können Sie die Daten zuordnen und in die neue(n) Datenbank(en) verschieben. Massendatenbewegungen wären von Vorteil, wenn die Datenmengen enorm sind, es einen Vorteil für die Offline-Transformation, den Schutz und/oder die Analyse gibt (was in IRI CoSort sofort möglich ist) und wenn vorsortierte Massenladungen die einzige Möglichkeit sind, dies zu erreichen SLA-Fristen.
Datenbankreorganisation :Entladen, sortieren, neu laden, um die Datenbank effizient zu betreiben und häufige Abfragen zu optimieren, indem die Tabellen in der Join-Reihenfolge gehalten werden. Das Entladen erfolgt in Offline- oder externen Reorganisationen. Sehen Sie sich diesen Vergleich von Offline- und Online-Reorganisationsmethoden an.
Datenintegration :Große DW-Extract-Transform-Load-Operationen (ETL) beginnen mit der Extraktion von Tabellen in den Data Staging-Bereich. Daten, die aus Tabellen ausgegeben und mit Mainframe-Datensätzen, Webprotokollen und anderen flachen Dateien vermischt werden, können am effizientesten in das Dateisystem integriert und verarbeitet werden. Externe Transformationen über sind nicht nur effizienter, weil mehrere Aktionen in einem einzigen E/A-Durchgang bereitgestellt werden können, sondern auch, weil der Rechenaufwand für all diese Arbeit aus der Datenbank entfernt wird (siehe ETL vs. ELT).
Datenreplikation / Archivierung :Durch das Auslagern von Faktentabellen können Betriebsdaten aus goldenen Quellen dupliziert und in einem portablen Format gespeichert werden. Daten in Flatfiles können mit Tools wie IRI NextForm oder CoSort abgefragt, manipuliert und neu formatiert und zum Füllen anderer Datenbanken und Anwendungen verwendet werden. In ähnlicher Weise kann ein zugängliches Repository dieser Daten auch offline gespeichert werden, um Backups wiederherzustellen und abzurufen oder an Parteien zu verteilen, die Zugriff auf die Daten in einer anderen Umgebung benötigen.
Business Intelligence :Es kann schneller und einfacher sein, Betriebsdaten in Flat-File-Formaten wie CSV und XML in Excel und andere BI-Tools zu importieren, anstatt zu versuchen, eine Brücke zwischen der Tabelle und einer Tabellenkalkulation oder einem BI-Cube zu schlagen. Das Auslagern von Tabellen in Flatfiles ist daher ein erster und effizienter Schritt im Datenfranchising – der Aufbereitung von Daten für BI-Operationen.
Ein Blick auf Entlademethoden
VLDB-Extraktionsmethoden unterscheiden sich in Leistung und Funktionalität. Ein gutes Dienstprogramm zum Entladen von Big Data aus Oracle und anderen wichtigen DBs muss effizient und einfach zu verwenden sein und bestimmte Neuformatierungsfunktionen unterstützen, die den Prozess nicht behindern.
Der SQL SPOOL-Befehl kann Daten in eine Flatfile ausgeben, ist aber normalerweise langsam im Volumen. Native Dienstprogramme wie der Export oder die Datenpumpe von Oracle sind schneller, erzeugen jedoch proprietäre Extrakte, die nur erneut in dieselbe Datenbank importiert und nicht wie eine Flatfile analysiert werden können.
Wenn Sie große Tabellen schnell in portable Flatfiles entladen müssen, ziehen Sie IRI FACT (Fast Extract) für Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero usw. in Betracht. FACT verwendet Parallelität und native Datenbankverbindungsprotokolle (wie Oracle OCI ) zur Optimierung der Extraktionsleistung. Die kostenlose FACT-GUI (Assistent), die Teil der IRI-Workbench ist und auf Eclipse™ basiert, zeigt verfügbare Tabellen und Spalten zum Extrahieren an und verwendet SQL SELECT-Syntax.
Ein weiterer Vorteil der Verwendung von FACT ist die Metadatenintegration mit dem SortCL-Programm in IRI Voracity zum Transformieren, Schützen, Targeting und sogar Berichten über die Flat-File-Extrakte. FACT erstellt auch die Steuerdatei des Datenbank-Massenladedienstprogramms in Erwartung von Neuauffüllungen derselben Tabelle unter Verwendung von vorkosortierten Flatfiles in groß angelegten ETL- oder Reorganisationsoperationen.