HBase
 sql >> Datenbank >  >> NoSQL >> HBase

Data Warehousing der nächsten Generation bei Santander UK

Zeitnahe Daten sind für Unternehmen im Big-Data-Zeitalter von entscheidender Bedeutung:Dieser Blogbeitrag beschreibt, wie Santander UK die neuesten Cloudera-Technologien und überlegene Softwareentwicklungsfähigkeiten nutzt, um die nächste Generation von Data Warehousing und Streaming-Analysen zu schaffen, um Informationen zu unterstützen, die die Beziehungen zu Kunden und Kunden verbessern können Folgen Sie dem Mantra „Wir wollen Menschen dabei helfen, zu wachsen und zu gedeihen.“

Die Big-Data-Reise von Santander UK begann vor etwa vier Jahren. Sie waren Early Adopters neuer Datenstreaming-Technologien wie Apache Kafka und hatten Ambitionen, das Kundenerlebnis durch die Nutzung von Echtzeitdaten und In-App-Analysen für mobile Benutzer zu revolutionieren.

Seitdem hat Santander UK sowohl seine Präsenz als auch seine Fähigkeit zur Innovation mit Big-Data-Technologie verbessert und sich schnell weiterentwickelt. Der Bedarf an umfangreichen Streaming-Analysen hat zugenommen und ist Realität geworden. Heute wird die Cloudera-Plattform für Big Data, maschinelles Lernen und Analysen bei Santander UK durch eine integrierte hochwertige und skalierbare Platform-as-a-Service (PaaS)-Ereignisbereitstellung über Apache Kafka ergänzt.

Eine weitere Technologiekomponente, die für das Data Warehouse der nächsten Generation von Santander UK von zentraler Bedeutung ist, ist die Verwendung von Apache Kudu, um eine schnelle Analyse schneller Daten zu ermöglichen. In Kombination mit Aspekten der Data Vault 2.0-Designmethodik erleichtert es die schnelle Aufnahme von Hunderten von Apache Kafka-Datenströmen; sowohl die Entlastung bestehender Legacy-Systeme als auch die Bereitstellung der Möglichkeit, „genau hier und jetzt“ Fragen zum Kundenverhalten und zur aktuellen Lage der Bank zu stellen.

Schnelle Markteinführung

Dank einer innovativen neuen Plattform bei Santander UK, die Legacy-Systeme mit einem neuen Data Vault über Apache Kafka integriert, können schnelle Datenströme mit minimalem Aufwand online verschoben werden. Aufgrund der sauberen Struktur der zu integrierenden Daten ist ein neuer Ereignisstrom-Feed zum Füllen des Apache Kudu-Datentresors weitgehend konfigurationsgesteuert – er entspricht Datenereignissen der Hub-, Satelliten- und Link-Struktur der Data Vault 2.0-Methodik. Dadurch kann das Schema auf Änderungen im Unternehmen oder neue Erkenntnisse darüber reagieren, wie die Daten angepasst werden sollten.

Santander UK kann Datentransformationen beeinflussen, indem es die elastische Event-Delivery-Plattform skaliert, die auf Scala Akka und Apache Kafka basiert und eine schnelle und skalierbare Datenanreicherung in Echtzeit ermöglicht. Dies ermöglicht schnellere, aktuellere Daten, schnellere Entscheidungen und eine schnellere Markteinführung von Anwendungsfällen aufgrund der wiederverwendbaren Plattform und Architektur.

Data Science und Rapid Prototyping von Datenprodukten

Letztendlich gibt es viele potenzielle Verbraucher dieser Streaming-Datenquelle; interessante Einblicke wurden jedoch bereits durch die Integration von Cloudera Data Science Workbench in den Data Vault gewonnen. Diese bieten dem wachsenden Data-Science-Team eine umfassende Data-Science-Erfahrung und nutzen – in typischer innovativer Weise von Santander UK – auch das Potenzial, Ideen schnell zu prototypisieren und neue Datenprodukte zu erstellen, bevor sie sich schweren technischen und architektonischen Herausforderungen stellen. Erstellen Sie einen schnellen Prototypen und entwickeln Sie ihn dann, wenn er einen Mehrwert bringt, zu einem erstklassigen Produkt weiter.

Schnelle Integration:Das Beitragsmodell

In Anlehnung an die Innovation und Agilität, die das Dateninnovationsteam von Santander UK verwirklicht hat, haben sie den Begriff des Beitragsmodells geschaffen. Da der Cluster mandantenfähig ist und verschiedene Geschäftsbereiche neue Datensätze beschaffen, bereinigen und entwickeln; Wenn es für den Rest des Unternehmens als nützlich erachtet wird, können Verknüpfungstabellen im Data Vault-Stil verwendet werden, um diese allgemein nützlichen Daten in den Kern des Data Vault-Schemas zu integrieren. Auf diese Weise kann das Team den Wert von Datenprodukten durch die schnelle Generierung neuer Kombinationen von Datensätzen mit nachvollziehbarer Herkunft durch die Verwendung von Cloudera Navigator für die Governance und Sicherheit durch die Verwendung von Apache Sentry für die Zugriffskontrolle steigern. Wenn die Daten der Geschäftseinheit für andere nützlich sind, werden sie mit dem Kern verknüpft und gemäß den Governance-Prinzipien geteilt.


Das Beitragsmodell ermöglicht es uns, reine Datensätze zu nutzen, die unabhängig von verschiedenen Geschäftsbereichen und Produktteams erstellt werden. Wenn diese Daten für den Rest des Unternehmens wertvoll sind, haben wir die Möglichkeit, sie durch die Verwendung von Verknüpfungstabellen als erstklassiger Bürger in den Datentresor zu bringen. Wir wollten den Ansatz der Apache-Community für Open-Source-Software für Datensysteme in unserer Organisation replizieren, um Innovationen durch Zusammenarbeit zu verbessern.

    – Nicolette Bullivant – Head of Data Engineering, Santander UK

Multi-Destination:Ein Stream, um sie alle zu beherrschen

Die rohen Ereignisströme, die von Legacy-Systemen generiert werden, gelten als kanonisch und werden im Allgemeinen von anderen Beteiligten benötigt, die den Cluster verwenden. Das Dateninnovationsteam von Santander UK hat das Prinzip übernommen, sicherzustellen, dass diese Ereignisströme für die Nutzung durch verschiedene Anwendungsfälle und Technologien verfügbar sind; somit kann ein kanonischer Ereignisstrom an unterschiedliche Ziele umverteilt werden; entweder HDFS-Dateisystem, Apache HBase oder Apache Kudu. Dies trägt dazu bei, eine einzige Version der Wahrheit für alle Beteiligten zu erstellen und gleichzeitig einen Gegendruck auf Legacy-Systeme zu vermeiden.

Schlussfolgerung

Kurz gesagt, Santander UK führt Innovationen direkt auf dem Cloudera-Stack ein, indem es Streaming-Daten, fortschrittliche Software-Engineering-Prinzipien und -Frameworks sowie moderne Data-Warehouse-Designprinzipien koppelt, um Echtzeit-Einblicke zu generieren, um das Kundenerlebnis und das finanzielle Wohlergehen der Kunden zu verbessern. Diese Innovation wurde kürzlich von einer unabhängigen Jury gewürdigt, die Santander als Finalisten für den Data Impact Award wählte.

Nicolette Bullivant ist Head of Data Engineering bei Santander UK.
Rob Siwicki ist Senior Solutions Architect für Clouderas Professional Services, EMEA.