HBase
 sql >> Datenbank >  >> NoSQL >> HBase

Das Cloudera Replication Plugin ermöglicht die X-Plattform-Replikation für Apache HBase

Die Cloudera Data Platform (CDP) ist das neueste Big-Data-Angebot von Cloudera. Es enthält Apache HBase und Phoenix als Teil der Plattform. Diese beiden Komponenten werden in 3 Formfaktoren bereitgestellt:

  1. Für lokale Bereitstellungen sind sie ähnlich wie CDH und HDP (innerhalb des CDP Private Cloud-Angebots) verfügbar
  2. Für Kunden, die die Datenbank in AWS und Azure selbst verwalten möchten, ist sie als Teil des CDP Public Cloud DataHub-Angebots verfügbar (mit der Operational Database-Vorlage oder in Custom DataHub-Bereitstellungen)
  3. Es wird in Kürze als Teil der Cloudera Operational Database (COD) verfügbar sein, einem vollständig verwalteten Angebot, das den Verwaltungsaufwand für den Betrieb einer HBase-Bereitstellung eliminiert

Apache HBase-Kunden von Cloudera führen in der Regel geschäftskritische Anwendungen aus, die sich keine Ausfallzeiten leisten können. Sie benötigen eine Möglichkeit, entweder ohne Produktionsausfall oder zumindest mit einem winzigen Ausfall zu einer neuen Bereitstellung zu migrieren. Unter Berücksichtigung dieser Upgrade-Überlegungen, insbesondere angesichts des bevorstehenden Endes der Unterstützung für CDH5 und HDP 2, haben wir das Cloudera OpDB Replication Plugin entwickelt .

Viele Unternehmen setzen auch CDH 6-, HDP 3- und EMR-basierte HBase-Cluster ein, sind jedoch bestrebt, den Betriebsaufwand für die Wartung von HBase-Clustern zu reduzieren oder zu eliminieren. Für sie das Cloudera OpDB Replication Plugin kann es ihnen ermöglichen, ohne Ausfallzeiten oder Produktionsausfälle zu DataHub oder COD zu migrieren.

Das Replikations-Plug-in unterstützt die Replikation von den folgenden Quell-HBase-Clustern:

  • CDH 5.14
  • CDH 6.3
  • HDP 2.6.5
  • HDP 3.1.5
  • EMR 5.28

HBase-Replikation

HBase bietet seit fast einem Jahrzehnt eine ausgereifte, funktionsreiche Replikationsfunktion. Die Replikation ist eine der beliebtesten Funktionen von HBase, da sie eine automatische Disaster-Recovery-Lösung (DR) bietet, Datenmigration unterstützt, Workload-Partitionierung unterstützt und/oder einen suchbasierten sekundären Index durch Integration mit Apache Solr unterstützt. Eine ausführliche Diskussion darüber, wie die HBase-Replikation funktioniert und wie die Replikation konfiguriert wird, wird im HBase-Referenzhandbuch erläutert und wurde in vielen Cloudera-Blog-Artikeln diskutiert. Heute unterstützt es viele Topologien, darunter:

  • Fan-in 
  • Auffächern
  • Zyklisch
  • Bidirektional

Die HBase-Replikation kann entweder auf Namespace- (d. h. Datenbank-) oder Tabellenebene konfiguriert werden. Während es von Natur aus nahezu in Echtzeit erfolgt, kann es so konfiguriert werden, dass es schließlich konsistent oder zeitlinienkonsistent ist.

Das Cloudera OpDB Replication Plugin unterstützt nur einen Zielcluster, der von einem CDP DataHub-Cluster oder einer COD-Datenbank bereitgestellt wird, die entweder in AWS oder Azure bereitgestellt wird.

Vertrauen aufbauen

Bisher erforderte die HBase-Replikation, dass alle teilnehmenden Cluster die gleichen Sicherheitsdefinitionen haben, mit anderen Worten, alle Cluster dürfen entweder keine Sicherheit aktiviert haben (Authentifizierungskonfiguration auf einfach) eingestellt sein , oder für alle Cluster muss die Sicherheit mit Kerberos aktiviert sein (Authentifizierungskonfiguration auf kerberos) gesetzt .

Wenn Kerberos verwendet wird, müssen die Kerberos-Principals aller Cluster zum selben Realm gehören oder wenn sie sich in verschiedenen Bereichen befinden, müssen diese vertrauenswürdig sein untereinander (allgemein bekannt als realmübergreifend ). Authentifizierung).

bereichsübergreifendes Vertrauen mit Kerberos konfigurieren ist in den meisten Organisationen problematisch, da die Sicherheitsrichtlinien des Unternehmens dies normalerweise verbieten. Um dieses Problem zu beheben, wird das Cloudera OpDB-Replikations-Plugin erweitert die HBase-Replikation um eine alternative Authentifizierungsmethode und ermöglicht so die Replikation über Sicherheitsdomänen hinweg. Das Replikations-Plug-in ermöglicht die Replikation 

  • Über mehrere Kerberos-Domänen hinweg, ohne dass bereichsübergreifendes Vertrauen erforderlich ist
  • Replikation von sicheren zu unsicheren Clustern und 
  • Replikation von unsicheren zu sicheren Clustern.

Um Vertrauen von CDP-Clustern für Cluster aufzubauen, die entweder keine Sicherheitskonfigurationen haben oder mit Kerberos gesichert sind, implementiert das Replikations-Plugin einen neuen Authentifizierungsmechanismus mit einem gemeinsamen Geheimnis, das mit einem bereitgestellten Tool erstellt und sowohl im Quell- als auch im Zielcluster gespeichert wird.

Schlussfolgerung

Die Replikation ist ein wertvolles Tool für die Implementierung von DR- und Rechenzentrums(DC)-Migrationslösungen für HBase. Es hat einige Vorbehalte, wie hier gezeigt, wenn es um die Sicherheitskonfigurationen von Clustern geht. Angesichts des bevorstehenden Lebensendes von CDH 5 und HDP 2 ist die Fähigkeit, Daten von diesen Legacy-Plattformen zu CDP zu migrieren, zwingend erforderlich.

Für Kunden mit HDP3-, CDH6- und EMR 5.28-basierten HBase-Bereitstellungen ermöglicht dieses Plug-in diesen Kunden, eine vollständig verwaltete HBase-Lösung nahtlos einzuführen und den Betriebsaufwand für die Verwaltung von HBase drastisch zu reduzieren.

Wenden Sie sich an Ihr Cloudera-Kontoteam, wenn Sie daran interessiert sind, das Cloudera OpDB-Replikations-Plug-in in Ihrer Umgebung bereitzustellen.