HBase
 sql >> Datenbank >  >> NoSQL >> HBase

Operative Datenbankzugänglichkeit

Dieser Blogbeitrag ist Teil einer Serie über Clouderas Operational Database (OpDB) in CDP. Jeder Beitrag geht detaillierter auf neue Features und Fähigkeiten ein. Beginnen Sie am Anfang der Reihe mit Operational Database in CDP.

OpDB von Cloudera bietet eine Vielzahl von Funktionen zum Speichern und Zugreifen auf Daten. In diesem Blogbeitrag sehen wir uns die Barrierefreiheitsfunktionen von OpDB an und wie Sie diese Funktionen für den Zugriff auf Ihre Daten nutzen können.

Verteilung und Sharding

Die Operational Database (OpDB) von Cloudera ist ein Scale-out-Datenbankmanagementsystem (DBMS), das für die lineare Skalierung auf Petabytes an Daten ausgelegt ist. Wie bei allen DBMSs wird Scale-out durch Sharding implementiert. Es werden zwei verschiedene Sharding-Richtlinien unterstützt:

  • Auto-Sharding
  • Vordefiniertes Sharding

Unabhängig vom Ansatz gibt es APIs, um Sharding basierend auf Hash, Wertebereich und der Kombination aus beidem zu ermöglichen.

Auto-Sharding

Wenn Auto-Sharding aktiviert ist, werden die Tabellen dynamisch über den Cluster verteilt, und wenn eine Shard-Größe das konfigurierbare Limit überschreitet, wird sie automatisch aufgeteilt und zwischen Servern in einem Cluster verschoben.

Ein Tabellensegment wird am mittleren Schlüssel in zwei Teile geteilt, wodurch zwei ungefähr gleiche Hälften entstehen, und diese beiden Hälften können von verschiedenen Servern bedient werden.

Automatisiertes Sharding wird unabhängig vom Netzwerk angewendet, das mit der OpDB verwendet wird (WAN oder lokal). Cluster können so eingerichtet werden, dass sie sich über ein WAN erstrecken. In diesem Fall würden Sharding und Datenbewegungen ohne Datenverlust über das WAN erfolgen.

Das System kann so konfiguriert werden, dass es weiß, welche Knoten sich in welchen Rechenzentren befinden, was zusätzliche Ausfallsicherheit für Shards bietet, da Kopien der Shards über mehrere Rechenzentren verteilt werden können.

Vordefiniertes Sharding

Shards können basierend auf einer Richtlinie auf bestimmte Teilmengen von Knoten in einem Cluster beschränkt werden, normalerweise auf mandantenspezifische Weise. Dies ermöglicht die Implementierung von geografisch basierten Richtlinien. Anschließend können Tabellen zwischen Clustern repliziert und durch Richtlinien festgelegt werden, um sicherzustellen, dass die Replikation von Tabellen und den zugehörigen Shards auf die gewünschten Regionen beschränkt ist.

OpDB von Cloudera bietet native Unterstützung für die Datenhoheit. Wenn sich ein Cluster über mehrere Länder erstreckt, können regionale Servergruppen verwendet werden, um Daten zusammen mit der HDFS-Rack-Isolationskonfiguration in bestimmten Ländern zu verankern.

Abfragen

Cloudera bietet drei Abfrage-Engines, die für verschiedene Arten von Anwendungsfällen optimiert sind, sowohl operative als auch analytische, und NoSQL-Schnittstellen, um eine optimierte Leistung zu ermöglichen, die sich über ein breites Spektrum von sowohl betrieblichen als auch Data-Warehouse-Workloads erstreckt. Dies ermöglicht die Ausführung von Abfragen und Verknüpfungen von Daten über mehrere Shards hinweg.

OpDB von Cloudera bietet eine native OLTP-SQL-Engine, die das Abfragen mehrerer Daten- und Objektmodelle unterstützt, einschließlich Abfragen und Verknüpfungen zwischen ihnen. Zwei unserer OLAP-Abfrage-Engines können verwendet werden, um externe Tabellen zuzuordnen, die sich in unserer OpDB (oder an anderen Orten) befinden, und können sie für komplexere analytische Abfragen, die für Data Warehousing typisch sind, abfragen oder verknüpfen

Datenintegrationstools

Cloudera bietet mehrere Tools, um die Integration mit Data Warehousing und föderierter Abfrageverarbeitung zu ermöglichen.

Zum Beispiel:

  • Der Massenexport in ein Data Warehouse wird von Flink, Spark, Hive und MapReduce bereitgestellt
  • Streaming-Export in ein Data Warehouse wird von Nifi bereitgestellt
  • In-situ-Datenabfragen innerhalb unserer OpDB werden von Phoenix, Impala und Hive 
  • bereitgestellt
  • Die föderierte Abfrageverarbeitung über unsere OpDB, Data-Warehouse-Lösung und Data-Warehouse-Lösungen von Drittanbietern wird von Hive bereitgestellt

Unterstützung externer Daten

OpDB von Cloudera enthält viele Hadoop-Tools und lässt sich in den größten Teil des Hadoop-Ökosystems integrieren.

Unsere OpDB bietet NoSQL- und SQL-Schnittstellen. Es gibt keine Einschränkungen für diese Schnittstelle und sie wird in der Hadoop-Community sehr gut unterstützt.

Mobile OpDB

MiNiFi kann auf tragbaren Geräten am Rand verwendet werden und Datenkonnektivität mit der OpDB bereitstellen.

Der Abfrageeditor HUE kann auf einem mobilen oder tragbaren Gerät ausgeführt werden.

Standardbasierte Konnektivität

Cloudera bietet sowohl JDBC- als auch ODBC-Treiber, die über unsere SQL-Engines bereitgestellt werden, zusätzlich zum direkten API-Zugriff auf unsere Datenspeicher und Tools.

Als Nächstes

In diesem Blogbeitrag haben wir uns einige der OpDB-Barrierefreiheitsfunktionen wie Datenabfrage, Datenintegration und Konnektivität angesehen. Im nächsten Artikel behandeln wir, wie Sie die Verwaltungsfunktionen in OpDB nutzen können, finden Sie sie hier.

Weitere Informationen finden Sie unter:Erste Schritte mit Operational Database.