Apache Phoenix für CDH

Apache Phoenix für CDH:Bestes neues Feature für DBMS

Cloudera übernimmt Apache Phoenix für CDH und wird ihn unterstützen, während es ihn in Zukunft für seine Cloudera-Datenplattform integriert.

Zu den CDH-Versionen von Cloudera gehörte Apache HBase, das ein robustes NoSQL-DBMS für operative Anwendungen von Kunden bietet, die die Leistungsfähigkeit von Big Data nutzen möchten. Diese Anwendungen haben sich zu unternehmenswichtigen und geschäftskritischen Anwendungen entwickelt, die den Umsatz und die Rentabilität steigern. Zu diesen Anwendungen gehören kundenorientierte Anwendungen, E-Commerce-Plattformen, Risiko- und Betrugserkennung, die hinter den Kulissen von Banken verwendet werden oder KI/ML-Modelle für Anwendungen bereitstellen und ein weiteres verstärkendes Training derselben basierend auf tatsächlichen Ergebnissen ermöglichen.

Für viele Kunden war HBase jedoch eine zu entmutigende Reise – sie mussten lernen

Ein neues Datenmodell wie HBase ist ein Wide-Table-Schema, das Millionen von Spalten unterstützt, aber keine Joins und
Verwendung von Java-APIs anstelle von ANSI SQL

Sie haben darum gebeten, ein traditionelleres Schemadesign verwenden zu können, das dem von Oracle oder MySQL bereitgestellten ähnelt, und waren bereit, einige Kompromisse bei der Flexibilität einzugehen, z. B.

Sie sind bereit, bereitgestellte Datentypen zu verwenden, anstatt ihre eigenen zu definieren
Sie sind bereit, die Flexibilität aufzugeben, dass eine einzelne Spalte je nach Zeile mehrere Typen hat, im Austausch gegen einen einzelnen Typ in einer einzelnen Zeile

Um Kunden einen einfachen Einstieg in die anderen Vorteile von Apache HBase (unbegrenztes Scale-out, Millionen von Zeilen, Schemaentwicklung usw.) zu ermöglichen und gleichzeitig RDBMS-ähnliche Funktionen (ANSI SQL, einfache Joins, Datentypen aus dem box usw.) führen wir die Unterstützung für Apache Phoenix auf CDH ein.

Für alle anderen profitieren Phoenix-basierte Anwendungen auch von HBase-Optimierungen hinter den Kulissen, wodurch es einfacher wird, eine bessere HBase-Leistung zu erzielen. Zum Beispiel implementiert Phoenix Salting von Primärschlüsseln – sodass HBase-Benutzer diesen Aspekt des Schlüsseldesigns nicht durchdenken müssen.

Darüber hinaus können Phoenix-basierte Anwendungen mit HBase-Anwendungen koexistieren – was bedeutet, dass Sie einen einzigen HBase-Cluster verwenden können, um beide zu unterstützen. Mit Phoenix können Kunden ihre bevorzugten BI- und Dashboarding-Tools genauso verwenden, wie sie es in der Vergangenheit mit Hive und Impala getan haben. Bei Verwendung von Phoenix können sie Phoenix auch direkt mit diesen Tools verwenden, zusätzlich zu der Option, Hive / Impala zu verwenden, wodurch ein Schritt für neue Implementierungen entfällt.

Aus Sicherheits- und Governance-Perspektive (SDX) verwendet Phoenix in CDH HBase-ACLs für die rollenbasierte Zugriffskontrolle für Phoenix-Tabellen. Phoenix verwendet auch die HBase-Integration in Cloudera Navigator für Audit-Informationen.

Cloudera hat ein Phoenix 4.14.1-Paket veröffentlicht, das für CDH 5.16.2-Kunden verfügbar ist, und ein Phoenix 5.0-Paket, das für CDH 6.2+-Kunden verfügbar ist.

Bestehende HDP-Kunden haben bereits Apache Phoenix-Unterstützung, und fast die Hälfte der HBase-Benutzer, die HDP verwenden, verwenden derzeit auch Phoenix, was auf seine Popularität in der HBase-Benutzergemeinschaft hinweist.

Apache Phoenix für CDH herunterladen

Erstellen Sie geschäftskritische Anwendungen mit Apache Phoenix. Laden Sie die Software hier herunter.

Häufig gestellte Fragen zu Phoenix

F) Für welche Workloads sollte Phoenix verwendet werden

Phoenix unterstützt die gleichen Anwendungsfälle wie HBase, hauptsächlich Workloads mit geringer Latenz und hoher Parallelität. Phoenix macht es jedoch einfacher, die zugrunde liegenden Daten auch für Dashboarding- und BI-Zwecke zu nutzen

F) Was ist der Autorisierungsmechanismus mit Phoenix?

Phoenix ist für die Autorisierung auf HBase angewiesen. Für CDH-Kunden werden HBase-ACLs verwendet. Für HDP-Kunden erfolgt dies über die HBase-Ranger-Integration

F) Wie ist die Skalierbarkeit von Phoenix? Was ist der größte bekannte Cluster?

Phoenix skaliert auf Hunderte von TB an Daten. Der größte Kunde verfügt über mehr als 0,5 PB an Daten, die von Phoenix verwaltet werden. Einzelheiten zu Anwendungsfällen finden Sie in den PhoenixCon-Archiven und in den Archiven für NoSQL-Tagesvideos früher dieses Jahr in eigenen Worten und Folien der Nutzer.

F) Unterstützt Phoenix die räumliche Sekundärindizierung? Welche Unterstützungsebene für räumliche Daten?

Geodaten werden nur eingeschränkt unterstützt. GeoMesa bietet jedoch eine Geodatenschicht auf HBase, die diesen Bedarf unterstützen und in Kundenanwendungen integriert werden kann. Phoenix, GeoMesa sowie JanusGraph und OpenTSDB können alle in einem einzigen HBase-Cluster koexistieren.

F) Wie erstellt und verwendet man einen Index?

Weitere Informationen zur Indexierung finden Sie auf der Seite „Sekundäre Indizierung von Phoenix“. Ab Phoenix 4.8.0 sind keine Konfigurationsänderungen erforderlich, um die lokale Indizierung zu verwenden.

F) Gibt es eine Begrenzung für die Anzahl der Spalten, die Sie in den Index aufnehmen können?

Wie in einem RDBMS ist ein Index im Wesentlichen eine separate Tabelle mit dem Index und einem Link zu den Quelldaten. Wenn Sie alle Spalten indizieren, vereiteln Sie den Zweck, indem Sie zwei identische Tabellen pflegen. Indizes sollten mit Bedacht verwendet werden, da beim Schreiben (globale Indizes) oder Lesen (lokale Indizes) ein nicht unerheblicher Overhead entsteht.