HBase
 sql >> Datenbank >  >> NoSQL >> HBase

Alles Gute zum Geburtstag Apache HBase! 10 Jahre Belastbarkeit, Stabilität und Leistung

Apache HBase wurde vor 10 Jahren zu einem Top-Level-Projekt mit Apache und Cloudera begann zur gleichen Zeit (2010) daran mitzuwirken. Im Laufe dieser Zeit hat es sich zu einem der größten und beliebtesten Open-Source-Tools für Big Data und zu einer der beliebtesten NoSQL-Datenbanken entwickelt.

Die Apache Software Foundation gibt den 10. Jahrestag von Apache HBase bekannt

HBase unterstützt sowohl Key-Value- als auch Wide-Column-NoSQL-Datenbanken und wird von Unternehmen weit und breit verwendet. Cloudera hat über 500 Kunden in der Produktion, die es für Anwendungsfälle verwenden, die von geschäftskritischen Transaktionsanwendungen, Data Warehousing, maschinellem Lernen und Data Engineering reichen. Unsere Kunden entscheiden sich für HBase aufgrund seiner Ausfallsicherheit (einige Kunden können über viele Jahre eine 100-prozentige Betriebszeit der Anwendung erreichen), Stabilität, Leistung und niedrigen Betriebskosten. Cloudera-Kunden stellen es eigenständig bereit, zusammen mit Phoenix, einer auf HBase basierenden SQL-basierten Datenbank, und manchmal mit Apache Impala und/oder Apache Hive, mit denen sie SQL-basierte OLAP-Abfragen auf HBase ausführen können.

Ich bin seit 2018 Produktmanager für das Operational Database-Angebot von Cloudera und hatte die Gelegenheit, viele unserer Kunden zu treffen. Ich bin immer wieder beeindruckt von den vielfältigen Möglichkeiten, wie Kunden HBase nutzen. Die Breite der Anwendungsfälle ist so groß und vielfältig, dass sie sich einer Segmentierung entzieht. Nach eingehender Analyse kam ich zu einem einfachen Ansatz zur Klassifizierung von Anwendungsfällen – Kunden, die damit unternehmenskritische Anwendungen unterstützen, und solche, die dies nicht tun. Die unternehmenskritischen Anwendungen sind in der Regel transaktionsorientiert und helfen unseren Kunden, ihren Umsatz zu steigern und/oder die betriebliche Effizienz zu steigern. Für sie, wenn HBase sinkt, wird der Umsatz und/oder das Endergebnis beeinträchtigt und im schlimmsten Fall können Menschen sterben.

Beispiele für unternehmenskritische Anwendungsfälle:

  • Ein Anbieter von Software für das Gesundheitswesen verwendet HBase, um Hunderte von Anwendungen zu unterstützen. Wenn diese Anwendungen scheitern, können aus irgendeinem Grund Menschen sterben und die Gesundheitskosten steigen. Dieser Kunde hat HBase auf über 7.000 Knoten mit über 70 PB an Daten bereitgestellt.
  • Ein Mobiltelefonhersteller verwendet HBase, um einen Sprachassistenten und viele andere Anwendungsfälle auf über 6.000 Knoten zu aktivieren
  • Ein Finanzmedienhaus verwendet HBase, um Teile der Plattform zu betreiben, und ermöglicht es Händlern und anderen, den relevanten Kontext von Aktienkursbewegungen, Trends usw. auf über 1.200 Knoten zu verstehen
  • Eine marktführende E-Mail-Marketing-Plattform führt HBase auf ~1.000 Knoten aus
  • Ein Versicherungsanbieter verwendet HBase auf ca. 1.000 Knoten, um alle Anspruchsinformationen zu speichern, und verwendet es für die Verwaltung dieser Ansprüche während ihres gesamten Lebenszyklus
  • Ein Anbieter von Bibliotheksdiensten verwendet HBase auf über 400 Knoten, um Fernleihen auf der ganzen Welt zu unterstützen 
  • Ein globales Energieverteilungsunternehmen verwendet HBase auf über 400 Knoten, um Messwerte von über 7 Millionen intelligenten Zählern aufzunehmen und automatisierte Einsätze von Reparaturteams für das Stromverteilungsnetz und Stromabrechnungsanwendungen durchzuführen und das kontinuierliche Training von Modellen für maschinelles Lernen fördern 
  • Das größte indonesische Telekommunikationsunternehmen Telkomsel mit über 170 Millionen Kunden hat seine gesamte CRM-Anwendung von der alten MPP-Datenbank auf HBase und Impala migriert und konnte eine Reaktionszeit von unter einer Sekunde erreichen alle CRM-Abfragen für einzelne Benutzer, Anrufaufzeichnungen, Profile, Aufladungen, Datennutzung usw. Der Vorteil der Abfrage von HBase durch Impala bestand darin, sicherzustellen, dass eine ANSI SQL-kompatible Schnittstelle über JDBC zugänglich ist, um CRM-Änderungen zu minimieren.

Beispiele für nicht unternehmenskritische Anwendungsfälle:

  • Ein Hersteller von Körperpflegeprodukten verwendet HBase, um alle seine Produktmarken und Marketingmaterialien zu verwalten 
  • Ein Halbleiterhersteller verwendet HBase, um Protokolldateien seiner Produkte zu speichern und sie zur Analyse in andere Systeme zu extrahieren 
  • Ein Telekommunikationsanbieter verwendet HBase, um seine Dimensionstabellen für Hive zu speichern

Was HBase von anderen NoSQL-Angeboten unterscheidet, ist seine Integration in das Open-Source-Big-Data-Ökosystem, das Kunden eine End-to-End-Erfahrung ermöglicht. Sie können es für Anwendungen verwenden, die Daten vom Rand benötigen, oder für Anwendungen, die KI/ML-Modelle in großem Maßstab oder eine beliebige Kombination davon liefern müssen.

Eines der interessantesten Support-Tickets, das ich bei Cloudera gesehen habe, war, als ein HBase-Kunde ein Ticket mit hoher Priorität eingereicht hat, das angibt, dass seine unternehmenskritische Bereitstellung ausgefallen ist. Sie hatten seit über einem Jahr nicht mehr mit uns interagiert und ich wusste nicht einmal, dass sie ein wichtiger Kunde waren. Erst in diesem Fall erfuhr ich, dass sie 1.000 Knoten bereitgestellt hatten, um eine Omnichannel-Marketingplattform auf HBase zu betreiben. Die Wurzel des Problems bestand darin, dass sie 9 Monate vor dem Vorfall einige problematische Änderungen an ihren Konfigurationseinstellungen vorgenommen hatten. Als sie schließlich neu starteten, traten die problematischen Konfigurationseinstellungen in Kraft und veranlassten sie, Cloudera um Hilfe zu bitten!

Cloudera kümmert sich sehr um HBase und hat 15 Committer und PMC-Mitglieder im Projekt. Wir investieren auch, um es in der öffentlichen Cloud verfügbar zu machen, sowohl mit PaaS-ähnlichen als auch mit dbPaaS-Formfaktoren.

HBase-Erfahrungen im Laufe der Jahre

Angesichts unseres langjährigen Engagements und unserer Geschichte mit diesem Projekt wollten wir einige Erfahrungen und Geschichten im Zusammenhang mit diesem Projekt aus dem gesamten Cloudera-Team teilen.

„Vor Jahren nahm ich an einer auf Apache Hadoop ausgerichteten technischen Konferenz teil. Eines späten Abends ging ich zurück in mein Zimmer und sah zufällig eine Gruppe von Personen, die ich als langjährige Kunden erkannte, die sich um einen Tisch drängten. Nun, das ist eine sehr kompetente Gruppe von Personen, mit denen ich schon seit vielen Jahren zusammenarbeite. Ich schlenderte hinüber, um kurz Hallo zu sagen und mich nach einem langen Tag auf den Weg zu machen. Es stellte sich heraus, dass eines ihrer Systeme einen Produktionsausfall hatte und gerade dabei war, ihn zu beheben. Ich setzte mich hin, holte meinen Laptop heraus und verbrachte die nächsten Stunden mit ihnen, während wir das Problem analysierten und die gefundenen Probleme angingen. Die Unterstützung unternehmenskritischer Anwendungen erfordert manchmal Heldentaten, aber manchmal findet man unterwegs auch einige Vögel einer Feder.“

— Leitender Ingenieur

„In der Natur vieler Unternehmen ist es absolut entscheidend, in der Lage zu sein, zu skalieren und dennoch die Anforderungen an niedrige Latenzzeiten ihres unternehmenskritischen Systems zu erfüllen. Wenn Sie in den Archiven zurückblicken, hatten unsere Kunden harte Zeiten, um solch schwierigen Standards gerecht zu werden. HBase hat die Elemente, die es einfach erscheinen ließen, diese Erwartungen zu erfüllen, insbesondere durch die Minimierung der Zeit zum Auslösen der nächstbesten Aktion.“

– Hauptlösungsarchitekt 

„Vor drei Jahren war ich ein neuer Joiner Engineering Manager bei Cloudera. Ich kannte die Open-Source-Aktivitäten des Unternehmens früher und bin seit der High School ein GNU-Linux-Benutzer, aber Open Source zu verwenden und ein Teil davon zu sein, ist etwas völlig anderes.

Als Neuling im Unternehmen musste ich verstehen, was das Team tut, also bekam ich ein paar Support-Tickets zugewiesen und begann, daran zu arbeiten. Ich wusste nur zwei Dinge:Ich war viele Jahre Java-Entwickler, also muss ich dazu in der Lage sein, und Hortonworks ist unser herausforderndster Konkurrent, was bedeutet, dass es interessant sein könnte, mit ihnen zusammenzuarbeiten.

Und dann passierte es, mit meinem allerersten Apache HBase-Ticket traf ich auf Josh Elser – Leiter des HBase-Teams von Hortonworks – der mir zeigte, dass die Implementierung einer neuen Aufgabe schwieriger als erwartet sein kann (mit den Qualitätsstandards des HBase-Teams) und das Ihr Konkurrent kann Ihr bester Partner in der Open-Source-Community sein. Am Ende hat er meine Änderungen übernommen.

In den letzten drei Jahren hat sich vieles verändert. Cloudera und Hortonworks haben sich zusammengeschlossen, wir arbeiten jetzt im selben Unternehmen, aber Apache und HBase sind identisch. Ich habe nur begrenzt Zeit, um an dem Code zu arbeiten, aber ich sehe seine Macht, sehe, wie er für Dienste verwendet wird, von denen ich nicht wusste, dass es sie gibt, und ich sehe, wie er Menschen auf der ganzen Welt dazu bringt, zusammenzuarbeiten. Es verbindet Menschen über Unternehmen, Kontinente, Kulturen hinweg.“

— Technischer Leiter

„HBase und Phoenix waren einfach zu erlernen. Data Hub erleichtert den Einstieg und freut sich jetzt darauf, dass Cloudera Operational Database HBase in das nächste Jahrzehnt führt.“

— Technischer Kundenerfolgsmanager

„In den letzten 9 Jahren war ich an vorderster Front bei der Entwicklung von HBase und habe die Entwicklung gesehen, wie unsere Kunden HBase von einem POC zu groß angelegten, unternehmenskritischen Plattformen verwenden. Der bemerkenswerteste Moment in dieser Zeit war vor der Fusion von Cloudera und Hortonworks, als Teams beider Unternehmen zusammenarbeiteten, um die Funktionalität einer kritischen Produktfunktion zu verbessern. Schließlich wurde die Arbeit auf der HBaseCon präsentiert und erhielt große Anerkennung von zwei der größten Benutzer von HBase. Diese Funktion unterstützt eine wichtige Funktion, die von mehr als 2 Milliarden Mobilgeräten auf der ganzen Welt verwendet wird.“

– Leitender Ingenieur 

„Ein weiterer großartiger Moment in den letzten 10 Jahren von HBase war die HBaseCon 2015, als Carter Page von Google öffentlich anerkannte, wie sich HBase zu einem sehr soliden Projekt entwickelt hat.“ 

– Leitender Ingenieur

„Ich hatte das Vergnügen, an fast allen HBaseCons teilzunehmen (und auf einigen von ihnen zu sprechen). Dies sind drei meiner Lieblingserinnerungen an die HBaseCon:(1) Die Vielfalt von HBase:Die HBase 2.0-Ankündigung hob nicht nur die Anzahl der ausgelieferten JIRAs hervor, sondern auch die Anzahl der HBase-Committer und PMC-Mitglieder von außerhalb der USA und hatte eine Frau, die das HBase PMC leitete , (2) die Dynamik von HBase:Facebooks Ankündigung, dass sie ihren benutzerdefinierten Fork verlassen würden, um Apache HBase zu 100 % upstream zu machen, und (3) die Sprungbretter von HBase:Auf einer HBaseCon hielt ein Bloomberg-Entwickler einen Read Replicas-Vortrag und dann zwei HBaseCons später , ein Apple-Entwickler, hielt eine HBaseCon-Keynote zur Verwendung von Lesereplikaten in der Produktion.“

– Leitender Systemingenieur

Bei Cloudera sehen wir weiterhin eine glänzende Zukunft für dieses Projekt und erwarten, dass es sich weiterentwickeln wird, um Anwendungen der nächsten Generation zu unterstützen, die in der Cloud in PaaS-ähnlichen und dbPaaS-Formfaktoren sowie in Rechenzentren mit privater Cloud erstellt werden.

Eine Vorschau auf das, was noch kommt, finden Sie unter Operational DB-Vorlage von CDP Public Cloud .