Cloudera hat kürzlich CDH 6.2 eingeführt, das zwei neue Schlüsselfunktionen in Apache HBase enthält:
- Serielle Replikation
- Bucket-Cache unterstützt jetzt Intels Optane-Speicher
Serielle Replikation
HBase verfügt über einen ausgeklügelten asynchronen Replikationsmechanismus, der heute komplexe Topologien unterstützt, darunter globale Round-Robin-, Zwei-Wege-, Span-In- und Span-Out-Topologien.
Diese Replikationsfunktion bietet bis heute letztendliche Konsistenz – was bedeutet, dass die Reihenfolge, in der Updates repliziert werden, nicht unbedingt mit der Reihenfolge übereinstimmt, in der sie auf die Datenbank angewendet wurden. Während dies für viele Kunden funktionierte, war die Reihenfolge der Updates auf dem Replikationsendpunkt für viele Anwendungsfälle wichtig.
Die serielle Replikationsfunktion bietet Zeitachsenkonsistenz für die Replikation. Mit anderen Worten, die Reihenfolge der Aktualisierungen wird durch die Replikation zum Zielcluster beibehalten. Diese Konsistenz ist mit geringen Kosten verbunden, und in einigen Fällen stellen Benutzer möglicherweise fest, dass die Replikation etwas langsamer ist als der Standard-Replikationsansatz.
Die Konfiguration dieser Option ist ziemlich einfach (setzen Sie das SERIAL-Flag auf true) und kann zum Zeitpunkt der Replikationseinrichtung oder jederzeit danach auf Tabellenebene, Namespace-Ebene oder für einen Peer angewendet werden, der alle Tabellen in HBase repliziert.
HBase-Bucket-Cache
Der Bucket-Cache von HBase ist ein zweischichtiger Cache, der darauf ausgelegt ist, die Bereitschaftsleistung in einer Vielzahl von Anwendungsfällen zu verbessern. Die erste Ebene befindet sich im Java-Heap und die zweite Ebene des Caches kann sich an verschiedenen Orten befinden, darunter:Off-Heap-Speicher, Intel Optane-Speicher, SSDs oder HDDs.
Die für die meisten Kunden empfohlene Konfiguration für die zweite Ebene des Bucket-Cache war Off-Heap. Bereitstellungen in dieser Konfiguration können auf viel größere Speichergrößen skaliert werden, als dies mit dem integrierten On-Heap-Cache möglich ist, da die Off-Heap-Engine den JVM-Garbage-Collection-Druck vermeidet. Die größere Cache-Größe bietet eine deutlich verbesserte HBase-Leseleistung.
Ab CDH 6.2 bietet Cloudera jetzt die Möglichkeit, den neu veröffentlichten Optane-Speicher von Intel als alternatives Ziel für die 2. Ebene des Bucket-Cache zu verwenden. Diese Bereitstellungskonfiguration ermöglicht es Ihnen, bei konstanten Kosten etwa die dreifache Größe des Caches zu haben (im Vergleich zum Off-Heap-Cache auf DRAM). Im Vergleich zur herkömmlichen Off-Heap-Konfiguration kommt es zwar zu einer gewissen zusätzlichen Latenz, aber unsere Tests zeigen, dass die Einrichtung zu einer Nettoleistungsverbesserung führt, wenn mehr (wenn nicht alle) des Arbeitssatzes der Daten in den Cache passen, wenn die Daten wird letztendlich auf HDFS (unter Verwendung von HDDs) gespeichert.
Bei der Bereitstellung in der Cloud oder bei der Verwendung von lokalem Objektspeicher wird die Leistungsverbesserung noch besser sein, da Objektspeicher für das zufällige Lesen kleiner Datenmengen sehr teuer ist. Die folgende Tabelle gibt einen Eindruck von Kosten, Größe und Latenz, die bei der Planung der Konfiguration der zweiten Ebene des Bucket-Cache erforderlich sind.
Speicherung | $ Kosten/GB | Größe (konstante Kosten) | Latenz |
Off-Heap-DRAM | 35 | 1,0 GB | ~70 ns |
Intel Optane¹ | 13 | 2,7 GB | 180–340 ns |
SSD | 0,15 | 233,3 GB | 10-100 µs |
HDD² | 0,027 | 1,3 TB | 4-10 ms |
Objektspeicher³ | 0,006 | 5,8 TB | 10–100 ms |
Lesen Sie diesen Blog, um mehr über die Zusammenarbeit von Intel und Cloudera bei der Nutzung von Optane DC Persistent Memory zur Leistungssteigerung zu erfahren.
Referenzen:
- Überblick über die Leistung des persistenten Speichers von Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – Minute 6:53,
https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html - https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
https://www.westerndigital.com/ products/data-center-drives#hard-disk-hdd - https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf