HBase
 sql >> Datenbank >  >> NoSQL >> HBase

Rack-Bewusstsein in Hadoop und seine Vorteile

Dieses Hadoop-Tutorial dreht sich alles um Rack Awareness in Hadoop. In diesem Blog werden wir alles über Rack Awareness in HDFS beschreiben .

Zunächst werden wir untersuchen, was die Eigenschaft von HDFS Rack Awareness ist und was die Notwendigkeit von Rack Awareness in Hadoop ist. Anschließend besprechen wir die Replikationsplatzierung über Rack Awareness in HDFS.

Abschließend werden wir auch die verschiedenen Vorteile von Rack Awareness im Hadoop-Framework besprechen.

Einführung in HDFS Rack Awareness

Rack-Bewusstsein in Hadoop ist das Konzept, das nähere Datenknoten basierend auf den Rack-Informationen auswählt. Standardmäßig geht die Hadoop-Installation davon aus, dass alle Knoten zum selben Rack gehören.

Zur Verbesserung des Netzwerkverkehrs beim Lesen/Schreiben von HDFS-Dateien in großen Hadoop-Clustern. NameNode wählt Datenknoten aus, die sich auf demselben Rack oder einem nahe gelegenen Felsen befinden, um Anforderungen zu lesen/schreiben (Client-Knoten). HDFS Namenode erhält diese Rack-Informationen, indem es die Rack-IDs jedes Datenknotens verwaltet.

Warum Rack-Bewusstsein?

Der Hauptzweck von Rack Awareness ist:

  • Verbessern Sie die Datenzuverlässigkeit und Datenverfügbarkeit.
  • Bessere Clusterleistung.
  • Verhindert Datenverlust, wenn das gesamte Rack ausfällt.
  • Zur Verbesserung der Netzwerkbandbreite.
  • Halten Sie den Bulk-Flow wenn möglich im Rack.

Replikatplatzierung über Rack Awareness in Hadoop

Der Hauptzweck der Replikatplatzierung über Rack Awareness, die Richtlinie, ist die Verbesserung der Datenzuverlässigkeit usw.

Eine einfache Richtlinie besteht darin, Replikate auf dem Rack zu platzieren, um einen Datenverlust zu verhindern, wenn ein ganzes Rack ausfällt. Und erlauben Sie die Nutzung der Bandbreite von mehreren Racks beim Lesen einer Datei.

Bei Clustern mit mehreren Racks blockieren Die Replikation folgt der folgenden Richtlinie:

Sie sollten nicht mehr als ein Replikat auf einem Knoten platzieren. Sie sollten auch nicht mehr als zwei Replikate auf demselben Rack platzieren. Dies hat den Engpass, dass die Anzahl der für die Blockreplikation verwendeten Racks immer geringer sein sollte als die Gesamtzahl der Blockrepliken.

Zum Beispiel;

  • Wenn ein Hadoop-Framework einen neuen Block erstellt, platziert es das erste Replikat auf dem lokalen Knoten. Und platzieren Sie einen zweiten in einem anderen Rack, und der dritte befindet sich auf einem anderen Knoten auf dem lokalen Knoten.
  • Wenn Sie einen Block erneut replizieren und die Anzahl der vorhandenen Repliken eins ist, platzieren Sie die zweite auf einem anderen Rack.
  • Wenn die Anzahl der vorhandenen Reproduktionen zwei beträgt und sich die beiden Reproduktionen im selben Rack befinden, platzieren Sie die dritte in einem anderen Rack.

Vorteile von Rack Awareness in Hadoop

Lassen Sie uns nun einige Vorteile von Rack Awareness in Hadoop HDFS-

besprechen
  • Bietet höhere Bandbreite und niedrige Latenz –  Diese Richtlinie maximiert die Netzwerkbandbreite, indem Blöcke innerhalb eines Racks und nicht zwischen Racks übertragen werden. Das YARN ist in der Lage, die Leistung von MapReduce-Jobs zu optimieren, indem Aufgaben Knoten zugewiesen werden, die in Bezug auf die Netzwerktopologie näher an ihren Daten liegen.
  • Bietet Datenschutz vor Rack-Ausfällen –  Namenode weist die Block-Replikate von Block 2 und 3 Knoten in einem anderen Rack als dem ersten Replikat zu. Somit bietet es Datenschutz auch bei einem Rack-Ausfall. Dies ist jedoch nur möglich, wenn Hadoop mit Kenntnis seiner Rack-Konfiguration konfiguriert wurde.
  • Minimieren Sie die Schreibkosten und maximieren Sie die Lesegeschwindigkeit –  Rack-Bewusstsein, Richtlinie platziert Lese-/Schreibanforderungen an Replikate, die sich im selben Rack befinden. Dadurch werden die Schreibkosten minimiert und die Lesegeschwindigkeit maximiert.

Schlussfolgerung

Zusammenfassend ist es das Konzept, das basierend auf den Rack-Informationen engere Datenknoten auswählt, um die Datenzuverlässigkeit zu verbessern. Der Hauptzweck von Rack-Awareness besteht darin, Datenverluste zu verhindern, wenn das gesamte Rack ausfällt. Es verbessert auch die Netzwerkbandbreite. Erfahren Sie mehr über HDFS-Eigenschaften im Detail.

Wenn Sie Fragen zu Rack Awareness in Hadoop haben, teilen Sie uns diese bitte im Kommentarbereich mit. Wir werden unser Bestes tun, um Ihnen zu helfen.