20 Bemerkenswerter Unterschied zwischen Hadoop 2.x und Hadoop 3.x

Das Ziel dieses Hadoop-Tutorials soll Ihnen ein klareres Verständnis zwischen verschiedenen Hadoop-Versionen vermitteln. In diesem Blog haben wir die 20 wichtigsten Unterschiede zwischen Hadoop 2.x und Hadoop 3.x behandelt.

Dieser Blog behandelt den Unterschied zwischen Hadoop 2 und Hadoop 3 anhand verschiedener Funktionen.

Unterschied zwischen Hadoop 2.x und Hadoop 3.x

Apache Hadoop ist ein Open-Source-Software-Framework für die verteilte Speicherung und Verarbeitung großer Datenmengen.

Hadoop 3.x wurde eingeführt, um die Einschränkungen von Hadoop zu überwinden 2.x. Hadoop 3.x hat einige neue Funktionen hinzugefügt, obwohl die alten Funktionen noch verwendet werden.

Nachfolgend finden Sie einen detaillierten Funktionsvergleich zwischen Hadoop 2.x und Hadoop 3.x:

a. Lizenz

Hadoop 2 .x- Apache 2.0, Open-Source
Hadoop 3 .x- Apache 2.0, Open-Source

b. Unterstützte Mindestversion von Java

Hadoop 2 .x- Java 7.
Hadoop 3 .x- Java 8.

c. Fehlertoleranz

Hadoop 2.x- In dieser Version übernimmt die Replikation die Fehlertoleranz.
Hadoop 3.x- In dieser Version übernimmt die Löschcodierung die Fehlertoleranz.

d. Datenausgleich

Hadoop 2.x- Verwendet HDFS Balancer zum Datenausgleich
Hadoop 3.x- Verwendet Intra-Data Node Balancer, der über die CLI des HDFS Disk Balancer aufgerufen wird.

e. Speicherschema

Hadoop 2.x- Verwendet das 3X-Replikationsschema.
Hadoop 3.x- Verwendet Löschcodierung.

f. Speicheraufwand

Hadoop 2.x- In dieser Version hat HDFS 200 % Overhead an Speicherplatz.
Hadoop 3.x- In dieser Version hat HDFS 50 % Overhead an Speicherplatz.

g. Beispiel für Speicher-Overhead

Hadoop 2.x- Bei 6 Blöcken und 3-facher Replikation jedes Blocks ergeben sich 18 Blöcke. Es wird 18 Blöcke Platz einnehmen.
Hadoop 3.x- Wenn es 6 Blöcke gibt, belegt es 9 Blockplatz, d.h. 6 Blöcke und 3 für die Parität.

h. YARN-Timeline-Service

Hadoop 2.x- Verwendet alten Timeline-Dienst, der Skalierbarkeitsprobleme hat.
Hadoop 3.x- Diese Version verbessert den Timeline-Dienst v2. Es verbessert auch die Skalierbarkeit und Zuverlässigkeit des Timeline-Dienstes.

j. Standard-Portbereich

Hadoop 2.x- In dieser Version sind die Standardports kurzlebige Linux-Portbereiche. Daher können sie zum Zeitpunkt des Starts nicht gebunden werden.
Hadoop 3.x- Während diese Version aus dem flüchtigen Bereich verschoben wurde.

k. Werkzeuge

Hadoop 2.x- Hive, Pig, Tez, Hama und andere Hadoop-Tools sind ebenfalls verfügbar.
Hadoop 3.x- In dieser Version sind auch Hive, Pig, Tez, Hama und andere Hadoop-Tools verfügbar.

l. Kompatibles Dateisystem

Hadoop 2.x- Es unterstützt HDFS (Default FS), FTP-Dateisystem:Dieses speichert auch alle seine Daten auf remote zugänglichen FTP-Servern. Es unterstützt auch das Dateisystem Amazon S3 (Simple Storage Service) und das Dateisystem Windows Azure Storage Blobs (WASB).
Hadoop 3.x- Es unterstützt alle vorherigen sowie das Microsoft Azure Data Lake-Dateisystem.

m. Datanode-Ressourcen

Hadoop 2.x- Für die MapReduce-Datanode-Ressource ist keine dedizierte Ressource vorgesehen. Wir können es auch für andere Anwendungen verwenden.
Hadoop 3.x- In dieser Version können auch Datenknotenressourcen für andere Anwendungen verwendet werden.

n. MR-API-Kompatibilität

Hadoop 2.x- Mit Hadoop 1.x-Programm kompatibles MR-API zur Ausführung auf Hadoop 2.X
Hadoop 3.x- Die MR-API ist auch kompatibel mit ausgeführten Hadoop 1.x-Programmen zur Ausführung auf Hadoop 3.X

o. Unterstützung für Microsoft

Hadoop 2.x- Es kann unter Windows bereitgestellt werden.
Hadoop 3.x- Es unterstützt auch Microsoft Windows.

S. Stellplätze/Container

Hadoop 2.x- Hadoop 1.x arbeitet am Konzept von Slots, während Hadoop 2.X am Konzept des Containers arbeitet.
Hadoop 3.x- Hadoop 3.x arbeitet auch mit dem Konzept eines Containers.

q. Single Point of Failure

Hadoop 2.x- Es hat die Funktionen, um SPOF zu überwinden. Wenn also NameNode ausfällt, wird es automatisch wiederhergestellt.
Hadoop 3.x- Es hat auch die Funktionen, um SPOF zu überwinden. Wenn also NameNode ausfällt, wird es automatisch wiederhergestellt, ohne dass ein manueller Eingriff erforderlich ist.

r. HDFS-Föderation

Hadoop 2.x- In Hadoop 1.x nur ein einziger NameNode zur Verwaltung aller Namespaces. Aber Hadoop 2.x hat mehrere NameNode für mehrere Namespaces.
Hadoop 3.x- Es hat auch mehrere Namenode für mehrere Namespaces.

s. Skalierbarkeit

Hadoop 2.x- Wir können auf bis zu 10.000 Knoten pro Cluster skalieren.
Hadoop 3.x- Wir können mehr als 10000 Knoten pro Cluster skalieren.

t. HDFS-Schnappschuss

Hadoop 2.x- Es fügt die Unterstützung für einen Snapshot hinzu. Es bietet auch Notfallwiederherstellung und Schutz bei Benutzerfehlern.
Hadoop 3.x- Es unterstützt auch die Snapshot-Funktion.

u. Plattform

Hadoop 2.x- Es dient als Plattform für eine Vielzahl von Datenanalysen. Es ist auch möglich, Ereignisverarbeitung, Streaming und Echtzeitoperationen auszuführen.
Hadoop 3.x- Es ist auch möglich, Ereignisverarbeitung, Streaming und Echtzeitbetrieb auf YARN auszuführen.

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass Hadoop 3.0 neue Funktionen wie Löschcodierung hinzugefügt hat, um die Fehlertoleranz zu handhaben. Hadoop 3.x reduziert außerdem den Speicheraufwand um 200 % bis 50 %.

Außerdem wurde ein neues Befehlszeilentool namens Disk Balancer eingeführt. Daher hat Hadoop 3.x die Gesamtleistung verbessert.

Wenn Sie weitere Unterschiede zwischen Hadoop 2.x und Hadoop 3.x feststellen, teilen Sie uns dies im Kommentarbereich mit.