Das Ziel dieses Hadoop-Tutorials soll Ihnen ein klareres Verständnis zwischen verschiedenen Hadoop-Versionen vermitteln. In diesem Blog haben wir die 20 wichtigsten Unterschiede zwischen Hadoop 2.x und Hadoop 3.x behandelt.
Dieser Blog behandelt den Unterschied zwischen Hadoop 2 und Hadoop 3 anhand verschiedener Funktionen.
Unterschied zwischen Hadoop 2.x und Hadoop 3.x
Apache Hadoop ist ein Open-Source-Software-Framework für die verteilte Speicherung und Verarbeitung großer Datenmengen.
Hadoop 3.x wurde eingeführt, um die Einschränkungen von Hadoop zu überwinden 2.x. Hadoop 3.x hat einige neue Funktionen hinzugefügt, obwohl die alten Funktionen noch verwendet werden.
Nachfolgend finden Sie einen detaillierten Funktionsvergleich zwischen Hadoop 2.x und Hadoop 3.x:
a. Lizenz
- Hadoop 2 .x- Apache 2.0, Open-Source
- Hadoop 3 .x- Apache 2.0, Open-Source
b. Unterstützte Mindestversion von Java
- Hadoop 2 .x- Java 7.
- Hadoop 3 .x- Java 8.
c. Fehlertoleranz
- Hadoop 2.x- In dieser Version übernimmt die Replikation die Fehlertoleranz.
- Hadoop 3.x- In dieser Version übernimmt die Löschcodierung die Fehlertoleranz.
d. Datenausgleich
- Hadoop 2.x- Verwendet HDFS Balancer zum Datenausgleich
- Hadoop 3.x- Verwendet Intra-Data Node Balancer, der über die CLI des HDFS Disk Balancer aufgerufen wird.
e. Speicherschema
- Hadoop 2.x- Verwendet das 3X-Replikationsschema.
- Hadoop 3.x- Verwendet Löschcodierung.
f. Speicheraufwand
- Hadoop 2.x- In dieser Version hat HDFS 200 % Overhead an Speicherplatz.
- Hadoop 3.x- In dieser Version hat HDFS 50 % Overhead an Speicherplatz.
g. Beispiel für Speicher-Overhead
- Hadoop 2.x- Bei 6 Blöcken und 3-facher Replikation jedes Blocks ergeben sich 18 Blöcke. Es wird 18 Blöcke Platz einnehmen.
- Hadoop 3.x- Wenn es 6 Blöcke gibt, belegt es 9 Blockplatz, d.h. 6 Blöcke und 3 für die Parität.
h. YARN-Timeline-Service
- Hadoop 2.x- Verwendet alten Timeline-Dienst, der Skalierbarkeitsprobleme hat.
- Hadoop 3.x- Diese Version verbessert den Timeline-Dienst v2. Es verbessert auch die Skalierbarkeit und Zuverlässigkeit des Timeline-Dienstes.
j. Standard-Portbereich
- Hadoop 2.x- In dieser Version sind die Standardports kurzlebige Linux-Portbereiche. Daher können sie zum Zeitpunkt des Starts nicht gebunden werden.
- Hadoop 3.x- Während diese Version aus dem flüchtigen Bereich verschoben wurde.
k. Werkzeuge
- Hadoop 2.x- Hive, Pig, Tez, Hama und andere Hadoop-Tools sind ebenfalls verfügbar.
- Hadoop 3.x- In dieser Version sind auch Hive, Pig, Tez, Hama und andere Hadoop-Tools verfügbar.
l. Kompatibles Dateisystem
- Hadoop 2.x- Es unterstützt HDFS (Default FS), FTP-Dateisystem:Dieses speichert auch alle seine Daten auf remote zugänglichen FTP-Servern. Es unterstützt auch das Dateisystem Amazon S3 (Simple Storage Service) und das Dateisystem Windows Azure Storage Blobs (WASB).
- Hadoop 3.x- Es unterstützt alle vorherigen sowie das Microsoft Azure Data Lake-Dateisystem.
m. Datanode-Ressourcen
- Hadoop 2.x- Für die MapReduce-Datanode-Ressource ist keine dedizierte Ressource vorgesehen. Wir können es auch für andere Anwendungen verwenden.
- Hadoop 3.x- In dieser Version können auch Datenknotenressourcen für andere Anwendungen verwendet werden.
n. MR-API-Kompatibilität
- Hadoop 2.x- Mit Hadoop 1.x-Programm kompatibles MR-API zur Ausführung auf Hadoop 2.X
- Hadoop 3.x- Die MR-API ist auch kompatibel mit ausgeführten Hadoop 1.x-Programmen zur Ausführung auf Hadoop 3.X
o. Unterstützung für Microsoft
- Hadoop 2.x- Es kann unter Windows bereitgestellt werden.
- Hadoop 3.x- Es unterstützt auch Microsoft Windows.
S. Stellplätze/Container
- Hadoop 2.x- Hadoop 1.x arbeitet am Konzept von Slots, während Hadoop 2.X am Konzept des Containers arbeitet.
- Hadoop 3.x- Hadoop 3.x arbeitet auch mit dem Konzept eines Containers.
q. Single Point of Failure
- Hadoop 2.x- Es hat die Funktionen, um SPOF zu überwinden. Wenn also NameNode ausfällt, wird es automatisch wiederhergestellt.
- Hadoop 3.x- Es hat auch die Funktionen, um SPOF zu überwinden. Wenn also NameNode ausfällt, wird es automatisch wiederhergestellt, ohne dass ein manueller Eingriff erforderlich ist.
r. HDFS-Föderation
- Hadoop 2.x- In Hadoop 1.x nur ein einziger NameNode zur Verwaltung aller Namespaces. Aber Hadoop 2.x hat mehrere NameNode für mehrere Namespaces.
- Hadoop 3.x- Es hat auch mehrere Namenode für mehrere Namespaces.
s. Skalierbarkeit
- Hadoop 2.x- Wir können auf bis zu 10.000 Knoten pro Cluster skalieren.
- Hadoop 3.x- Wir können mehr als 10000 Knoten pro Cluster skalieren.
t. HDFS-Schnappschuss
- Hadoop 2.x- Es fügt die Unterstützung für einen Snapshot hinzu. Es bietet auch Notfallwiederherstellung und Schutz bei Benutzerfehlern.
- Hadoop 3.x- Es unterstützt auch die Snapshot-Funktion.
u. Plattform
- Hadoop 2.x- Es dient als Plattform für eine Vielzahl von Datenanalysen. Es ist auch möglich, Ereignisverarbeitung, Streaming und Echtzeitoperationen auszuführen.
- Hadoop 3.x- Es ist auch möglich, Ereignisverarbeitung, Streaming und Echtzeitbetrieb auf YARN auszuführen.
Schlussfolgerung
Zusammenfassend lässt sich sagen, dass Hadoop 3.0 neue Funktionen wie Löschcodierung hinzugefügt hat, um die Fehlertoleranz zu handhaben. Hadoop 3.x reduziert außerdem den Speicheraufwand um 200 % bis 50 %.
Außerdem wurde ein neues Befehlszeilentool namens Disk Balancer eingeführt. Daher hat Hadoop 3.x die Gesamtleistung verbessert.
Wenn Sie weitere Unterschiede zwischen Hadoop 2.x und Hadoop 3.x feststellen, teilen Sie uns dies im Kommentarbereich mit.