Database
 sql >> Datenbank >  >> RDS >> Database

Warum Kassandra mit Hadoop lernen?

„Unternehmen erkennen, dass sie wertvolle Business Intelligence nutzen können, um die Entscheidungsfindung zu verbessern und Wettbewerbsvorteile zu erlangen. Tools wie Hadoop und Cassandra machen all dies möglich, und deshalb sind NoSQL-Kenntnisse auf allen Ebenen extrem gefragt.“ – Analysten von TechRepublic

Entwickelt als internes Projekt bei Facebook, um die Inbox-Suchfunktion Cassandra zu unterstützen ist ein Open Source Distributed Database Management System . Es wurde als Open-Source-Projekt veröffentlicht auf Google Code im Jahr 2008 und hat sich seitdem zu einem Projekt auf höchster Ebene entwickelt bei der Apache Software Foundation seit 2010.

Cassandra ist das nächste GROSSE Ding:

  • Apache Cassandra ist darauf ausgelegt, riesige Datenmengen zu bewältigen (in Bezug auf Geschwindigkeit, Volumen und Vielfalt) über zahlreiche Commodity-Server, die eine hohe Verfügbarkeit gewährleisten und keinen SPOF (Single Point of Failure) bieten.
  • Cassandra bietet auch leistungsstarke Unterstützung für Cluster, die sich über mehrere Rechenzentren erstrecken. Das Fehlen einer „Master-Slave-Struktur“ wie bei herkömmlichen Architekturen ermöglicht null Auswirkungen auf das System, wenn ein bestimmter Knoten ausfällt.
  • Forscher der University of Toronto, die eine Studie zu NoSQL-Systemen durchführen, geben dies in Bezug auf Skalierbarkeit und maximalen Durchsatz pro Knoten an , geht Cassandra als klarer Gewinner hervor. Der Hauptfokus von NoSQL-DBMS liegt auf der Sicherstellung der Skalierbarkeit , Leistung und Hochverfügbarkeit. Wie die meisten NoSQL-DBMS kann Cassandra sowohl strukturierte als auch unstrukturierte Daten verarbeiten und schneidet bei den oben genannten Parametern sehr gut ab.
  • Cassandra kann sowohl als Echtzeit-Datenspeicher dienen („das Aufzeichnungssystem“) für Online-/Transaktionsanwendungen und als leseintensive Datenbank für die Business-Intelligence-Systeme. Weitere Informationen finden Sie in unserem Blogbeitrag zu den verschiedenen Vorteilen von Cassandra.

Warum sollten Sie sich für Hadoop mit Cassandra entscheiden?

Einfach gesagt, zu haben:

  • Einheitliche Arbeitslast
  • Verfügbarkeit
  • Einfachere Bereitstellung

Wenn es um Hadoop geht, interessieren sich Unternehmen nicht für die zugrunde liegende Speicherstruktur von Hadoop, sondern für seine kostengünstigen Bereitstellungsmethoden zur Analyse und Verarbeitung großer Datenmengen. Die Fähigkeit, Entscheidungen anhand der Ergebnisse von MapReduce, Hive, Pig, Mahout und anderen Operationen zu treffen, ist das Wichtigste für diese Organisationen.

Wichtige Punkte, die Sie sich merken sollten:

  • Das Hadoop Distributed File System (HDFS) ist eine von vielen verschiedenen Komponenten und Projekten, die im Hadoop-Ökosystem enthalten sind. Das Apache Hadoop-Projekt definiert HDFS als primäres Speichersystem, das von Hadoop-Anwendungen verwendet wird .HDFS kann riesige verteilte unstrukturierte Datensätze speichern. Daten können direkt in HDFS oder in einem halbstrukturierten Format in HBase gespeichert werden, das einen schnellen Datenzugriff auf Datensatzebene ermöglicht und dem BigTable-System von Google nachempfunden ist. relationales System, das das BigTable-Datenmodell verwendet , verwendet jedoch das Dynamo-Schema von Amazon für die Datenverteilung und das Clustering.
  • Hadoop leistet viele großartige Dinge, seine MapReduce-Kernfunktionen sind sehr stark. Branchenexperten lieben Hive und sein SQL-ähnliches Design. Das HDFS-Dateisystem ist jedoch äußerst komplex einzurichten, weist einzelne Fehlerquellen auf und ist laut Rückmeldungen großer Unternehmen einfach nicht bereit, das zu tun, was sie wollen . Cassandra hingegen bietet alle Funktionen der unteren Ebene des Hadoop-Stacks. Gleichzeitig bietet Cassandra in dieser Infrastruktur auch Echtzeitanwendungsfunktionen mit geringer Latenz.

Wie können Cassandra und Hadoop zusammenarbeiten?

Eine Reihe von Anbietern bieten Alternativen zu HDFS an. Ein aktuelles Dokument einer Organisation namens GigaOM bietet einen allgemeinen Überblick darüber, wie das Apache Cassandra-Dateisystem verwendet werden kann, um HDFS zu ersetzen minimale Programmieränderungen, die aus Entwicklungssicht erforderlich sind, und wie eine Reihe von Vorteilen in diesem Prozess geerntet werden können. DataStax , ein führender kommerzieller Anbieter von Cassandra-Distributionen, hat Cassandra mit Hadoop kombiniert und Brisk genannt. Mit Brisk wird HDFS durch Cassandra File System ersetzt. Erfahren Sie mehr über HDFS-Konzepte. Sehen Sie sich diesen Online Big Data-Kurs an , das von Top-Experten für industrielle Arbeit erstellt wurde.

Vorteil der Cassandra-Hadoop-Kombination:

  • Man kann Cassandra auch mit Hadoop auf demselben Cluster implementieren. Das bedeutet, dass Sie das Beste aus beiden Welten haben können.
  • zeitbasiert und in Echtzeit läuft unter Cassandra Anwendungen (Echtzeit ist die Stärke von Cassandra) und Batch-basierte Analysen und Abfragen die keinen Zeitstempel benötigen, können auf Hadoop ausgeführt werden. In dieser Art von Ökosystem wird HDFS durch Cassandra ersetzt und dies ist für den Entwickler unsichtbar. Knoten zwischen den Cassandra- und Hadoop-Umgebungen können je nach Bedarf dynamisch neu zugewiesen werden.
  • Cassandra File System beseitigt die Single Points of Failure die mit HDFS verbunden sind, nämlich die Fehlerpunkte NameNode und Job Tracker, die mit HDFS verbunden sind.

Die Idee ist daher, Cassandra zu kombinieren, das sich selbst als Pionier bei der Verarbeitung großer Echtzeit-Transaktionen erweist , mit Hadoop das sich durch mehr Batch-orientierte Analyselösungen auszeichnet .

Kassandra und die Großen:

Viele Organisationen in allen Branchen nutzen Cassandra, um verschiedene Geschäftsziele zu erreichen. Einige prominente sind:

  • Netflix – Verwendet Cassandra als Back-End-Datenbank für ihre Streaming-Dienste.
  • WebEx von Cisco – Verwendet Cassandra, um Benutzerfeeds und -aktivitäten nahezu in Echtzeit zu speichern.
  • SoundCloud – Verwendet Cassandra, um das Dashboard ihrer Benutzer zu speichern.
  • IBM – Hat Forschung zum Aufbau eines skalierbaren E-Mail-Systems auf Basis von Cassandra betrieben

Berufsbezeichnungen mit Hadoop- und Cassandra-Fähigkeiten:

Studie von Simplyhired zeigt, dass Cassandra-Jobs aufgrund der hohen Akzeptanzrate in der Branche, insbesondere in den letzten Jahren, sehr gefragt sind. Und die Zukunft sieht sehr vielversprechend aus.

Schauen wir uns einige der Berufsbezeichnungen mit Hadoop-Cassandra-Fähigkeiten und deren Gehälter an, die auf Indeed.com erwähnt werden:

  • Datenarchitekt: Diese Position bringt ein Durchschnittsgehalt von 107.000 $. Datenarchitekten müssen über Erfahrung in der Erstellung von Datenmodellen, Data Warehousing, Datenanalyse und Datenmigration verfügen
  • Datenwissenschaftler: Sie sammeln Daten, analysieren sie, präsentieren die Daten visuell und verwenden die Daten, um Vorhersagen/Prognosen zu treffen. Das durchschnittliche Gehalt eines Datenwissenschaftlers beträgt 104.000 $
  • Systemingenieur: Das Durchschnittsgehalt für Systemingenieure beträgt 89.000 $.
  • DBA: DBAs verdienen durchschnittlich über 100.000 $.
  • Softwareanwendungsentwickler: Softwareentwickler verdienen ein durchschnittliches Gehalt von 107.000 $ und Anwendungsentwickler 93.000 $. Menschen mit diesen Fähigkeiten können reichlich freiberufliche Arbeit bekommen oder ihr eigenes Startup gründen, wenn sie den Unternehmergeist haben.

Verwandte Beiträge:

Auswahl der richtigen NoSQL-Datenbank.

Wie öffne ich CQLSH von Cassandra, das unter Windows installiert ist?