Database
 sql >> Datenbank >  >> RDS >> Database

Die 3 Hauptmerkmale von Big Data verstehen

Die Tatsache, dass Unternehmen mit Big Data-Herausforderungen konfrontiert sind, ist heutzutage alltäglich. Der Begriff Big Data bezieht sich auf die Verwendung einer Reihe mehrerer alter und neuer Technologien, um einige aussagekräftige Informationen aus einem riesigen Datenhaufen zu extrahieren. Der Datensatz ist nicht nur groß, sondern hat auch seine eigenen einzigartigen Herausforderungen bei der Erfassung, Verwaltung und Verarbeitung. Im Gegensatz zu Daten, die in relationalen Datenbanken gespeichert werden, die strukturiert sind, kann das Big-Data-Format strukturiert, halbstrukturiert bis unstrukturiert oder aus verschiedenen Quellen mit unterschiedlichen Größen gesammelt werden. Dieser Artikel befasst sich mit den grundlegenden Aspekten von Big Data, seinen grundlegenden Merkmalen und gibt Ihnen einen Hinweis auf die Werkzeuge und Techniken, die verwendet werden, um damit umzugehen.

Ein Überblick

Der Begriff Big Data gibt nur einen Eindruck von der Größe der Daten. Das ist in gewisser Weise richtig, gibt aber nicht das ganze Bild wieder. Die damit verbundenen Herausforderungen liegen nicht allein in der Größe. Tatsächlich entstand die Idee, ein Meer von Daten zu benennen, die aus verschiedenen Quellen, Formaten und Größen gesammelt und gleichzeitig schwer zu nutzen oder zu nutzen sind. Der Aufstieg der aufstrebenden Technologie und die zunehmende Nutzung des Internets gaben dem Volumen und der Diskrepanz einen Schub. Das Volumen nimmt mit jedem Informationsaustausch über das Internet oder sogar die winzigen IoT-Objekte, die wir verwenden, weiter zu. Ein einfaches Annehmen eines Anrufs oder das Einschalten der Videoüberwachung kann eine Datenkette erzeugen. Heutzutage sind die meisten Geräte online verbunden. Wenn eine Organisation diese Informationen jetzt online sammeln möchte, benötigt sie einen speziellen Verarbeitungsprozess, da die generierten Daten massiv sein werden. Darüber hinaus besteht möglicherweise keine Einheitlichkeit im Format der erfassten Daten. Dies erhöht die Komplexität, da wir mit strukturierten, halbstrukturierten oder unstrukturierten Daten umgehen müssen. Die Tools, die wir bisher zur Organisation von Daten verwendet haben, sind dieser Vielfalt und Menge nicht gewachsen. Daher können wir sagen, dass der Begriff Big Data gilt tatsächlich für Daten, die nicht mit herkömmlichen Tools und Techniken verarbeitet oder analysiert werden können, die normalerweise zur Verarbeitung strukturierter oder halbstrukturierter Daten verwendet werden, wie z. B. die Verwendung relationaler Datenbanken, XML usw.

Unternehmen sind heute voll von unstrukturierten oder halbstrukturierten Daten, die im Rohformat verfügbar sind. Diese Daten können eine Fülle von Informationen darstellen, wenn sie verarbeitet und der Wert daraus gewonnen wird. Aber das Problem ist, wie man es macht. Herkömmliche Techniken und Tools wie relationale Datenbanken sind für den Umgang mit einer so großen Menge unterschiedlicher Daten nicht geeignet. Es ist auch ein zweischneidiges Problem für die Organisationen, denn das einfache Schreddern würde bedeuten, dass wertvolle Informationen – falls vorhanden – verloren gehen, und ihre Aufbewahrung ist eine Verschwendung von Ressourcen. Daher wird nach einigen Tools und Techniken gesucht, um das Problem zu lösen. Manchmal sind wir uns des potenziellen Werts ziemlich sicher, der auf dem Stapel liegt, und können eine Goldmine an Informationen ernten, aber ohne geeignete Tools ist es für den Geschäftsprozess ziemlich anstrengend, einen Nutzen daraus zu ziehen. Die heutigen Daten sind massiv und explodierten wie alles andere in den letzten Jahren; es scheint übrigens kein Halten mehr zu geben.

Informationsexplosion

Big Data wird in fast allen Branchen von Minute zu Minute größer, sei es in den Bereichen Technologie, Medien, Einzelhandel, Finanzdienstleistungen, Reisen und soziale Medien, um nur einige zu nennen. Das Volumen der Datenverarbeitung, über das wir sprechen, ist umwerfend. Hier sind einige statistische Informationen, um Ihnen eine Vorstellung zu geben:

  • Die Wetterkanäle erhalten jede Minute 18.055.555 Vorhersageanfragen.
  • Netflix-Nutzer streamen jede Minute 97.222 Stunden Video.
  • Skype-Nutzer tätigen 176.220 Anrufe pro Minute.
  • Instagram-Nutzer posten jede Minute 49.380 Fotos.

Diese Zahlen steigen jedes Jahr, da immer mehr Menschen das Internet nutzen. Im Jahr 2017 erreichte die Internetnutzung bis zu 47 % (3,8 Milliarden Menschen) der Weltbevölkerung. Mit einer ständig steigenden Anzahl elektronischer Geräte werden unsere ungefähren Ausgabedaten auf 2,5 Quintillionen Bytes pro Tag geschätzt, Tendenz steigend.

Die Google-Suchstatistik zeigt 3,5 Milliarden Suchanfragen pro Tag, was im Durchschnitt über 40.000 Suchanfragen pro Sekunde sind. Wir sollten auch nicht übersehen, dass andere Suchmaschinen ebenfalls Suchen durchführen. Der E-Mail-Statistikbericht 2015-2019 der Radicati Group, Inc. zeigt 2,9 Milliarden E-Mail-Benutzer bis 2019.

Um abzuschätzen, wie viele Fotos im Jahr 2017 aufgenommen werden:Wenn es im Jahr 2017 7,5 Milliarden Menschen auf der Welt gab, von denen etwa 5 Milliarden Mobiltelefone besitzen, ist eine wahrscheinliche Schätzung, dass 80 % dieser Telefone eingebaute Kameras haben. Das bedeutet, dass etwa 4 Milliarden Menschen ihre Kameras verwenden. Wenn sie 10 Fotos pro Tag machen, was 3.650 Fotos pro Jahr und Person entspricht, summiert sich dies auf ungefähr 14 Billionen Fotos, die pro Jahr aufgenommen werden.

Wenn wir also von Big Data sprechen, beziehen wir uns im Wesentlichen auf Daten oder Datensätze, die zu groß sind, um vermutet zu werden. Sie werden durch Suchmaschinen, Wirtschaftsinformatik, soziale Netzwerke, soziale Medien, Genomik, Meteorologie, Wettervorhersagen und viele andere Quellen produziert. Dies kann eindeutig nicht unter Verwendung vorhandener Datenbankverwaltungswerkzeuge und -techniken betrieben werden. Big Data eröffnet eine Arena voller großer Herausforderungen in Bezug auf Speicherung, Erfassung, Verwaltung, Wartung, Analyse, Forschung, neue Tools zu deren Handhabung und dergleichen.

Merkmale von Big Data

Wie bei allen großen Dingen müssen wir sie charakterisieren, um unser Verständnis zu organisieren, wenn wir sie verwalten wollen. Daher kann Big Data durch eines oder mehrere von drei Merkmalen definiert werden, die drei Vs:hohes Volumen , hohe Vielfalt , und hohe Geschwindigkeit . Diese Eigenschaften werfen einige wichtige Fragen auf, die uns nicht nur helfen, sie zu entschlüsseln, sondern auch einen Einblick geben, wie man mit massiven, unterschiedlichen Daten in einer überschaubaren Geschwindigkeit innerhalb eines angemessenen Zeitrahmens umgeht, damit wir einen Mehrwert daraus ziehen können Echtzeit-Analyse und liefern schnell eine nachfolgende Antwort.

  • Lautstärke: Volumen bezieht sich auf die schiere Größe der ständig explodierenden Daten der Computerwelt. Es stellt sich die Frage nach der Datenmenge.
  • Geschwindigkeit: Geschwindigkeit bezieht sich auf die Verarbeitungsgeschwindigkeit. Es stellt sich die Frage, mit welcher Geschwindigkeit die Daten verarbeitet werden.
  • Vielfalt: Vielfalt bezieht sich auf die Arten von Daten. Es stellt sich die Frage, wie unterschiedlich die Datenformate sind.

Beachten Sie, dass wir Big Data in drei Vs charakterisieren, nur um seine Grundprinzipien zu vereinfachen. Es ist durchaus möglich, dass die Größe relativ klein, aber zu vielfältig und komplex ist, oder es kann relativ einfach sein, aber eine riesige Datenmenge. Daher können wir zusätzlich zu diesen drei Vs einfach ein weiteres hinzufügen, Wahrhaftigkeit . Veracity bestimmt die Genauigkeit der Daten in Bezug auf den Geschäftswert, den wir extrahieren möchten. Ohne Wahrhaftigkeit ist es für eine Organisation unmöglich, ihre Ressourcen einzusetzen, um den Datenhaufen zu analysieren. Je genauer der Kontext der Daten ist, desto größer ist die Chance, wertvolle Informationen zu erhalten. Daher ist Wahrhaftigkeit ein weiteres Merkmal von Big Data. Unternehmen nutzen strukturierte, halbstrukturierte und unstrukturierte Daten aus E-Mails, sozialen Medien, Textstreams und mehr. Vor der Analyse ist es jedoch wichtig, die Menge und Art der zu berücksichtigenden Daten zu identifizieren, die sich auf die Geschäftsergebnisse auswirken würden.

Werkzeuge und Techniken

Künstliche Intelligenz (KI), IoT und soziale Medien treiben die Datenkomplexität durch neue Formen und Quellen voran. Beispielsweise ist es entscheidend, dass Big Data, die durch Sensoren, Geräte und Netzwerke kommen, in Echtzeit erfasst, verwaltet und mit geringer Latenz verarbeitet werden. Big Data ermöglicht es Analysten, Forschern und Geschäftsanwendern, schneller fundiertere Entscheidungen zu treffen, indem historische Daten verwendet werden, die sonst unerreichbar wären. Man kann Textanalyse, maschinelles Lernen, Predictive Analytics, Data Mining und Verarbeitung natürlicher Sprache verwenden, um neue Erkenntnisse aus dem verfügbaren Datenhaufen zu extrahieren.

Die Technologie hat sich weiterentwickelt, um riesige Datenmengen zu verwalten, die zuvor teuer waren und die Hilfe von Supercomputern erforderten. Mit dem Aufkommen von Social Media wie Facebook, Suchmaschinen wie Google und Yahoo! erhielten Big-Data-Projekte Auftrieb und wuchsen so, wie sie es heute sind. Technologien wie MapReduce, Hadoop und Big Table wurden entwickelt, um die heutigen Anforderungen zu erfüllen.

Auch die NoSQL-Repositories werden im Zusammenhang mit Big Data genannt. Es ist eine alternative Datenbank im Gegensatz zu relationalen Datenbanken. Diese Datenbanken organisieren Datensätze nicht in Zeilen- und Spaltentabellen, wie sie in herkömmlichen relationalen Datenbanken zu finden sind. Es gibt verschiedene Arten von NoSQL-Datenbanken, z. B. Content Store, Document Store, Event Store, Graph, Key Value und dergleichen. Sie verwenden kein SQL für Abfragen und folgen einem anderen Architekturmodell. Es wird festgestellt, dass sie Big Data Analytics auf vorteilhafte Weise erleichtern. Einige beliebte Namen sind:Hbase, MongoDB, CouchDB und Neo4j. Abgesehen von ihnen gibt es noch viele andere.

Schlussfolgerung

Big Data eröffnete eine neue Möglichkeit, Daten zu sammeln und daraus Werte zu gewinnen, die sonst verwüstet wurden. Es ist unmöglich, Big Data mit Hilfe herkömmlicher Tools wie relationaler Datenbanken zu erfassen, zu verwalten und zu verarbeiten. Die Big-Data-Plattform bietet die Tools und Ressourcen, um Einblicke in die umfangreiche, vielfältige und schnelle Datenmenge zu gewinnen. Diese Datenhaufen haben nun Mittel und einen tragfähigen Kontext, um für verschiedene Zwecke im Geschäftsprozess einer Organisation verwendet zu werden. Um also genau zu bestimmen, um welche Art von Daten es sich handelt, müssen wir sie und ihre Eigenschaften als ersten Schritt verstehen.