Big Data ist nur nützlich, wenn wir etwas damit anfangen können; Andernfalls ist es einfach ein Haufen Müll. Der Aufwand beim Graben gleicht jedoch manchmal dem Versuch, die Nadel im Heuhaufen zu finden. Erst mit viel Analyse entsteht ein aussagekräftiges Muster. Analytik wird eingesetzt, versucht, die Daten mit jeder verfügbaren Maschinerie zu analysieren, einschließlich Gehirn. Diese Maschinen sind nichts anderes als Werkzeuge, die von Rechenleistung begleitet werden, um die Daten zu erforschen. Dieser Artikel versucht, einen kurzen Überblick über die Techniken zu geben, die bei Big-Data-Analysen verwendet werden.
Ein Überblick
Vor der Analyse werden die Daten aus verschiedenen Quellen gesammelt. Sie müssen es so anordnen, dass ein Analyst seine Arbeit erledigen und einige greifbare Datenprodukte liefern kann, die für den Geschäftsprozess der Organisation nützlich sind. Die gesammelten Daten können in verschiedenen Zuständen vorliegen, wie z. B. unstrukturierte Rohdaten, halbstrukturierte Daten, strukturierte Daten und so weiter. Dies sind die Rohstoffe der Big-Data-Analyse. Dann beginnt der komplexe Prozess des Erkundens, um verborgene Muster, Korrelationen und Erkenntnisse aufzudecken. Analysten nehmen im Analyseprozess die Hilfe aller verfügbaren Tools und Technologien in Anspruch und versuchen, einen gewissen Wert daraus zu ziehen. Daher welche Datenanalyse Mittel ist der Prozess der Untersuchung einer großen Menge von Daten (mit einem oder mehreren Merkmalen, die sich auf Big Data beziehen) und das Aufdecken einiger aussagekräftiger Informationen.
Grundlegende Analysen
Der Analyst muss zunächst sicherstellen, dass die Daten einen gewissen Wert haben, bevor er rigorose Anstrengungen und Ressourcen einsetzt, um die Daten zu analysieren. Manchmal sind einfache Visualisierungen und Statistiken das, was Sie brauchen, um Ergebnisse zu erzielen. Die grundlegenden Techniken sind wie folgt:
- Grundlegende Überwachung: Die Überwachung einer großen Datenmenge in Echtzeit ist auch eine der Möglichkeiten, um Einblicke zu gewinnen. Allein durch die Überwachung der über Jahre gesammelten meteorologischen Daten können wir beispielsweise einen ziemlich guten Einblick in die Art der Klimabedingungen einer geografischen Region gewinnen. Außerdem können die Echtzeitinformationen über Wind, Feuchtigkeit, Druck, Temperatur usw. Aufschluss über die Art eines bevorstehenden Sturms geben. Wenn wir jeden Punkt verbinden, kann es eine Reihe von Parametern mit riesigen Informationen geben. Wenn wir heute den Trend aller Tweets in den sozialen Medien abgreifen können, können wir uns leicht ein Bild von den Massen machen und was sie denken. Der politische Analyst tut das oft und überwacht lediglich die Streaming-Daten.
- Schneiden und Würfeln: Diese gängige Technik bezieht sich auf die Segmentierung eines großen Datenblocks in kleinere Datensätze, damit sie leicht zu sehen und zu verstehen sind. Die Segmentierung wird wiederholt durchgeführt, bis eine besser handhabbare Größe erhalten wird. Spezifische Abfragen werden ausgelöst, um Erkenntnisse zu gewinnen oder Berechnungen durchzuführen, eine grafische Darstellung zu erstellen oder statistische Formeln auf die kleineren Datensätze anzuwenden. Dies hilft dem Analysten, der im Datenmeer sitzt, eine bestimmte Perspektive zu finden. Fragen kann man nur haben, wenn eine Perspektive feststeht. Daher hilft die Technik beim Aufbau eines Abfrageraums, wenn mit großen Datenmengen gearbeitet wird.
- Anomalieerkennung: Anomalie , hier, bezieht sich auf die plötzliche Änderung von Ereignissen, die in einer Umgebung auftreten, die verschiedene Effekte auslösen kann. Beispielsweise kann ein plötzlicher Sturz des Sensex zahlreiche Ursachen haben, wie zum Beispiel abrupte gesellschaftspolitische Veränderungen, Krieg oder Naturkatastrophen oder viele andere Dinge. Aber wenn wir die Anomalie erkennen können, gibt es einen wertvollen Einblick, um die Situation zu verstehen und zu analysieren. Eine einfache Reihe von Statistiken oder Beobachtungen kann ebenfalls bei der Lösung des Problems helfen.
Erweiterte Analysen
Wie offensichtlich sein sollte, ist die Analyse nicht immer direkt oder einfach. Tatsächlich hängt es in vielen Fällen von der Komplexität der Daten ab, und die Art der Informationen, die wir extrahieren möchten, bestimmt die Art der Analyse, die wir in den Prozess einbeziehen möchten. Advanced Analytics verwendet Algorithmen für komplexe Analysen verschiedener Datenformate, z. B. mithilfe von maschinellem Lernen, neuronalen Netzwerken, ausgefeilten statistischen Modellen, Textanalysen und fortschrittlichen Data-Mining-Techniken, um aus der Datenmenge aussagekräftige Muster zu gewinnen.
- Textanalyse: Textanalyse ist der Prozess, bei dem aus einer Sammlung unstrukturierter Daten aussagekräftige Informationen abgeleitet werden. Der Umgang mit unstrukturierten Daten ist ein großer Teil der Big-Data-Analyse; Daher werden spezifische Techniken eingesetzt, um Informationen zu analysieren und zu extrahieren und sie schließlich in strukturierte Informationen umzuwandeln. Die strukturierten Informationen werden dann zur bequemen weiteren Analyse verwendet. Die bei der Textanalyse verwendeten Techniken stammen aus der Computerlinguistik, Statistik und anderen Disziplinen der Informatik.
- Vorhersagemodellierung: Die Vorhersagemodellierung verwendet Data-Mining-Lösungen und Wahrscheinlichkeiten, um Ergebnisse vorherzusagen. Die Technik wird sowohl auf strukturierte als auch auf unstrukturierte Daten angewendet, um das Ergebnis vorherzusagen. Beispielsweise kann ein Vorhersagesystem die Anzahl der Verbraucher eines Produkts, die zu einem anderen Produkt wechseln, auf der Grundlage einiger verfügbarer Verhaltensattribute vorhersagen oder eine Änderung der Denkweise der Menschen vorhersagen, indem es den Tweeting-Trend in den sozialen Medien beobachtet, der einen entscheidenden gesellschaftspolitischen Einfluss haben kann Ergebnis einer politischen Kampagne.
- Verwendung statistischer Data-Mining-Algorithmen: Es gibt zahlreiche andere fortgeschrittene Prognosetechniken unter Verwendung von Statistiken und Data-Mining-Lösungen. Es gibt Techniken wie Clusteranalyse, Mikrosegmentierung, Affinitätsanalyse und dergleichen.
Schlussfolgerung
Dieser Artikel kratzt natürlich nur an der Oberfläche des Themas, gibt aber vielleicht einen Vorgeschmack darauf, was es heißt, Big Data Analytics zu nennen. Der Trend der Nutzung von Big Data durch Organisationen gewinnt aus allen guten und schlechten Gründen schnell an Fahrt. Das Ergebnis ist zweifellos offen für Gebrauch und Missbrauch, und wir können es nicht verhindern. Neue Tools und Technologien werden entwickelt, um den Prozess der Big-Data-Analyse zu unterstützen. Vielleicht ist Bewusstsein die einzige Atempause.