Eine Einführung in das Data Mining

Hinweis:Dieser Artikel wurde ursprünglich im Jahr 2015 verfasst, aber im Jahr 2019 aktualisiert, um die neue Integration zwischen IRI Voracity und Knime (für Konstanz Information Miner), jetzt die leistungsstärkste verfügbare Open-Source-Data-Mining-Plattform, widerzuspiegeln.

Data Mining ist die Wissenschaft des Ableitens von Wissen aus Daten, in der Regel großen Datensätzen, in denen aussagekräftige Informationen, Trends und andere nützliche Erkenntnisse entdeckt werden müssen. Data Mining verwendet maschinelles Lernen und statistische Methoden, um nützliche „Nuggets“ an Informationen aus einem ansonsten sehr einschüchternden Datensatz zu extrahieren.

Data Mining umfasst mehrere Computer- und mathematische Disziplinen. Es ist weniger ein einheitlicher Prozess als vielmehr ein Oberbegriff für eine Reihe von Maßnahmen. Vier allgemeine Aufgaben, die beim Mining durchgeführt werden, umfassen: explorative Datenanalyse (EDA), deskriptive Modellierung, prädiktive Modellierung und Mustererkennung.

EDA verwendet herkömmliche statistische Visualisierungsmethoden oder unkonventionelle grafische Methoden, um zu sehen, ob etwas Interessantes in den Daten zu finden ist.

Bei der deskriptiven Modellierung werden die Daten an eine Routine übergeben und ergeben Verben (Datengeneratoren) oder Adjektive (Datenbeschreibungen), die hinter der Bildung der Daten stehen. Dazu gehören Methoden, die die Daten mit einer Wahrscheinlichkeitsverteilung, Clustering und Abhängigkeitsmodellierung verknüpfen.

Die prädiktive Modellierung verwendet Regressions- und Klassifizierungsmethoden, um einen Standard für die Vorhersage zukünftiger unbekannter Datenpunkte festzulegen. Regression ist eine rein mathematische Analyse, die eine Gleichung an einen Datensatz anpasst, um den nächsten Wert vorherzusagen. Die Vorhersagemodellierung kann sich auch auf Musterregeln und Beziehungstrends (oder sogar speziell identifizierte Ursachen- und Wirkungstrends) stützen, die mit der Methode der logischen Datenanalyse (LAD) entdeckt wurden.

Die Mustererkennung über LAD klassifiziert neue Beobachtungen gemäß früheren Klassifikationen der Beobachtungen und verwendet Optimierungs-, kombinatorische und boolesche Funktionen, um die Analysegenauigkeit zu verbessern.

Meistens können diese Methoden nur angeben, welche Dateneinträge zusammenhängen, nicht aber die Gründe, warum oder wie sie zusammenhängen. Es ist möglich zu erklären, was eine Klasse/einen Cluster von einer anderen unterscheidet, indem man diese Regeln oder Muster findet, und die Themen werden je nach den Daten selbst auf verschiedene Weise aufgelistet.

Anwendungen für Data Mining können vom Unternehmensmarketing bis zur Medizin, von der Betrugserkennung im Bank- und Versicherungswesen bis zur Astronomie, vom Personalmanagement bis zur Katalogmarketingbranche und so weiter reichen. Die Mediziner fanden es nützlich, um zwischen Merkmalen von Menschen mit unterschiedlichen Krankheitsprogressionsraten zu unterscheiden. Einzelhandelsgeschäfte verwenden jetzt Data Mining, um die Kaufgewohnheiten der Verbraucher besser zu verstehen, indem sie feststellen, welche Artikel zusammen gekauft werden und in welcher Beziehung sie stehen, sowie die beste Art, ihre Kunden zu werben. Und ein Großteil der Unternehmenswelt verlässt sich heute auf Data Mining, um wichtige Geschäftsentscheidungen zu berechnen, auszuführen und zu rechtfertigen.

Wie jedoch jeder durch die jüngste intensive Medienberichterstattung über den NSA-Verizon-Telefonaufzeichnungsskandal weiß, kann Data Mining auch äußerst kontrovers sein. Nur für den Fall, dass Sie unter einem Felsen gelebt haben, hier ist eine kurze Zusammenfassung:

Am 5. Juni 2013 veröffentlichte die britische Tageszeitung The Guardian einen exklusiven Bericht, dass Millionen von Kundendaten von Verizon, einem der größten Telekommunikationsanbieter in den USA, von der US-amerikanischen National Security Agency als Reaktion auf einen geheimen Auftrag gesammelt wurden vom U.S. Foreign Intelligence Surveillance Court. Die Business Network Services von Verizon waren gezwungen, alle vom Mobilfunkanbieter innerhalb der USA und im Ausland erstellten Telefonie-Metadaten herauszugeben. Infolgedessen brach überparteiliche und universelle Kritik an der Obama-Regierung von Bürgerrechtsgruppen und Nachrichtenmedien aus und behauptete, der Präsident habe die Exekutivgewalt missbraucht. Zum Zeitpunkt des Schreibens dieses Artikels ist keine Lösung dieses Vorfalls in Sicht. Aber es wird zweifellos ein Paradebeispiel dafür bleiben, wie Data Mining manchmal in einem negativen Licht gesehen werden kann, insbesondere im Hinblick auf Datenschutzbedenken und die allgemeine Öffentlichkeit.

Beim Umgang mit großen Mengen statischer oder dynamischer Daten treten mit Sicherheit Rechen- und I/O-bezogene Leistungsprobleme auf. Bei Datenbanken mit Terabytes und Exabytes an Daten kann das Durchforsten der Daten viel Zeit in Anspruch nehmen und die Mining-Algorithmen müssen sehr effizient laufen. Einige andere Schwierigkeiten sind Überanpassung und verrauschte Daten.

Overfitting bedeutet normalerweise, dass nicht genügend gute Daten verfügbar sind. Das Datenmodell (in diesem Fall die globale Beschreibung der Daten) wird zu komplex, weil es im Verhältnis zur Anzahl der Beobachtungen zu viele Parameter hat. Dadurch werden geringfügige Schwankungen in den Daten übertrieben, wodurch die Zuverlässigkeit des Modells als Grundlage für Vorhersagen beeinträchtigt wird.

Verrauschte Daten hingegen beziehen sich auf zu viele Daten der falschen Art. Bedeutungslose, fehlerhafte, unstrukturierte (nicht lesbare) oder anderweitig beschädigte Daten erhöhen die Speicheranforderungen und/oder erfordern die Aussortierung statistischer Analysen, bevor sie die Genauigkeit des Data Mining beeinträchtigen können. Gute Data-Mining-Algorithmen berücksichtigen verrauschte Daten.

Data Mining ist ein einzelner Schritt in einem größeren Prozess, der als Knowledge Discovery in Databases (KDD) bekannt ist. KDD beginnt zunächst mit der Datenvorbereitung:Auswahl, Vorverarbeitung und Transformation der Daten, bei der Sie bestimmen, was Sie untersuchen möchten, und es so einrichten, dass es abgebaut werden kann. Das stellt Daten als eine m-n-Matrix und mit einer numerischen Darstellung des Elements jedes Datenvektors dar. Als nächstes meinst du. Und schließlich können Sie das alte Noggin verwenden, um diese Informationen zu interpretieren und zu analysieren. Wenn die verborgenen Muster und Trends dann immer noch nicht klar genug sind, müssen Sie etwas tiefer graben.

Die Rolle von IRI beim Data Mining und KDD-Prozess besteht darin, Big Data für die Analyse durch mehrere leistungsstarke Datentransformationsfunktionen vorzubereiten und neu zu strukturieren. Insbesondere das Datenmanipulationspaket von IRI CoSort kann Daten schnell filtern, manipulieren und neu formatieren, sodass sie von Data-Mining-Algorithmen wie diesen Data-Mining-Software-Suiten verarbeitet werden können. CoSort ist auch die Standard-Datenverarbeitungs-Engine in der Datenverwaltungsplattform IRI Voracity, die für eine breite Palette von Datenprofilen, Vorbereitungs- und Wrangling-Arbeiten entwickelt wurde.

Für diejenigen, die mit CoSort in der GUI von IRI Workbench arbeiten, ist BIRT ein kostenloses Eclipse-Plug-in mit grafischen Berichts- und Business-Intelligence-Funktionen, die einige Analyse- und Mining-Funktionen beinhalten. Sowohl CoSort als auch BIRT Analytics verwenden die Eclipse-IDE. Mit der Unterstützung von Open Data Access (ODA)-Datentreibern in CoSort ist die Datenflussintegration zwischen den beiden Plug-ins ebenfalls nahtlos und ermöglicht schnellere Was-wäre-wenn-Analysen.

Für diejenigen, die 2019 und darüber hinaus mit Voracity arbeiten, empfehlen wir die Installation des Kernanbieters für die kostenlose Knime Analytics Platform in IRI Workbench. In derselben Eclipse-Glasscheibe kann der Voracity-Quellen-(Anbieter-)Knoten für Knime von Voracity vorbereitete Rohdaten im Speicher an Knime-Knoten für Anwendungen übergeben, die statistische und prädiktive Analysen, Data Mining und maschinelles/tiefes Lernen sowie neuronale Netzwerke erfordern und künstliche Intelligenz.

Zu den Mitwirkenden an diesem Artikel gehören Roby Poteau und David Friedland