Daten sind Macht und mit dieser Macht geht eine große Verantwortung einher. Eines der größten Hindernisse bei Daten ist das Identifizieren von Duplikaten und das Entfernen von Duplikaten.
Das Ziel der Datendeduplizierung besteht darin, redundante Daten in Ihrem Unternehmen zu eliminieren. Duplikate werden in allen Bereichen Ihres Unternehmens erstellt, z. B. wenn der Vertriebsmitarbeiter einen neuen Datensatz eingibt, ohne zuerst die Datenbank zu überprüfen, ein Vermarkter eine Liste potenzieller Käufer hochlädt, ohne zu prüfen, ob der Datensatz vorhanden ist, und ein Kunde, der seine Informationen erneut eingibt, da er sie vergessen hat habe bereits ein Konto bei dir.
Die Datendeduplizierung gewährleistet eine ordnungsgemäße Datenverwaltung solcher Aufzeichnungen, reduzierte Datenspeicherung, effektivere Marketingkommunikation und bessere Vorhersageanalysen. Doppelte Datensätze können tatsächlich einen enormen Einfluss auf maschinelles Lernen und datenwissenschaftliche Datensätze haben, indem sie Kunden theoretisch die doppelte Vorhersagekraft geben und daher eine Verzerrung der Ergebnisse erzeugen.
Jede großartige Idee birgt jedoch Risiken, und innerhalb einer Deduplizierungsstrategie, bei der Daten die meiste Zeit gelöscht werden, können inhärente Fehler auftreten.
Inline- oder Nachbearbeitung
Inline-Deduplizierungsprozesse deduplizieren die Daten während der Verarbeitung. Dies bedeutet, dass die Datenmenge sofort reduziert wird, was großartig ist, aber häufig Leistungsprobleme mit der Menge an Ressourcen hat, die zum Ausführen erforderlich sind, z. B. Strategie. Es bedeutet jedoch, dass Sie viel weniger Festplattenspeicherplatz benötigen, da die Daten gar nicht erst übertragen werden, da die Deduplizierung am Frontend durchgeführt wird.
Es ist wichtig, dass Sie sicherstellen, dass Sie über die Verarbeitungsleistung für die Inline-Deduplizierung verfügen und die Leistung nicht beeinträchtigt wird. Der andere Fehler besteht darin, anzunehmen, dass es keine Fälle gibt, in denen Duplikate vorhanden sind. Es gibt berechtigte Notwendigkeiten, Duplikate in Ihrem System zu haben. Gründe können Abrechnungs-, Kundendienst-, Vertriebs- und Marketinggründe sein, daher ist es eine gute Idee, alle Abteilungen zu konsultieren, die mit den Daten in Berührung kommen, bevor Sie die Inline-Verarbeitung implementieren.
Algorithmen
Die Deduplizierung ist nur so gut wie die Algorithmen, mit denen sie gefüttert wird, d. h. wie werden doppelte Datensätze überhaupt entdeckt? Nehmen wir an, wir haben 100 Kopien einer Datei auf unseren Systemen, weil jeder Mitarbeiter seine eigene Version hatte. Anstatt mehrere Kopien zu speichern, empfiehlt es sich, nur eine zu speichern und alle Mitarbeiter darauf hinweisen zu lassen. Was ist, wenn einer der Mitarbeiter eine Änderung an seiner eigenen Datei vornimmt, was bedeutet, dass sie sich geringfügig von den anderen unterscheidet? Sie laufen Gefahr, Daten zu verlieren. Es ist wichtig sicherzustellen, dass alle von Ihnen festgelegten Regeln sinnvoll sind und nicht versehentlich einzelne Datensätze entfernen.
Es gibt einige gängige Algorithmen, die für die Datendeduplizierung verwendet werden, wie SHA-1 oder MD5 und binäre Suchbaumstrukturen, die es wert sind, überprüft zu werden, um herauszufinden, was für Sie am besten geeignet ist.
Während das Deduplizieren von Datensätzen im obigen Beispiel von Datenwissenschaftlern leicht angegangen werden kann. Bei Verkaufs- und Marketingaufzeichnungen ist es etwas schwieriger. Bedenken Sie, dass verschiedene Unternehmen Duplikate unterschiedlich definieren, dies ist nicht mehr eine Aufgabe für den Datenwissenschaftler, sondern für die Leiter verschiedener Abteilungen. Daher besteht der erste Schritt darin, zu identifizieren, was ein Duplikat ausmacht. Nehmen Sie zum Beispiel einen Einzelhandelsgiganten wie Walmart. Für Vertriebsunternehmen würde jeder Walmart-Standort als eindeutiger Datensatz betrachtet, aber für ein Softwareunternehmen, das an Walmart verkauft, würden sie alle Standorte als Duplikate betrachten, da sie nur an die Zentrale verkaufen möchten. Dasselbe gilt für den Verkauf an P&G, wo einige Unternehmen einzeln an jede Marke verkaufen. Daher möchten sie sie alle getrennt halten und die Eltern-Kind-Verknüpfung anwenden, anstatt Dubletten zu entfernen, um die verschiedenen Marken zu identifizieren. Stellen Sie daher vor dem Deduplizieren sicher, dass Sie alle Regeln definiert haben, bevor Sie den Algorithmus herausfinden, der zum Deduplizieren der Daten verwendet werden soll.
Verschlüsselung
Beim Datenschutz ist es oft der Fall, dass Sicherheitsteams Daten verschlüsselt haben, wenn sie in das Unternehmen gelangen, was bedeutet, dass es unmöglich ist, sie zu deduplizieren, da in diesem Zusammenhang alles einzigartig ist. Wenn Sie Replikations- und Verschlüsselungsprodukte zusammen mit Deduplizierungssoftware verwenden, besteht eine sehr hohe Wahrscheinlichkeit, dass Dateien repliziert werden, da sie einfach nicht als eindeutige Speicherblöcke ausgewählt werden können.
Datenschutzprodukte berücksichtigen manchmal die Deduplizierung, aber es ist wichtig, dass Sie sich überlegen, wie alles zusammenpasst.
Manuelle Deduplizierung
Die meisten Unternehmen werden versuchen, ihre Datenbank manuell zu deduplizieren, was eine enorme Menge an Ressourcen und Zeit mit einem großen Risiko menschlicher Fehler in Anspruch nimmt. Darüber hinaus ist es bei riesigen Datensätzen für manuelle Prozesse praktisch unmöglich, alles zu erfassen.
Was wäre zum Beispiel, wenn John Smith heute ein Paar Schuhe auf Ihrer Website kauft. Er geht morgen weiter, registriert sich aber als J Smith, da er seine Zugangsdaten vergessen hat. Nächste Woche meldet er sich wieder an, aber mit einer anderen E-Mail-Adresse. Ich habe hier nur drei Datenfelder erwähnt, aber es wird schon kompliziert. Stellen Sie sich also vor, Sie haben 200 Felder mit Kundendaten, wie stellen Sie sicher, dass diese eindeutig bleiben?
Es ist wichtig, entweder selbst vollständige Algorithmen zu erstellen, wenn Sie einen manuellen Prozess durchführen, oder Datenbereinigungstools zu erwerben, um dies für Sie zu erledigen, wodurch Sie all diese Zeit und Mühe sparen.
Sicherungen
Die Deduplizierung kann schief gehen! Bevor Sie Duplikate entfernen, ist es wichtig, dass alles gesichert ist und Sie alle Probleme schnell lösen können. Um auf unser vorheriges Beispiel zurückzukommen, was ist, wenn wir feststellen, dass John Smith und J Smith tatsächlich verschiedene Personen sind und das Konto zurückerhalten müssen? Sie brauchen einen Prozess, der genau das kann, was jetzt in der EU gesetzlich vorgeschrieben ist (DSGVO).
Eine Datendeduplizierungsstrategie ist wichtig, wenn Unternehmen ihren digitalen Fußabdruck vergrößern. Bei so vielen Kommunikationskanälen kann bereits ein einziger doppelter Datensatz Voreingenommenheit erzeugen und möglicherweise zu falschen Entscheidungen führen. Allerdings muss es richtig gemacht werden, um die Folgen des Entfernens der falschen Datensätze oder der falschen Eingabe von Algorithmen und der Verringerung der Geschäftsgeschwindigkeit zu vermeiden. Stellen Sie sicher, dass die Datendeduplizierung vollständig in Ihre Data-Governance-Strategie integriert ist.