Die Schwierigkeiten der Dublettenbereinigung

Computerdienstleistungen Blog

Die moderne Kommunikation sorgt dafür, dass immer mehr Daten erzeugt werden, welche entsprechend im Nachgang für Marketing und andere Vorhaben genutzt werden können. Gute Datensätze zeichnen sich dabei vorrangig dadurch aus, dass diese keine Dubletten in sich tragen. Doch speziell die Dublettenbereinigung bringt einige Besonderheiten und somit Schwierigkeiten mit sich.

Mehr als eine einfache Dublettenbereinigung

Sollen vorhandene Datensätze für das Marketing genutzt werden, so sollten diese vorab aufgeräumt bzw. bereinigt werden. Dieser Schritt ist jedoch mit zahlreichen Hindernissen versehen, denn die Dublettenbereinigung bietet zahlreiche Besonderheiten, welche dieses Vorhaben erschweren. Es gilt hierbei nämlich nicht nur Dubletten zu erkennen, deren Einträge sich in allen Datenfeldern decken und gleichen, denn darüber hinaus finden sich weitere doppelte Eintragungen in den Daten wieder.

Eine moderne IT sollte daher auf die aktuellen Erfordernisse ausgerichtet werden, wenn es darum geht Dubletten zu bereinigen. Neben eigenen Skripten setzen viele Dienstleister hierbei auch auf moderne Softwarelösungen, denn beispielsweise Machine Learning Anwendungen können sich in diesem Umfeld als überaus hilfreich erweisen.

Intelligent nach Dubletten in den Daten suchen

Um den aktuellen Anforderungen in Sachen Datenqualität Rechnung zu tragen, sollte eine intelligente Dublettenbereinigung durchgeführt werden. Dies bedeutet, dass nicht nur nach eindeutig doppelten Einträgen gesucht und anschließend ausgesiebt wird, denn der Faktor Mensch darf hierbei nicht vergessen werden.

Ein großes Ärgernis bei einer herkömmlichen Dublettenbereinigung waren Tippfehler, welche beispielsweise in den Eingabemasken durch Kunden und andere Personen gemacht wurden. Moderne Softwarelösungen zur Suche nach Dubletten verfügen über ein entsprechendes Modul, dass nicht nur nach den eindeutigen Begriffen sucht, sondern vielmehr auch die am häufigsten anzutreffenden Schreibfehlern bei diesen Wörtern einbezieht. Solch eine Software kann zugleich verschiedene Sprachen berücksichtigen, denn gleiche Begriffe können durchaus in verschiedenen Sprachen Abweichungen in ihrer Schreibweise in sich tragen.

Im Zuge einer intelligenten Bereinigung von Dubletten gilt es auch auf vertauschte Worte zu achten. Würde nur nach einem identischen Ausdruck gesucht werden, würden diese doppelten Einträge als solche nicht erkannt werden. Ebenso verhält es sich mit Abkürzungen, welche ebenfalls als Dublette mittels moderner Software gekennzeichnet werden können.

Möglichkeiten zum Vorgehen mit gefundenen Dubletten

Eine Dublettenbereinigung bringt sehr viele Herausforderungen mit sich, welche jedoch nicht beim Auffinden und Markieren der doppelten Einträge enden. Es gilt sich gleichermaßen darüber Gedanken zu machen, was mit den gefundenen Datensätzen geschehen soll. Moderne Softwarelösungen bieten diesbezüglich verschiedene Möglichkeiten an.

Sehr oft wird sich dafür entschieden, doppelte Einträge bei ihrem Auffinden sofort zu löschen, um somit die eigene Datenquelle zu säubern und die Datenqualität zu erhöhen. Die Gefahr dabei ist jedoch, dass fälschlicherweise als Dublette erkannte Datensätze verloren gehen. Eine Alternative ist, die gefundenen doppelten Einträge entsprechend zu markieren.

Teilen  

26 April 2019

Alles was Sie über Computer wissen sollten

Hallo ihr Lieben, seid herzlich willkommen auf meinem neuen Blog. Hier wird sich in Zukunft alles um das Thema "Computer" drehen. Ich war schon seit ich denken kann ein absoluter Fan von Computern und dies hält bis heute an. Daher sehe ich mich als einen kleinen Experten, der sich auf diesem Gebiet sehr gut auskennt. Ich werde euch über alle Neuigkeiten auf dem Laufenden halten und euch erzählen, was mir an Computern so gut gefällt und was mir wichtig ist. Ich freue mich auch schon sehr auf den Austausch mit euch und vor allem auch auf eure Erfahrungen. Du interessierst dich auch für Computer? Sieh dich auf meinem Blog um und lerne mit mir zusammen, wie man ein Netzwerk aufbaut.