Münster, Muenster, MÜNSTER oder MUENSTER, 0000-0000-00 als Kundenkontaktnummer, 99/99/99 als Kaufdatum…die Beispiele fehlerhafter Daten sind lang und die Probleme und Kosten schlechter Datenqualität real: Vom Nichterreichen eines Kunden über die falsche Ansprache in einem Newsletter bis hin zur falschen Rechnungsstellung, um nur einige Beispiele zu nennen. Entscheidungen, die auf Basis schlechter Daten getroffen werden, können nicht gut sein. Einer Umfrage von Experian Marketing Services zufolge, glauben 73% der deutschen Firmen, dass ungenaue Daten sie daran hindern, ein herausragendes Kundenerlebnis zu bieten. Eine gute Datenqualität ist damit entscheidend für das tagtägliche Handeln eines Unternehmens und vor allem ein maßgeblicher Erfolgsfaktor für Data Science Projekte. Doch was bedeutet Datenqualität überhaupt, wie gut müssen die Daten für ein Data Science Projekt sein und wie können Sie die Qualität Ihrer Daten überprüfen? Diesen Fragen widmen wir uns in diesem Artikel.

 

WAS IST DATENQUALITÄT UND WARUM IST DIE DATENQUALITÄT SO WICHTIG?

Definition: Die Datenqualität (Englisch data quality) beschreibt, wie gut die Datenbestände sich für vorgesehene Anwendungen eignen. Man spricht daher in dem Zusammenhang auch von der „fitness for use“, heißt der Zweckeignung der Daten. Die Qualität von Daten ist damit sehr kontextabhängig. Denn während die Datenqualität für einen bestimmten Anwendungsfall ausreichend sein kann, können sie für einen anderen hingegen dennoch ungenügend sein.

Und warum ist sie so wichtig? In einem Data Science Projekt basiert alles auf der Ressource Daten. Im Projekt werden Daten aus den verschiedensten Quellen zusammengeführt und dann analysiert. Ihre Daten dienen somit als Input für jegliches Analysemodell. Getreu dem Sprichwort „garbage in, garbage out“, bringt also selbst ein ausgefeilter Algorithmus nichts, wenn die Qualität der Daten schlecht ist. Auch wenn ein Data Science Projekt aus vielerlei Gründen scheitern kann, steht und fällt der Projekterfolg oftmals mit der Qualität der verfügbaren Daten.

Investitionen in Maßnahmen, die die Qualität der Daten sicherstellen sind also maßgeblich für einen Projekterfolg, aber auch darüber hinaus mehr als lohnend. Denn durch mangelnde Datenqualität können erhebliche Kosten für ein Unternehmen entstehen.

 

SCHLECHTE DATENQUALITÄT KOSTET

5

Der durchschnittliche Umsatzverlust von Unternehmen durch fehlerhafte Daten beläuft sich auf bis zu 15 Millionen Dollar (Gartner’s Data Quality Market Studie). Anders ausgedrückt: Die Kosten schlechter Datenqualität belaufen sich auf 15% bis 25% des Umsatzes (Studie veröffentlicht im MIT Sloan Management Review).

5

50 % der IT Budgets werden für die Wiederaufbereitung von Daten ausgeben (Zoominfo). 

5

Sobald eine Datenreihe aufgenommen wurde, kostet es 1 Dollar diese zu verifizieren, 10 Dollar diese zu bereinigen und 100 Dollar, wenn diese fehlerhaft bleibt (Zoominfo).

Grundsätzlich hat eine schlechte Datenqualität aber weitaus weitreichendere Konsequenzen als finanzielle Verluste. Sie reichen von Auswirkungen auf das Vertrauen der Mitarbeiter in Entscheidungen und die Zufriedenheit der Kunden über Produktivitätseinbußen (durch z. B. zusätzlich benötigte Zeit zur Datenaufbereitung) bis hin zu Compliance Problemen.

 

WAS SIND DIE QUELLEN SCHLECHTER DATENQUALITÄT?

Die Quellen schlechter Datenqualität können sehr vielseitig sein, wie nachstehende Grafik verdeutlicht. Allem voran steht zumeist jedoch der Dateneingabeprozess, sei es von Mitarbeitern oder Kunden.

 

Die Quellen schlechter Datenqualität (Quelle: The Data Warehousing Institute, 2002, Data Quality and the Bottom Line)

WIE KANN MAN DATENQUALITÄT MESSEN?

In der Praxis gibt es eine Vielzahl an Kriterien, mit deren Hilfe sich die Qualität von Daten bewerten lässt. Zu den gängigsten Bewertungskriterien gehören unter anderem die folgenden:

5

Korrektheit

Stimmen die Daten sachlich mit der Realität überein?

5

Konsistenz

Stimmen die Daten aus unterschiedlichen Systemen miteinander überein?

5

Vollständigkeit

Enthält der Datensatz alle notwendigen Attribute und Werte?

5

Einheitlichkeit

Liegen die Daten im passenden und im selben Format vor?

5

Redundanzfreiheit

Kommen innerhalb der Datensätze keine Dubletten vor?

5

Genauigkeit

Liegen die Daten ausreichend genau vor?

5

Aktualität

Spiegeln die Daten den aktuellen Zustand wider?

5

Verständlichkeit

Ist jeder Datensatz eindeutig interpretierbar?

5

Zuverlässigkeit

Ist die Entstehung der Daten nachvollziehbar?

5

Relevanz

Erfüllen die Daten den jeweiligen Informationsbedarf?

5

Verfügbarkeit

Sind die Daten für berechtigte Nutzer zugänglich?

Die Kriterien Korrektheit, Vollständigkeit, Einheitlichkeit, Genauigkeit und Redundanzfreiheit beziehen sich im Allgemeinen auf den Inhalt und die Struktur der Daten und decken eine Vielzahl der Fehlerquellen ab, die am häufigsten mit schlechter Datenqualität in Verbindung gebracht werden. Dazu gehören zumeist Dateneingabefehler, wie unter anderem Tippfehler, doppelte Dateneinträge, aber auch fehlende oder falsche Datenwerte.

Die nachfolgende Grafik gibt anhand von Beispielen einen Überblick, was für Fehler sich hinter den einzelnen Kriterien verbergen sowie mögliche Ursachen und Gegenmaßnahmen. 

Beispiele für Probleme in der Datenqualität, mögliche Ursachen und Gegenmaßnahmen.

WAS IST EINE AUSREICHEND GUTE DATENQUALITÄT?

Natürlich gilt, je vollständiger, konsistenter und fehlerfreier Ihre Daten, desto besser. Dennoch ist es nahezu unmöglich, sicherzustellen, dass alle Daten die oben genannten Kriterien zu 100% erfüllen. Tatsächlich müssen Ihre Daten auch gar nicht perfekt sein, sondern sie müssen den Anforderungen der Personen oder dem Zweck, zu welchem die Daten genutzt werden sollen, erfüllen.

Wie gut muss die Qualität der Daten für ein Data Science Projekt sein? Leider gibt es auf diese Frage keine allgemeingültige Antwort. Wie so oft, gibt es auch hier einige Aspekte, die sich auf die benötigte Datenqualität auswirken. Dazu gehört unter anderem, der Zweck zu welchem die Daten genutzt werden sollen, heißt der Anwendungsfall sowie das gewünschte Modellierungsverfahren. Die Datenqualität hängt zudem auch von der Art der Fehler, die diese aufweisen, ab und inwiefern sich diese im Rahmen der Datenaufbereitung (Data Preparation) während eines Data Science Projekts korrigieren lassen.

 

Welche Fehler in der Datenqualität lassen sich korrigieren?

5

Fehler, die mit relativ geringem Aufwand korrigiert werden können, sind z. B. doppelte Dateneingaben.

5

Fehler, die mit erhöhtem Aufwand korrigiert werden können, sind z. B. Vermischung oder Abweichung von Formaten.

5

Fehler, die hingegen nicht korrigiert werden können, sind z. B. ungültige Daten, fehlende Eingaben oder Fehler durch das Vertauschen von Eingabefeldern.

Probleme in der Datenqualität können also in unterschiedlichem Ausmaß im Nachgang behoben werden. Um die Daten erfolgreich aufbereiten zu können, ist das Zusammenspiel von Data Scientisten und den Fachbereichen notwendig, damit klar ist, welche Daten korrekt und welche zu korrigieren sind. Um sicherzustellen, dass jeder verstehen kann, was in den Daten steht, kann ein sogenanntes Data Dictionary helfen.

Auch wenn sich manche Fehler also beheben lassen, besteht der bessere Ansatz immer darin, es erst gar nicht so weit kommen zu lassen. Unsere folgende Checkliste soll Ihnen dabei helfen, Ihre Daten einem ersten Qualitätscheck zu unterziehen.

 

Unsere Checkliste für Ihre Datenqualität

FAZIT

Daten gelten mittlerweile als vierter Produktionsfaktor neben Boden, Kapital und Arbeit. Daten sind somit als eine kritische Ressource zu betrachten, die es entsprechend zu managen gilt, wenn Sie es nicht bereits tun. Um eine hohe Datenqualität sicherzustellen, bedarf es einem umfassenden Datenqualitätsmanagementsystem. Denn, Datenqualität ist keinesfalls eine reine IT, sondern eine Managementaufgabe. Das Thema Datenqualität ist dabei ein kleines, aber wichtiges Rad einer gesamten Datenstrategie. Dabei sind verschiedene Maßnahmen notwendig, die sowohl initiale, einmalige Maßnahmen, als auch kontinuierlich durchzuführende Tätigkeiten umfassen.

Kurz und knapp möchten wir Ihnen abschließend daher die folgenden Best Practice Maßnahmen an die Hand geben:

5

Machen Sie die Qualität Ihrer Daten zur Priorität.

5

Automatisieren Sie die Aufnahme Ihrer Daten.

5

Pflegen Sie Ihre Master- und Metadaten.

5

Verhindern Sie Fehler und behandeln Sie nicht einfach nur.

Denn, Probleme in der Datenqualität haben nicht nur Auswirkungen auf den Erfolg eines Data Science Projekts, sondern sind mit weitreichenden Folgen für das Unternehmen insgesamt verbunden. Die gute Nachricht für Ihr Data Science Projekt lautet allerdings: Es braucht nicht den perfekten Datensatz. Und, einige Fehler, wenn auch bei weitem nicht alle (!), können im Rahmen der Datenaufbereitung von den Data Scientists behoben werden.

arrow left Zurück zur Übersicht