Wie man Data Science Projekte meistert

Das weltweite Datenvolumen soll bis 2025 auf 175 Zettabyte wachsen, so die International Data Corporation (IDC) – eine unvorstellbar große Zahl mit 21 Nullen. Unternehmen sind für einen Großteil dieser Bytes verantwortlich und verfügen damit über immer mehr Daten, die grundsätzlich zur Analyse zur Verfügung stehen. Durch die Menge und Heterogenität der Daten lassen sich Erkenntnisse nicht mehr nur durch “scharfes Hinsehen“ oder rein statistische Auswertungen gewinnen. Eine maschinelle Unterstützung der Mitarbeiter bei der Datenanalyse ist zwingend erforderlich. Vor diesem Hintergrund wird Data Science immer wichtiger. Mittlerweile sind sich viele Unternehmen des Potenzials bewusst. Unklarheit herrscht allerdings darüber, welche Besonderheiten ein Data Science Projekt mit sich bringt und was notwendig ist, um ein solches Projekt erfolgreich durchzuführen. Grund für uns, aufzuzeigen was Data Science Projekte so besonders macht, wie ein typisches Data Science Projekt abläuft und zugleich einen Einblick in die Arbeit eines Data Scientist zu geben.

‍

Was ist data Science?

Definition: Data Science ist ein Begriff aus dem Englischen der sich aus den beiden Wörtern „data“ gleich „Daten“ und „science“ gleich „Wissenschaft“ zusammensetzt. Daher kann der Begriff mit Datenwissenschaft übersetzt werden. Jedoch wird im deutschen Sprachgebrauch meist auch der englische Begriff verwendet. Inhaltlich wird hiermit die Extraktion von Wissen aus Daten beschrieben.

Ziel ist es, durch die Auswertung von Unternehmensdaten für den Anwender neue Erkenntnisse zu generieren und so einen Mehrwert für die Unternehmensführung zu schaffen. So soll die Qualität unternehmerischer Entscheidungen verbessert und Arbeitsabläufe effizienter gestaltet werden.

Data Science ist eine angewandte Wissenschaft und eine interdisziplinäre Disziplin, die sich als Schnittmenge aus den folgenden Wissenschaftsbereichen ergibt: Mathematik (insbesondere die Statistik), Informatik & Programmierung und spezifisches Fachwissen.

Data Science hat Anwendungspotenzial in nahezu allen Unternehmensfunktionen und Branchen. Typische Anwendungsfälle sind z. B.:

Forecasting: Prognose von beispielsweise Absätzen und Retouren im Handel & E-Commerce, Anrufaufkommen im Call-Center oder Wareneingängen in der Logistik
Predictive Quality: Prognose und Erklärung von fehlerhaft produzierten Teilen für ein vorausschauendes Qualitätsmanagement und die Reduzierung von Ausschuss
Predictive Maintenance: Vorhersage von Ausfällen von Maschinen und Komponenten zur Bestimmung des optimalen Wartungszeitpunktes und Verhinderung von Maschinenstillständen
Next Best Offer: zielgerichtete Vorhersage des persönlichen Potenzials für zusätzliche Verkäufe

WIE LÄUFT EIN DATA SCIENCE PROJEKT AB?

Anhand des Cross Industry Standard Process for Data Mining, kurz CRISP-DM, wird im Folgenden die typische Vorgehensweise eines Data Science Projekts beleuchtet. Das CRISP-DM hat sich mit Abstand als die am bekanntesten und am weitesten verbreitete Vorgehensweise für Data Science Projekt durchgesetzt, um dessen Qualität und Erfolg sicherzustellen. Das CRISP-DM ist branchenübergreifend auf jedes beliebige Data Science Projekt anwendbar und verfolgt das Ziel ein einheitliches Prozessmodell und eine Schritt-für-Schritt Anleitung für Data Science Projekte bereitzustellen.

Der CRISP-DM Prozess ist in der nachstehenden Graphik abgebildet und umfasst sechs Prozessschritte. Es handelt sich dabei keinesfalls um einen einmaligen, linearen Ablauf, sondern um einen iterativen Prozess.

Der sechsteilige CRISP-DM Prozess für erfolgreiche Data Science Projekte (Quelle: Eigene Darstellung in Anlehnung an Smart Vision Europe, Phases of the CRISP-DM reference model)

SCHRITT 1: BUSINESS UNDERSTANDING – DAS GESCHÄFTSVERSTÄNDNIS

Welche Problemstellung und Fragen kommen im Unternehmen auf? Und können diese anhand von Daten beantwortet werden? Ziel des ersten Schrittes ist eine klar definierte Fragestellung oder ein Projektziel. Es gilt herauszufinden, welches Problem die Mitarbeiter eines Unternehmens beschäftigen und wie dieses Problem mit Daten gelöst werden kann. In der ersten Phase dreht sich daher alles um das Finden des passenden Anwendungsfalls (Use Case) und das Definieren klarer Ziele und Abnahmekriterien für die Evaluation.

WELCHER IST DER RICHTIGE USE CASE?

Bei der Vielzahl an Möglichkeiten fällt die Wahl oftmals schwer: Wo anfangen und welcher Anwendungsfall ist der Richtige? Eine Aufgabe, die gewisse Herausforderungen mit sich bringt, der aber durch das frühe Zusammenspiel aus Fachabteilung und Data Scientisten und mithilfe der richtigen Methoden begegnet werden kann. Häufig kann hier die Unterstützung durch externe Ressourcen sinnvoll sein.

In der Praxis wird zu Beginn zumeist ein initialer Workshop durchgeführt, um einen nutzerorientierteren Anwendungsfall mit hohem Geschäftspotenzial (wie Kosteneinsparungen, besseres Kundenerlebnis, höherer Umsatz oder geringeres Risiko) zu identifizieren. Oberstes Gebot dabei ist: Fragestellung und Datengrundlage müssen zusammenpassen! Der frühe Einbezug von Data Scientisten (egal ob intern oder extern) kann an dieser Stelle helfen, da er oder sie bereits mögliche Datenquellen und Potenziale berücksichtigt. So wird das Risiko minimiert, dass Unternehmen durch die falsche Einschätzung der Datenlage, unrealistische Ziele stecken. Generell hat es sich bewährt, zu Beginn auf kleinere Anwendungsfällen zu setzen, um Erfahrung aufzubauen und Quick Wins einzufahren.

Ist der richtige Use Case gefunden, gilt es zudem die Key Performance Indicators (KPIs) zu bestimmen, die den Erfolg eines Data Science Projekts definieren. Dabei ist es wichtig, neben traditionellen Controlling-KPIs wie Return on Investment (ROI), vor allem auch an die Messung des realen Geschäftswerts zu denken. Metriken, die zur Messung des Geschäftswerts herangezogen werden können, sind beispielsweise: Reduzierung der Transportkosten um 4% oder eine Verbesserung des Cross-Selling bei Artikel X und Y um 15%. Neben der Messung des Geschäftswerts sollten aber auch zusätzliche Ziele im Zusammenhang mit der Nutzung und Akzeptanz berücksichtigt werden, wie z. B. die Anzahl der Benutzer, die die Ergebnisse aktiv nutzen im Vergleich zum vorherigen System.

Dieser erste Schritt wird oft unterschätzt, ist aber zentral für den Erfolg eines jeden Data Science Projekts. Denn, nur wenn klar ist, wodurch Mehrwert für die firmeninternen Stakeholder generiert wird, können alle auf die gemeinsame Vision hinarbeiten.

Daher gilt es im Rahmen des ersten Prozessschrittes folgende Fragen zu klären:

– Welche Problemstellung liegt im Unternehmen vor?

– Welche Anforderungen werden an das Projekt gestellt?

– Wie kann sichergestellt werden, dass der Use Case einen Mehrwert generiert?

SCHRITT 2: DATA UNDERSTANDING – VERSTÄNDNIS DER DATEN

Der Datenbestand bildet die Grundlage eines jeden Data Science Projekts. Mit den Daten steht und fällt der Projekterfolg. Ziel dieses zweiten Schrittes ist daher, sich einen Überblick über die zur Verfügung stehenden Daten zu verschaffen und die Qualität der Daten zu bewerten.

WIE VIELE DATEN WERDEN BENÖTIGT?

Das ist die Frage, auf die wohl jeder (auch die Data Scientisten) gerne eine Antwort geben könnten. Obwohl es nach einer einfachen Sache klingt, ist es leider keine. Die oftmals kursierende Aussage „je mehr, desto besser“ bleibt ein Wunschgedanke. So können Sie zwar jahrzehntelang Daten gesammelt haben, ist dies allerdings ohne einen wirklichen Zweck geschehen, ist es wahrscheinlich, dass Ihre Daten auch nicht alle Antworten auf die Fragen enthalten, die Ihr Unternehmen hat.

Um die Frage zu beantworten, gilt es in der Realität einige Aspekte zu berücksichtigen, die sich auf die Menge der benötigten Daten auswirken, angefangen beim Anwendungsfall über die Komplexität des zu lösenden Problems bis hin zur gewünschten Analysemethode.

Einigkeit besteht allerdings drüber, dass die Qualität der Daten eine entscheidende Rolle spielt. Womit sich sogleich die nächste brennende Frage anschließt: Was versteht man unter Datenqualität? Und was ist eine ausreichend gute Datenqualität?

WIE GUT MUSS DIE DATENQUALITÄT SEIN?

Die Datenqualität (Englisch data quality) beschreibt, wie gut die Datenbestände sich für vorgesehene Anwendungen eignen. Der Data Scientist prüft in diesem Schritt daher, ob die vom Unternehmen bereitgestellten Daten die Daten enthalten, die zur Erfüllung des Projektziels notwendig sind und ob es sich lohnt, diese mit externen Datenquellen zu ergänzen.

Die Qualität von Daten lässt sich glücklicherweise anhand von Kriterien bestimmen. Zu den Bewertungskriterien gehören unter anderem neben der Korrektheit, Relevanz und Vollständigkeit der Daten auch die Konsistenz und ihre Verfügbarkeit. Welche konkreten Attribute zur Bewertung der Datenqualität herangezogen werden, liegt am Kontext.

Kurz und knapp gilt somit: Konzentrieren Sie sich nicht nur auf das Spektrum und die Quantität ihrer Daten, sondern vor allem auf ihre Qualität. Denn ist diese schlecht, bringt selbst ein ausgefeilter Algorithmus nichts.

Zusammenfassend, gilt es daher im Rahmen des zweiten Prozessschrittes folgende Fragen zu klären:

– Welche Daten liegen aktuell vor?

– Welche Daten müssen noch erhoben werden?

– Welche Daten sind für die Erfüllung des Projektziels notwendig?

– Welche Probleme in der Datenqualität liegen vor?

– Wie kann die Qualität der Daten sichergestellt werden?

Weiterführende Informationen zum Thema Datenqualität erhalten Sie in unserem Blogeintrag:
Was ist Datenqualität und wie gut müssen meine Daten sein? ➞

SCHRITT 3: DATA PREPARATION – DIE DATENVORBEREITUNG

Die Phase der Datenvorbereitung dient dazu, einen finalen Datensatz für die nachfolgende Analyse zu erstellen. Dieser Schritt beansprucht oftmals die meiste Zeit eines Data Science Projekts.

Im Wesentlichen umfasst dieser Schritt drei Teile:

1. Konsolidierung der Daten: Die Zusammenführung der Daten aus oftmals unterschiedlichen Quellen in einen Analysedatensatz.

2. Data Cleansing: Das Bereinigen oder Säubern der Daten, indem Fehler in den Daten korrigiert werden.

3. Feature Engineering: Das Entwickeln weiterer Variablen aus den bereinigten Daten.

SCHRITT 4 UND 5: ANALYSIS UND EVALUATION – ERSTELLUNG DES MODELLS UND BEWERTEN DES ERFOLGS

Im Schritt der Analyse und Modellierung werden zur Problemstellung passende Analysemethoden ausgewählt und angewandt. Es gilt Modelle zu erstellen, welche das anfängliche Problem ausreichend akkurat modellieren. Die dafür eingesetzten Methoden können von einfachen statistischen Methoden über Machine Learning Algorithmen bis hin zu komplexeren Lösungen aus dem Bereich der Künstlichen Intelligenz mit Bilderkennung und Sprachverarbeitung reichen. Diese Phase dient daher einer sogenannten Machbarkeitsstudie, welche zumeist mit dem englischen Begriff Proof of Concept (POC) bezeichnet wird.

Wichtig ist daher, die Ergebnisse der Analysen zu evaluieren. Wenn die Ziele nicht erreicht werden, kann der Analyseprozesse überarbeitet und neu durchlaufen werden. Während die Evaluation des Modells meist anhand der Modellgüte erfolgt, ist die Bewertung des Erfolgs des Projekts aus Sicht der Fachbereiche meist weitreichender. Neben dem resultierenden Geschäftswert ist für den erfolgreichen Einsatz das Vertrauen und die Akzeptanz der Mitarbeiter und Entscheidungsträger in das Analyseergebnis ein wichtiger Faktor. Um dies zu erreichen, müssen die Entscheidungen der Modelle transparent und nachvollziehbar gemacht werden und die Ergebnisse in einfacher und verständlicher Form dargestellt werden. Es gilt daher, die Balance zwischen hoher Genauigkeit, Interpretierbarkeit und dem Erreichen der im ersten Schritt (Business Understanding) gesteckten Ziele und KPIs zu finden.

Der POC schafft die Entscheidungsgrundlage für den weiteren Projektverlauf, indem er idealerweise das Projektkonzept bestätigt. In diesem Schritt kann sich allerdings auch ergeben, dass die Datenbasis nicht ausreicht, um das definierte Problem zu lösen. Kurz um, nach der Phase der Evaluation gilt es schlussendlich zu entscheiden, ob ein Deployment durchgeführt wird.

SCHRITT 6: DEPLOYMENT – INTEGRATION IN OPERATIVE PROZESSE

Sofern die Analyseergebnisse einen operativen Mehrwert für das Unternehmen und die Anwender bestätigen, erfolgt im letzten Schritt die Operationalisierung bzw. die Bereitstellung des Modells, auch Deployment genannt. Hierzu wird eine individuelle Softwarelösung entwickelt, welche das zuvor erstellte Modell und die Analyseergebnisse dauerhaft in die IT-Infrastruktur und operativen Geschäftsprozesse des Unternehmens integriert. In diesem Schritt liegt der Schlüssel, um Daten langfristig gewinnbringend einzusetzen und den eigentlichen Mehrwert von Data Science Projekten zu erreichen. Denn am Ende steht selten eine singuläre, statische Analyse, vielmehr geht es um die Entwicklung von Tools, die das Unternehmen im Alltag unterstützen sollen. In diesem Schritt dreht sich daher alles um die Weiterentwicklung des bestehenden analytischen Prototyps hin zu Ihrem individuellen Datenprodukt.

Hierzu gilt es unter anderem die folgenden zwei Fragen zu beantworten:

– Wie werden Analyseergebnisse bereitgestellt?

– Wie wird eine anhaltende Verbesserung gewährleistet?

Damit dieser Schritt gelingt, bedarf es ebenfalls einer strukturierten Vorgehensweise. Das Durchlaufen des CRISP-DM und ein erfolgreicher POC sind damit Startschuss für ein sich anschließendes Projekt zur systematischen Operationalisierung. Das Data Science Projekt wird an dieser Stelle daher zum Softwareentwicklungsprojekt.

EIN PRAXISBEISPIEL FÜR DEN CRISP-DM PROZESS IM EINSATZ

Um den Anfang und Ende, sowie die einzelnen Phasen des Analyseprozesses greifbarer zu machen, soll folgendes Projektbeispiel dienen. Es handelt sich dabei um die Auswertung von Kundenfeedback eines Herstellers und Vertreibers von Haushaltselektronik.Der CRISP-DM Prozess erklärt anhand der Entwicklung eines Tools zur Auswertung von Kundenfeedback.

FAZIT

Egal ob Sie zukünftige Verkaufszahlen oder den Ausfall von Maschinen vorhersagen möchten, Data Science ermöglicht Ihnen als Unternehmen, das volle Potenzial Ihrer Daten auszuschöpfen. Jedoch ist jegliches Data Science Projekt mit einem gewissen Grad an Unsicherheit verbunden, und zwar insofern, als man den Ausgang und die Herausforderungen des Projekts nicht immer vorausahnen kann – egal wie erfahren das Team ist. Bei einem Data Science Projekt hängt letztlich alles von den Daten ab. Dabei ist jedoch nicht die schiere Masse an Daten ausschlaggebend, sondern die Qualität und die Aussagekraft der Daten in Bezug auf die Fragestellung.

Für ein erfolgreiches Data Science Projekt, sind daher unter anderem die folgenden Punkte maßgeblich:

– Fragestellung und Datengrundlage müssen zusammenpassen. Die Prüfung der Daten muss daher definitiv direkt zu Beginn erfolgen.

– Es bedarf einer konkreten Zieldefinition, sodass alle am Projekt beteiligten auf eine Vision hinarbeiten.

– Die verschiedenen Aufgaben eines Data Science Projekts bedürfen diverser Kompetenzen und damit der engen Zusammenarbeit eines Teams an verschiedenen Personen. Welche Rollen und Kompetenzen genau benötigt werden, erfahrt ihr in unserem Blogartikel.

– Eine iterative und agile Vorgehensweise ist notwendig, denn neue Erkenntnisse können zu jeder Phase gewonnen werden, nicht erst am Ende.

Werden diese Punkte beachtet, kann Data Science nachhaltige Mehrwerte für Ihr Unternehmen generieren und Sie sich bislang verborgenes Wissen optimal zu eigen machen.

WIR REALISIEREN IHR DATA SCIENCE PROJEKT!

Als Data Science Experten sind wir bei pacemaker Ihr Ansprechpartner für die Realisierung Ihres Datenprojektes. Wir begleiten Sie von der Idee und der Suche nach einem passenden Use Case bis hin zur nahtlosen Integration in Ihre IT-Infrastruktur und operativen Geschäftsprozesse.

‍