Die Auswahl der Daten in Digitalisierungsprojekten – Fachinformation für Entscheider

Die Auswahl der Daten in KI- und Digitalisierungsprojekten sollte mit Bedacht erfolgen. Anfängliche Einschränkungen sind zu vermeiden, da erst mittels erster Analysen und Datenaufbereitungen zur bestehenden Fragestellung sinnvolle Einschränkungen möglich sind. Eine von vornherein eingeschränkte oder zu stark auf Wissen oder Erfahrung beschränkte Datenauswahl sind der Hauptgrund für das Scheitern von Projekten und datengetriebenen Modellen.

Bei manchen Aufgabenstellungen ist die Identifikation der relevanten Daten einfach. Das ist vor allem dann der Fall, wenn das Ziel klar definiert ist und der Prozess oder Business Case dahinter eher auf die Automatisierung von einfacheren oder klar definierten Prozessabläufen wie beispielsweise die Verbuchung von Rechnungsdatensätzen abzielt. Die Auswahl der richtigen Daten in einem komplexeren Digitalisierungs- oder KI-Projekt – wie beispielsweise der Transformation zum Digital Reporting – stellt hingegen Unternehmen, gleich welcher Branche, immer wieder vor die gleiche Herausforderung, die nicht selten ein Projekt extrem in die Länge zieht oder gar zum Scheitern bringt.

Bei der Auswahl der Daten und Datenquellen stellen sich Projektverantwortliche und Fachbereichsteams meist zu Anfang, aber nicht immer, die Frage, welche Daten für das Projektziel relevant sind. Oft werden nur einige wenige Datenquellen definiert, die sich nach persönlicher Einschätzung als nützlich oder sinnvoll erweisen können. Aus den meist unzähligen Datenquellen werden einige ausgewählt und dort meist nur spezifische Teilbereiche der Daten definiert.

Im Projekt zeigt sich dann oft, dass die definierten Daten für das Projektziel entweder nicht aussagekräftig genug sind oder zu wenig Daten für ein stabiles Modell vorhanden sind. Viele Projekte scheitern an diesem Punkt oder werden auf unbestimmte Zeit zurückgestellt.

Aber wie begegnet man diesem Problem in der Praxis und definiert von Anfang an die richtigen Datenquellen für ein erfolgreiches Projekt?

Mit möglichst breiter Datenbasis starten

Was bei der Auswahl der richtigen Daten schnell verkannt wird, sind die Abhängigkeiten der verschiedenen Datenpunkte untereinander und deren gegenseitige Beeinflussung oder deren Erklärungsreichweite im Hinblick auf die Gesamtheit aller Daten. Beides wird häufig erst im Laufe des Projekts erkennbar. Eine zu frühe Festlegung auf “relevante Daten” hat somit möglicherweise ein Scheitern des Projekts zur Folge oder verfälscht den Blick auf die Realität.

Aus diesem Grund ist es ratsam, zunächst nur sehr begrenzt Einschränkungen der Daten vorzunehmen und anfangs so viele Daten wie möglich einer ersten Analyse zu unterziehen. Bei einer solchen Analyse geht es nicht darum, das finale Modell zu evaluieren, sondern vielmehr die Abhängigkeiten der Daten und somit deren Erklärungsreichweite in Bezug auf die definierte Fragestellung oder Aufgabe festzustellen. Daten geben oft Auskunft über Prozessabläufe und Zusammen-hänge, die man nicht direkt auf den ersten Blick erkennt.

Oft hängen Daten in mehreren Dimensionen voneinander ab oder helfen zur Erklärung kausaler Zusammenhänge. Dabei können einem die Daten zunächst als nicht relevant oder nicht aussagekräftig erscheinen – dies ist in der Praxis sogar recht häufig der Fall.

Mehrdimensionale Abhängigkeitsanalyse

Um festzustellen, welche Daten nun für das Vorhaben Relevanz besitzen, unterzieht man die Daten anfangs einer mehrdimensionalen Abhängigkeitsanalyse auf Basis von Graphen oder Vektoren. Die Daten werden dabei mittels mathematischer Methoden zerlegt, aufbereitet und in verschiedene Datenverarbeitungsmodelle überführt. Diese Modelle müssen ggf. auf die Erfordernisse des jeweiligen Cases angepasst werden. Nach der Anpassung und einigen Tests werden die Daten so für die Weiterbearbeitung aufbereitet.

Nun werden Sie sich fragen, ob die Daten, die Sie mit einem weiten Fokus ausgewählt haben, auch qualitativ hochwertig genug sind, um diese in ein Modell, welches ggf. wichtige Entscheidungen oder Prozesse beeinflusst, einfließen zu lassen.

Die Antwort auf die Frage lautet in den meisten Fällen „nein“ oder „nur teilweise“. Es lässt sich im Unternehmensalltag kaum vermeiden, dass Daten bei der Ablage in verschiedenen Systemen durch verschiedene Mitarbeiter, Programm-Migrationen etc. über die Zeit verfälscht werden oder dass hin und wieder fehlerhafte Datensätze oder gar Prozessschritte auftreten. Diese gilt es bei der Aufbereitung der Daten frühzeitig zu erkennen und entsprechend mit ihnen umzugehen.

Pre-processing: Aufbereitung und Evaluierung der Daten

An dieser Stelle folgt darum ein Prozessschritt, der sich pre-processing der Daten nennt. In diesem Prozessschritt geht es zum einen darum, die Daten für die Bearbeitung aufzubereiten, aber auch Aussagen über deren Qualität und Beschaffenheit zu machen. Niemand möchte ein Entscheidungen beeinflussendes Modell auf der Basis falscher Daten produktiv nutzen. Das pre-processing lässt sich auch vollautomatisiert in den Prozess der Datenverarbeitung für die Modelldaten, aber auch im produktiven Alltag integrieren.

Zunächst werden die Daten für die Weiterbearbeitung, wie zuvor beschrieben, aufbereitet. Nun folgt der Schritt der Evaluierung im Hinblick auf Informationsgehalt und Qualität. Beide Schritte lassen sich durch den Einsatz mehrdimensionaler Analysen zusammenlegen und somit in einem Schritt abhandeln. Hierbei werden aus den Daten Muster und Zusammenhänge in Bezug auf die Fragestellung analysiert.

Bei der Analyse wird man feststellen, dass Daten, die auf den ersten Blick als nicht relevant eingestuft wurden, auf einmal einen signifikanten Mehrwert beim Lösen der Fragestellung haben. Auch stellt man anhand von Unregelmäßigkeiten bei den Zusammenhängen oder Mustern fest, welche Daten an welcher Stelle eine mindere Qualität besitzen. Ebenso lässt sich aus der Analyse ableiten, wie sich die Daten an dieser Stelle gegebenenfalls bereinigen, anreichern oder korrigieren lassen.

Erst nach diesem Schritt lässt sich definieren, welche Daten man dauerhaft in einem Modell oder einer Applikation zur Verfügung stellen muss, um das gewünscht Ergebnis zu erreichen. Auch lässt sich im Anschluss an diesen Prozessschritt feststellen, welche Aussagekraft und somit welche Tragweite Entscheidungen oder Verarbeitungen aus dem Modell haben sollen und dürfen.

Fazit

Abschließend lässt sich festhalten, dass die richtigen zugrundeliegenden Daten mit Bedacht gewählt werden sollten. Zunächst sind zu starke Einschränkungen zu vermeiden und diese besser mittels erster Analysen und Datenaufbereitungen festzustellen, um das gewünschte Ergebnis zu erreichen. Eine von vornherein eingeschränkte oder zu stark auf Wissen oder Erfahrung beschränkte Datenauswahl sind der Hauptgrund für das Scheitern von Projekten und datengetriebenen Modellen.

Der Autor: Christopher Blaschke ist Gründer, CEO und Innovationsgeber des jungen Tech-Unternehmens KENDAXA Group. Dort unterliegen die Technologie und ihre Entwicklung seiner Verantwortung genau wie die Weiterentwicklung der KI-basierten KENDAXA Data Intelligence Plattform [KX-DI]. Mit einem Hintergrund in Physik, Mathematik und Recht hat er schon früh an der Entwicklung eigener Tools und Programme gearbeitet und in Zusammenarbeit mit Universitäten und Forschungsinstituten im Bereich Künstliche Intelligenz und Data Science geforscht.