Sind Daten wirklich das neue Öl? Ein Zwischenfazit

Daten und damit verbundene Geschäftsmodelle werden häufig als „das neue Öl“ bezeichnet – aber leider sind viele Unternehmen nach erheblichen Investitionen auf eine versiegte Quelle gestoßen und das anfängliche Feuer ist wieder erloschen. Wie können Unternehmen nun doch den Wert der Daten heben? Welche Herausforderungen im Hinblick auf Fähigkeiten, Prozesse und Technologien müssen bewältigt werden?

Daten geben nicht nur Aufschluss über die Vergangenheit, sie ermöglichen Unternehmenslenkern einen Blick in die Zukunft. Traditionell wurden Daten in einem Data Warehouse (DWH) gespeichert und in Form von Berichten und Dashboards aufbereitet. Dann veröffentlichte Google ein Papier, in dem eine neue Datentechnologie für die Websuche 1) vorgestellt wurde und läutete damit eine neue Ära des verteilten Rechnens ein. Die Idee war es, große Datenprobleme in kleinere Teilstücke zu zerlegen und auf kostengünstigere und skalierbarere Infrastrukturen zur Lösungsfindung zu verteilen. Danach werden die Teilergebnisse zu einer großen Lösung zusammengefügt. Die Idee war zwar nicht neu, aber die Google-Innovation machte es relativ einfach, die Leistung großer Computercluster zu bündeln und für enorme Datenmengen zu nutzen – Big Data war geboren.

Nach diesem Durchbruch entwickelte die Open Source-Gemeinschaft 2006 Apache Hadoop und machte Big Data für alle zugänglich. Unternehmen waren nun in der Lage, bislang ungenutzte Daten aus diversen Quellen zusammen mit internen Unternehmensdaten zu verarbeiten und zu nutzen.

Machine Learning mit großen Daten

Die Verarbeitbarkeit enormer Datenmengen beschleunigte den Erfolg von maschinellem Lernen und den daraus entstehenden analytischen Methoden, wie die Vorhersage möglicher Ereignisse. So lernten Computer betrügerische Fälle wie Schadensmeldungen, Geldwäsche oder Falschangaben im Versicherungsantrag zu erkennen, indem Millionen von Transaktionen überprüft werden. Der Wert der Daten besteht heute darin, basierend auf Annahmen vorherzusagen, was passieren wird.

Hadoop brachte Unternehmen dazu, Kopien roher Unternehmensdaten in einem zentralen, hierarchisch flachen Speicher (Data Lake) abzulegen. Die Zeit zeigte jedoch, dass viele dieser Data Lake-Projekte scheiterten, weil die Unternehmen nicht strategisch mit der Anwendung im Blick dachten. Oft entwickelten sich Data Lakes zu Datensümpfen – ohne jegliche Verwendung der Daten.

Fertige Cloud-Lösungen versus Jugend forscht

2019 veränderte sich die Datenwelt auf einen Schlag: Unternehmen kehrten Hadoop den Rücken. AWS, Azure und Google boten preiswerteren Speicherplatz in der Cloud sowie einfache Handhabung ohne Ausfallzeiten. Die Hadoop-Logik lieferten die Clouds gleich mit, zusammen mit Cloud-integrierten analytischen SQL-Datenbanken.

Die Praxis zeigt jedoch: Entwickler, Dateningenieure und Data Scientists verknüpfen noch immer viele Quellen selbst, was unter anderem zu organisatorischen Silos und hoher Komplexität führt. Eine Cloud-Lösung kann die betriebliche Komplexität nehmen und Kosten einsparen. Die Schwierigkeiten beim richtigen Zusammenfügen und Verarbeiten der Daten aus den verschiedenen Datentöpfen bleiben jedoch bestehen und liegen weiterhin in Menschenhand.

Verschmelzung von Datenbanken und Cloud

Die Lösung liegt darin, die Vorteile „klassischer“ Datenbanken und der damit verbundenen Datenhaltung sowie der neuen Funktionalitäten der Cloud zu verschmelzen. Hybride Datenarchitekturen liefern rasch und kostengünstig eine schnelle, skalierbare und einfache Dateninfrastruktur.

Dieser konvergente Ansatz bringt einige Vorteile mit sich:

  • Auflösung von Silos, reibungslose Zusammenarbeit funktionsübergreifender Teams
  • Direkte Verarbeitung von Echtzeit- und On-Demand-Daten
  • Schaffung einer Kultur des Experimentierens 2), kontinuierliches Nachtrainieren von Modellen
  • Leichtere Produktivsetzung von Modellen
  • Enorme Vereinfachung der Technologie- und Datenkomplexität, deutlich geringere Engineering- und Betriebsaufwände sowie Kosten.

Wir haben aus unseren bisherigen Erfahrungen fünf Kernpunkte für eine erfolgreiche Anwendungsmodernisierung entwickelt:

  • Auswahl einer zu modernisierenden Anwendung. Konzentrieren Sie sich im ersten Schritt auf eine operative Anwendung und transformieren dann die Datenbasis.
  • Skalierbares SQL für Ihre Anwendungsmodernisierung. Nutzen Sie vorhandene Expertise, ohne auf Low-Level-No-SQL zurückgreifen zu müssen.
  • Konsolidieren Sie unterschiedliche Datenbanken. Es gibt keine guten Gründe mehr, operative (OLTP) und analytische (OLAP) Datenbanken zu trennen. Eine kombinierte OLAP- und OLTP-Plattform minimiert Datenbewegungen und reduziert Latenz. Sie erhalten Erkenntnisse, Berichte, Dashboards und Modelle in Echtzeit. Noch wichtiger ist aber die damit einhergehende Vereinfachung.
  • Einbettung von nativer KI. Einer der Hauptgründe für die Anwendungsmodernisierung ist die Nutzung der Vorteile von Künstlicher Intelligenz, wie die dynamische Anpassung an Veränderungen oder augenblickliche Einzelfallentscheidungen auf Basis von Echtzeitdaten. Hierbei ist es zentral, eine Plattform auszuwählen, bei der maschinelles Lernen auf Datenbankebene integriert ist.
  • Daten haben Gravitation. Letztlich vereinfacht eine hybride Datenbank auch die Cloud-Migration und ermöglicht cloud-agnostische Datenhaltung. Perspektivisch bewegen sich alle Anwendungen zu den Daten – die „Datenschwerkraft“ zieht sie also in die Cloud.

Fazit

Kostenintensive und ressourcenbindende Datenkopien, seien es DWHs oder Data Lakes, erzeugen Silos. Eine neue, hybride Datenarchitektur schafft stattdessen eine Kultur des Experimentierens, eine unternehmens- und bereichsübergreifende Zusammenarbeit sowie schnellere produktive Ergebnisse. Perspektivisch werden sich dadurch zum einen Data Science-Projekte amortisieren, zum anderen verändert es Organisationen nachhaltig durch eine innovativere und agilere Kultur.

Letztlich kann dies der nachhaltige und sichere Einstieg in die Cloud sein. Unternehmen werden in die Lage versetzt, schneller auf (Markt-) Veränderungen zu reagieren und Entscheidungen auf Basis von Echtzeitdaten zu treffen. Vielleicht kann das Öl aus richtiger Datennutzung das Feuer doch noch entfachen.


1) Jeffrey Dean and Sanjay Ghemawa, Map-Reduce: Simplified Data Processing on Large Clusters, 2004.

2) https://hbr.org/2020/03/productive-innovation


Die Autoren: 

Monte Zweben ist CEO von Splice Machine, der ersten operativen KI-Plattform. Zuvor gründete er Red Pepper Software, ein Unternehmen für Supply-ChainOptimierung, und Blue Martini Software, ein Spezialist für Omni-Channel-Marketing.  

 

 

Dr. Andreas Braun leitet  bei Accenture das Daten- und KI-Geschäft . Zu seinen  Schwerpunkten zählen technologische Innovationen für die Finanz- und Versicherungsbranche,  Datenschutz- und Privatsphäre sowie digitale Produkte und Dienste für Versicherer.