Viele Unternehmen sind in den letzten Jahren auf Cloud Computing umgestiegen, vor allem auf der Suche nach Kosteneinsparungen. Cloud Computing verspricht in vielerlei Hinsicht finanzielle Vorteile. So entfallen beispielsweise die Gebäudekosten und die Kosten für die Wartung der Hardware. Nicht wenige Unternehmen erleiden jedoch einen Preisschock aufgrund tendenziell steigender Kosten. Viele CTOs fragen sich, warum die Ausgaben für die Cloud ständig steigen und warum es so schwierig ist, die Grundsätze der optimalen Nutzung des Cloud-Betriebsmodells zu realisieren?
Larry Ellison, Chairman und CTO von Oracle, gemäß Gartner Magic Quadrant 2023 einer der führenden Cloud-Anbieter neben Amazon Web Services, Microsoft Azure und Google Cloud Platform, stellte eine Frage, die sich viele IT-Organisationen heute auch stellen: „Warum sollte jedes Unternehmen sein eigenes Rechenzentrum bauen?“
Ellison vergleicht das mit dem Bau eines Hauses: Man gräbt selten einen eigenen Brunnen für Wasser oder baut ein eigenes Kraftwerk für Strom. Es gibt auch keinen Grund, warum jedes Unternehmen ein eigenes Rechenzentrum betreiben muss. Aus diesem Gedanken heraus ist Cloud Computing entstanden. Es bietet ein Modell, bei dem Unternehmen bequem und nach Bedarf über das Internet auf eine gemeinsame Plattform von IT-Ressourcen zugreifen können. Diese Ressourcen umfassen Netzwerke, Server, Speicherplatz, Anwendungen und Dienste, die alle zentral verwaltet werden. Der Schlüsselbegriff in diesem Zusammenhang ist „geteilt“: Cloud-anbieter investieren einmal in ihre Infrastruktur und stellen diese dann vielen Kunden zur Verfügung. Dadurch sparen sie Kosten und profitieren von Größenvorteilen.
Theoretisch sollte Cloud Computing dadurch kostengünstiger sein als eigene Rechenzentren. Oft zeigt sich jedoch, dass die Ausgaben für Cloud-Dienste deutlich schneller steigen als die Einsparungen, die Unternehmen durch den Verzicht auf eigene Rechenzentren erzielen.
Gartner prognostiziert einen starken Anstieg der Ausgaben für Cloud-Infrastrukturen von 561,1 Mrd. USD im Jahr 2023 auf 675,4 Mrd. USD im Jahr 2024. Gleichzeitig werden die Investitionen in traditionelle, nicht Cloud-basierte IT-Infrastrukturen zurückgehen, aber nicht im gleichen Umfang wie die Cloud-Ausgaben wachsen. Ein Grund für diesen Anstieg könnte die zunehmende Nutzung von Künstlicher Intelligenz (KI) als Service in den Jahren 2023-2024 sein. KI-Anwendungen benötigen sehr viel Rechenleistung, die häufig zunächst in der Cloud aufgebaut wird. Ein weiterer Faktor ist, dass Unternehmen oft Schwierigkeiten haben, Cloud-Ressourcen freizugeben, wenn sie sie nicht mehr benötigen. Dies führt dazu, dass sie mehr bezahlen, als sie eigentlich müssten.
Die Cloud vereinfacht und beschleunigt die Bereitstellung komplexer Infrastrukturkomponenten. Gleichzeitig überträgt sie die Verantwortung für Architektur, Beschaffung, Kapazitätsplanung und Auslastungsoptimierung an Applikationsverantwortliche und DevOps-Ingenieure. Diese Personen müssen sich in der Regel nicht mit den Details komplexer Tarife, der Beschaffung und Bereitstellung von Kapazitäten befassen.
Um die Herausforderungen der Cloud-Implementierung zu meistern, wurde im Laufe der Zeit eine Reihe von Best Practices entwickelt, die in das FinOps Framework eingeflossen sind – ein operatives Rahmenwerk und eine kulturelle Praktik, die den geschäftlichen Nutzen der Cloud maximiert, eine frühzeitige, datengestützte Entscheidungsfindung ermöglicht und finanzielle Verantwortlichkeit durch die Zusammenarbeit von Engineering-, Finanz- und Business-Teams schafft. Das FinOps Framework folgt den Prinzipien der Förderung von Zusammenarbeit, Verantwortungsbewusstsein und Effizienz zwischen Teams, um die Cloud-Ausgaben zu optimieren, und führt Funktionen wie Budgetierung und Prognosen, Ressourcen-Tagging und -Verfolgung, Kostenzuordnung und Showback/Chargeback, Kostenoptimierungs-strategien, automatisiertes Kostenmanagement und kontinuierliche Verbesserung durch Datenanalyse und Feedbackschleifen ein. Dieses Framework wird von der FinOps Foundation verwaltet, die gegründet wurde, um die Prinzipien von FinOps zu entwickeln und zu fördern.
Unternehmen, die mit der Einführung von FinOps begonnen haben, haben erfolgreich gelernt, ihre Cloud-Rechnungen aufzuschlüsseln und die Kosten den Geschäftsbereichen und Projekten zuzuordnen. Außerdem wurden Praktiken zur Identifizierung ineffektiver Workload-Konfigurationen eingeführt, die jedoch die Ursache des Problems nicht beheben.
Seit 2021 führt die FinOps Foundation regelmäßig Umfragen durch, um die Prioritäten der FinOps-Community zu ermitteln. In den Jahren 2021-2023 zeigten diese Umfragen, dass FinOps-Spezialisten versuchen, Ingenieure und Entwickler zu befähigen, Maßnahmen zu ergreifen. Dennoch bleiben Analystenberichten zufolge mehr als 30 Prozent der Cloud-Ressourcen ungenutzt und werden somit „verschwendet“, obwohl sie bereitgestellt und bezahlt wurden, weil identifizierte Korrekturmaßnahmen nicht umgesetzt wurden.
Die aktuelle Umfrage aus 2024 zeigt, dass Unternehmen ihre Prioritäten geändert haben: Sie konzentrieren sich jetzt stärker darauf, die Verschwendung in der Cloud zu reduzieren und Commitment-Rabatte zu verwalten, die beim Abschluss von Cloud-Verträgen mit einer längeren Laufzeit gewährt werden.
Aber warum ist das so?
Dies liegt daran, dass viele Unternehmen feststellen, dass sie oft mehr für Cloud-Dienste bezahlen, als sie tatsächlich nutzen. Sie wollen daher unnötige Ausgaben vermeiden. Gleichzeitig wollen sie sicherstellen, dass sie die besten Rabatte erhalten, wenn sie sich für längere Zeit an einen Cloud-Anbieter binden.
Förderung der Automatisierung
Wenn menschliche Eingriffe zur Optimierung nötig sind, können die Kosten für die manuelle Durchführung höher sein als die Kosten, die durch die Nicht-Optimierung entstehen. Traditionell plant die IT-Abteilung die Kapazitäten und berücksichtigt das erwartete Wachstum für mehrere Jahre im Voraus. Häufige Änderungen werden vermieden, um Aufwand zu sparen. Überträgt man dieses Prinzip auf die Cloud, werden oft nur große Maßnahmen wie der Kauf von Reservierungen umgesetzt, während viele kleinere Optimierungen ignoriert werden. Finanziell betrachtet, hat eine große Änderung im Wert von 100.000 USD den gleichen Effekt wie 100.000 kleine Änderungen, die jeweils 1 USD einsparen.
Wenn jede Optimierung der Konfiguration in der Cloud-Instanz manuell in der Konsole des Anbieters vorgenommen werden muss, bleibt den Ingenieuren kaum Zeit für andere Aufgaben. Die meisten Ineffizienzen können aber durch die Auswertung von Performance- Überwachungsdaten automatisch identifiziert werden. Die notwendigen Korrekturen lassen sich ebenfalls automatisieren. Dadurch muss sich das Team nicht mehr mit diesen Aufgaben beschäftigen, und die Optimierungen können ohne zusätzlichen Aufwand durchgeführt werden.
Reduzierung der Verschwendung
„Lift-and-Shift“ ist der schnellste Weg, um Anwendungen in die Cloud zu bringen. Dabei werden Anwendungen ohne Anpassungen von eigenen Servern direkt in die Cloud verschoben. Dieser Ansatz kann jedoch teuer sein. Um Kosten zu sparen, kann man „Rightsizing“ – das Anpassen der Cloud-Ressourcen an den tatsächlichen Bedarf – und das automatische Ein- und Ausschalten von Instanzen nutzen. Allerdings ist nicht jede Anwendung oder Ressource für solche Ausfallzeiten designed. Wenn die Systeme nicht mehr rund um die Uhr laufen, müssen z.B. Wartungsfenster und Zeiten für Back-ups oder Datenaustauschjobs zwischen verschiedenen Systemen verkürzt oder auf die Betriebszeiten am Tag verlegt werden.
Nach dem „Lift-and-Shift“-Ansatz werden viele herkömmliche Workloads oft containerisiert. Das bedeutet, dass sie in kleine, unabhängige Einheiten verpackt werden, die leichter in der Cloud verwaltet und skaliert werden können. Neue Anwendungen hingegen werden häufig direkt mit Cloud-nativen Technologien entwickelt, die sich automatisch an die benötigte Größe anpassen oder dynamisch skalieren lassen.
Um ineffiziente Ressourcen (Verschwendung) automatisch zu erkennen und zu beseitigen, müssen Workloads unter Berücksichtigung der dynamischen Größenanpassung und Skalierung neu konzipiert werden.
Genauer Forecast der Ausgaben
Die dynamische Größenanpassung von Workloads in der Cloud macht es schwierig, deren zukünftige Nutzung nur anhand von Größe und Laufzeit vorherzusagen. Unternehmen können jedoch KI gestützte Prognosetools nutzen, um besser auf dynamische Veränderungen und unerwartete Ereignisse reagieren zu können.
Verwaltung von Verpflichtungsrabatten
Verpflichtungsrabatte (Commitment-Rabatte) sind Rabatte, die Cloud-Anbieter für langfristige Nutzung anbieten. Diese Rabatte sind sowohl für die Nutzer als auch für die Anbieter wichtig. Für die Nutzer bedeuten sie Kostenersparnisse, für die Anbieter erleichtern sie die Kapazitätsplanung. Um solche Rabatte sinnvoll zu nutzen, benötigen Unternehmen präzise Prognosen über ihren zu künftigen Bedarf. Eine Herausforderung bleibt jedoch die Unsicherheit bei der Vorhersage der Cloud-Nutzung, da die dynamische Anpassung der Ressourcen oft zu unvorhersehbaren Änderungen führt.
Fazit
Menschen sind oft nicht schnell genug, um auf die ständigen und dynamischen Veränderungen in der Cloud-Umgebung zu reagieren, was dazu führt, dass die Vorteile der Cloud nicht voll ausgeschöpft werden. Die FinOps-Community (Finance und DevOps) konzentriert sich daher darauf, spezialisierte Lösungen zu entwickeln und einzuführen, die Automatisierung nutzen. Ziel dieser Automatisierung ist es, Optimierungsmaßnahmen so effizient und kostengünstig zu gestalten, dass sie wirtschaftlicher sind als die Kosten, die entstehen würden, wenn man nichts unternimmt („cost of not doing it“).
Der Autor:
Oleksiy Akimov ist der Leiter des FinOps-Practice bei Deloitte. Er bringt umfangreiche Erfahrungen in den Bereichen Telekommunikation, IT und Cloud-Kostenoptimierung mit. Sein Wissen umfasst auch den Betrieb von Rechenzentren, die Zusammenarbeit mit Cloud-Anbietern, das Management von IT-Ressourcen (IT-Asset-Management) und die Optimierung von Geschäftsprozessen.