Beitragsbild AI

Predictive Maintenance: Wissen, was die Zukunft bringt

Ungeplante Ausfälle sind für Betreiber von Rechenzentren ein Horror. Jetzt versuchen sie mithilfe künstlicher Intelligenz und vorausschauender Wartung die Verfügbarkeit immer mehr in Richtung 100 Prozent zu schieben.

Wenn es passiert ist, ist es zu spät: Switches, Server oder Festplatten fallen immer dann überraschend aus, wenn es so gar nicht passt – und das kommt bei der Kundschaft nicht gut an. Die Betreiber von Rechenzentren setzen daher alles daran, ungeplante Ausfälle zu verhindern. Sie sichern sich mit Notstromaggregaten gegen Stromausfälle ab oder spiegeln ihre Rechenzentren in einem Zwilling, der die Arbeit bei einem Totalausfall übernimmt.

Mit Monitoring gegen Ausfälle

Besonders bei den Cloud-Skeptikern ging lange Zeit die Angst vor dem Ausfall um: Die 100-prozentige Verfügbarkeit des Cloud-Rechenzentrums sei nicht garantiert – was jedoch für jedes Rechenzentrum gilt, auch für das selbst betriebene. Doch gerade Cloudbetreiber haben eine ganze Reihe an Tools in ihrem Werkzeugkoffer, um die Betriebszeit möglichst unterbrechungsfrei aufrechtzuerhalten. Damit sie wissen, wo was passiert, nutzen sie Monitoring-Software. Diese meldet Hardwareausfälle allerdings erst dann, wenn der Schaden bereits da ist.

Herausforderungen komplexer Systeme

Einen Schritt weiter gehen lernende Systeme, die nicht nur reaktiv arbeiten: Predictive Maintenance, Machine Learning oder künstliche Intelligenz. Deren Einsatz im Rechenzentrumsmanagement ist nicht neu, setzt sich aber erst jetzt richtig durch. „Ohne Assistenzsysteme mit künstlicher Intelligenz (KI) werden IT-Experten im Rechenzentrum bald nicht mehr in der Lage sein, große, komplexe IT-Systeme ausfallsicher zu betreiben“, schreibt der IT-Infrastrukturanbieter Rittal. Bereits 2019 ging IDC davon aus, dass bis zum heutigen Tage bereits 50 Prozent der Komponenten in großen Rechenzentren über integrierte KI-Funktionen verfügen und autonom arbeiten.

Unentdeckte Anomalien

Was bieten Predictive Analytics und Machine Learning, damit IT-Administrator:innen den IT-Betrieb optimieren können? Den meisten Vorfällen gehen Anomalien im Rechenzentrumsbetrieb voraus. Sie bleiben aber meist unentdeckt, obwohl Daten vergleichsweise einfach zu bekommen sind. Mechanische Bauteile eines Geräts verursachen Schwingungen, Geräusche, Widerstände oder Energielastprofile, was Rückschlüsse auf den Zustand einer Maschine zulässt. Auch Zustands- und Funktionsdaten wie Temperatur, Latenzzeiten sowie Anzahl der Schreib- und Lesezugriffe werden von den Geräten in den Logfiles zumeist erfasst.

Wartungsintervalle nach Bedarf

Mithilfe Machine Learnings können die Betriebsdaten der Router, Switches, Firewalls, Server und anderer Komponenten analysiert werden und nahende technischen Probleme erkannt werden – bevor es zu einem Stillstand kommt. Damit lassen sich Ausfälle zwar nicht ganz vermeiden, aber die IT-Administrierenden können Geräte gezielt austauschen und die Server somit lückenlos ihrer Arbeit nachgehen.

Dies senkt im Vergleich zur periodischen Wartung die Ausfallzeiten und Wartungskosten deutlich, da sich auf wirklich erforderliche Maßnahmen beschränkt werden kann und somit weniger Ersatzteile gebraucht werden.

Bricht etwa der Datenstrom einer Festplatte abrupt ab, liegt womöglich ein Defekt vor. Anhand der definierten Features, ihrer Wertentwicklungen und der gelernten Zusammenhänge, kann das System nun vorausschauend arbeiten. Deuten die erfassten Werte unter den definierten Bedingungen auf eine unerwünschte Anomalie hin, wird das IT-Department informiert.

Klangmuster verraten Anomalien

Verschiedene Toolanbieter versuchen ihren klassischen Application Performance Tools (APM) Intelligenz einzuimpfen. Einige Beispiele: Watchdog beobachtet selbstständig das gesamte Netz und alle Anwendungen und hält nach Anomalien Ausschau. Datadog hat ein Forecast-Modul als »Predictive Desaster« für die IT-Infrastruktur entwickelt. Die Vorwarnungen beziehen sich auf Ereignisse, die auch erst Wochen später auftreten könnten. Root Data Center hat in Zusammenarbeit mit Litbit eine KI-basierte Lösung zur Überwachung von Notstromgeneratoren entwickelt. Sie erkennt Anomalien auf Basis ihrer Klang- und Vibrationsmuster, beispielsweise auch das Geräusch fehlerhafter Netzteile und problematische Schwingungsmuster in Racks.

Sensordaten permanent analysieren

Grundlage für solche Predictive-Lösungen ist die permanente Auswertung von Sensordaten der Server, Festplatten, Racks und Logfiles durch eine lernfähige Analyse-Software. Auf Dauer entsteht so ein intelligentes IT-Expertensystem, das vorausschauend eine Wartung empfiehlt, vor einem Ausfall warnt oder dabei unterstützt, die Energiekosten, wie zum Beispiel für die IT-Kühlung, zu optimieren. Damit eine Predictive-Lösung funktioniert, muss sie zunächst auf Basis von historischen Daten lernen, was eine Anomalie sein könnte. Nur dann kann sie erkennen, welche Veränderung eines Wertes welche Bedeutung hat und wie bestimmte Werte miteinander in Zusammenhang stehen – und so auf Basis von historischen Daten Anomalien erkennt.

AI ACT KI

Echtzeitüberwachung der Infrastruktur

Schneider Electric zum Beispiel, hat eine cloudbasierte Infrastrukturmanagement-Lösung für Rechenzentren und Serverräume entwickelt, die eine Echtzeitüberwachung aller wichtigen Infrastrukturkomponenten ermöglicht – auch via App. Dafür sammelt das Unternehmen Daten seiner Kunden weltweit, anonymisiert sie und bündelt sie zu großen Datenseen in der Cloud. Die Analysten suchen Anomalien und sagen anhand derer voraus, ob Geräte ausfallen werden.

Der Softwareanbieter Nlyte verwendet IBMs Watson als Machine Learning Engine. Wenn bei einem Gerät ein Stromausfall zu erwarten ist, bestimmen die Algorithmen, wohin vom Stromausfall bedrohte virtuelle Maschinen verschoben werden sollen. Auch AdeptDC hat eine Software entwickelt, die Rechenzentrumsbetreiber bei der Fehlersuche und der Vermeidung von Geräteausfällen unterstützt. Dafür verwendet das Unternehmen containerisierte Software, die Daten wie Temperatur, Spannung und Status des Stromversorgungssystems aus dortigen Geräten bezieht.

Selbstlernendes Data Center

Einen Schritt weiter gehen echte KI-Systeme. Im selbstlernenden Data Center hat die KI typischerweise nicht nur einen bestimmten Wert im Fokus, sondern kann zigtausende Daten analysieren und Muster erkennen. Anhand der Muster kann die KI dann erkennen, ob sich ein Problem anbahnt und darauf (teil-) autonom reagieren, denn das System lernt selbstständig die Kriterien für normale und nicht-normale Zustände. Die dafür nötigen Schwellenwerte müssen nicht mehr manuell festgelegt werden, sondern werden automatisch von der KI definiert. Sie erkennt, was im Normbereich liegt und was nicht.

Das System löst im Falle einer Schwellenwertüberschreitung einen Alarm aus und kann im Idealfall sogar ohne Eingriff eines Administrierenden einen Selbstheilungsmechanismus anstoßen. So könnte sich selbstständig ein Server zuschalten, falls ein anderer dauerhaft unter Höchstlast steht – und zwar bevor es zu Performance-Einbußen kommt. Dabei könnte der Algorithmus selbstständig entscheiden, welche die praktikabelste, kostengünstigste oder schlicht notwendige Maßnahme ist.

Fazit – Kontrolle an KI abgeben

Das oberste Ziel ist es, weitgehend autonome Rechenzentren zu schaffen, die so effizient und belastbar wie möglich sind. Dafür ist die Selbstverwaltung und -heilung der Infrastruktur eine wichtige Komponente. Viele Rechenzentrumsbetreiber, die solche Werkzeuge implementieren, statten ihre Geräte mit weiteren Sensoren und Messgeräten aus, um zusätzliche Daten sammeln zu können. Anschließend werden diese Daten aufbereitet und bereinigt, um deren Korrektheit sicherzustellen.

Der Aufbau eines autonomen Rechenzentrums erfordert ein kontinuierliches Training der maschinellen Lernmodelle seitens Datenwissenschaftlern – doch auch die Betreiber der Rechenzentren müssen zur Kontrollabgabe bereit sein. Denn wenn KI-Analysen zur Verfügung stehen, lässt sich ein Verfügbarkeitslevel von 100 % erreichen – bei deutlich geringeren Kosten.