Predictive Maintenance: Wissen, was die Zukunft bringt

Datum: 08.08.2019

Predictive Maintenance
Ungeplante Ausfälle sind für Betreiber von Rechenzentren ein Horror. Jetzt versuchen sie mit künstlicher Intelligenz und vorausschauender Wartung die Verfügbarkeit immer mehr in Richtung 100 Prozent zu schieben.

Wenn es passiert ist, ist es zu spät. Switches, Server oder Ventilatoren geben immer dann überraschend ihren Geist auf, wenn es so gar nicht passt – und kommen bei Kunden nicht gut an. Die Betreiber von Rechenzentren setzen daher alles daran, ungeplante Ausfälle zu verhindern. Sie sichern sich mit Notstromaggregaten gegen Stromausfälle ab oder spiegeln ihre Rechenzentren in einem Zwilling, der die Arbeit bei einem Totalausfall übernimmt.

Mit Monitoring gegen Ausfälle

Besonders bei den Cloud-Skeptikern ging lange Zeit die Angst vor dem Ausfall um: Die 100-prozentige Verfügbarkeit des Cloud-Rechenzentrums sei nicht garantiert – was jedoch für jedes Rechenzentrum gilt, auch für das selbst betriebene. Doch gerade Cloudbetreiber haben eine ganze Reihe Tools in ihrem Arsenal, um die Betriebszeit möglichst unterbrechungsfrei aufrechtzuerhalten. Damit sie wissen, wo was passiert, nutzen sie Monitoring-Software. Diese melden Hardwareausfälle allerdings erst dann, wenn das Kind in den Brunnen gefallen ist.

Herausforderungen komplexer Systeme

Einen Schritt weiter gehen lernende Systeme, die nicht nur reaktiv arbeiten: Predictive Maintenance, Machine Learning oder künstliche Intelligenz. Deren Einsatz im Rechenzentrumsmanagement ist nicht neu, setzt sich aber erst jetzt richtig durch. „Ohne Assistenzsysteme mit künstlicher Intelligenz (KI) werden IT-Experten im Rechenzentrum bald nicht mehr in der Lage sein, große, komplexe IT-Systeme ausfallsicher zu betreiben“, schreibt der IT-Infrastrukturanbieter Rittal. Und IDC geht davon aus, dass bis 2022 bereits 50 Prozent der Komponenten in großen Rechenzentren über integrierte KI-Funktionen verfügen und autonom arbeiten.

Unentdeckte Anomalien

Was bieten Predictive Analytics und Machine Learning, damit IT-Administratoren den IT-Betrieb optimieren können? Den meisten Vorfällen gehen Anomalien im Rechenzentrumsbetrieb voraus. Sie bleiben aber meist unentdeckt, obwohl Daten vergleichsweise einfach zu bekommen sind. Mechanische Bauteile eines Geräts verursachen Schwingungen, Geräusche, Widerstände oder Energielastprofile, was Rückschlüsse auf den Zustand einer Maschine zulässt. Auch Zustands- und Funktionsdaten wie die Temperatur der Devices, Latenzzeiten, die Anzahl der Schreib- und Lesezugriffe oder Logfiles erfassen die Geräte in der Regel, da sie über die notwendigen Sensoren verfügen.

Wartungsintervalle nach Bedarf

Machine Learning analysiert die Betriebsdaten der Router, Switches, Firewalls, Server und anderen Komponenten und erkennt heraufziehende technischen Probleme, bevor es zu einem Stillstand kommt. Damit lassen sich Ausfälle zwar nicht ganz vermeiden, aber die IT-Administratoren können Geräte gezielt austauschen und die Server lückenlos ihrer Arbeit nachgehen. Dies senkt im Vergleich zu periodischen Wartungen die Ausfallzeiten und die Wartungskosten deutlich, da sich die Administratoren auf wirklich erforderliche Maßnahmen beschränken und weniger Ersatzteile beschaffen müssen. Bricht etwa der Datenstrom einer Festplatte abrupt ab, ist diese möglicherweise kaputt. Anhand der definierten Features, ihrer Wertentwicklungen und der gelernten Zusammenhänge kann das System nun vorausschauend arbeiten. Deuten die erfassten Werte unter den definierten Bedingungen auf eine unerwünschte Anomalie hin, wird der IT-Administrator informiert.

Klangmuster verraten Anomalien

Klangmuster AnnomalienVerschiedene Toolanbieter versuchen ihren klassischen Application Performance Tools – APM – Intelligenz einzuimpfen. Watchdog beobachtet selbstständig das gesamte Netz und alle Anwendungen und hält nach Anomalien Ausschau. Datadog hat ein Forecast-Modul als „Predictive Desaster“ für die IT-Infrastruktur entwickelt. Die Vorwarnungen beziehen sich auf Ereignisse, die auch erst Wochen später auftreten könnten. Root Data Center hat in Zusammenarbeit mit Litbit eine KI-basierte Lösung zur Überwachung von Notstromgeneratoren entwickelt. Sie erkennt Anomalien auf Basis ihrer Klang- und Vibrationsmuster, beispielsweise auch das Geräusch fehlerhafter Netzteile und problematische Schwingungsmuster in Racks.

Sensordaten permanent analysieren

Grundlage für solche Predictive-Lösungen ist eine permanente Auswertung von Sensordaten der Server, Festplatten, Racks und Log-Files durch eine lernfähige Analyse-Software. Auf Dauer entsteht so ein intelligentes IT-Expertensystem, das vorausschauend eine Wartung empfiehlt, vor einem Ausfall warnt oder dabei unterstützt, die Energiekosten wie zum Beispiel für die IT-Kühlung zu optimieren. Damit eine Predictive-Lösung funktioniert, muss sie zunächst auf Basis von historischen Daten lernen, was eine Anomalie sein könnte. Nur dann kann sie erkennen, welche Veränderung eines Wertes welche Bedeutung hat und wie bestimmte Werte miteinander in Zusammenhang stehen und auf Basis von historischen Daten Anomalien erkennt.

Aufbau eines intelligenten Warnsystems

Algorithmen für das maschinelle Lernen korrelieren Daten aus der Strom-, Kühl- und IT-Infrastruktur. So lassen sich Variablen ermitteln, die in der Vergangenheit zu Geräteausfällen geführt haben. So lassen sich etwa Ausfallraten und statistische Wahrscheinlichkeit berechnen. Je mehr Features beobachtet werden, umso genauer wird die Analyse, interpretiert Situationen und liefert die Basis für ein intelligentes Warnsystem. Tritt ein solches Muster wieder auf, informiert das System das IT-Personal, dass dann frühzeitig Maßnahmen ergreifen kann. Das Ziel ist es, den Betreibern von Rechenzentren genügend Vorlaufzeit zu geben. Wenn ein Server kurz vor dem Absturz steht, ist eine Stunde ausreichend, damit IT-Mitarbeiter virtuelle Maschinen auf einen anderen Server verschieben können.

Die globale, verteilte Cloud-Infrastruktur spielt eine wichtige Rolle bei der Weiterentwicklung des Rechenzentrumsmanagements. Die Genauigkeit von Algorithmen für das maschinelle Lernen hängt in hohem Maße von der Datenmenge ab, die für die Schulung zur Verfügung steht, und die Cloud kann den Zugriff auf eine große Datenmenge ermöglichen.

Echtzeitüberwachung der Infrastruktur

Schneider Electric zum Beispiel, hat eine cloudbasierte Infrastrukturmanagement-Lösung für Rechenzentren und Serverräume entwickelt, die eine Echtzeitüberwachung aller wichtigen Infrastrukturkomponenten ermöglicht – auch via App. Dafür sammelt das Unternehmen Daten von seinen Kunden weltweit, anonymisiert sie und bündelt sie zu großen Datenseen in der Cloud. Die Analysten suchen Anomalien und sagen vorher, ob Geräte ausfallen werden.

Der Softwareanbieter Nlyte verwendet IBMs Watson als Machine Learning Engine. Wenn bei einem Gerät ein Stromausfall zu erwarten ist, bestimmen die Algorithmen, wohin vom Stromausfall bedrohte, virtuelle Maschinen verschoben werden sollen. Auch AdeptDC hat eine Software entwickelt, die Rechenzentrumsbetreiber bei der Fehlersuche und der Vermeidung von Geräteausfällen unterstützt. Dafür verwendet das Unternehmen containerisierte Software, die Daten wie Temperatur, Spannung und Status des Stromversorgungssystems aus Rechenzentrumsgeräten bezieht.

Selbstlernendes Data Center

AI Data CenterEinen Schritt weiter gehen echte KI-Systeme. Im selbstlernenden Data Center hat die KI typischerweise nicht nur einen bestimmten Wert im Auge, sondern kann zigtausende Daten analysieren und Muster erkennen. Anhand der Muster kann das KI-System dann feststellen, ob sich ein Problem anbahnt und autonom oder teilautonom reagieren. Das System lernt – im Gegensatz zur alten Methode -selbstständig die Kriterien für normale und nicht-normale Zustände. Die dafür nötigen Schwellenwerte müssen nicht mehr manuell festgelegt werden, sondern werden automatisch von der KI definiert. Sie erkennt, was im Normbereich liegt und was nicht.

Das System löst im Falle einer Schwellenwertüberschreitung einen Alarm aus und kann im Idealfall sogar ohne Eingriff eines Administrators einen Selbstheilungsmechanismen anstoßen. So könnte ein Server sich selbständig zuschalten, wenn ein anderer Server dauerhaft unter Höchstlast steht. Und zwar bevor es zu Performance-Einbußen kommt. Dabei könnte der Algorithmus selbstständig entscheiden, welche die praktikabelste, kostengünstigste oder schlicht dringend notwendige Maßnahme ist.

Kontrolle an KI abgeben

Das oberste Ziel ist es, weitgehend autonome Rechenzentren zu schaffen, die so effizient und belastbar wie möglich sind. Dafür wird die Fähigkeit der Infrastruktur eine wichtige Komponente sein, sich selbst zu verwalten und zu heilen. Die meisten Rechenzentrumsbetreiber, die maschinell lernbasierte Werkzeuge implementieren, instrumentieren ihre Geräte mit Sensoren oder Messgeräten, um mehr Daten zu sammeln, und sie bereiten ihre Daten vor und bereinigen sie, um sicherzustellen, dass sie korrekt sind.

Der Aufbau eines autonomen Rechenzentrums erfordert von den Datenwissenschaftlern, dass sie ihre maschinellen Lernmodelle kontinuierlich verbessern und trainieren, und die Betreiber von Rechenzentren müssen bereit sein, die Kontrolle aufzugeben. Wenn KI-Analysen zur Verfügung stehen, lässt sich das Verfügbarkeitslevel von 100 Prozent erreichen – bei deutlich geringeren Kosten.

Zurück zur Übersicht