„Real-Time“-Überwachung und Steuerung von IT-Service

Teil 1: IT-Lagezentrum und IT-Lagebild 

Mit fortschreitender Digitalisierung sind Geschäftserfolge für Organisationen zunehmend von der Verfügbarkeit, der Leistungsfähigkeit und der Sicherheit von IT-Services und IT-Infrastrukturen abhängig. Gleichzeitig erschwert die wachsende Komplexität der IT-Landschaften in eigenen Rechenzentren und Cloud-Umgebungen die schnelle Erkennung, Einschätzung, Ursachenfindung und zeitnahe Behebung von Störungen. 

Einige IT-Service-Provider begegnen den damit verbundenen Risiken durch die Einrichtung von IT-Lagezentren. In diesem ersten Teil der Blog-Serie werden daher die Begriffe IT-Lagezentrum und IT-Lagebild genauer beleuchtet. 

IT-Lagezentrum und IT-Lagebild – Was ist das und wozu dient es? 

Unter einem IT-Lagezentrum versteht man eine Organisationseinheit, bzw. einen Ort bei einem IT-Service-Provider. Hier werden gezielt betriebsrelevante Informationen zu IT-Services aus unterschiedlichen Quellen automatisiert zu einem gemeinsamen, stets aktuellen IT-Lagebild zusammengeführt. 

Proaktive Überwachung der IT-Landschaft 

Das IT-Lagezentrum ermöglicht eine unternehmensweite, proaktive Überwachung der IT-Landschaft des IT-Service-Providers und ggf. der IT-Landschaften seiner Kunden. Anstatt lediglich auf Kundenanrufe am Service Desk zu reagieren, können Störungen oder Störungsmuster frühzeitig durch zusätzliche intelligente Monitoring-Lösungen erkannt werden. So sind die Provider in der Lage, zeitnah und weitgehend automatisiert Maßnahmen zur Störungsbehebung oder Präventivmaßnahmen zur Störungsvermeidung durchzuführen. 

Damit wird die Stabilität des IT-Betriebes weiter verbessert und ein hohes Informationssicherheitsniveau gewährleistet. können dadurch ihr Kerngeschäft so unterbrechungsfrei wie möglich betreiben. 

Optimale Steuerung der IT-Landschaft 

Auf der Basis eines integrierten IT-Lagebildes lassen sich Service-Störungen schneller erkennen und besser einschätzen, um zeitnah, gezielt und angemessen darauf reagieren zu können. Auf diese Weise werden geschäftliche Auswirkungen von Störungen für die IT-Kunden sowie den IT-Service-Provider minimiert. 

Neben der Überwachung der IT-Services stehen im IT-Lagezentrum bei auftretenden Störungen auch die richtige Priorisierung, Steuerung und Umsetzung von Entstörungsmaßnahmen im Vordergrund.  

Spezialisten verschiedener Fachrichtungen behalten mit Hilfe des stets aktuellen IT-Lagebildes den Betrieb der IT-Services rund um die Uhr im Blick. Sie greifen im Rahmen ihrer Möglichkeiten zeitnah ein oder sorgen dafür, dass entsprechende Entstörungsmaßnahmen manuell bzw. automatisiert gemäß der Servicevereinbarungen durchgeführt werden.  

Bei besonders schweren Vorfällen kann das IT-Lagezentrum auch im Sinne eines Krisenreaktionszentrums genutzt werden, um einen möglichst unterbrechungsfreien Geschäftsbetrieb zu gewährleisten. 

Üblicherweise wird für ein IT-Lagezentrum eine spezielle Infrastruktur mit eigenen Räumlichkeiten, hochwertiger Bildschirmausstattung, Projektionswänden sowie Monitoring- und Event-Management-Software bereitgestellt. Auf diese Weise wird die visuelle Aufbereitung, eine intuitive, zeitnahe Bewertung der vielfältigen Informationen sowie die Bedienung der zahlreichen Funktionen bestmöglich unterstützt. 

Welche Informationen und Funktionen werden in einem IT-Lagebild zusammengeführt? 

Je nach Anforderungen und organisatorischen Gegebenheiten variieren die Informationen und Funktionen, die in einem IT-Lagezentrum bzw. in einem integrierten IT-Lagebild zusammengeführt werden. 

Diese sind jeweils auf die Anforderungen von verschiedenen Anwendergruppen zugeschnitten. Dies können z. B. IT-Verantwortliche, Service-Owner, Event-Manager, Event-Operatoren, Service Desk-, SOC- und CERT-Mitarbeiter sowie Standort-Verantwortliche und Mitarbeiter des IT- und Anwendungsbetriebes sein. 

Zusammenführung von Informationen und Funktionen in einem integrierten IT-Lagebild 

In einem IT-Lagebild wird der aktuelle Status von Kundenumgebungen, Prozessen, IT-Services und -Technologien in verschiedenen Kontexten visualisiert. Hierzu zählen: 

  • Der aktuelle, aggregierte Service-Status der unterstützten Kundenumgebungen unter Berücksichtigung ihrer Kritikalität sowie der abgeschlossenen Servicevereinbarungen für den täglichen Servicebetrieb 
  • Der aktuelle Status der Services des vom Provider angebotenen produktiven IT-Service-Portfolios unter Berücksichtigung der vereinbarten Servicezeiten 
  • Die geografische Verteilung von Kundenumgebungen und IT-Services über verschiedene Standorte hinweg (Betriebs- und Nutzungsstandorte, Berücksichtigung von Zeitzonen, ggfs. Service-Hub-Bereitschaften) 
  • Visualisierung der Struktur von IT-Services mit den überwachungsrelevanten Technologie-Komponenten, Beziehungen und ihren aktuellen Statuswerten („Servicebäume“, „Technologie Stacks“) 
  • Transparente Darstellung von langfristig gewachsenen IT- und Service-Zusammenhängen 
  • Visualisierung der Abhängigkeitsbeziehungen zwischen IT-Services 
  • Dynamische Anzeige von Auswirkungen, die sich durch Störungen an einzelnen Services und Komponenten auf andere Technologiekomponenten, Services, Kunden und Standorte ergeben 
  • Unterstützung der technischen Ursachenanalyse beim Ausfall von Services 
  • Berücksichtigung von Verfügbarkeits-, Performance- und Security-Ereignissen bei der Visualisierung der Statusanzeigen durch Einbeziehung von Informationen aus verschiedenen Monitoring-Systemen, z. B. dem Service Desk 
  • Farbige Kennzeichnung unterschiedlicher Schweregrade von Events, Tickets und anderen Statusinformationen 
  • Integration von verschiedenen Informationsquellen für Status-Veränderungen, wie z.B. Events von Monitoring-Systemen, Incident-Tickets vom Service Desk, geplante und aktuelle Durchführung von Changes, Informationen externer Service-Provider 
  • Längerfristige Nachvollziehbarkeit von Veränderungen an Servicestrukturen und Statusveränderungen im Zeitverlauf zur nachfolgenden Problemanalyse 
  • Initiierung und Durchführung von Maßnahmen zur Störungsbehebung: Benachrichtigung, Alarmierung sowie Weiterleitung von aufgetretenen Störungsmeldungen an den 2nd und 3rd Level Support 
  • Ausführung von manuellen, halb- und vollautomatischen Mechanismen zur Behebung und Prävention von Vorfällen 
  • Transparenz über betroffene Organisationseinheiten und Geschäftsprozesse auf Kundenseite 
  • Übersicht über die aktuell verfügbaren Fähigkeiten und Skills sowie die Auslastung der verschiedenen Organisationseinheiten und IT-Prozesse beim Service-Provider 
  • Langfristige Speicherung und Nutzung der kurzfristigen, aktuellen Informationen, die im IT-Lagezentrum bzw. im IT-Lagebild zusammengeführt werden, für mittel- und langfristige Analysen und Reporting-Zwecke im Rahmen eines Service Level Managements sowie zur kontinuierlichen Verbesserung der Service-Management-Prozesse und des IT-Lagebildes 

Fazit & Ausblick

Die „Real-Time“-Überwachung und Steuerung von IT-Services über ein integriertes, ganzheitliches IT-Lagebild trägt zu einem gemeinsamen Verständnis der aktuellen Kunden-, Service- und IT-Situation bei. Die richtige Einschätzung, Priorisierung und gezielte Störungsbehebung erhöhen insgesamt die Verfügbarkeit, die Leistungsfähigkeit und das Sicherheitsniveau von IT-Services und IT-Infrastrukturen. IT-Lagezentrum und IT-Lagebild verbessern auf diese Weise die Grundlagen für Geschäftserfolge bei IT-Kunden sowie IT-Service-Providern. 

Um ein aussagefähiges IT-Lagebild im skizzierten Umfang zu erstellen, bedarf es eines entsprechenden Service-Modells. Der zweite Blog-Artikel dieser Mini-Serie befasst sich mit diesem Thema unter dem Titel „Real-Time“-Überwachung und Steuerung von IT-Services – Teil 2 – Service-Modell als Basis für ein IT-Lagebild.