Wenn der Bildschirm schwarz bleibt
Von Michael Esser
Kurz nach 7 Uhr am Dienstag, 3. März, war der Ärger vor dem Straßenverkehrsamt in Würselen fast greifbar, die Stimmung bei manchen in der Warteschlange gerade noch verhalten unfreundlich. Heute kein Zutritt, hier läuft nichts, merkten Neuankömmlinge schnell. Computer ausgefallen, Fahrzeuganmeldung, Führerscheintausch etc. leider nicht, brachten die Beschäftigten so freundlich wie möglich unter die Wartenden. Auch für „Ich muss doch nur das Papier hier schnell abgeben. Nimm, das kann doch kein Problem sein!“ gab es keine Ausnahme. Die Botschaft war düster wie der Morgen: Ihr seid vergeblich gekommen. Weil wir hier heute nicht arbeiten können.
Was vor Ort keiner wusste: Dieses „kann doch kein Problem sein“ hielt wenige Kilometer entfernt schon seit gut zwölf Stunden eine Unmenge IT-Spezialisten die ganze Nacht durch auf Trab. Miese Laune vor dem Straßenverkehrsamt – richtige Krisenstimmung bei der Regio IT in Aachen.
Am Abend zuvor, kurz vor halb acht, waren die zentralen Server und Computer der Aachener IT-Firma ausgefallen. Über 100 Kommunen in ganz NRW waren betroffen, die Regio IT ist größter kommunaler IT-Dienstleister im Land. Für fast 30 Stunden ging IT-mäßig kaum bis nichts mehr in Amtsstuben und Behörden von Aachen bis Bielefeld, von Gütersloh bis Hamm, von Heinsberg über Düren bis Monschau.
Wer hatte außer der IT noch frei?
Seither stellen sich zwei Fragen, eine sehr wichtige und eine vordergründig eher flapsige: Was war die Ursache für die IT-Panne? Und hatten die Mitarbeiter in den betroffenen Kommunen an dem Tag dann frei?
Für das Straßenverkehrsamt zumindest lautet die Antwort auf Frage zwei: Ja wir haben an dem Tag Däumchen gedreht. So erzählte es eine Mitarbeiterin beim Ersatztermin viele Tage später. Immerhin blieben alle in Bereitschaft, niemand wurde nach Hause geschickt. In weniger publikumsträchtigen Dienststellen gab es durchaus Arbeit. Rundfrage bei Städten in der Region mit dann doch ernstem Hintergrund: Was war denn am 3. März noch möglich ohne Computer, ohne Zugriff auf Word, Excel oder Spezialprogramme? Oder sind wir ohne Computer hilflos?
Überall gab und gibt es Bereiche, in denen auch ohne Computer weithin ungestört weitergearbeitet wurde. In Aachen etwa Feuerwehr, Kitas, Schulen, Müllabfuhr und – wenn’s denn freut – auch der Ordnungsdienst samt Knöllchen-Crew. Ganz analog war der Allgemeine soziale Dienst unterwegs, fanden Weiterbildungen und die Vermählungen statt, wie auch sonst. Für die Meldung aktueller Sterbefälle wurden „manuelle Übergangslösungen“ genutzt, was man schwarz auf weiß hat… „Insgesamt“, so die Auskunft der Pressestelle, „lag der Fokus darauf, kritische unmittelbar erforderliche Dienstleistungen für die Bevölkerung aufrechtzuerhalten.“
Analoges Arbeiten kaum noch eine Hilfe
Was offenbar in weiten Teilen auch in Heinsberg gelang. Dort hatte man seit dem mehrwöchigen Datenhack Anfang des Jahres schon Vorerfahrungen mit einem Ausfall der Computer-Infrastruktur. „Die betroffenen Beschäftigten haben anderweitige, zum Teil analoge Verwaltungstätigkeiten durchgeführt.“ Immerhin etwas besser sah die IT-Lage in Düren aus, wo mangels Regio-IT-Unterstützung zwar die zentralen Etagendrucker ihren Dienst versagten und man sich nicht mal innerhalb einer Abteilung Mails schicken konnte. Aber vielfach liefen noch Office-Programme auf den Tischrechnern und auch die Einzelplatzdrucker funktionierten und bedruckten Papier, auf das bei Bedarf ein Stempel hätte kommen können. Stand-alone-Betrieb ohne zentrale Anbindung an die Regio IT gab’s also auch.
Durch die Bank allerdings ist ein Rückgriff auf analoge Arbeitsweisen nicht möglich, berichten die Verwaltungen. Entweder weil die alten Arbeitsabläufe nicht mehr existieren oder zu aufwändig sind oder weil es neben organisatorischen und technischen Hürden auch rechtliche Vorschriften gibt, die das verhindern. Etwa im Meldeamt, wo die Bundesdruckerei nur noch digitale Fotos und Dokumente entgegennimmt.
Drei Ursachen für das Problem
Die IT-Panne hat also offenbar nur wenigen Beschäftigte einen freien Tag beschert. In solchen Fällen zog die Gleitzeit oder es wurden Überstunden abgefeiert. In der Verwaltung der Städteregion mussten PC-gehandicapte Mitarbeiter auch im Call-Center aushelfen, um die telefonische Erreichbarkeit zu gewährleisten. Auch wenn die Auskunft oft hieß: Houston – wir haben da ein Problem…
Das „Problem“ beschäftigt seither die IT-Experten und etliche externe Fachfirmen. Es hat nach jetzigem Stand drei ineinander verflochtene Ursachen: Auslöser und damit Ursache 1 war ein fünfzigminütiger Stromausfall im Stadtnetz Aachen. Davon war auch das Rechenzentrum EURAix der Regio IT betroffen. Für diesen (immer einkalkulierten) Fall gibt es die unterbrechungsfreie Notfallstromversorgung, die sofort an- und einspringt. Die batteriegestützte „USV“ reagierte auch sofort, fiel aber – Ursache 2 – bereits nach zehn Sekunden wieder aus. Zu kurz, dass die Dieselaggregate wie vorgesehen einen Dauerbetrieb sicherstellen konnten. Sämtliche IT-Systeme ließen sich auch dann nicht mehr in Betrieb nehmen, als die Diesel später die „Netzersatzanlage“ mit Strom versorgten. Da hatte der USV-Fehler schon Folgeschäden hervorgerufen – Ursache 3. Eine zentrale Netzkomponente für den Datenfluss war defekt und für lange Stunden nicht mehr ansprechbar. Es stellte sich heraus, dass auch andere Bereiche des Rechenzentrums wie die Datensicherung und auch die „dreifach redundante Kontrolleinheit des Datacenter-Core-Netzes durch den plötzlichen Stromausfall ebenfalls in einem undefinierten Zustand geraten war“, so die Regio IT. Fazit: Neben Softwareproblemen stand auch ein Hardware-Austausch an – ohne weitere Gefährdung der Kundendaten.
Krisenstäbe und Notfallpläne
Noch in der Nacht rief die Regio IT den internen Krisenstab zusammen und holte auch externe Spezialisten hinzu. Bei den Kommunen folgte dieser Schritt am Vormittag. In Aachen, bei der Städteregion, in Heinsberg oder Düren gibt es für solche Situationen Notfallpläne. „Für unterschiedliche Szenarien sind kritische Prozesse identifiziert und Alternativen vorbereitet“, verweist etwa die Städteregion auf ein etabliertes System für das Krisenmanagement. Wie schlimm ist es, was müssen wir tun, was kann passieren – das hat auch in Aachen ein Verwaltungsstab beurteilt. „Grundsätzlich sind solche Konzepte darauf ausgelegt, kurzfristige Störungen zu überbrücken, kritische Verwaltungsleistungen zu sichern und den regulären Betrieb so schnell wie möglich wiederherzustellen.“ Details dazu werden allerdings aus Gründen der Sicherheit nicht öffentlich dargestellt.
Was wenn die Computer länger ausfallen?
Solche Überlegungen sind nicht trivial. Wie zum Beispiel wird die Information der Bevölkerung sichergestellt, wenn eine Kommunikation über Computer, Internet, Social Media nicht möglich ist, Radio und Fernsehen hauptsächlich online empfangen werden? Es geht bei Computerpannen nicht nur darum, interne Abläufe in den Verwaltungen sicherzustellen. Es geht bei längeren Ausfällen um die Versorgung der Bevölkerung. In Düren etwa wird deshalb – unter anderem – das Konzept der Lautsprecherwagen hochgehalten. Die Aachener Polizei hat gute Erfahrungen damit während der Corona-Pandemie gemacht. Oder: Wie werden Flugblätter über Hilfe- und Anlaufstellen gedruckt und verbreitet? Die Notfallpläne bei den Verwaltungen reichen weit. Oder wie man in Heinsberg verwaltungstechnisch formuliert: „Die Aufarbeitung solcher Vorfälle ist ein komplexer Vorgang, der zu ständigen Verbesserungen und Überlegungen führt, sich bestmöglich darauf einzustellen.“
Schadenersatz wird geprüft
Der IT-Ausfall vom 2./3. März hat aber auch eine rechtliche und finanzielle Seite. Ob es von Seiten der Kommunen, also der Kunden, Regressansprüche gibt, will die Regio IT nicht beantworten. „Das sind Internas.“ Bekannt ist, dass es in den Verträgen für den Fall eines Ausfalls die sogenannten „Service-Level-Agreements“ gibt. Die „SLA’s“ legen Qualität und Umfang der zu erbringenden Leistungen fest. Sprich sie sind der Prüfstein für mögliche Schadensersatzbegehren. Düren prüft das, Ausgang offen. Die Stadt Aachen, selbst größter Anteilseigner an der Regio IT, teilt mit: „Ein Tag Ausfall führt bezogen auf ein ganzes Jahr in der Regel noch nicht zu Schadensersatzansprüchen.“
Kurz vor Blackout noch Notfalltest bestanden
Bei der Regio IT läuft unterdessen die Ursachenforschung auch über die Osterferien weiter. Eine Aachener Fachfirma nimmt derzeit insbesondere die Batterieblöcke für die unterbrecherfreie Stromversorgung unter die Lupe. Warum hat die „USV“ nach zehn Sekunden versagt? Obwohl das System oder Teile davon im Mai, Oktober und November voriges Jahr getestet und für gut befunden worden war, erneut Anfang Februar und sogar noch eine Woche vor dem Blackout? Das Ergebnis der „Forensik“, so der kriminalistisch anmutende interne Wortgebrauch für die Untersuchungen und Tests, soll bis Ende April spätestens Anfang Mai vorliegen. Ziel ist natürlich, eine erneute miese Stimmung vor dem Würselener Straßenverkehrsamt zu vermeiden. Naja – und auch Ärger mit den mehr als 100 kommunalen Kunden.