Liebe Community-Mitglieder, ich bin Ihnen noch einen Beitrag zu den Störungen im Rechenzentrum Anfang März schuldig. Neben den für uns alle ungeplanten kurzfristig notwendigen Corona-Aktivitäten hat leider auch die Fehleranalyse lange gedauert. Diese musste bei einem externen Partner nachgestellt werden, wo auch eine der Fehlerquellen lag. Das hat sehr viel Zeit in Anspruch genommen. Ich wollte Ihnen aber eine möglichst vollständige Erläuterung der Ursachen darlegen, weshalb der Beitrag erst jetzt kommt. Was war also passiert? Insgesamt kamen zwei Probleme zusammen, die zu Performance-Einbußen und einer eingeschränkten Verfügbarkeit unserer Online-Anwendungen im Zeitraum vom 8. März 2020 bis 10. März 2020 geführt haben. Ursächlich war ein Defekt (Problem 1) auf einem am Samstag, den 7. März 2020, installierten neuen Großrechner. Dieser Umbau auf die neueste Generation des Großrechners war seit Monaten geplant und ist vor dem Hintergrund des Wachstums unerlässlich. Für den Umbau sind zwei Wochenenden mit dazwischenliegendem Puffer-Wochenende notwendig. Daher lässt sich die Nähe zu wichtigen Terminen wie zur Umsatzsteuervoranmeldung oder Lohnabgabe kaum vermeiden. Prinzipiell versuchen wir selbstverständlich, alle notwendigen Umbauarbeiten so zu legen, dass sie nicht mit wichtigen Terminen kollidieren; bei besonders umfangreichen Umbauarbeiten lässt sich das aber leider nicht immer vermeiden. Derartige Infrastrukturmaßnahmen planen wir stets so, dass nach dem Umbau in der Nacht von Samstag auf Sonntag und der ganze Sonntag für einen im Fehlerfall notwendigen Rückbau zur Verfügung stehen, um mögliche Auswirkungen auf unsere Kunden auf ein absolutes Minimum zu begrenzen. Im Störungsfall im März ist die Fehlersituation aber erst deutlich zeitverzögert nach mehr als zwölf Stunden reibungslosem Betrieb am Sonntag, den 8. März 2020 eingetreten, sodass dieser Tag nicht für einen kompletten Rückbau genutzt werden konnte und es in der Folge zu massiven Einschränkungen der Online-Anwendungen auch noch in den Folgetagen kam. Um die Fehlersituation zu beherrschen, wurde die gesamte Verarbeitung am 8. März 2020 auf einen noch nicht umgebauten Großrechner verlagert. Mit dem erwartungskonform sehr hohen Belegvolumen am Folgetag kam es dabei zu massiven Einschränkungen bei verschiedenen Online-Anwendungen. Das hohe Belegvolumen an dem Tag war also nicht ursächlich für die Störung, hat aber dazu geführt, dass die Beeinträchtigung massiver war, als sie es an einem anderen Tag gewesen wäre, da es zu einem erheblichen Rückstau an Belegen kam. Da auch am Montag, den 9. März 2020 die Ursache der Fehlerkonstellation seitens des Herstellers nicht geklärt werden konnte, haben wir unter Betrachtung aller Risiken entschieden, die Systeme nun doch komplett zurückzubauen, damit für den Umsatzsteuervoranmeldungstermin am 10. März 2020 die erforderliche Systemlast auf Basis der bisherigen Technologie möglichst wieder in beiden RZ-Standorten verfügbar ist. Dies ist am Abend und in der Nacht vom 9. März 2020 auf den nächsten Tag erfolgt, sodass am 10. März 2020 die Systemkonfiguration wieder auf dem Stand von vor dem Umbau und damit vor dem Wochenende war. Dennoch kam es am 10. März 2020 erneut zu massiven Störungen der Online-Anwendungen (Problem 2), die letztendlich auch dazu führten, dass das Daten holen und senden in Kanzlei-Rechnungswesen zeitweise nicht möglich war. Bei einzelnen Ordnungsbegriffen brach zudem ein Teil der RZ-Archivierungsaufträge ab. Bereits ab Sonntag wurden, gemäß den Plänen für derartige Störungen, alle für die Störungsbehebung notwendigen Mitarbeiter im Einsatzraum aktiviert. Nachdem unsere Mitarbeiter alle Punkte unserer Maßnahmenpläne bearbeitet hatten, führten am 10. März 2020 erst Neustarts aller Serverpartitionen auf den Großrechnern zu einer Entspannung im Laufe des Nachmittags. Durch die inzwischen angestauten Belege für die OCR-Erkennung verzögerte sich jedoch auch danach noch die korrekte Vorbelegung in Kanzlei-Rechnungswesen beim Buchen. Aufgrund des vermuteten Hardware-Defekts war auch der betroffene Hersteller auf maximalem Eskalationslevel intensiv und vor Ort bei uns eingebunden. Zur Ermittlung der konkreten Fehlerursache und zur Ableitung von Gegenmaßnahmen befinden wir uns nach wie vor regelmäßig im Austausch mit dem Hersteller. Die Fehlerproblematik vom 8. März 2020 – also Problem 1 auf dem Großrechner – wurde nachgestellt und intensiv getestet. Ein Fix zur Problemlösung ist vom Hersteller für Mai avisiert. Erst nach Verfügbarkeit dieses Fixes können wir in die Detailplanung eines erneuten Umbaus gehen. Es laufen aber bereits Abstimmungen darüber, wie dieser Umbau so gestaltet werden kann, dass ein möglicher Rückbau schneller durchgeführt werden kann als im März. Zu den Störungen am 9. März 2020 (Problem 2) ermittelten die Spezialisten des Herstellers Optimierungsbedarf im Systemdesign, wie etwa bei der Lastverteilung und der Erweiterung einer bestimmten Gruppe von Spezialprozessoren. Inzwischen konnte eine geänderte Konfiguration definiert werden, die solche Probleme künftig ausschließt. Auch wenn diese Erklärungen sehr technisch sind, habe ich versucht, diese so einfach wie möglich zu halten. Die Komplexität solcher Konstellationen lässt aber leider nicht immer eine simple Erläuterung zu. Auch wenn die Fehlerursache in diesem Fall bei einem unserer Partner lag, stehen wir dennoch für die daraus resultierenden Probleme in der vollen Verantwortung. Wir als DATEV wollen Ihnen innovative und performante Software zur Verfügung zu stellen. Wir werden daher unsere Bemühungen noch weiter verstärken, dies über die gesamte Prozesskette zu gewährleisten, soweit es uns möglich ist – von der Hardware bis zu Ihren Mandanten und der Finanzverwaltung. Ich möchte nochmals für die erheblichen Unannehmlichkeiten dieser Störung um Entschuldigung bitten. Einen Beitrag mit allgemeinen Infos zu unserem Rechenzentrum, zu den Abläufen, Präventions- und Sicherheitsmaßnahmen, schreibe ich in Kürze, um mehr Transparenz in unseren Abläufen zu erzeugen. Mit freundlichen Grüßen – und bleiben Sie gesund! Prof. Dr. Peter Krug
... Mehr anzeigen