abbrechen
Suchergebnisse werden angezeigt für 
Stattdessen suchen nach 
Meintest du: 

Wer hat bei diesem Thema „Ich auch“ angegeben

DATEV-Mitarbeiter
Stefanie_Herold
DATEV-Mitarbeiter
DATEV-Mitarbeiter
Offline Online
327962 Mal angesehen

01.12.2021 Ergebnisse der Ursachenanalyse

 

Hallo zusammen, 

die Ursachenanalyse ist nun soweit abgeschlossen. 
Daher hier wie versprochen noch einige weitere technische Details. 


 

08.11.2021 Komplettausfall 

 

Erster Auslöser am 08.11. war ein Fehler in der IBM-Datenbank-Software, der bei automatischen systemseitigen Aufräumaktionen zu einem fehlerhaften Speichermanagement und in Folge dem Systemabsturz geführt hat.  
Aufgrund eines zweiten Softwarefehlers konnte das Gesamtsystem durch den beim Systemabsturz innerhalb der Datenbank entstandenen Zustand weder automatisch noch manuell bereinigt und wieder gestartet werden. 
Gemeinsam mit einer Task Force von DATEV und IBM Deutschland und USA wurde intensiv an der Fehleridentifikation und der sich anschließenden Fehlerbehebung gearbeitet. 
Erst durch die manuelle Isolation und spätere Reparatur der betroffenen Spaces (Datenblöcke) konnte die Datenbank überhaupt wieder gestartet und dann manuell vervollständigt werden. 
Für beide Softwarefehler haben wir zwischenzeitlich Software-Fixes von IBM erhalten, die auch bereits eingespielt und aktiviert sind. 


 

09.11.2021 Performance-Probleme in der Prozesskette der Belegverarbeitung 

 

Hierzu nochmal unsere Stellungnahme vom 19.11.: 
Aufgrund des Ausfalls am 08.11. hatten wir an den von uns prognostizierten neuralgischen Punkten die Ressourcen präventiv massiv aufgestockt. An diesen Punkten hatten wir am 09.11. dann tatsächlich und erwartungskonform keinen Engpass. Im Gegenteil – die Systeme liefen an diesen Stellen weit unter ihrer möglichen Auslastung. Erwischt hat es uns im weiteren Verarbeitungsverlauf an Systemen, die bisher selbst bei Lastspitzen völlig unauffällig gewesen waren. Dort haben wir nach Bekanntwerden des Problems dann im Laufe des Vormittags nach und nach Reserven zugeschaltet. 
Am langen Ende bleibt festzuhalten, dass es uns nicht gelungen war, die Situation über die komplette Verarbeitungskette richtig einzuschätzen. 
Für die Zukunft arbeiten wir daran, gezielte Lastsimulationsmodelle zu implementieren, die die Verarbeitung über die gesamte Prozesskette der Belegverarbeitung vom Eingang des Beleges bis zur Verbuchung im Rechnungswesen abdecken. 


 

10.11.2021 Fehlerhafte Anzeige von Belegen in DATEV Unternehmen online und der Belegvorschau im Digitalen Belegbuchen in den DATEV Rechnungswesen-Programmen 

 

Aufgrund des Ausfalls vom 08.11. lief ein täglich notwendiger Datenbank-Pflegeprozess statt am Abend des 08.11. erst nach 0:00 Uhr am 09.11.2021. Durch den dann wieder regulären Pflegeprozess am Abend des 09.11. sind in der Folge am 10.11. doppelte Werte bei der Generierung der einmaligen IDs für die konvertierten Belege entstanden, die sowohl zur Anzeige in Unternehmen online als auch für die Belegvorschau im Digitalen Belegbuchen in den Rechnungswesen-Programmen verwendet werden. 
Damit dieses Problem nicht erneut auftreten kann, wurde der Pflegeablauf entsprechend angepasst und weitere Prüfmechanismen implementiert. 

Zur Nicht-Verfügbarkeit des RZ-Status am 08.11. hatte ich Ihnen bereits am 19.11. umfassende Informationen gegeben. 

 

 

Viele Grüße und eine schöne restliche Woche 

Stefanie Herold 

 

 

 

19.11.2021

 

Hallo liebe Community, 

 

heute möchte ich gerne schon mal ein paar Antworten auf offene Fragen weitergeben. 

Zur Ursache selbst können wir aktuell noch nicht mehr sagen. Die Analysen, auch bei unserem IT-Partner IBM, dauern noch an. 

 

Wenn alle zusätzlichen Ressourcen genutzt wurden, um den zusätzlichen Ansturm von bisher 2,5 Mio auf 4,6 Mio Belege am Dienstag zu sichern, dann scheint ja die Reserve viel zu klein zu sein. Kurz vor dem 10. eines Monats und bei einem solchen Ausfall hätte damit gerechnet werden müssen. Warum sind die Reserven dafür nicht ausgerechnet? 

Um es gleich vorwegzunehmen: Am langen Ende ist es uns nicht gelungen, die Situation über die komplette Verarbeitungskette richtig einzuschätzen. 

An den von uns prognostizierten neuralgischen Punkten, hatten wir die Ressourcen präventiv massiv aufgestockt. An diesen Punkten hatten wir am 09.11. dann tatsächlich und erwartungskonform keinen Engpass. Im Gegenteil – die Systeme liefen an diesen Stellen weit unter ihrer möglichen Auslastung. Erwischt hat es uns im weiteren Verarbeitungsverlauf an Systemen, die bisher selbst bei Lastspitzen völlig unauffällig gewesen waren. Dort haben wir nach Bekanntwerden des Problems dann im Laufe des Vormittags nach und nach Reserven zugeschaltet. 

Vielleicht noch ein Satz zum Begriff “Reserve”, weil dieser unterschiedlich interpretiert werden kann. Wenn wir von Reserven sprechen, meinen wir damit zuschaltbare Reserven.  
Warum nur zuschaltbar? Alles was permanent produktiv zur Verfügung steht, muss auch unabhängig davon, ob es genutzt wird, permanent betrieben und in voller Höhe bezahlt werden. Es macht also schon mal betriebswirtschaftlich keinen Sinn, alle Systeme dauerhaft mit z.B. doppelten Ressourcen auszustatten, die dann nicht genutzt werden. Die Belegmengen vom 09.11. sind in der rollierenden Mittelfristplanung aktuell für Ende 2023/Anfang 2024 prognostiziert. 

 

Wenn es sich um den "Ausfall" eines Systems (Stück Blech) handelte, warum greift dort keine Redundanz? 

Weil eben nicht ein Stück Blech ausgefallen ist, sondern es einen Fehler in einer sehr zentralen Softwarekomponente gab, der sich dann auf das Gesamtsystem mit all seinen Blechen, Resilienzen und Redundanzen ausgewirkt hat. 

 

Wie kann sich ein Datenbankfehler einer Anwendung so dermaßen auf die Status Anzeige (www.datev-status.de) auswirken, so dass stundenlang niemand in der Lage war, die Störung zu kommunizieren? Das eine hat (bzw. sollte) doch mit dem anderen nichts zu tun haben? 

Mit dem RZ-Status hatten wir gleich mehrere Probleme – 1 kommt ja leider selten alleine 😖 

Zum einen ist mit der Störung auch die Online-Verbindung zwischen unserem Rechenzentrum, in dem die Daten für die Schaltung erzeugt und übergeben werden, und dem externen Webhoster weggebrochen.  Für solche Fälle haben wir spezielle Notfallrechner an zwei verschiedenen Standorten für sogenannte Offline-Schaltungen. Der erste dieser spezifischen Notfallrechner, den wir bisher ohne Probleme dafür genutzt haben, hatte dann allerdings ein Hardware-Problem, was sich nicht kurzfristig lösen ließ und der Zweite musste erst vor Ort am anderen Standort aktiviert werden. Das alles hat natürlich viel zu lange gedauert. 
Damit uns das in der Zukunft nicht nochmal passiert, haben wir jetzt zusammen mit dem Webhoster die Möglichkeit geschaffen, zumindest den allgemeinen Notfall-Banner im RZ-Status von jedem Internet-PC auslösen zu können. 
Außerdem arbeiten wir bereits seit einigen Monaten an einer neuen Architektur für den RZ-Status, um die Abhängigkeiten zwischen unserem RZ und dem des Webhosters weiter zu reduzieren. 

Zum anderen waren durch den unvermittelten abrupten Ansturm auf den RZ-Status auch bei unserem Webhoster die Server zusammengebrochen. Auch dazu sind wir in Gesprächen. 

 

Was mir in Ihrem Beitrag auch fehlt, ist die Begründung für das schlechte Informationsmanagement.  

Gerne hätten wir auch über unsere anderen Kanäle wie www.datev-status.de, RZ-Status-App und www.datev.de unmittelbar über den RZ-Ausfall informiert. Leider konnten wir auf Grund des Ausfalls dort ebenfalls keine Informationen publizieren.  
Zum Zeitpunkt der Störung blieb uns daher erstmal nichts anderes übrig als die noch zur Verfügung stehenden Kanäle wie unsere DATEV-Community hier, unsere Social-Media-Kanäle, das DATEV-Hilfe-Center und die Bandansagen an den Service-Hotlines bestmöglich für die Kommunikation zu nutzen.  
Wir müssen hier auf jeden Fall in Zukunft dafür sorgen, dass diese Kanäle auch bei Störungen zuverlässig funktionieren. 

 
Soweit mal für heute. 
Sobald wir mehr zur Ursache sagen können, melden wir uns wie versprochen wieder. 

 

Viele Grüße aus Nürnberg 
Stefanie Herold 

 

Und noch eine kleine Anmerkung am Ende, weil es nicht wirklich was mit dem Thema zu tun hat: 
Übersetzungen werden bei uns generell entweder durch muttersprachliche Mitarbeitende oder Übersetzungsbüros und Agenturen übernommen.  

 

 

14.11.2021

 

Der Thread ist nun erstmal geschlossen.

Die Beantwortung der offenen Fragen und auch weitere Informationen zur Ursache folgen natürlich noch.

Viele Grüße

Stefanie Herold 


15:00 Uhr

 

So jetzt nochmal etwas ausführlicher 🙂

 

Die Beleganzeige in Unternehmen online und auch die Anzeige der Thumbnails in der Belegübersicht in Rechnungswesen funktionieren wieder. Alle Services stehen wieder uneingeschränkt zur Verfügung.

 

Alle Belege, die gestern noch sogenannte "broken links" hatten, wurden bereits heute Nacht bereinigt.

2 User haben noch ein zusätzliches Problem bei der Rückverschlagwortung und werden direkt kontaktiert.

 

Offen sind aktuell noch rund 500 Einzelbelege (alleine gestern wurden 4,6 Mio. hochgeladen) in ca. 40 Beständen, die aufgrund des Ausfalls vom Montag unvollständig im Rechenzentrum eingegangen sind (Metadaten sind da, aber die Belegbilder fehlen). Diese Belege müssen erneut hochgeladen und die unvollständigen gelöscht werden. Die betroffenen Kunden werden ebenfalls von uns individuell informiert. 

 

Auslöser von heute

Alle Belege werden u.a. aus Performancegründen bei der Anzeige z.B. in Unternehmen online und der internen Verarbeitung im Rechenzentrum zusätzlich zum Originalbeleg in einer konvertierten Version gespeichert. 

Dabei werden auch für die konvertierten Belege interne eindeutige Nummern vergeben.

Seit gestern Abend ca. 21:00 Uhr wurden fehlerhafte Nummern vergeben, die zu logischen Fehlern in der Verarbeitungskette dieser konvertierten Belege führten. Das ganze war ein Nebeneffekt aus den Fehlerbeseitigungen der letzten Tage.

 

 

13:50 Uhr

 

erstmal ganz schnell Good News - es läuft wieder... 

Weiteres gleich...

 

12:00 Uhr

 

Es gibt leider noch keine gute Nachrichten für die Anzeige von Belegen in Unternehmen online.

Wir verfolgen aktuell verschiedene Stränge zur Behebung des Problems.

 

10:30 Uhr

 

Die Anzeige von neu hochgeladen Belegen in Unternehmen online steht leider noch nicht wieder zur Verfügung.

Das Hochladen von Belegen ist möglich und die Belege werden ordnungsgemäß gespeichert.

Auch das Digitale Belegbuchen in Rechnungswesen ist möglich. Dort können die Belege anzeigt werden.

 

 

8:33 Uhr

 

Aktuell stellt es sich so dar, dass die Belege im Original im Bestand vorhanden sind und auch im Digitalen Belegbuchen in Rechnungswesen angezeigt werden können. "Nur" die Anzeige in Unternehmen online ist aktuell zum Teil nicht möglich.

 

Meine Kollegen sind dran.

 

 

10.11.2021 8:15 Uhr

 

Aktuell erreichen uns Meldungen, dass heute hochgeladene Belege zum Teil nicht angezeigt werden können.

Wir schauen uns diese Fälle gerade mit Hochdruck an.

 

 

17:30 Uhr

 

Der heutige Nachmittag verlief zum Glück in etwas ruhigeren Bahnen 🍀

Ich hoffe auch, dass wir die allermeisten Einzelprobleme zwischenzeitlich klären konnten. Tausend Dank für Ihre Geduld und auch die gegenseitige Unterstützung 🙏

 

Zur Klärung mit dem Finanzamt haben wir das  Dokument 1022722 aktualisiert.

Außerdem informieren wir alle Kunden zusätzlich noch per DATEV-Mitteilung und E-Mail. Der Versand startet in Kürze.

 

Zum Abschluss der durchgeführten Maßnahmen im Rechenzentrum müssen wir heute Nacht dringende Wartungsarbeiten durchführen. Diese finden zwischen 22:00 Uhr und 2:00 Uhr statt. In diesem Zeitraum steht DATEV Unternehmen online nicht zur Verfügung.

 

Die angekündigte Wartung für den 14.11.2021 wird verschoben, damit Sie bei Bedarf das Wochenende für eventuelle Nacharbeiten nutzen können.

 

Das enge Monitoring setzten wir morgen auf jeden Fall noch fort.

 

 

14:00 Uhr

 

Aktuell kann ich vorsichtige Entwarnung geben. In den allermeisten Fällen sollte aktuell der Zugriff auf die Belege klappen.

Wir haben 25 Bestände, die wir heute Abend noch manuell korrigieren müssen. In den betroffenen Fällen können die Belege weder in Rechnungswesen noch in Unternehmen online angezeigt werden. Die betroffenen Kunden informieren wir individuell.

 

 

11:28 Uhr

 

Es kommt weiterhin bei einigen Kunden zu Performanceproblemen und Timeouts im Zusammenhang mit Belegen und bei der Nutzung von Unternehmen online.

Insgesamt läuft die Verarbeitung auch Hochtouren und wir stocken auch weiterhin noch Kapazitäten auf. Dies muss allerdings dosiert passieren, um die Verarbeitung im weiteren Bearbeitungsprozess sicherzustellen.

Bereits bis 11:00 Uhr wurden heute 2,5 Mio. Belege verarbeitet, was sonst dem Volumen eines ganzes Tages entspricht.

Von daher kann Sie aktuell nur um Geduld bitten 🙏

 

9:57 Uhr

 

Der Fehler von gestern konnte vollständig behoben werden.

 

Die aktuellen Probleme im Umfeld von Belege online stehen im Kontext der Aufholeffekte und dadurch entstehende Lastspitzen. Dafür wird aktuell weitere Rechnerleistung an verschiedenen Stellen im Bearbeitungsprozess zugeschaltet.

 

 

9:00 Uhr

 

Aktuell kommt es im Umfeld von Belege online und dem Abruf digitaler Belege in DATEV-Rechnungswesen zu Problemen. Wir sind gerade an der Klärung.

 

 

8:20 Uhr

 

Bislang laufen alle Verarbeitungen im Rechenzentrum störungsfrei.

 

 

09.11.2021 5:30 Uhr

 

Guten Morgen zusammen,

wir sitzen seit 5:00 Uhr wieder im Notfallstab.

Die Nachverarbeitungen heute Nacht verliefen fehlerfrei und wir starten mit zusätzlichen RZ-Kapazitäten in den heutigen Tag. 

 

Parallel dazu bereiten wir die Kommunikation heute morgen vor und klären, ob aus fachlicher Sicht noch irgendwas wichtig ist.

 

Bitte prüfen Sie auf jeden Fall in Ihrer RZ-Kommunikation, ob dort alle Aufträge verarbeitet sind.

 

 

23:48 Uhr

 

Good News

 

Der zusammen mit dem Hersteller erarbeitete Lösungsansatz greift nach aktuellem Stand. Die betroffene Datenbank konnte erfolgreich wiederhergestellt und in die Infrastruktur integriert werden. Es erfolgt nun eine kontrollierte Anlaufphase unter intensiver Beobachtung durch den Notfallstab. Die betroffenen Anwendungen stehen sukzessive wieder zur Verfügung. In erster Instanz werden nun bereits gesendete Aufträge und Daten nachverarbeitet.

 

21:04 Uhr

 

Hier nochmal ein Update aus dem Notfallstab:

 

Wir haben zusammen mit dem Hersteller erste Ansätze zur Fehlerbehebung gefunden. Diese werden aktuell geprüft und sind vielversprechend.
Sollte dies jedoch nicht funktionieren, müssen wir im absoluten Worstcase die Datenbanken in Produktion zurücksetzen. Ein vollständiges Recovery würde jedoch sehr viel Zeit in Anspruch nehmen.

 

In jedem Fall halten wir Sie hier auf dem Laufenden.

 

 

16:45 Uhr

 

Bis jetzt gibt es leider noch keine neuen Infos.

Nach aktuellem Stand rechne ich nicht damit, dass heute noch viel geht.

Parallel zur Fehlerbehebung zusammen mit dem Hersteller, analysieren wir aktuell bereits alle notwendigen Maßnahmen für den sauberen Wiederanlauf der Systeme.

 

Wenn's was Neues gibt, melde ich mich wieder.

 

 

13:10 Uhr

 

An der technischen Front sieht es leider noch nicht besser aus. Alle bisherigen Wiederherstellungsmaßnahmen waren nicht erfolgreich und wir benötigen Unterstützung durch den Hersteller.

Diese Unterstützung ist bereits angeleiert. Die Maßnahmen werden aber definitiv mehr Zeit in Anspruch nehmen.

 

Aktuell gehen wir davon aus, dass die Störung nicht im Laufe des Arbeitstages behoben werden kann.

 

Die Anzeige in der RZ-Status-App ist jetzt aktiv.

 

 

12:42 Uhr

 

Unter www.datev-status.de konnten wir die Anzeige endlich aktualisieren. In der RZ-Status-App leider noch nicht.

 

 

11:35 Uhr

 

Nach aktuellem Stand gehen wir davon aus, dass die Störung voraussichtlich frühestens um 15:00 Uhr behoben sein wird.

Es wird alles versucht, die Services so schnell wie möglich wieder herzustellen.

 

 

11:20 Uhr

 

Aktuell leider noch keine Änderung der Lage 😓

Die Kommunikation per Mail wird aktuell geprüft, weil die dazu notwendigen internen Systeme ebenfalls ausgefallen sind.

Eine Meldung auf datev.de würde einige Stunden dauern, bis die Seiten neu aufgebaut sind.

Ein Dokument für's Hilfe-Center wird gerade erstellt.

Twitter ist bereits in Arbeit.

Außerdem versuchen wir zumindest eine zentrale Meldung in den RZ-Status zu bekommen.

 

10:56 Uhr

 

Der RZ-Status läuft wieder, zeigt aktuell aber noch alte Daten an.

 

10:47 Uhr

 

Wir sind gerade auf der Suche nach Möglichkeiten für weitere Kommunikation und versuchen den RZ-Status wieder zum Laufen zu kriegen.

Analyse läuft weiter.

 

 

10:16 Uhr

 

Aktuell kommt es zu massiven Einschränkungen im DATEV-Rechenzentrum.

Auch der RZ-Status ist mit betroffen.

 

Die Analyse läuft mit Hochdruck.

 

Viele Grüße

Stefanie Herold

Wer hat bei diesem Thema „Ich auch“ angegeben