Update 30.05. - 16:37 Uhr
Hallo Community,
die Störung ist behoben. Der Service DATEVasp ist wieder uneingeschränkt verfügbar.
Der Ausfall ist auf einen Hardware-Defekt zurückzuführen. Warum unsere Redundanz-Systeme dies nicht aufgefangen haben, werden wir mit dem Hersteller nachgelagert analysieren.
------------------------------------------------------------------------------------------------------------------------------
Update 30.05. - 15:25 Uhr
Hallo Community,
bei den Nacharbeiten haben sich leider noch Komplikationen ergeben, so dass vereinzelt Störungen auftreten können. Wir rechnen mit einer vollständigen Entstörung voraussichtlich gegen 16.30 Uhr. Wir halten Sie hier weiter auf dem Laufenden.
------------------------------------------------------------------------------------------------------------------------------
Update 30.05. - 14:45 Uhr:
Liebe Community-Mitglieder,
gute Nachrichten. Der Großteil der Systeme konnte neu gestartet werden. Einige wenige Systeme werden innerhalb der nächsten Minuten neu gestartet. Wir rechnen mit einer kompletten Entstörung voraussichtlich ab 15:00 Uhr.
--------------------------------------------------------------------------------------------------------------------------------
Liebe Community-Mitglieder,
Aktuell kommt es zu Problemen bei DATEVasp. Die Kollegen arbeiten bereits an der Entstörung. Sobald weitere Erkenntnisse vorliegen, informieren ich Sie an dieser Stelle. Eine entsprechende Kommunikation erfolgt zeitnah auch über den RZ-Status.
Liebe Community-Mitglieder,
die Ursache der Störung konnte gefunden werden. Die betroffenen Systeme werden sukzessive neu gestartet und in ca. 1 Stunde wieder zur Verfügung stehen. Sofern dafür Benutzer abgemeldet werden müssen, erhalten diese eine Info vom System.
@Annett_Kraut schrieb:Liebe Community-Mitglieder,
die Ursache der Störung konnte gefunden werden.
Was war denn die "Ursache der Störung"? Dürfte einige bestimmt interessieren, oder?
Stunde rum.. Gibt es etwas Neues, kann es sein, dass wir immer noch nicht auf ASP kommen? Vielen Dank
Liebe Community-Mitglieder,
gute Nachrichten. Der Großteil der Systeme konnte neu gestartet werden. Einige wenige Systeme werden innerhalb der nächsten Minuten neu gestartet. Wir rechnen mit einer kompletten Entstörung voraussichtlich ab 15:00 Uhr.
Und wieder haben wir 2 parallele Threads, die DATEV mit den gleichen Informationen versorgen muss: DATEV ASP Down 30.05.2022 Seit 12:05
Ob das in Zukunft immer so sinnvoll ist, wenn wir Nutzer einen Thread aufmachen und DATEV dazu, hm. Halte ich für wenig zielführend und doppelte Arbeit.
Hallo Community,
bei den Nacharbeiten haben sich leider noch Komplikationen ergeben, so dass vereinzelt Störungen auftreten können. Wir rechnen mit einer vollständigen Entstörung voraussichtlich gegen 16.30 Uhr. Wir halten Sie hier weiter auf dem Laufenden.
@metalposaunist schrieb:
Ob das in Zukunft immer so sinnvoll ist, wenn wir Nutzer einen Thread aufmachen und DATEV dazu, hm.
Und welches war der erste, wenn beide Eingangspostings von 12:17 Uhr sind?
@Uwe_Lutz schrieb:
Und welches war der erste, wenn beide Eingangspostings von 12:17 Uhr sind?
Egal. Hauptsache 1 ist führend und der andere wird dicht gemacht, dass man dort nicht mehr antworten kann, dass nichts parallel laufen kann. Hatte ich schon mal gesagt. Hatte DATEV meine ich was dagegen.
Hallo @metalposaunist,
Sie haben natürlich vollkommen recht, zwei Threads machen nicht so viel Sinn. Wir wollten die Diskussion im anderen Thread nicht unterbrechen und haben ihn daher zunächst offen gelassen. Wir haben uns nun entschieden, diesen zu schließen und nur noch hier zu informieren.
Hallo Community,
die Störung ist behoben. Der Service DATEVasp ist wieder uneingeschränkt verfügbar.
Der Ausfall ist auf einen Hardware-Defekt zurückzuführen. Warum unsere Redundanz-Systeme dies nicht aufgefangen haben, werden wir mit dem Hersteller nachgelagert analysieren.
die Computer-Bugs gehören jedenfalls nicht zu den vom Aussterben bedrohten Tierarten 😎
Hallo zusammen,
gibt es heute wieder Probleme?
Einer unser ASP-Mandanten hat (noch immer) Probleme mit dem Zahlungsverkehr, gestern auch ein anderer....... Weiß jemand was (@DATEV?)?
Viele Grüße
Anja Busse
Hallo @anjabusse ,
aktuell sind keine weiteren Problemstellungen bekannt. Ich melde mich gleich bei Ihnen nochmals persönlich. Sollte sich an dem Status etwas ändern, informiere ich an dieser Stelle.
Moin Moin
Spekulativ, ja ... aber:
Wenn das (die?) redundanten Systeme auch ausfallen, bedeutet dies, sie war(en) für den gleichen Fehler anfällig.
Also Firmware der Chips/Karten oder richtiger Hardware-Bug - und immer die gleiche Hardware (also die gleichen Modelle).
Es zeigt (wie gesagt spekulativ, weil halt nur wenig Info von der Datev), Hardwarefehler, die nicht aus zufälligen Ereignissen resultieren, können die gleiche Wirkung, wie identische konfigurierte (also gespiegelte) Softwaresysteme haben.
Lösung ist da immer: Diversifikation.
In der Hoffnung, einen kleinen Beitrag zu mehr Stabilität zu stiften
QJ
@quantenjoe schrieb:Wenn das (die?) redundanten Systeme auch ausfallen, bedeutet dies, sie war(en) für den gleichen Fehler anfällig.
Also Firmware der Chips/Karten oder richtiger Hardware-Bug - und immer die gleiche Hardware (also die gleichen Modelle).
Es zeigt (wie gesagt spekulativ, weil halt nur wenig Info von der Datev), Hardwarefehler, die nicht aus zufälligen Ereignissen resultieren, können die gleiche Wirkung, wie identische konfigurierte (also gespiegelte) Softwaresysteme haben.
Das selbst redundante Systeme "ausfallen" (im nachfolgenden Beispiel beim Rebuild) ist ja erst vor kurzem geschehen.
https://www.heise.de/news/Hetzner-Festplattenausfall-sorgt-fuer-Cloud-Datenverlust-von-1500-Snapshots-6693181.html
By the way: In Nürnberg.
Dabei sage ich ganz deutlich was mich auch hier stört: "Systeme neu gestartet" ist mitnichten eine befriedigende Auskunft ob des ursächlichen Problems, eher ein Zeichen von Intransparenz.
Aber auch da ist man wohl wie Hetzner (aus Nürnberg): "Auf Missfallen stieß im Netz, dass dieser Vorfall unzureichend vom Unternehmen nach Außen kommuniziert worden sei. Die Statusseite des Anbieters gab keine Informationen über den Datenverlust."
Das kommt mir irgendwie bekannt vor und ohne Community keine (zeitnahen) Informationen.
Merci für nichts und so.
Citrix ADC/ Gateway oder Delivery Controller im HA Verbund aktualisiert und abgeraucht? Kamen ja erst kürzlich Updates heraus für 12.1, 13.0 und 13.1
Solch eine Geheimninkrämerei führt nur Spekulationen und schlussendlich zu Misstrauen für den gesamten DATEV Apparat. Denkt mal drüber nach….
Ich meine man könnte durchaus transparenter damit umgehen. Von mir aus auch in einem für Mitglieder geschützten Bereich, wenn die Infos zu brisant sind. Wenn bei DATEV eine Fehlerkultur existiert kann das vielleicht auch für andere uns. Insbesondere für eure Mitglieder ganz hilfreich sein, welche auch Technologien wie Citrix einsetzen. Wir kochen auch nur mit Wasser
@Annett_Kraut die Infos mit Statusverlauf, finde ich gut, sofern die Störungen hier aufschlagen
@AW- schrieb:Citrix ADC/ Gateway oder Delivery Controller im HA Verbund aktualisiert und abgeraucht? Kamen ja erst kürzlich Updates heraus für 12.1, 13.0 und 13.1
Solch eine Geheimninkrämerei führt nur Spekulationen und schlussendlich zu Misstrauen für den gesamten DATEV Apparat. Denkt mal drüber nach….
DATEV-Kommunikationspolitik eben...
Dazu gäbe es dann leider diverse weitere Beispiele...und wenn es nur ein Bug im Setzen eines Datums des 1.10.22 ist....
Glücklicherweise gibt's diese Community......man stelle sich vor, man müsste dafür nen SK aufmachen....
Liebe Community-Mitglieder,
bitte haben Sie Verständnis, dass die Ursachenforschung und das Ableiten gesicherter Erkenntnisse nicht immer ganz trivial ist und einige Zeit in Anspruch nehmen kann. Sobald mir die Fakten vorliegen, werden wir diese hier kommunizieren.
@AW- & @spawngebob: Und was bringt uns das, wenn wir den Grund wissen 🤔? Nichts, weil wir nichts tun können. DATEV wird dann intern die Prozesse schärfen und beteuern, dass man drauf und dran ist, solche Ausfälle bestmöglich zu vermeiden. That's all. Wie in jedem anderen Cloud Unternehmen auch. Da ist DATEV sicher nicht besser als Microsoft, personio oder slack.
Fakt ist aber: Je mehr sich solche Ausfälle häufen, umso mehr macht man sich / ich mir Gedanken um einen Alternativanbieter. Und je mehr Impact solche Ausfälle haben, umso größer wird der Schaden, der asap behoben werden muss.
Würde MS Teams so oft und teils stundenlang ausfallen, überlegt man sich doch: Ist slack da vielleicht besser aufgestellt?
@metalposaunist ich habe das lediglich als ein Beispiel von vielen für die DATEV-Kommunikationspolitik aufgefasst...
Immerhin gab es dazu ja schließlich auch 2 Threads....
Und da kann man @AW- ja nur bestätigen...
Aber golem.de nach zu urteilen, tritt DATEV wirklich sehr professionell auf 👍. Vielen Dank schon mal vorab @Stefanie_Herold für die Übernahme des Kommunikationsparts!
Krisenkommunikation: Wenn aus Hektik Ohnmacht und Wut wird
Bei allem, wie man's nach golem.de machen sollte, kann ich DATEV klar und deutlich wieder erkennen 😊.
Also an dieser Stelle ein Lob 👏 an die DATEV !
@metalposaunist , die Zeiten sind schon lange vorbei....
"Der Administrator steht noch nichts Böses ahnend an der Kaffeemaschine, in der Erwartung eines ganz normalen Arbeitstages. Im Support klingelt unterdessen verdächtig oft das Telefon."
Aber wenn Artikel schon so losgehen.....
Anbei nun der detaillierte Ursachenbericht zur Störung vom vergangenen Montag:
Ursächlich für die aufgetretenen Beeinträchtigungen bei DATEVasp war ein Hardwaredefekt einer eingesetzten Netzwerkkomponente (I/O-Modul) in der zentralen DATEVasp-Infrastruktur. Dieser Defekt führte dazu, dass die betroffenen virtuellen Maschinen entweder gestoppt waren oder sich in einem inkonsistenten Zustand befanden. Der vorgesehene Redundanzmechanismus (=redundante Anbindung über das zweite I/O-Modul) hat in diesem Moment nicht fehlerfrei funktioniert, sodass die einzelnen Kundensysteme kontrolliert neu gestartet werden mussten und erst sukzessive wieder zur Anmeldung bereitstanden.
Das betroffene Hardwarebauteil wurde im Rahmen der Entstörung komplett isoliert und dem Hersteller zur weiterführenden Analyse zur Verfügung gestellt. Zudem erfolgt zusammen mit dem Hersteller eine Aufarbeitung, warum der Redundanzmechanismus fehlgeschlagen ist. Entsprechende Log-Dateien wurden dafür dem Hersteller zur Verfügung gestellt. Die Analyse wird entsprechend Zeit in Anspruch nehmen.
Sollten darüber hinaus noch Fragen Ihrerseits offen sein, können Sie mir gerne eine persönliche Nachricht schicken.
Vielen Dank für den Ursachenbericht, Herr Popp!
Wenn die redundante Komponente tatsächlich unabhängig fehlerhaft arbeitete, ist das (hoffentlich nur großes Pech). Ich gestehe, ich bin neugierig auf das Ergebnis der Untersuchung.
Jedenfalls empfinde ich es als angenehm, einen solchen Bericht relativ zeitnah zu erhalten, sozusagen "mitgenommen".👍
QJ