Update Sonntag 21.06. 11:00 Uhr Rückbau erfolgreich abgeschlossen
Der Rückbau des Großrechners gestern verlief problemlos und wurde gestern Abend gegen 22:30 Uhr abgeschlossen. Alle Hardwaretests und auch die Nachtests der Anwendungen waren ohne Auffälligkeiten.
Wir beobachten die Systeme natürlich weiterhin intensiv und starten mit bewährter Technik in die Lohnabrechnungswoche.
Wie es insgesamt mit den Thema weitergeht, werden wir in den nächsten Wochen bewerten.
Viele Grüße und einen schönen Sonntag ☀️
Stefanie Herold
Update Freitag 19.06. 18:30 Uhr
Hallo liebe Community,
ich trau es mich kaum zu sagen…
Bis gestern Abend lief unser neuer Großrechner komplett störungsfrei. Bei einem völlig normalen Wartungs-IPL – vergleichbar mit einem Reboot an einem PC – konnte das System - auch zusammen mit dem Hersteller - nicht mehr aktiviert werden.
Zur Absicherung des heutigen Betriebs wurden noch heute Nacht die Ressourcen der Redundanzsysteme entsprechend aufgestockt. So haben wir den Tag gut überstanden und unser Redundanzkonzept hat gut funktioniert.
Da es noch keine Klarheit darüber gibt, wie der Fehler ausgeschlossen werden kann, werden wir, wenn es bis morgen früh keine bahnbrechenden neuen Erkenntnisse gibt, den kompletten Großrechner morgen wieder auf den alten Stand von vor dem Umbau letztes Wochenende zurückbauen.
Der Umbau wird auch dieses Wochenende selbstverständlich wieder mit umfangreichen Nachtests und hoher Sensibilität im Monitoring auch in den nächsten Tagen begleitet.
Der Rückbau startet morgen früh und wird am späten Abend abgeschlossen sein. Wenn alles läuft wie geplant, sollten Sie mit Ausnahme weniger kurzer Momente voraussichtlich zwischen 19:00 und 21:00 Uhr während der Rückverlagerung der Workload nichts davon merken.
Ich informiere Sie, wenn’s was Neues gibt.
VG Stefanie Herold
Zwischenfazit Sonntag 17:00 Uhr
Hier ein Zwischenfazit unserer Umbauarbeiten im Rechenzentrum:
Wir hatten beim Umbau eines unserer Großrechner am gestrigen Samstag ein paar Hürden zu nehmen, die leider auch zu einem rund 3-stündigen Komplettausfall der Online-Anwendungen und RZ-Verbindungen geführt haben.
Nochmal vielen Dank für die Hinweise, die Sie uns hier in der Community gegeben haben.
Der Umbau an sich konnte mit zwischenzeitlicher Verzögerung trotzdem am späten Abend wie geplant abgeschlossen werden. Alle Nachtests und auch heute im laufenden Betrieb zeigen bisher keine Auffälligkeiten. Auch morgen verfolgen wir das Geschehen im Monitoring und auch an unseren Service-Hotlines und in der Community natürlich noch mit höchster Sensibilität weiter.
Besonders ärgerlich für Sie - und auch uns - waren die erneuten Probleme mit der Anzeige der Störungen im RZ-Status. Hierfür bitten ich und meine Kollegen Sie nochmal um Entschuldigung.
Ein Zeitverzug von eineinhalb Stunden entspricht auch nicht unserem Anspruch an die Zuverlässigkeit dieses Info-Kanals. Es wurden zwar in den vergangen Monaten bereits einige Maßnahmen zur Betriebsstabilität des RZ-Status umgesetzt, diese reichen aber offensichtlich bei weitem noch nicht aus.
Für die Interessierten unter Ihnen hier noch ein paar Details (in meinen laienhaften Worten ;-)), was konkret die Störung ausgelöst hat:
Wie in jedem Großrechnerverbund gibt es auch bei uns Verwaltungsrechner, die für die Verwaltung und die Kommunikation der Großrechner untereinander verantwortlich sind und die Datenströme zwischen den Rechnern und Rechnerstandorten steuern. Diese Verwaltungsrechner sind über eine Vielzahl von Netzwerkkarten und physischen Leitungen jeweils mehrfach mit den Großrechnern verbunden und nach den Redundanz-Empfehlungen des Herstellers aufgebaut.
Gestern ist eine der Netzwerkkarten des neu installierten Großrechners, trotz umfangreicher QS-Maßnahmen des Herstellers, ausgefallen und hat dabei die Datenstruktur auf dem Verwaltungsrechner derart beschädigt, dass diese nach der erstmal notfallmäßigen Deaktivierung der defekten Karte, komplett wiederhergestellt werden musste.
Der Hardwaredefekt der Karte ist nach aktuellen Erkenntnissen der Auslöser des Ausfalls. Warum in Folge auch der komplette Verwaltungsrechner in Mitleidenschaft gezogen wurde und die in Abstimmung mit dem Hersteller implementierten Redundanz-Konzepte nicht funktioniert haben, wird mit höchster Priorität mit dem Hersteller geklärt. Wichtig ist dabei vor allem die Frage was getan werden muss, um dieses Systemverhalten künftig auszuschließen.
Ein abschließendes Fazit werden wir erst in ein paar Tagen ziehen, wenn sich das System auch im Normalbetrieb bewährt hat.
Sollten Sie Auffälligkeiten feststellen, melden Sie sich gerne hier in der Community, damit wir dem möglichst schnell nachgehen können.
Vielen Dank schon mal und einen guten Start in die Woche
VG Stefanie Herold
Update Sonntag 13:00 Uhr
Der Umbau konnte gestern noch "erfolgreich" abgeschlossen werden. Alle Nachtests und auch die Tests im heutigen laufenden Betrieb zeigen erfreulicherweise bisher keine Auffälligkeiten.
Eine Zusammenfassung, insbesondere auch zur Störung gestern, folgt noch.
Update Samstag 18:20 Uhr
Und auch die Eilverarbeitung ist durch. Damit stehen nun wirklich wieder alle Anwendungen uneingeschränkt zur Verfügung.
Die eigentlichen Umbauarbeiten an einem unserer Großrechner schreiten weiter planmäßig voran.
Update Samstag 18:15 Uhr
Die LODAS Probeabrechnung läuft auch wieder.
Die Eilverarbeitung dauert noch. Es müssen noch alle offenen Aufträge aus der Störungszeit nachverarbeitet werden.
Update Samstag 16:50 Uhr
LODAS Probeabrechnung und LODAS Eilverarbeitung laufen leider noch nicht wieder stabil.
Update Samstag 16:30 Uhr
Der Fehler ist behoben und alle Anwendungen stehen wieder zur Verfügung.
Update Samstag 15:00 Uhr
Aktuell haben wir eine Störung an einem unserer "Verwaltungsgroßrechner". Nach aktuellem Stand stehen die Online-Anwendungen und auch der Internet-Zugang ins RZ nicht oder nur eingeschränkt zur Verfügung.
Meine Kollegen kümmert sich bereits darum.
Wenn ich mehr weiß, melde ich mich natürlich.
Der RZ-Status ist bereits aktiviert und braucht noch ein paar Minuten bis zur Anzeige im web und in der App
VG Stefanie Herold
_______________________________________________________________________________________________________________________
Hallo Community,
es ist soweit. Morgen startet der erneute Umbau eines unserer Großrechner auf die neueste Technologie.
Gestern konnten auch die letzten Vorabtests erfolgreich abgeschlossen werden, so dass nun dem erneuten Umbau nichts im Wege steht.
Wenn alles läuft wie geplant, werden Sie von dem Umbau nichts merken.
Nach dem fehlgeschlagenen Umbau Anfang März wurde akribisch eine Vielzahl von zusätzlichen Vorbereitungs- und Absicherungsmaßnahmen getroffen. Auch die Nachtests und das Monitoring, bei denen die Probleme Anfang März nicht aufgefallen waren, wurden nochmal massiv erweitert.
Alle Kollegen und auch der Hersteller sind am Wochenende direkt vor Ort (natürlich mit ausreichend Abstand ;-)) und beobachten die Systeme mit höchster Sensibilität. Alle Fachanwendungen sind in Rufbereitschaft. Auch am Montag, wenn wir dann wieder echte produktive Last auf den Systemen haben, wird das intensive Monitoring natürlich noch fortgesetzt.
Meine Kollegen im Rechenzentrum fühlen sich bestens für alle Eventualitäten vorbereitet und gehen davon aus, dass alles glatt geht.
Ich wünsche Ihnen allen ein wunderschönes Sommer-Wochenende ☀️
Viele Grüße aus Nürnberg 🙂
Stefanie Herold
Liebe Frau Herold,
vor allem Ihnen wünsche ich dass dies alles reibungslos abläuft.
Ausbaden müssen Sie es ja sonst wieder.
Auf das die Umstellung reibungslos funktioniert wünsche ich Ihnen - so der IT Gott will- ein schönes Wochenende.
Hallo Frau Herold,
ich drücke die Daumen (Ihnen und uns allen), dass alles klappt!
Vielen Dank an Sie und Ihr Team für Ihren Einsatz.
Beste Grüße
Heike Jähne
... habe es nicht mehr so genau in Erinnerung ...
wurde der 'fehlgeschlagene Umbau' eigentlich rückgängig gemacht oder war der "point of no return" bereits überschritten ?
... oder anders gefragt:
Ist es die Wiederholung eines Umbaus oder ein neuer Umbau ?
Good luck 🤞 & danke für die Info, damit wir nicht gleich am MO meckern müssen - falls es doch nicht wie geplant läuft! 😊
Der Umbau wurde damals komplett rückgängig gemacht.
In der Zwischenzeit haben zusammen mit dem Hersteller soweit möglich bereits einige Vorarbeiten stattgefunden.
Morgen geht es jetzt sozusagen an Herz und Lunge 🍀
VG
Hallo @Stefanie_Herold,
ich wünsche viel Erfolg und (sorry, Berufskrankheit IT-Auditor 😉 ) gut funktionierende Kontrollen, Backups und Notfallkonzepte. 🙂
Viele Grüße, Bernd Wettstein.
Na dann hoffentlich ohne die Herz Lungen Maschine
Nicht das es hinterher heißt: Operation erfolgreich, Patient TOT ...
Viele Erfolg !
UO kann zumindest ich derzeit nicht erreichen.
Danke für den Hinweis.
Wir schauen uns das gleich an.
VG Stefanie Herold
Ich kann das RZ derzeit nicht erreichen.
Lass jetzt mal den Funktionstest laufen.
(ESt Datei)
Es bleibt beim Fehler . Hänge mal den Funktionstest an
DUO: Bei mir genau so. Vor ca. 30 Minuten Server-Fehler Fehlercode 502 (Bad Gateway Error). Seitdem unverändert.
Bestätigt. UO via SmartLogin, MS Edge 2020, VDSL100 1und1 nicht erreichbar. Zum Glück konnte ich heute noch die SR herunterladen, die seit dem 16.05 bei mir auch nicht mehr automatisch liefen ...
Wenn es am MO wieder läuft, sollte das ja ausreichen 😊. Nur dann bitte wirklich, dass nicht alle Mandaten bei den Mitarbeitern und bei uns in der IT anrufen 😁.
Danke für Ihre Hinweise.
Es gibt aktuell ein Problem an einem der „Verwaltungsgroßrechner“, was die Kollegen mit dem Hersteller bereits analysieren.
RZ-Status kommt gleich.
VG Stefanie Herold
Habe es jetzt gerade noch direkt auf dem Server via RDP probiert. Gleiches Problem.
Gestern abend Stand 18.15 ging noch alles. Dann updates gefahren ( datev 15.5 + Lodas 12.6 usw.)
Jetzt hängt die DFÜ.
Ihr Wort in Gottes Ohr.
P.s. da ich meinen Beitrag schon wieder nicht mehr ändern kann:
Internet geht ganz normal.
Aber der Aufbau zum RZ geht nicht mehr, muss daher im Gegensatz zum Fehlerprotkoll in Nürnberg liegen.
Hallo Frau Herold,
hallo liebe Mitstreiter,
dann brauch ich mich ja nicht wundern, wenn
- MyDATEV Mandantenregistrierung und
- Meine Steuern - Kanzleisicht öffnen sowie
- DATEV Upload mobil
nicht funktioniert, weil die Seite nicht erreicht werden kann...
... ich drück die Daumen, dass alles klappt.
Und immer dran denken:
Wenn etwas schief gehen kann, wird es auch schief gehen (murphy's law).
Wenn du denkst, Du hast alle Vorkehrungen und Sicherheitsmaßnahmen getroffen und es eigentlich nicht mehr schief gehen kann, geht's trotzdem schief (erste Ableitung murphy's law)
Frau Herold, ich empfehle Ihnen das Büchlein "Murphy's gemeinste Computer-Gesetze". Die hatte ich zu meiner Studienzeit immer greifbar, als ich in Nürnberg bei meinen studentischen Nebenjobs in der DATEV IV - Techn. Anwendersupport Rechnungswesen - second level Hotline die Eskalations-Fälle zu bearbeiten hatte.
Vielleicht entdecke ich ja das eine oder andere Zitat in diesem Beitrag wieder... ich will's zwar nicht hoffen, aber Sie wissen ja: Murphy schlägt unerbittlich zu... 🙂
Good luck,
auch die schlimmsten Umstellungen sind irgendwann mal bewältigt!
Was ich nicht verstehe, warum ist im RZ-Status (seit mind. 1 Stunde) alles OK?
Und ich fummle in der Kanzlei wegen RZ-Komm..... Ich verstehe es nicht.... Einfach im Status melden, daß es evtl. Störungen gibt....DAFÜR ist das Ding da!
@rganter schrieb:Was ich nicht verstehe, warum ist im RZ-Status (seit mind. 1 Stunde) alles OK?
Hat doch @Stefanie_Herold geschrieben: "RZ-Status kommt gleich", Post #17. Ja, scheinbar werden die Stati von Hand gepflegt und dahinter steckt keine Überwachung, die in regelmäßigen Abständen prüft, ob eine zentrale Komponente erreichbar ist und wenn keine Antwort innerhalb von 5min erfolgt, automatisch den RZ-Status auf "nicht erreichbar" setzt.
Das ist aber aktuell eine andere zu klärende Frage.
Was mir mehr Sorgen macht: Hier in der Community wurde es angekündigt - wir wussten Bescheid. Aber wurde das auch größer angekündigt? DATEV Mitteilungen, E-Mail und Co.? Auch wenn wir davon nichts mitbekommen würden, werden dann viele wie Sie @rganter verständlicherweise reagieren.
Bestätigt.
Bevor ich bei mir gesucht habe, habe ich auch erstmal im Status nachgesehen.
Aber auch das ist ein leidiges altes Thema immer zuerst auf die Konfig in der Kanzlei schieben bevor ein Fehler vom RZ gemeldet wird. Ich möchte nicht wissen wie oft ich hier schon in der Kanzlei gesucht habe obwohl der Fehler nicht hier lag.
Oberschräg... schau mal unter "Geplante Wartungsarbeiten"... da steht nichts......
Ich mach also eine "MEGA-Umstellung" und sehe dies nicht als "Wartung"......
Ich versteh die DATEV bezüglich "RZ-Status" schon lange nicht mehr..... 😞
@bodensee schrieb:Ich möchte nicht wissen wie oft ich hier schon in der Kanzlei gesucht habe obwohl der Fehler nicht hier lag.
Für's nächste Mal: keep cool 😎. Wenn Sie zu 100% nichts an der Kanzleikonfiguration geändert haben, würde ich nunmehr einfach mal abwarten, ob das RZ sich nicht doch noch meldet. Und ab und zu kann man ja aus den Fehlern lesen, wo nun der Fehler liegen könnte: intern oder extern.
DATEVasp läuft 😀. Aber ein bisschen mulmig ist mir schon gleich bei einer Kanzlei die aktuellen SR zu installieren.
Der RZ-Status ist bereits geschalten und braucht noch ein paar Minuten bis zur Anzeige im web und in der App.
Das mache ich meistens so.
Nur wenn der RZ störungsfrei sein soll, obwohl ich von Frau Herold ja weiss dass die umstellung heute gemacht wird und ich dann als fehler meine Fehler bekomme, Probleme bei der Smartcard ??? obwohl grün, probleme beim Aufbau Tunnel am Tunnelausgang kommt man und manchmal auch ich ins Zweifel .
Updates hätten ja auch etwas zerschießen können.
Die Fehlermeldungen sollten dringendst geändert werden, das moniere ich aber schon seit Jahren, schon bevor es den RZ Status überhaupt gab.
RZ Status Stand 15.09 das RZ arbeitet störungsfrei.
@metalposaunist , wissen oder glauben Sie das die app von Hand gewartet wird. Ich glaube ja im Zweifel viel aber das halt ich für unmöglich.
Ich bin mir fast sicher das sowohl die Fehlermeldungen als auch der RZ Status 'politisch' programmiert sind.
Im Zweifel erstmal an die eigene Nase fassen ob das wiederum im Sinne der Genossenschaft ist ? Sei dahingestellt ? Ich bezweifle es.
Bin dennoch glücklich wenn am Mo wieder alles funktioniert.
Aufträge werden dann eben erst am Mo übermittelt.
@rganterEigentlich hätten Sie auch gar nix davon merken sollen 😞
Deshalb keine Wartung...
Erste Meldung hier so um ca 14 Uhr.
Stand 15.18 RZ Status ist störungsfrei !
Soviel dazu.
Dennoch gutes gelingen heute.