@Michael-Renzund auch alle anderen
Ich sitze gerade schon an einer Zusammenfassung, in der ich Ihnen gerne auch zur Störung ein paar Details liefern möchte (die ich gerade selber noch wenigstens halbwegs verstehen muss ;-)).
Vorab kann ich aber schon so viel sagen, dass der Umbau "erfolgreich" abgeschlossen werden konnte. Alle Nachtests und auch jetzt im laufenden Betrieb zeigen erfreulicherweise bisher keinerlei Auffälligkeiten 🙂
D.h. Sie können gerne alle loslegen und den neuen Großrechner auch heute schon ordentlich fordern.
Wir monitoren natürlich heute den ganzen Tag und auch morgen noch intensiv weiter.
Die Zusammenfassung gibt's dann heute Abend, wenn ich den Input zusammen habe.
Bis dann und VG
Stefanie Herold
Hallo Frau @Stefanie_Herold ,
Sie machen das einfach klasse!! Danke.
Und ich hoffe, Sie haben trotzdem einen schönen Sonntag - auch wenn ich schon wieder genervt hab!
Und jetzt hät' ich´s beinah vergessen, ausdrücklich zu schreiben!
HERZLICHEN DANK an das RZ-Team, das sich mal wieder ein Wochenende um die Ohren schlägt, um uns den Betrieb unter der Woche ungestört zu ermöglichen. Good Luck - auch weiterhin!
Den Ehrgeiz schneller zu sein als die Community hab ich irgendwann aufgegeben 😉
Das Ziel, schnell und transparent zu kommunizieren, verfolge ich trotzdem weiter und vielleicht gelingt es mir ja doch noch irgendwann 😂
Zwischenfazit Sonntag 17:00 Uhr
Hier ein Zwischenfazit unserer Umbauarbeiten im Rechenzentrum:
Wir hatten beim Umbau eines unserer Großrechner am gestrigen Samstag ein paar Hürden zu nehmen, die leider auch zu einem rund 3-stündigen Komplettausfall der Online-Anwendungen und RZ-Verbindungen geführt haben.
Nochmal vielen Dank für die Hinweise, die Sie uns hier in der Community gegeben haben.
Der Umbau an sich konnte mit zwischenzeitlicher Verzögerung trotzdem am späten Abend wie geplant abgeschlossen werden. Alle Nachtests und auch heute im laufenden Betrieb zeigen bisher erfreulicherweise keine Auffälligkeiten. Auch morgen verfolgen wir das Geschehen im Monitoring und auch an unseren Service-Hotlines und in der Community natürlich noch mit höchster Sensibilität weiter.
Besonders ärgerlich für Sie - und auch uns - waren die erneuten Probleme mit der Anzeige der Störungen im RZ-Status. Hierfür bitten ich und meine Kollegen Sie nochmal um Entschuldigung 😔
Ein Zeitverzug von eineinhalb Stunden entspricht auch nicht unserem Anspruch an die Zuverlässigkeit dieses Info-Kanals. Es wurden zwar in den vergangen Monaten bereits einige Maßnahmen zur Betriebsstabilität des RZ-Status umgesetzt, diese reichen aber offensichtlich bei weitem noch nicht aus.
Für die Interessierten unter Ihnen hier noch ein paar Details (in meinen laienhaften Worten ;-)), was konkret die Störung ausgelöst hat:
Wie in jedem Großrechnerverbund gibt es auch bei uns Verwaltungsrechner, die für die Verwaltung und die Kommunikation der Großrechner untereinander verantwortlich sind und die Datenströme zwischen den Rechnern und Rechnerstandorten steuern. Diese Verwaltungsrechner sind über eine Vielzahl von Netzwerkkarten und physischen Leitungen jeweils mehrfach mit den Großrechnern verbunden und nach den Redundanz-Empfehlungen des Herstellers aufgebaut.
Gestern ist eine der Netzwerkkarten des neu installierten Großrechners, trotz umfangreicher QS-Maßnahmen des Herstellers, ausgefallen und hat dabei die Datenstruktur auf dem Verwaltungsrechner derart beschädigt, dass diese nach der erstmal notfallmäßigen Deaktivierung der defekten Karte, komplett wiederhergestellt werden musste.
Der Hardwaredefekt der Karte ist nach aktuellen Erkenntnissen der Auslöser des Ausfalls. Warum in Folge auch der komplette Verwaltungsrechner in Mitleidenschaft gezogen wurde und die in Abstimmung mit dem Hersteller implementierten Redundanz-Konzepte nicht funktioniert haben, wird mit höchster Priorität mit dem Hersteller geklärt. Wichtig ist dabei vor allem die Frage was getan werden muss, um dieses Systemverhalten künftig auszuschließen.
Ein abschließendes Fazit werden wir erst in ein paar Tagen ziehen, wenn sich das System auch im Normalbetrieb bewährt hat.
Sollten Sie Auffälligkeiten feststellen, melden Sie sich gerne hier in der Community, damit wir dem möglichst schnell nachgehen können.
Vielen Dank schon mal und einen guten Start in die Woche 🙂
VG Stefanie Herold
Guten Abend Frau Herold,
effektiv war die Verzögerung zwischen Auftreten und Kommunikation im RZ-Status ärgerlich. Automatisch sucht man natürlich den Fehler zuerst im eigenen Haus. Die Hinweise in der RZ-Kommunikation waren hier leider auch nicht eindeutig. Angezeigt wurde ein Smartcard-Fehler. So geht dann mal schnell eine Stunde für die Fehleranalyse ins Land......
Nun ja, Ende gut, alles gut. Und für die Zukunft gibt es dann den von Ihnen vorgeschlagenen verbesserten RZ-Status. Step by Step.
Freundliche Grüße!
Ralph Geiler
@Stefanie_Herold: Vielen Dank für das Feedback und die Einblicke ins DATEV RZ 👍.
Was mich jedoch als Techniker stutzig macht oder ggf. hier nur nicht genau beschrieben wurde: Beim 1. Anlauf der Installation teilte uns Prof. Dr. @Peter_Krug mit, dass es am neuen Großrechner einen Hardwaredefekt (siehe HIER) gab und auch Sie schreiben jetzt, dass eine Netzwerkkarte dahergeflogen ist und alles strubbelig machte 🤔.
Für mich ist das 2x DOA (Dead On Arrival) 😶. Also entweder war die Technik "früher" besser oder Sie hatten tatsächlich 2x Pech oder was anderes ist da der Grund. 🤞, dass das jetzt stabil läuft und dass das nicht die ersten Anzeichen waren, dass da noch mehr Ausfälle folgen.
Möglich halte ich mittlerweile für alles, weil es auch in Fujitsu Servern einfach mal ohne Grund den RAID-Controller der TX300 S8 Serie daherhaut und Fujitsu Partnern sagt wird "Fehler sei unbekannt" 🙄. Sicherlich, wenn man min. 3x exakt 1:1 den gleichen Fehler an 3 Servern der gleichen Serie hatte - schon klar 🤐.
Genau das gilt es mit dem Hersteller zu analysieren 👍
Es waren unterschiedliche Komponenten betroffen. Das würde hier aber zu weit führen und ich müsste mich erst noch zum Netzwerktechniker weiterbilden, um das auch nur halbwegs richtig erklären zu können 😉
Die Probleme vom letzten Mal sind gestern aber glücklicherweise nicht aufgetreten.
VG und einen schönen Abend
Stefanie Herold
Hallo Frau @Stefanie_Herold ,
es sind zwar (bisher) erfreuliche Nachrichten vom Schauplatz "Umbau eines Großrechners", aber ich frage mich, warum die technische Begründung für die Störungen über Sie übermittelt werden und nicht z.B. durch Weiterleitung eines Original-Kommentars eines Technikers oder Administrators.
Die tatsächlichen Gründe sind natürlich in der IT-Fachsprache für 'Normalsterbliche' schwer zu verstehen, aber hier in der Community gibt es Viele, die damit etwas anfangen können und es evtl. noch in 'normales' Deutsch übersetzen könnten.
Die Erklärung, dass eine einzelne Netzwerkkarte für so viele Fehler und Probleme sorgen kann, ist für mich etwas zu 'simpel' und wäre zugleich schockierend.
Dass ein kleines Bauteil einen Großrechner und den gesamten Datenverkehr lahmlegen kann, stärkt nicht gerade mein Vertrauen in die Hochverfügbarkeit und Zuverlässigkeit von Online-Anwendungen.
Liebe Frau @Stefanie_Herold ,
herzlichsten Dank für Ihre Kommunikation hier. Auch wenn ich diese erst nach allen Arbeiten gelesen habe.
(ich wollte mich nicht schon live aufregen, sondern "nur" wissen, ob alles läuft.)
So wünsche ich mir eigentlich die Kommunikation von Fehlern. Auch wenn jetzt nicht jeder Netzwerkkartentausch am Arbeitsplatzrechner des Hausmeisters so begleitet werden muss, so würde ich mich aber über eine solch transparente Begleitung bei allen Fehlern im Produktiven Bereich (RZ usw.) freuen.
Weiter so, bei der Kommunikation und bei der Modernisierung des RZ.
Guten Start in die Woche wünscht
Olaf Stein
kleine Teile können leider oft da Große Ganze durcheinander bringen.
einfaches Beispiel Steuergerät beim modernen PKW. Hat das einen Schlag weg, fährt das komplexe Gebilde KFZ nicht mehr richtig oder bleibt einfach stehen. Sch..... Elektronik schimpft man dann und kommt trotzdem nicht an.
Ich bin keine Techniker, aber mir erklärt es sich so: wenn die Karte nicht richtig eingebunden ist, z.B. die verkehrte Adresse der Karte aufgezeichnet wird, funkt es einfach nicht.
So ähnlich, als wenn man auf einem Kongress das falsche Namensschild und damit auch eine andere Funktion bekommt, diese aber nicht ausführt und auch nicht auf den Namen am Schild hört.
Dann scheint es so, als ob der Typ da ist, aber nicht reagiert. Und man selbst kommt nirgends rein, weil man nicht registriert ist.
Wenn dann die Karte auch noch für die Verwaltung zuständig ist, also der Typ mit dem falschen Schild die richtigen Infos nicht schreiben darf, weil er offiziell nicht da ist, dann geht die Verwaltung halt daneben.
Auch wenn man Versucht redundant zu arbeiten, so vermute ich, dass es doch gerade bei der Verwaltung immer wieder Abstimmungsprobleme gibt.
Ist nur der Versuch einer Erklärung, ohne Anspruch auf Richtigkeit und Vollständigkeit.
Was mein Vertrauen in die IT betrifft:
Ich mag mein Blatt Papier und meinen Kugelschreiber. Damit werden die wirklich wichtigen Sachen wie Liebesbriefe und Testamente geschrieben.
Die IT dient nur für die alltägliche Arbeit. Und so lange es dabei nur ums Geld geht, muss man temporäre Ausfälle wohl akzeptieren. Schön ist anders. Absolute Sicherheit wird es in der IT niemals geben, so gern wir (ich schließe mich da in vorderster Front mit ein) diese auch hätten.
Guten Wochenstart an alle, insbesondere an den neuen Rechner.
@StefanieHerol
Sehr geehrte Frau Herol,
ich möchte mich explizit bei Ihnen für Ihre Kommunikation und Einsatz bedanken!
Da einzige was mich aufregt, ist der RZ-Status.... Da bitte mal nachhaken, ob nicht eine schnellere/verbesserte Kommunikation möglich ist. Dafür nochmals ein "Dankeschön".
Grüße nach Nürnberg
eine statische entladung und so eine karte kann kaputt gehen.. geht tausend mal gut, aber das 1001 mal. ach, vergessen.. dort arbeiten profis, die entladen sich jedes mal, bevor sie so ein teil anfassen ;-).
naja.. ist in summe schon abenteuerlich.
Herzlichen Glückwunsch und
auch von meiner Seite ein Top Top Top Top ......
zur ihrer Art der Transparenz , Verfügbarkeit und Kommunikation.
Tragen Sie ihr Verständnis weiter in die Datev hinein, meine Unterstützung haben sie zu 100%.
Hallo Frau @Stefanie_Herold ,
wie muss (darf) man sich einen solchen 'Großrechner' vorstellen ?
... in der Größe eines Schuhkartons, eines 19"-Rack-Servergehäuses, eines Kühlschranks, eines 'normalen' Kleiderschranks oder eines 'begehbaren' Kleiderschranks 😀
Vielleicht besteht der Kern aus einer großen Platine, mehreren Prozessoren inkl. voluminöser Lüfter und viel Blech ringsherum. Der Rest ist dann Peripherie.
... keine Ahnung ...
Ich würde mir gerne bildhaft vorstellen können, was jetzt eigentlich umgebaut wurde und warum hier offenbar immer wieder mal einzelne Hardware-Komponenten 'die Suppe versalzen' können.
... vor allem erstaunt mich, dass man die beteiligten Hardwarekomponenten und die gesamte neue Infrastruktur nicht schon im Vorfeld einem Stresstest unterziehen kann.
Es hängen ja schließlich Zigtausende von Anwendern an dieser RZ-'Nabelschnur'.
zu wenig weitsicht?
das mit der netzwerkkarte kann ein klassisches “entladeproblem“ sein...
@vogtsburger schrieb:
Hallo Frau @Stefanie_Herold ,
wie muss (darf) man sich einen solchen 'Großrechner' vorstellen ?
... in der Größe eines Schuhkartons, eines 19"-Rack-Servergehäuses, eines Kühlschranks, eines 'normalen' Kleiderschranks oder eines 'begehbaren' Kleiderschranks
Unterhaltsam mit vielen Bildern eines (etwas älteren) Großrechners: https://www.youtube.com/watch?v=45X4VP8CGtk
Leider keine Bilder aus Nürnberg, aber unter den Commens finden sich ein paar schöne, teils alte Bilder:
https://de.wikipedia.org/wiki/Gro%C3%9Frechner
.... sehr schöne Bilder 😊
der IBM Z14 erinnert an einen Tarnkappenbomber, der 'unter dem Radar fliegen' kann .
Vielleicht steht ja ein solch gut getarnter Großrechner im Datev-RZ.
... man könnte uns eigentlich auch mal ein Bildchen aus dem RZ gönnen, natürlich aus Datenschutzgründen ohne identifizierbare Personen ...
Wie so ein Großrechner heute aussieht, musste ich auch erstmal meine Kollegen fragen. Als ich das vor rund 20 Jahren das letzte Mal gesehen habe, hat so ein Großrechner noch fast einen ganzen EDV-Raum eingenommen...
In unser Heiligtum darf auch ich nicht einfach reinspazieren 😉
Der neueste Großrechner jetzt kommt in futuristischem schwarzen Design in schnuckeligen Standard-19''-Schränken daher (also ca. 2m hoch und 1,20 tief) und besteht aus 3-4 solcher Schränke, je nach Menge der Prozessoren und I/O-Karten.
Da würden auf jeden Fall eine Menge Schuhe reinpassen 😇
Und hier gibt's ein paar offizielle Bilder und Zahlen🙂
https://www.datev.de/web/de/m/ueber-datev/das-unternehmen/rechenzentrum/
wow, danke 😘
Der heutige Tag verlief bei mittlerer Last übrigens fehlerfrei 🙂
Hallo Frau @Stefanie_Herold ,
mei - das waren noch Zeiten in den frühen 80er,.
Ich kann mich erinnern mit meinem Daddy und dem damals ganzen Büro einen Ausflug nach Nürnberg zur Besichtigung des DATEV-RZ gemacht zu haben. Damals durften wir zwar auch nicht einfach reinspazieren, aber wir haben einen Blick darauf mit Führung und Erläuterung werfen dürfen.
Der nächste Betriebsausflug war wieder ein Wandertag - mir lag das DATEV-RZ näher, als die Wanderung über die schwäbische Alb - hat sich zwischenzeitlich auch geändert!😂
Update Freitag 19.06. 18:30 Uhr
Hallo liebe Community,
ich trau es mich kaum zu sagen...
Bis gestern Abend lief unser neuer Großrechner komplett störungsfrei. Bei einem völlig normalen Wartungs-IPL – vergleichbar mit einem Reboot an einem PC – konnte das System - auch zusammen mit dem Hersteller - nicht mehr aktiviert werden.
Zur Absicherung des heutigen Betriebs wurden noch heute Nacht die Ressourcen der Redundanzsysteme entsprechend aufgestockt. So haben wir den Tag gut überstanden und unser Redundanzkonzept hat gut funktioniert.
Da es noch keine Klarheit darüber gibt, wie der Fehler ausgeschlossen werden kann, werden wir, wenn es bis morgen früh keine bahnbrechenden neuen Erkenntnisse gibt, den kompletten Großrechner morgen wieder auf den alten Stand von vor dem Umbau letztes Wochenende zurückbauen.
Der Umbau wird auch dieses Wochenende selbstverständlich wieder mit umfangreichen Nachtests und hoher Sensibilität im Monitoring auch in den nächsten Tagen begleitet.
Der Rückbau startet morgen früh und wird am späten Abend abgeschlossen sein. Wenn alles läuft wie geplant, sollten Sie mit Ausnahme weniger kurzer Momente voraussichtlich zwischen 19:00 und 21:00 Uhr während der Rückverlagerung der Workload nichts davon merken.
Ich informiere Sie, wenn’s was Neues gibt.
VG Stefanie Herold
Danke für die Info und die Offenheit!
Möge das Werk gelingen.
Alles Gute wünscht
WF
Oh je , in diesem Großrechner scheint der 'Wurm' drin zu sein Montagsgroßrechner ? Zurückgeben - neuen kaufen wenn das so einfach wäre ich weiss.
Hoffe für Sie dass die Redundanzen so wie heute problemlos funktioniert haben.
Schönes Wochenende.
Guten Morgen Frau @Stefanie_Herold ,
wollen wir hoffen, dass der Rückbau glatt läuft und danach alles wieder auf „alter“ Basis funktioniert.
Noch ist der RZ-Status unauffällig - oder klemmt der heute auch wieder.??
Wie sieht denn der Krisenplan für die Zeit nach dem Rückbau aus? Wir können ja jetzt nicht alle paar Wochen diese Kiste hin- und Herbauen. Jeder Eingriff erhöht das Risiko und die Ausfallwahrscheinlichkeit - von den internen und externen Kosten will ich gar nicht reden!
Wenn ich’s recht sehe ist das jetzt die 3. Pleite mit dem Umbau - mit weitreichenden Zusatzproblemen, da müsste man doch überlegen, ob ein ganz anderer Ansatz nicht letztlich günstiger wäre!
Guten Morgen,
es zwar jetzt erst der zweite Versuch, aber Sie können sicher sein, dass in den nächsten Wochen, genau diese Fragen beantwortet werden müssen.
Lassen Sie uns jetzt jedoch bitte erstmal den Rückbau sauber über die Bühne bringen.
Die Labore des Herstellers können inzwischen sehr genau nachvollziehen, was passiert ist, aber noch nicht was der konkrete Auslöser war und wie wir die Situation künftig sicher ausschließen können. Von daher bleibt uns mit Blick auf den Lohn nächste Woche leider keine andere Wahl.
Ich melde mich, wenn's was Neues gibt.
VG Stefanie Herold
Respekt, Frau Herold ( @Stefanie_Herold ), für Ihren momentan sicher stressigen Job.
Anscheinend hat Datev instinktiv Ihre starken Nerven erkannt und deshalb Sie 'an die Front' geschickt ;-).
Solange man noch Fehlerquellen identifizieren und umgehen kann, ist noch nichts im roten Bereich, höchstens im gelben. 😉
Gut, dass Sie uns auf dem Laufenden halten.
Nachtrag:
bei dieser Gelegenheit kann man noch eine 'Binsenweisheit' loswerden:
"Eine Kette ist so stark wie ihr schwächstes Glied",
das gilt vor allem auch für Funktionsketten wie im Datev-RZ.
Da nützt auch das beste KnowHow von einzelnen Mitarbeitern und die beste Qualität von einzelnen Komponenten nichts, wenn ein anderes Glied der Kette versagt.
(sorry für diese Binsenweisheit)😉
Bis jetzt läuft beim Rückbau alles nach Plan 👍