Rekonstruktion

Wie Europas Zahlungsverkehr am „Meltdown“ vorbeischrammte

20. November 2020

Von Christian Kirchner

Es war fraglos der schwerste technische Zwischenfall, den da so genannte „Target2“-System der EZB seit Gründung  vor 13 Jahren erlebt hat: Für über acht Stunden stand das Rückrat des Zahlungsverkehrs von über 1000 Banken und damit auch 340 Millionen Einwohner der Euro-Zone am Freitag, dem 23. Oktober aufgrund einer Panne still – und das, obwohl die extrem seltenen Ausfallzeiten zwei bis dreimal pro Jahr eigentlich in Minuten gemessen werden.

Dass von dem Totalcrash des Systems, das im Schnitt pro Tag rund 1700 Mrd. Euro abwickelt, kaum jemand etwas mitbekommen hat, verdanken Notenbanken wie Banken einem glücklichen Zufall: Er passiere an einem Freitag nachmittag, folglich hatten alle Beteiligten Notenbanken und Banken das Wochenende Zeit, die gigantischen Stau von Zahlungen in rechnerisch dreistelliger Milliardenhöhe nachzuarbeiten, ohne, dass an der Kundenfront etwas zu bemerken gewesen wäre. „Lucky, lucky, lucky“ sei die EZB in dieser – so wörtlich „Kernschmelze“ gewesen, urteilt etwa der auf Notenbanken-IT spezialisierte britische Berater Robert Lyddon in einem Blogeintrag.

Finanz-Szene.de konnte aufgrund zahlreicher Gespräche mit Experten rekonstruieren, wie genau es zu dem Deasaster kam – und beantwortet die wichtigsten Fragen

Worum geht es überhaupt?

„Target2“ steht für die zweite Generation des „Trans-European Automated Real-time Gross Settlement Express Transfer System“. Es ist das System der Euro-Zentralbanken für die schnelle Abwicklung von Zahlungen in Echtzeit. Das System entstand durch die Zusammenführung der nationalen Zahlungsverkehrs-Systeme mit dem der EZB 2007/2008. In Europa sind über 1000 Banken an das System angeschlossen.

Vereinfacht gesagt, kommt Target2 immer dann zu Einsatz, wenn es zwischen Banken um die Saldierung von Überweisungen, Lastschriften und Kartentransaktionen geht – was Millionen Male jeden Tag der Fall ist. Daneben laufen auch milliardenschwere Liquiditätstransfers zwischen einzelnen Instituten über System. 89% aller großen Payment-Transaktionen der europäischen Banken gehen über die Plattform.

Komplettausfall im Target2-System. Gesamter Zahlungsverkehr betroffen

Wer steht hinter dem Target2-System?

Target2 wird betrieben vom „Eurosystem“, einer Organisationseinheit der nationalen Notenbanken und der EZB. Formal hat die EZB die Hoheit über die Abläufe, nutzt dabei allerdings die nationalen Notenbanken als Dienstleister – ein Umstand, der auch in der Analyse der Panne von Bedeutung ist.

Konkret sind es vor allem drei bzw. vier Notenbanken, die in den Betrieb des Target2-Systems involviert sind: die Banque de France, die Banca d’Italia und die Bundesbank, in einigen Fällen (aber nicht im konkreten) kommt noch die Banco de España hinzu. Alle haben zusätzlich dezidierte Rollen, die Bundesbank etwa für den Softwarebereich, die Banca d’Italia für den Hardwarebereich.

Der Betrieb läuft über sechs lokale Rechenzentren – nämlich je zwei in Frankreich, die in Deutschland und die in Italien (man spricht hier auch von regionalen „Sites“). Der eigentliche Kernbetrieb – das sogenannte „Payment and Accounting Processing Services System“ – liegt entweder in der „Region“ Deutschland oder in der „Region“ Italien und wechselt routinemäßig. Frankreich als dritte „Region“ hat eher protokollarische Funktionen. Unterschiedliche Rechenzentren in unterschiedlichen Systemen sollen das Target2-System hochverfügbar halten.

Wie sehen die Sicherungssysteme in der Theorie aus?

Insgesamt hat Target2 eine vierstufige Sicherheit:

  • Kleinere Ausfälle und Störungen im Sekunden- oder allenfalls Minutenbereich werden durch die Sicherung der wichtigsten kritischen Elemente vor Ort aufgefangen, also im gleichen Rechenzentrum
  • Bei größeren Ausfällen – das „Target2“-Handbuch (siehe hier) für alle Marktteilnehmer nennt hier beispielsweise „Katastrophenfälle wie Störungen wichtiger Hardware durch Brand, Überschwemmung, Terroranschläge“ – wird das jeweils zweite Rechenzentrum in der gleichen Region aktiviert. Es wird mit einem laufenden, „warmen“ Backup verfügbar gehalten. Dieser Vorgang, in der Target2-Fachsprache „intraregionale Ausfallsicherung“ genannt, benötigt indes bis zu einer Stunde, bis die Betriebstemperatur erreicht ist – also um Target2 wieder voll einsatzbereit zu machen.
  • Für ganz dringende Fälle – beispielsweise ein sofortiger Verrechnungsbedarf sehr großer Summen zwischen Banken – gibt es noch ein Notfallmodul. Damit können nicht alle, aber einige wenige wichtige Transaktionen auch bei einer Störung des eigentlichen Target2-Systems mit seinen hunderttausenden Transaktionen pro Tag durchgeführt werden – sofern sich die Betreiber entschließen, es zu aktivieren.
  • Das ganz große (und letzte) Kaliber ist die Verlagerung des kompletten Systems in eine der jeweils anderen Regionen – also beispielsweise von einer „Site“ in Italien zu einer „Site“ nach Deutschland oder umgekehrt. Dieser Mechanismus wird „interregionale“ Ausfallsicherung genannt. Auch hier ist die Formulierung im „Target2“-Handbuch interessant: Der Mechanismus soll beispielsweise greifen, wenn es „zu schwerwiegenden Verkehrs-, Telekommunikations- oder Stromversorgungsstörungen oder sonstigen Beeinträchtigungen kritischer Infrastrukturen kommt, die ein ganzes Ballungsgebiet oder einen geografischen Großraum erfassen“. Das klingt fast nach der Explosion einer Atombombe in Frankfurt oder Rom. Denn: Für die einfacheren „Katastrophenfälle“ wie Brände, Überschwemmungen oder Terroranschläge (siehe oben) ist ja eigentlich das zweite Rechenzentrum in der gleichen Region schon die Ausfallsicherung, die greifen muss.

Was hat den Komplettausfall im Oktober ausgelöst?

Das Target2-System fiel am Freitag, 23. Oktober, um 14.40 Uhr aus. Von diesem Zeitpunkt an konnten über etliche Stunden hinweg keinerlei Transaktionen abgewickelt werden. Um 15:16 Uhr versandte die Bundesbank eine eMail an ihre Marktteilnehmer, das System „stehe“, um 15:35 Uhr dann eine Präzisierung: Liquiditätsbrücken, Zahlungsverarbeitungen, das zentrale Informations- und Steuerungsmodul – nichts gehe mehr zwischen Banken.

Wieder in Betrieb ging das System erst wieder um 22.30 Uhr, und es dauerte elf Stunden bis in die Nacht auf Samstag, den entstandenen Stau an Transaktionen abzuwickeln. Zur Einordnung: Gemessen werden Vorfälle mit Verzögerungen in der Abwicklung von bis zu 5 Minuten, 5-15 Minuten sowie >15 Minuten. Seit Anfang 2017 hat es nur sieben Verzögerungen im Minutenbereich überhaupt gegeben.

Was genau passiert war, kam erst Stück für Stück heraus: Am Sonntag nach dem Crash sprach die EZB zunächst von einem „major incident“ (schweren Vorfall). Am Mittwoch darauf war dann von einem „Software-Defekt in einem Netzwerkgerät einer Drittpartei im internen Netz der Notenbanken“ die Rede (siehe hier).

Tatsächlich war laut den Recherchen von Finanz-Szene.de am Tag des Zwischenfalls (also am 23. Oktober) die Bundesbank jene Region, die den Betrieb des Target2-Systems innehatte. Darüber hinaus stellte sich heraus, dass für diesen Tag parallel zum reinen Routinebetrieb vorbereitende Wartungsarbeiten angesetzt waren. Mit diesen waren sowohl Techniker der Bundesbank als auch der mit der Hardware-Dienstleistung betrauten Banca d’Italia beauftragt – unter anderem, um einen Austausch sogenannter „Switches “ durchzuführen. Das sind Verteiler für die Kopplung verschiedener Rechnernetze. Dieser Darstellung wird in Notenbank-Kreisen zumindest nicht widersprochen; sie ist auch von der offiziellen EZB-Meldung („Defekt in einem Netzwerkgerät einer Drittpartei“) im wesentlichen gedeckt. Eine dieser „Switches“ legten aber de facto aufgrund einer fehlerhaften Hardware-Komponente den Betrieb von Target2 lahm.

Es ist davon auszugehen, dass die EZB diese Ursache am Sonntag, 25. Oktober bereits gekannt hat, als sie die erste, offizielle Kommunikation zu dem stundenlangen kompletten Stillstand veröffentlichte. Allerdings sprach sie lediglich von einem „internal issue affecting the TARGET2 infrastructure“ – womit sie zumindest ausschloss, dass es sich um einen Fall von Cyber-Kriminalität gehandelt haben könnte. Vermutlich ging es bei der gewählten Formulierung darum, erst einmal die Verantwortlichen zu schützen und Zeit zu gewinnen, die weitere Kommunikation vorzubereiten.

Buba, EZB, Target2 – und warum der Shitstorm ausblieb

Was war mit den Sicherungssystemen?

Das ist die große Frage – und hier weichen die Formulierungen aus dem Umfeld der Notenbanken von der Einschätzung von uns Finanz-Szene.de befragter Bankern und IT-Experten ab. Aus den Reihen der beteiligten Notenbanken verlautete zuletzt (siehe „BÖZ“ vom Dienstag), man sei „nicht unzufrieden mit der Bewältigung“ der Probleme und wie „die Sicherungssysteme gegriffen“ hätten). Unabhängige Experten hingegen sagen: Sowohl das „warme“ als auch das „heiße“ Backup hätten versagt und erst die letzte Sicherung nach acht Stunden gegriffen. Robert Lyddon, der als Berater für den Betrieb von Netzwerksystemen im Banken-Umfeld arbeitet, sprach diese Tage in einem Blogbeitrag von einem „Reputationsdesaster“.

Tatsächlich ist das Versagen wesentlicher Sicherheitssysteme an besagtem 23. Oktober in der offiziellen EZB-Mitteilung dokumentiert: „Nach den erforderlichen Untersuchungen schien es so, als ob weder die zu aktivierende Ausfallsicherung zu einer zweiten Seite in der gleichen Region noch die Öffnung des Notfallmoduls möglich waren.“ Das kann eigentlich nur bedeuten:

  • Die erste Linie für kleinere Ausfälle war offenbar nicht in der Lage, die aufgetretene Störung zu beheben, obwohl von Finanz-Szene.de befragte Experten den Vorgang eines „Switch“-Austauschs eigentlich für Routine halten – ebenso, dass eine Switch kaputt gehen kann und kurzfristig ausgetauscht werden muss. Dieser ganze Austausch wird in der offiziellen EZB-Mitteilung allerdings gar nicht erwähnt.
  • Die eigentlich für Systemausfälle vorgesehene zweite Linie – das sogenannte intraregionale Umschalten auf ein zweites Rechenzentrum – versagte ebenfalls, da auch dieses System offenbar von einer fehlerhaften Hardware-Komponente betroffen war
  • Der Zugriff auf das sogenannte „Contingency Module“ (Notfallmodul) funktionierte kurzzeitig auch nicht, allerdings dient dieses auch „nur“ zur Durchführung einer begrenzten Anzahl „kritischer Zahlungen“, die von Geschäftsbanken vorab bei ihrer an Target2 teilnehmenden Notenbank anmelden müssen
  • Erst die allerletzte Linie (also die im Handbuch sinngemäß für Extrem-Ereignisse schwerer regionaler Verwüstungen vorgesehene Lösung) brachte das Target2-System letzten Endes wieder zum Laufen – nämlich der Wechsel der kompletten Region von Deutschland nach Italien. Dieser zwei Stunden erfordernde Prozess wurde indes erst abends um 20.30 Uhr eingeleitet, also fast sechs Stunden nach Auftreten des Totalausfalls. Dabei sollte laut Handbuch schon die zweite Sicherheitslinie – das sogenannte intraregionale Umschalten – das Target2-System binnen höchstens einer Stunde wieder ans Laufen bringen.

Der Bundesbank nahestehende Experten widersprechen der hier von uns dargelegten Deutung. Der Einsatz des sogenannten Contingency Moduls sei seitens der Geschäftsbanken überhaupt nicht beauftragt worden und daher auch nicht relevant. Und vor allem sei die Erklärung, warum der Wechsel von Deutschland nach Italien erst nach sechs Stunden initiiert worden sei, recht simpel: Weil der Zwischenfall eben an einem Freitagnachmittag passiert sei, habe es weniger Zeitdruck gegeben, da das Wochenende die nachholende Abwicklung der sich stauenden Transaktionen ermöglicht hätte. Und:

Die Betreiber seien daher der Störung erst auf den Grund gegangen, hätten die fehlerhaften „Switches“ identifiziert und hätten dann versucht, das Problem innerhalb der Region zu lösen – um dann gegen 20.30 Uhr zu entscheiden, doch die ganz große Lösung, also den Wechsel der Region, zu initiieren. An einem zeitkritischen anderen Werktag hätte man diesen (seit Systemstart vor 13 Jahren noch nie im laufenden Betrieb aufgrund von Störungen notwendigen) Prozess des „interregionalen Ausfallsicherung“ bereits deutlich früher einleiten können. Letztlich habe dann diese – allerdings letzte – Instanz so funktioniert, wie sie funktionieren muss.

Wer ist schuld?

Das lässt sich anhand der Informationslage nicht definitiv sagen. Als gesichert gilt Folgendes:

  • Ursächlich für den Komplettausfall war das Problem mit der „Switch“. Für das Funktionieren dieser Hardware-Komponente verantwortlich sind zunächst einmal der Hersteller und natürlich indirekt auch die Einkäufer
  • Der Hardware-Defekt hat ganz offenbar zwei Systeme („Sites“) innerhalb einer Region – nämlich der „deutschen“ Bundesbank-Region – lahmgelegt, obwohl diese beiden „Sites“ eigentlich redundant arbeiten müssten. Genau an dieser Stelle gibt es weiterhin ein großes Fragezeichen: Wie konnte es passieren, das nicht nur eine „Site“, sondern gleich zwei versagten?
  • Offen ist, wieso der Austausch der „Switch“-Komponente im laufenden Betrieb erfolgte – und nicht am Wochenende. Zumal ja fast schon Wochenende war. Dazu heißt es interessanterweise in der „Börsen-Zeitung“ von Dienstag mit dem Verweis auf Notenbankkreise, künftig würden Switches nicht mehr im laufenden Betrieb, sondern während Wartungsfenster ausgetauscht
  • Die Ausfallzeit des Systems war dramatisch länger, als es laut Target2-Handbuch vorkommen dürfte. Die intraregionale Sicherung muss binnen einer Stunde das System wieder herstellen, die interregionale Sicherung – falls die intraregionale versagt – binnen zwei Stunden. Zwischen Ausfall und Wiederinbetriebnahme vergingen indes annähernd acht Stunden. Eine Auszeit, die man bewusst zuließ? Oder Folge eines Fehlers – nämlich dergestalt, dass sich alle viel zu spät für die allerletzte Lösung entschieden?

Vieles spricht dafür, dass wir es nicht mit einem Schuldigen, sondern mit einer Verkettung schwerwiegender Fehler innerhalb des Eurosystems als Target2-Betreiber zu tun haben.

Wann erfährt die Öffentlichkeit mehr?

Vielleicht am Ende des zweiten Quartals, womöglich aber auch nie. Denn: Die EZB hat zwar eine unabhängige Untersuchung in Auftrag gegeben, um nicht nur Schlüsse aus der „Robustheit der Business Continuity Modelle“ zu ziehen, sondern auch, um Recovery-Tests, Ausfallsysteme, Change-Management-Vorgänge und Kommunikationsprotokolle zu überprüfen. In der entsprechenden Ankündigung war allerdings auch davon die Rede, nach Abschluss der Untersuchung die „wichtigsten Erkenntnisse“ (wörtlich: „Main Findings“) mit Marktteilnehmern und Öffentlichkeit zu teilen.

Das ist eine Formulierung, die es der EZB schon vorab erlaubt, nach eigenem Gusto zu entscheiden, was die Öffentlichkeit zum Ablauf erfahren soll und was nicht. Warum man schon vor der unabhängigen Untersuchung weiß, dass man sich besser nicht zu ihrer Veröffentlichung verpflichtet, bleibt das Geheimnis der Beteiligten.

In einem vergleichbaren Zwischenfall der britischen Notenbank eines neunstündigen Zahlungssystems-Ausfalls im Pfund-Währungsraum im Oktober 2014 veröffentlichte die Bank of England 2015 die komplette 80seitige unabhängige Untersuchung von Deloitte.

Finanz-Szene.de bat die EZB für diesen Artikel um eine Stellungnahme. Die EZB erklärte, man werde nicht über das hinaus kommunizieren, was in der offiziellen Mitteilung nachzulesen sei.

NEWSLETTER

Deutschlands führender Banken-Newsletter. Jetzt abonnieren!

Share

Share on facebook
Share on twitter
Share on linkedin
Share on xing