Liebe Homeworker Nutzer,
aufgrund der Home-Schooling bedingten immensen Nutzerzahlen kam es heute Vormittag zu verbreiteten Ausfällen und Unerreichbarkeit der Homeworker Software.
Unsere Software sollte Möglichkeiten schaffen, den Schulalltag zu erleichtern oder in den aktuellen Zeiten vielleicht sogar erst möglich zu machen. Diesen Anspruch haben wir heute leider nicht erreicht. Hierfür möchten wir uns bei unseren treuen Nutzern, unermüdlichen Lehrkräften, Schulleitungen und -trägern, die ihr Vertrauen in die Homeworker Software gesteckt haben, entschuldigen. Das gesamte Homeworker Team arbeitet mit Hochdruck und allen Mitteln an einer schellen Lösung - das können wir garantieren.
Keine technische Begründung kann den Ärger und die Frustration, welche mit nicht funktionierender Software einhergeht, wettmachen. Dennoch möchten wir einige Einblicke in die Hintergründe der heutigen Ausfälle geben.
Hintergrund des Ausfalles
In Vorbereitung auf den erneuten Schulbeginn im Lockdown haben wir die Server-Kapazität von Homeworker dramatisch erhöht. Homeworker nutzt aus Gründen des Datenschutzes ausschließlich deutsche Server aus einem Rechenzentrum in Falkenstein. Diese sind deutlich leistungsfähiger und flexibler als jeder private Computer, können allerdings nicht mit der Hochleistungsinfrastruktur von großen Konzernen, wie z.B. Amazon, Microsoft oder IBM mithalten.
Das konkrete Problem in diesem Fall war eine Limitierung des ausgehenden Netzwerk-Traffics, welcher standardmäßig 1GB/s
nicht überschreiten kann.
In unseren Simulationen* und Hochrechnungen basierend auf den Lockdown-Daten aus dem Februar und Dezember 2020 hätte dieses Limit für keinen einzelnen
Server überschritten werden sollen (selbst bei einem Puffer von 25% pro Nutzer)
Der Nutzer-Ansturm am Morgen des 11. Januar überstieg die Hochrechnungen mit teilweise mehreren zehntausend Nutzern, die gleichzeitig eine neue Verbindung mit den Homeworker Servern öffnen wollten, jedoch deutlich. Diese Last hat zu einem Rückstau auf dem Server geführt, da wir aufgrund des oben beschriebenen Limits die Anfragen nicht schnell genug beantworten konnten. Ein Rückstau bedeutet in diesem Fall lange Antwortzeiten für Nutzer (z.B. mehrere Sekunden bis ein neues Fenster angezeigt wird) und ab einer gewissen Dauer zu einem Timeout (ein Fehler, dass die angefragte Seite nicht gefunden wurde).
Um Abhilfe zu schaffen, haben wir kurzfristig folgende Maßnahmen durchgeführt, um zumindest eingeschränkt erreichbar zu sein und die Probleme langfristig nicht wieder auftreten zu lassen:
8:00 - 10:00 Uhr: Zuschalten weiterer Server um die Last auf Einzelne zu minimieren. Für weitestgehend isoliert durchführbare Dienste, wie beispielsweise das Versenden von Push-Benachrichtigungen oder die Darstellung von Web-Oberflächen, ist dies eine effektive Abhilfe (es ist egal ob Server A oder Server B dem Schüler die Homeworker-Webseite sendet). Bei Aufgaben, die einen gemeinsamen Datenbestand erfordern, beispielsweise Chat Nachrichten, auf die alle Nutzer zugreifen können, funktioniert dies aber nicht. Hier müssen Server A und Server B auf den gleichen Grundbestand zugreifen (die Chat-Nachrichten). Wenn dieser über verschiedene Stellen verteilt wäre, würde jedem Schüler nur ein Teil der Nachrichten angezeigt. Der Hauptengpass beim Datenversand war also unsere Datenbank.
10:00 - 11:15 Uhr: Reduktion der Datenbankabfragen durch temporäres Deaktivieren (oder Reduzieren der Frequenz) von Funktionen, wie beispielsweise der Hintergrund-Synchronisierung von Schülerdaten. Hiermit wurden Teile der Bandbreite zur Datenbank befreit, was ab ca. 11:15 Uhr zu einer deutlichen Verbesserung der Verfügbarkeit führte.
22:00 - 3:00 Uhr: Umzug des Datenbank-Servers in einen anderen Teil des Rechenzentrums mit einer größeren Uplink Kapazität.
Durch eine größere Uplink Kapazität (10 GB/s
) pro Datenbank-Server sollten diese Probleme in Zukunft nicht weiter auftreten.
Da bei diesem Umzug aber unsere Server phyisich umgezogen werden, geht mit diesem Umzug ein Abschalten der Datenbank
einher, weshalb eine solche Maßnahme, einschließlich der Einrichtung und Konfiguration, erst heute Nacht stattfinden kann.
Wir hoffen durch diese Maßnahmen eine langfristige Lösung für die heute aufgetretenen Probleme gefunden zu haben und für die kommenden Tage eine stabile und leistungsfähige Unterstützung beim Homeschooling zu bieten.
Wir bedanken uns für euer Vertrauen und euer Feedback!
Mit freundlichen Grüßen,
Frederic und Florian
(Geschäftsführer)
* Die Simulation wie komplexe Dienste die sich gegenseitig bedingen und auf geteilte Ressourcen zugreifen ist keineswegs trivial. Entgegen der Intuition bedeutet das Hinzufügen eines zweiten Servers welcher über identische Spezifikationen (z.B. 64 Kerne, 256 GB Arbeitsspeicher, etc.) verfügt keineswegs die Verdopplung der Leistung in dem Teilbereich welchen der Server bewältigt da mit jedem weiteren Server der Abstimmungsaufwand zwischen den Diensten ebenfalls nicht linear anwächst.