AUFBAU EINER FAILOVER-STRATEGIE FÜR VIDEOPLAYER

Picture of bsp-admin-1
bsp-admin-1
blog-platzhalter bild

Bei Brightcove verwenden wir Amazon S3 als Teil unserer Lösungen für die Bereitstellung, Veröffentlichung und Verwaltung von Videoplayern - und das zu Recht, denn Amazon S3 ist führend in diesem Bereich und bietet eine hervorragende Leistung. Großartige Leistung bedeutet jedoch nicht, dass sie unfehlbar ist. Wir haben viel Zeit und Mühe darauf verwendet, unsere Dienste so zu härten, dass sie einem Ausfall standhalten, und unsere Bemühungen haben sich ausgezahlt.

AMAZON S3 SERVICE VORFALL

Am Donnerstag, den 14. September 2017, begann der Amazon S3-Dienst für einen kurzen Zeitraum um 13:37 Uhr EDT und dann für etwa eine Stunde ab 14:40 Uhr EDT ungerechtfertigte Drosselungen von Anfragen in der Region U.S. East. Dies hatte zur Folge, dass viele vollkommen gültige Anfragen zum Abrufen und Ablegen von Dateien abgelehnt wurden.

Viele S3-Kunden waren davon betroffen, darunter einige der meistbesuchten Websites im Internet, die sich auf diese hochzuverlässige Cloud-Infrastruktur verlassen. Brightcove verzeichnete zwar einen Anstieg der Fehlerraten bei einigen Cold-Cache-Videocontent, aber wir freuen uns, dass die Player-Ladevorgänge, ob mit oder ohne Cache, nicht beeinträchtigt wurden. Was ein weitaus größeres Ereignis hätte sein können, hielt sich in Grenzen.

Hier sind einige Informationen über den Vorfall, wie von The Register berichtet. Die Informationen, die Amazon während des Vorfalls weitergegeben hat, lauten wie folgt (Zeiten angepasst an EDT):

  • 2:58 PM EDT. Wir untersuchen erhöhte Fehlerraten für Amazon S3-Anfragen in der Region US-EAST-1.
  • 3:20 PM EDT. Wir können bestätigen, dass bei einigen Kunden Drosselungsfehler beim Zugriff auf S3 auftreten. Wir untersuchen derzeit die Grundursache.
  • 3:38 PM EDT. Wir arbeiten weiterhin an der Behebung der erhöhten Drosselungsfehler für Amazon S3-Anfragen in der Region US-EAST-1. Wir haben das Subsystem, das für die Fehler verantwortlich ist, identifiziert, die Grundursache ermittelt und arbeiten nun an der Behebung des Problems.
  • 3:49 PM EDT. Wir sehen jetzt eine Erholung der Drosselfehlerraten beim Zugriff auf Amazon S3. Wir haben die Ursache identifiziert und Maßnahmen ergriffen, um ein erneutes Auftreten zu verhindern.
  • 4:05 PM EDT. Zwischen 14:40 Uhr und 15:56 Uhr EDT traten Drosselungsfehler beim Zugriff auf Amazon S3 in der Region US-EAST-1 auf. Das Problem ist behoben und der Dienst funktioniert wieder normal.

Um 13.37 Uhr, lange vor der Amazon-Bestätigung, lösten die ersten Fehler unsere Warnmeldungen aus. Anstatt uns mitzuteilen, dass es ein Problem mit unseren Diensten gab, teilten uns die Warnmeldungen mit, dass automatisch Korrekturmaßnahmen eingeleitet wurden.

Während des gesamten Vorfalls, der sich zu Spitzenzeiten für Brightcove ereignete, beantworteten wir mehr als 28 Millionen Anfragen für den Brightcove-Player ohne Probleme. Dazu gehörten sowohl bereits aktive Player als auch 79 Player, die während des Vorfalls veröffentlicht wurden.

FAILOVER-TAKTIKEN FÜR SPIELER

Hier sehen Sie, wie unsere S3-Einrichtung aussieht.eingefügtes Bild 0

Obwohl wir S3 in der Region U.S. East (wo sich der Vorfall ereignete) verwenden, haben wir bidirektionale regionsübergreifende Replikationsoptionen implementiert, die von Amazon bereitgestellt werden.

Wir haben auch unser eigenes Open-Source-Node.js-Projekt namens s3-s3 entwickelt, das bei Bedarf automatisch auf verschiedene S3-Buckets umschaltet. Das bedeutet, dass unter normalen Betriebsbedingungen jede Datei, die wir in U.S. East hochladen, auch an unsere Failover-Region gesendet wird.

Jedes Mal, wenn die Playerverwaltungs- und Veröffentlichungsdienste mit S3 interagieren, sind sie auf den schlimmsten Fall vorbereitet. Wenn ein Fehler auftritt, wird automatisch ein erneuter Versuch unternommen, und wenn die Wiederholungen fehlschlagen, wird automatisch auf eine andere Region umgeschaltet.

Wir handhaben die Ausfallsicherung auf der Ebene der einzelnen Anfragen. Die Anfragen beginnen immer mit der primären Region und fallen bei Bedarf auf die Failover-Region zurück. Es sind keine manuellen Eingriffe erforderlich, um Systeme um- oder zurückzuschalten.

Dank unserer bidirektionalen Replikation werden alle Dateien, die in die Failover-Region hochgeschoben werden müssen, automatisch zurück in U.S. East repliziert, sobald diese wieder gesund ist.

Das Diagramm unten zeigt unser automatisches Failover in Aktion. Die Dienste nutzten weiterhin so oft wie möglich unser primäres S3-Bucket, aber am Ende kam es dabei zu einer Reihe von Ausfällen. Die Alternative: Alle Anfragen auf der rechten Seite wären fehlgeschlagen und hätten Probleme für unsere Kunden verursacht.

eingefügtes Bild 0 (1)

Wenn Sie also nichts von den Amazon-Problemen mitbekommen haben, dann ist das auch in Ordnung so.

Back in July 2025, Brightcove unveiled an ambitious roadmap with a dual focus on innovation and quality of experience...
Our teams have been hard at work making the Brightcove platform more powerful, more reliable, and more insightful for...
Vertical Videos Experience lets you deliver a TikTok/Reels-style vertical feed on the web, powered by Brightcove. It’...

SIND SIE BEREIT, LOSZULEGEN?

Setzen Sie sich mit uns in Verbindung, um zu erfahren, wie wir Ihre Videomarketing-Bemühungen verbessern und Ihnen dabei helfen können, die gewünschten Ergebnisse und den gewünschten ROI zu erzielen.