WebVTT-Untertitel

WebVTT ist das Standard-Format für Untertitel-Dateien im Web – zentral für Barrierefreiheit, Auto-Play-Muted-Kompatibilität auf mobilen Endgeräten und die thematische Indexierung von Video-Inhalten durch Suchmaschinen.

WebVTT-Untertitel sind die rechtlich und wirtschaftlich relevante Ergänzung jeder Web-Video-Produktion. Sie sichern die Verständlichkeit bei stumm abgespielten Videos, erfüllen Anforderungen aus dem Barrierefreiheitsstärkungsgesetz und liefern Suchmaschinen zusätzlichen indexierbaren Text.

In einfachen Worten

Ein WebVTT-Untertitel ist eine schlichte Textdatei mit der Endung .vtt, in der pro Zeit-Abschnitt der gesprochene Text festgehalten wird. Browser lesen die Datei automatisch aus, sobald sie als zusätzliche Spur im video-Element angebunden ist. Der ältere SRT-Standard arbeitet ähnlich, ist im Web aber weniger verbreitet – WebVTT wird von HTML-Video-Elementen nativ unterstützt und kann zusätzlich Positionierung, einfache Stil-Vorgaben und die Kennzeichnung verschiedener Sprecher enthalten. Pro unterstützter Sprache wird eine eigene .vtt-Datei angelegt; der Browser wählt automatisch die passende Variante oder bietet sie dem Besucher zur Auswahl an.

Wozu brauche ich das?

Praktisch verpflichtend überall, wo Video-Inhalt im Web ausgespielt wird: Erklärvideos auf der Startseite, Hero-Videos mit Sprecher, Schulungs-Videos, aufgezeichnete Veranstaltungen. Besonders kritisch in Motion-Graphics-Produktionen, deren Botschaft im Bild häufig nur mit dem zugehörigen Sprecher-Text vollständig erschließbar ist. Auf mobilen Endgeräten starten Videos in der Regel stumm; ohne Untertitel-Spur erreicht der Inhalt einen erheblichen Teil der Zuschauer nicht. SEO-relevant ist die Untertitel-Spur zusätzlich, weil Suchmaschinen den Text indexieren und das Video damit thematisch einordnen können.

Beispiel aus der Praxis

Eine typische Konstellation bei mehrkanaliger Video-Auslieferung: Ein professionell produziertes Video von etwa einer Minute Länge – als Motion-Graphics-Sequenz oder als Hero-Video – wird auf der eigenen Website und in Inhalts-Feeds sozialer Medien ausgespielt. Auto-Play läuft stumm. Auf der Website mit eingebundener WebVTT-Spur sehen Zuschauer den Text mit, verstehen den Inhalt auch ohne Ton und scrollen seltener weiter. Auf Plattformen ohne Untertitel-Spur bricht die durchschnittliche Betrachtungs-Zeit früh ab. Die einmalige Erstellung der Untertitel-Datei verändert die Betrachtungs-Zeit auf der eigenen Seite sichtbar.

Wirtschaftlicher Nutzen

WebVTT-Untertitel sind im Verhältnis zur Wirkung sehr günstig: Die Erstellung erfolgt heute in der Regel mit einem KI-Vortranskript und anschließender händischer Korrektur. Die Wirkung entsteht auf drei Ebenen: längere Betrachtungs-Zeiten in Auto-Play-Muted-Kontexten, vollständige Barrierefreiheit für gehörlose und schwerhörige Zuschauer (auch rechtlich relevant unter den Anforderungen des Barrierefreiheitsstärkungsgesetzes) und thematische Indexierung durch Suchmaschinen, die den Untertitel-Text als zusätzliches Inhalts-Signal werten. Im Verbund mit einem sauber gewählten Video-Codec (Web) ist die Untertitel-Spur eine der wirkungsvollsten Mikro-Investitionen im Web-Video-Bereich.

Typische Fehler

Untertitel nur als hartkodierter Bild-Bestandteil im Video gerendert – kein Browser kann sie ausschalten, keine Suchmaschine sie lesen.
Untertitel direkt aus dem KI-Vortranskript übernommen, ohne nachzubearbeiten – Fehler bei Fachbegriffen, Eigennamen und Zahlen bleiben stehen.
Zu lange Untertitel-Zeilen gewählt – über etwa 42 Zeichen pro Zeile werden auf mobilen Endgeräten umgebrochen oder abgeschnitten.
Zeit-Synchronisation nicht geprüft – Untertitel hinken oder eilen voraus, der Lese-Fluss bricht.
Nur deutsche Untertitel ausgeliefert, obwohl die Website mehrsprachig ist – eine eigene WebVTT-Datei pro Sprache wäre Standard.

Worauf achten?

Pro Sprache eine eigene .vtt-Datei anlegen und im video-Element als track-Element mit dem Attribut srclang einbinden.
Maximal etwa 42 Zeichen pro Zeile, maximal zwei Zeilen pro Untertitel-Block – sonst leidet die Lesbarkeit auf mobilen Endgeräten.
KI-Vortranskript als Ausgangsmaterial nutzen, aber händisch korrigieren – Fachbegriffe und Eigennamen sind die häufigste Fehler-Quelle.
Timing in kleinen Schritten justieren – ein gut synchronisiertes Untertitel-Bild ist Voraussetzung für angenehmes Lesen.
Sprecher-Wechsel mit einem Zeilen-Präfix kennzeichnen, wenn mehrere Stimmen im Video vorkommen.

Häufig gestellte Fragen

Was ist WebVTT?

Web Video Text Tracks – das Standard-Format für Untertitel-Dateien im Web. Eine schlichte Textdatei mit der Endung .vtt, die im video-Element als zusätzliche Spur eingebunden wird und vom Browser automatisch ausgelesen werden kann.

Warum sind Untertitel im Web wichtig?

Drei Gründe: Auto-Play läuft auf mobilen Endgeräten ohne Ton, ein Großteil der Zuschauer sieht das Video stumm. Gehörlose und schwerhörige Zuschauer benötigen Untertitel zur vollständigen Erschließung des Inhalts (BFSG-relevant). Suchmaschinen indexieren Untertitel-Text und ordnen das Video damit thematisch ein.

Worin unterscheidet sich WebVTT von SRT?

SRT ist das ältere Format, im Web weniger verbreitet. WebVTT wird von HTML-Video-Elementen nativ unterstützt und kann zusätzlich Positionierung, einfache Stil-Vorgaben und die Kennzeichnung verschiedener Sprecher enthalten.

Wie entstehen die Untertitel-Dateien?

In der Regel über ein KI-Vortranskript mit anschließender händischer Korrektur. Fachbegriffe, Eigennamen und Zahlen sind die häufigsten Fehler-Quellen und müssen manuell geprüft werden. Anschließend wird das Timing fein-justiert, damit der Lese-Fluss zum Sprech-Tempo passt.

Wie viele Sprachen brauchen eigene Dateien?

Pro Sprache eine eigene .vtt-Datei. Die Dateien werden im video-Element als mehrere track-Elemente eingebunden, jedes mit dem Attribut srclang zur Sprach-Kennzeichnung. Der Browser wählt die passende Variante automatisch oder bietet sie dem Besucher zur Auswahl an.

Zurück zu Online-Marketing