WebVTT-Untertitel
WebVTT ist das Standard-Format für Untertitel-Dateien im Web – zentral für Barrierefreiheit, Auto-Play-Muted-Kompatibilität auf mobilen Endgeräten und die thematische Indexierung von Video-Inhalten durch Suchmaschinen.
WebVTT-Untertitel sind die rechtlich und wirtschaftlich relevante Ergänzung jeder Web-Video-Produktion. Sie sichern die Verständlichkeit bei stumm abgespielten Videos, erfüllen Anforderungen aus dem Barrierefreiheitsstärkungsgesetz und liefern Suchmaschinen zusätzlichen indexierbaren Text.
In einfachen Worten
Ein WebVTT-Untertitel ist eine schlichte Textdatei mit der Endung .vtt, in der pro Zeit-Abschnitt der gesprochene Text festgehalten wird. Browser lesen die Datei automatisch aus, sobald sie als zusätzliche Spur im video-Element angebunden ist. Der ältere SRT-Standard arbeitet ähnlich, ist im Web aber weniger verbreitet – WebVTT wird von HTML-Video-Elementen nativ unterstützt und kann zusätzlich Positionierung, einfache Stil-Vorgaben und die Kennzeichnung verschiedener Sprecher enthalten. Pro unterstützter Sprache wird eine eigene .vtt-Datei angelegt; der Browser wählt automatisch die passende Variante oder bietet sie dem Besucher zur Auswahl an.
Wozu brauche ich das?
Praktisch verpflichtend überall, wo Video-Inhalt im Web ausgespielt wird: Erklärvideos auf der Startseite, Hero-Videos mit Sprecher, Schulungs-Videos, aufgezeichnete Veranstaltungen. Besonders kritisch in Motion-Graphics-Produktionen, deren Botschaft im Bild häufig nur mit dem zugehörigen Sprecher-Text vollständig erschließbar ist. Auf mobilen Endgeräten starten Videos in der Regel stumm; ohne Untertitel-Spur erreicht der Inhalt einen erheblichen Teil der Zuschauer nicht. SEO-relevant ist die Untertitel-Spur zusätzlich, weil Suchmaschinen den Text indexieren und das Video damit thematisch einordnen können.
Beispiel aus der Praxis
Eine typische Konstellation bei mehrkanaliger Video-Auslieferung: Ein professionell produziertes Video von etwa einer Minute Länge – als Motion-Graphics-Sequenz oder als Hero-Video – wird auf der eigenen Website und in Inhalts-Feeds sozialer Medien ausgespielt. Auto-Play läuft stumm. Auf der Website mit eingebundener WebVTT-Spur sehen Zuschauer den Text mit, verstehen den Inhalt auch ohne Ton und scrollen seltener weiter. Auf Plattformen ohne Untertitel-Spur bricht die durchschnittliche Betrachtungs-Zeit früh ab. Die einmalige Erstellung der Untertitel-Datei verändert die Betrachtungs-Zeit auf der eigenen Seite sichtbar.
Wirtschaftlicher Nutzen
WebVTT-Untertitel sind im Verhältnis zur Wirkung sehr günstig: Die Erstellung erfolgt heute in der Regel mit einem KI-Vortranskript und anschließender händischer Korrektur. Die Wirkung entsteht auf drei Ebenen: längere Betrachtungs-Zeiten in Auto-Play-Muted-Kontexten, vollständige Barrierefreiheit für gehörlose und schwerhörige Zuschauer (auch rechtlich relevant unter den Anforderungen des Barrierefreiheitsstärkungsgesetzes) und thematische Indexierung durch Suchmaschinen, die den Untertitel-Text als zusätzliches Inhalts-Signal werten. Im Verbund mit einem sauber gewählten Video-Codec (Web) ist die Untertitel-Spur eine der wirkungsvollsten Mikro-Investitionen im Web-Video-Bereich.
Typische Fehler
- Untertitel nur als hartkodierter Bild-Bestandteil im Video gerendert – kein Browser kann sie ausschalten, keine Suchmaschine sie lesen.
- Untertitel direkt aus dem KI-Vortranskript übernommen, ohne nachzubearbeiten – Fehler bei Fachbegriffen, Eigennamen und Zahlen bleiben stehen.
- Zu lange Untertitel-Zeilen gewählt – über etwa 42 Zeichen pro Zeile werden auf mobilen Endgeräten umgebrochen oder abgeschnitten.
- Zeit-Synchronisation nicht geprüft – Untertitel hinken oder eilen voraus, der Lese-Fluss bricht.
- Nur deutsche Untertitel ausgeliefert, obwohl die Website mehrsprachig ist – eine eigene WebVTT-Datei pro Sprache wäre Standard.
Worauf achten?
- Pro Sprache eine eigene .vtt-Datei anlegen und im video-Element als track-Element mit dem Attribut srclang einbinden.
- Maximal etwa 42 Zeichen pro Zeile, maximal zwei Zeilen pro Untertitel-Block – sonst leidet die Lesbarkeit auf mobilen Endgeräten.
- KI-Vortranskript als Ausgangsmaterial nutzen, aber händisch korrigieren – Fachbegriffe und Eigennamen sind die häufigste Fehler-Quelle.
- Timing in kleinen Schritten justieren – ein gut synchronisiertes Untertitel-Bild ist Voraussetzung für angenehmes Lesen.
- Sprecher-Wechsel mit einem Zeilen-Präfix kennzeichnen, wenn mehrere Stimmen im Video vorkommen.
Häufig gestellte Fragen
Was ist WebVTT?
Web Video Text Tracks – das Standard-Format für Untertitel-Dateien im Web. Eine schlichte Textdatei mit der Endung .vtt, die im video-Element als zusätzliche Spur eingebunden wird und vom Browser automatisch ausgelesen werden kann.
Warum sind Untertitel im Web wichtig?
Drei Gründe: Auto-Play läuft auf mobilen Endgeräten ohne Ton, ein Großteil der Zuschauer sieht das Video stumm. Gehörlose und schwerhörige Zuschauer benötigen Untertitel zur vollständigen Erschließung des Inhalts (BFSG-relevant). Suchmaschinen indexieren Untertitel-Text und ordnen das Video damit thematisch ein.
Worin unterscheidet sich WebVTT von SRT?
SRT ist das ältere Format, im Web weniger verbreitet. WebVTT wird von HTML-Video-Elementen nativ unterstützt und kann zusätzlich Positionierung, einfache Stil-Vorgaben und die Kennzeichnung verschiedener Sprecher enthalten.
Wie entstehen die Untertitel-Dateien?
In der Regel über ein KI-Vortranskript mit anschließender händischer Korrektur. Fachbegriffe, Eigennamen und Zahlen sind die häufigsten Fehler-Quellen und müssen manuell geprüft werden. Anschließend wird das Timing fein-justiert, damit der Lese-Fluss zum Sprech-Tempo passt.
Wie viele Sprachen brauchen eigene Dateien?
Pro Sprache eine eigene .vtt-Datei. Die Dateien werden im video-Element als mehrere track-Elemente eingebunden, jedes mit dem Attribut srclang zur Sprach-Kennzeichnung. Der Browser wählt die passende Variante automatisch oder bietet sie dem Besucher zur Auswahl an.