BITV 2.0 – Priorität I BITV 2.0 – Priorität II WCAG 2.2: 1.2 EN 301 549: 9.1.2

Anforderung 1.2: Zeitbasierte Medien

Anforderung 1.2 der BITV 2.0 betrifft barrierefreie Videos und andere zeitbasierte Medien wie Podcasts, Livestreams oder aufgezeichnete Webinare. Je nach Format braucht es Untertitel, Audiodeskription, ein Transkript oder eine andere mediale Alternative, damit Inhalte nach WCAG-Richtlinie 1.2 und EN 301 549 zugänglich bleiben. Für Webentwickler, Behörden, Agenturen und alle, die Barrierefreiheit prüfen oder umsetzen, ist das besonders relevant, weil das BFSG seit dem 28. Juni 2025 auch für bestimmte Produkte und Dienstleistungen für Verbraucherinnen und Verbraucher Anforderungen an Barrierefreiheit stellt.

Geltungsbereich: BITV 2.0 gilt für öffentliche Stellen. Das BFSG gilt seit dem 28. Juni 2025 für bestimmte Anbieter von Produkten und Dienstleistungen für Verbraucherinnen und Verbraucher – nicht pauschal für alle privaten Unternehmen. Die Priorität-II-Anforderungen 1.2.6 bis 1.2.9 sind für die Bundesverwaltung verpflichtend; für andere Anbieter gelten sie als Best Practice.

Normtext – BITV 2.0 Anlage 1, Anforderung 1.2

Für zeitgesteuerte Medien sind Alternativen bereitzustellen.

Quelle: BITV 2.0, Anlage 1 (gesetze-im-internet.de) · Einzelkriterien nach WCAG 2.2 Richtlinie 1.2 (w3.org)

Welches Medium braucht welche Alternative?

Nicht jedes Audio- oder Videoformat braucht dieselbe barrierefreie Alternative. Entscheidend ist, ob der Inhalt aufgezeichnet oder live ist und ob Informationen über Ton, Bild oder beides vermittelt werden.

  • Audio-only, aufgezeichnet (z. B. Podcast): Transkript oder gleichwertige Textalternative – Anforderung 1.2.1
  • Video-only, aufgezeichnet (z. B. stumme Animation): Beschreibung der visuellen Inhalte oder gleichwertige Alternative – Anforderung 1.2.1
  • Video mit Ton, aufgezeichnet: Untertitel (1.2.2); bei wichtigen visuellen Informationen zusätzlich Audiodeskription oder Medienalternative (1.2.3) bzw. Audiodeskription (1.2.5)
  • Live-Video mit Ton (z. B. Webinar, Livestream): Live-Untertitel – Anforderung 1.2.4
  • Live-Audio (z. B. Radiostream): möglichst zeitnahe Textalternative oder Live-Mitschrift – Anforderung 1.2.9

Hinweis: Die Anforderungen 1.2.1 bis 1.2.3 gelten nicht, wenn das Medium selbst bereits eine klar gekennzeichnete Medienalternative zu Text ist. Die Anforderungen 1.2.6 bis 1.2.9 sind WCAG AAA und in EN 301 549 V3.2.1 nur informativ in Tabelle 9.1 gelistet.

1.2.1 Audio-only und Video-only (aufgezeichnet) – barrierefreie Alternative

BITV 2.0 – Priorität I WCAG A EN 301 549: 9.1.2.1

Ein Podcast ohne Transkript oder ein stilles Erklärvideo kann Menschen ausschließen, die den Ton nicht hören oder das Bild nicht sehen können. Die Anforderung verlangt deshalb eine Alternative, die den Inhalt vollständig und in sinnvoller Reihenfolge wiedergibt – für blinde Menschen, für gehörlose Menschen und auch für alle, die Inhalte lieber lesen als anhören. Eine kurze Zusammenfassung reicht nicht, wenn dabei Informationen verloren gehen.

Umsetzung: Zu einem Audio-Beitrag gehört ein Transkript, zu einem Video ohne Ton eine textliche Beschreibung oder eine gleichwertige Alternative. Wenn ein Clip zeigt, wie man eine Schaltfläche anklickt oder ein Formular absendet, muss genau das im Text nachvollziehbar sein. Die Alternative sollte direkt am Medium stehen, nicht erst auf einer schwer auffindbaren Unterseite.

1.2.2 Untertitel für aufgezeichnete Videos (Captions)

BITV 2.0 – Priorität I WCAG A EN 301 549: 9.1.2.2

Untertitel sind nötig, wenn ein aufgezeichnetes Video gesprochenen Inhalt enthält und der Ton nicht für alle nutzbar ist. Sie helfen gehörlosen und schwerhörigen Menschen, aber auch Nutzern in lauter Umgebung oder ohne Kopfhörer. In guten Untertiteln stehen nicht nur Dialoge, sondern auch wichtige Geräusche oder Sprecherwechsel, wenn sie für das Verständnis relevant sind – ein eingeblendeter Hinweis im Video gehört dazu, wenn er inhaltlich wichtig ist.

Umsetzung: Es braucht echte, bearbeitbare Untertiteldateien oder sauber eingebettete Untertitel im Player. Automatisch erzeugte Untertitel können ein Anfang sein, müssen aber fachlich geprüft und korrigiert werden. Wichtig sind Lesbarkeit, Timing und eine klare Kennzeichnung von Sprecherwechseln.

1.2.3 Audiodeskription oder Medienalternative für aufgezeichnete Videos

BITV 2.0 – Priorität I WCAG A EN 301 549: 9.1.2.3

Diese Anforderung greift, wenn wichtige Informationen nur im Bild vorkommen – etwa ein eingeblendeter Hinweis, eine Geste oder eine Aktion auf dem Bildschirm. Untertitel allein reichen dann nicht, weil sie nur den Ton abbilden. Menschen, die blind oder stark sehbehindert sind, brauchen zusätzlich eine Beschreibung oder eine gleichwertige Medienalternative. Abgrenzung zu 1.2.5: Dort ist die Audiodeskription die eigenständige Pflichtstufe, hier ist sie nur eine mögliche Lösung neben der Medienalternative.

Umsetzung: Das kann eine zusätzliche Audiospur sein, die erklärt was auf dem Bildschirm passiert, oder ein ausführliches Alternativdokument. Wenn im Video ein Sprecher auf eine Grafik zeigt, muss die Grafik in Worten erklärt werden. Eine bloße Kurzfassung reicht nicht, wenn dadurch Informationen verloren gehen.

1.2.4 Live-Untertitel für Streams und Webinare (Captions)

BITV 2.0 – Priorität I WCAG AA EN 301 549: 9.1.2.4

Bei einem Live-Webinar, einer Konferenz oder einem Stream in Echtzeit müssen gesprochene Inhalte live mitlesbar sein. Das ist wichtig für Menschen mit Hörbehinderung, aber auch für alle, die den Ton nicht hören können oder in einer störenden Umgebung arbeiten. Live-Untertitel unterscheiden sich dadurch, dass sie gleichzeitig mit dem Vortrag entstehen – Verzögerung und Erkennbarkeit der Sprecherwechsel sind entscheidend.

Umsetzung: Es braucht meist einen Live-Captioning-Dienst oder professionelle Schreibdolmetschung (CART). Die Untertitel müssen sichtbar im Player oder Stream eingeblendet werden. Bei wichtigen Veranstaltungen sollte vorher getestet werden, ob Verzögerung, Erkennbarkeit und Qualität ausreichen.

1.2.5 Audiodeskription für aufgezeichnete Videos

BITV 2.0 – Priorität I WCAG AA EN 301 549: 9.1.2.5

Hier geht es um aufgezeichnete Videos, bei denen visuelle Informationen nicht allein durch den Ton vermittelt werden – ein Sprecherwechsel, eine eingeblendete Warnung oder eine Handlung ohne Erklärung braucht eine zusätzliche Beschreibung. Diese Anforderung ist besonders relevant für blinde und sehbehinderte Menschen, weil sie sonst nur einen Teil des Inhalts erfassen würden.

Umsetzung: Die Audiodeskription wird in einer passenden Sprechpause ergänzt und soll den visuellen Inhalt verständlich machen, ohne den Dialog zu überlagern. Wenn es keine passenden Pausen gibt, muss die Produktion angepasst werden oder es braucht eine andere technische Lösung. Wichtig: Nutzer müssen die zusätzliche Tonspur auch tatsächlich auswählen können.

1.2.6 Gebärdensprache für aufgezeichnete Videos

BITV 2.0 – Priorität II WCAG AAA EN 301 549: Tabelle 9.1 (informativ)

Diese Anforderung richtet sich vor allem an gehörlose Menschen, die Gebärdensprache als bevorzugte Sprache nutzen, und geht über Untertitel hinaus. Besonders bei komplexen Erklärvideos oder wichtigen öffentlichen Informationen kann eine Gebärdensprachversion den Zugang deutlich verbessern. Da es sich um WCAG AAA handelt, ist diese Anforderung in EN 301 549 V3.2.1 nur informativ in Tabelle 9.1 gelistet – nicht normativ prüfpflichtig.

Umsetzung: Das Video bekommt eine sichtbare Gebärdensprachdolmetschung oder eine eigene Fassung in Deutscher Gebärdensprache (DGS). Die Darstellung muss groß genug und gut lesbar sein, damit Mimik und Handbewegungen erkennbar bleiben. Die technischen Vorgaben der Anlage 2 der BITV 2.0 sind zu beachten (mind. 320×240 Pixel, 25 Bilder/Sekunde).

1.2.7 Erweiterte Audiodeskription für aufgezeichnete Videos

BITV 2.0 – Priorität II WCAG AAA EN 301 549: Tabelle 9.1 (informativ)

Diese Anforderung (WCAG AAA, in EN 301 549 nur informativ) wird relevant, wenn normale Audiodeskription zu knapp ist – etwa wenn das Video zu dicht geschnitten ist oder fast keine Sprechpausen hat. Dann muss die Beschreibung länger sein oder das Video so aufbereitet werden, dass alle wichtigen visuellen Informationen verständlich werden.

Umsetzung: Das Video kann an geeigneten Stellen pausiert werden, damit eine längere Beschreibung Platz hat. Alternativ kann eine vollständige Textfassung angeboten werden. Besonders bei Tutorials, Lernvideos oder Dokumentationen mit vielen eingeblendeten Details ist das hilfreich.

1.2.8 Medienalternative für aufgezeichnete Videos

BITV 2.0 – Priorität II WCAG AAA EN 301 549: Tabelle 9.1 (informativ)

Gemeint ist eine vollständige Ersatzfassung des Medieninhalts – meist als Text – die Bild, Ton und wichtige Einblendungen abdeckt. Sie ist besonders nützlich wenn jemand ein Video lieber lesen möchte oder wenn ein Medium technisch nicht nutzbar ist. Diese AAA-Anforderung ist in EN 301 549 V3.2.1 ebenfalls nur informativ in Tabelle 9.1 aufgeführt.

Umsetzung: Ein typisches Beispiel ist ein aufgezeichnetes Erklärvideo mit mehreren Einblendungen, das zusätzlich als sorgfältig strukturiertes Transkript angeboten wird. Diese Alternative muss mehr sein als eine Kurzbeschreibung – sie soll den gesamten Inhalt nachvollziehbar machen. Wenn sie als HTML-Seite bereitgestellt wird, sollte sie klar gegliedert und ohne Barrieren lesbar sein.

1.2.9 Audio-only live – barrierefreie Alternative

BITV 2.0 – Priorität II WCAG AAA EN 301 549: Tabelle 9.1 (informativ)

Bei einem Live-Audiostream – etwa einer Radioübertragung, einem Live-Podcast oder einer reinen Audio-Konferenz – braucht es eine gleichwertige Alternative. Das schützt vor allem Menschen mit Hörbehinderung, aber auch Menschen, die das Audio nicht direkt hören können. Auch diese Anforderung ist WCAG AAA und in EN 301 549 V3.2.1 nur informativ gelistet.

Umsetzung: Konkrete Lösungen sind ein Live-Transkript, eine parallele Textübertragung oder eine professionelle Live-Mitschrift. Bei Live-Formaten mit vielen Fachbegriffen sollte die Textfassung möglichst zeitnah mitlaufen. Für besonders wichtige Live-Termine ist eine vorbereitete Schreibdolmetschung (CART) oft die beste Wahl.

Häufige Fragen zu zeitbasierten Medien

Reichen automatisch erzeugte Untertitel aus?

Nicht automatisch. Sie können eine erste Grundlage sein, müssen aber fachlich geprüft werden – Namen, Fachbegriffe, Zahlen und Sprecherwechsel werden oft falsch erkannt. Für 1.2.2 zählen Untertitel erst dann verlässlich, wenn sie inhaltlich brauchbar sind.

Was ist der Unterschied zwischen Untertitel und Transkript?

Untertitel laufen parallel zum Video oder Live-Stream und sind für die direkte Mitverfolgung gedacht. Ein Transkript ist eine Textfassung zum Nachlesen, oft ohne Zeitbezug. Für ein Podcast-Archiv ist ein Transkript meist die passende Lösung, für ein Video braucht man zusätzlich Untertitel.

Wann ist eine Audiodeskription erforderlich – und wann reicht ein Transkript?

Eine Audiodeskription ist nötig, wenn wichtige Informationen nur visuell vermittelt werden – ein eingeblendeter Hinweis, eine Geste oder eine Aktion im Video. Ein Transkript reicht nur dann, wenn es diese visuellen Informationen vollständig beschreibt und damit als Medienalternative taugt. Bei 1.2.3 kann beides möglich sein, bei 1.2.5 ist die Audiodeskription eigenständige Pflicht.

Muss auch der Videoplayer barrierefrei sein?

Ja. Untertitel, Audiodeskription und alternative Tonspuren helfen nur, wenn sie im Videoplayer auffindbar und bedienbar sind. Der Player muss per Tastatur nutzbar sein, verständliche Bedienelemente haben und darf Untertitel oder zusätzliche Tonspuren nicht verstecken.

Einordnung in weitere Normen

Anforderung 1.2 basiert auf WCAG 2.2 Richtlinie 1.2. Im europäischen Standard EN 301 549 sind die Anforderungen 1.2.1–1.2.5 unter Abschnitt 9.1.2 normativ verankert. Die WCAG-AAA-Kriterien 1.2.6–1.2.9 sind dort in Tabelle 9.1 informativ aufgeführt. Für Videoplayer gelten zusätzlich die technischen Anforderungen aus EN 301 549 Abschnitt 7 – nicht nur der Inhalt, auch der Player selbst muss zugänglich sein: Untertitel, Tonspuren und Steuerung müssen auffindbar und bedienbar sein.

Offizielle Quellen