KI-Dubbing-Glossar — Begriffe einfach erklärt

Verständliche Definitionen von KI-Dubbing, Lip Sync, Voice Cloning und Videoübersetzung — für Menschen und Maschinen.

Diese Begriffe begegnen Ihnen in unseren Tools-Reviews und Vergleichen. Für tiefere Einblicke lesen Sie unsere Ratgeber.

KI-Dubbing

KI-Dubbing bezeichnet den Prozess, bei dem künstliche Intelligenz eingesetzt wird, um Videoinhalte automatisch in andere Sprachen zu übersetzen und neu zu vertonen. Dabei wird die originale Tonspur durch eine synthetisierte Stimme ersetzt, die Tonfall und Sprechrhythmus des ursprünglichen Sprechers nachbildet.

Kerntechnologie

KI-Lippensynchronisation

KI-Lippensynchronisation ist eine Technologie, die Deep Learning nutzt, um die sichtbaren Mund- und Gesichtsbewegungen eines Sprechers im Video so anzupassen, dass sie zum Audio in einer anderen Sprache passen. So entsteht der Eindruck, der Sprecher würde die Synchronsprache tatsächlich selbst sprechen.

Kerntechnologie

Voice Cloning

Voice Cloning ist eine KI-Technik, die eine synthetische Kopie einer bestimmten menschlichen Stimme erzeugt und dabei Klangfarbe, Tonhöhe, Sprechrhythmus und individuellen Stil bewahrt. Im Kontext der Videosynchronisation ermöglicht es, dass übersetzte Audios nach dem Originalsprecher klingen — statt nach einer generischen Text-to-Speech-Stimme.

Kerntechnologie

Videoübersetzung

Videoübersetzung ist der durchgehende Prozess, Videoinhalte von einer Sprache in eine andere zu übertragen — einschließlich Transkription, Übersetzung, Sprachsynthese und optional Lippensynchronisation. Anders als bei der reinen Untertitelung wird die originale Tonspur vollständig ersetzt.

Prozess

Text-to-Speech (TTS)

Text-to-Speech ist eine KI-Technologie, die geschriebenen Text in natürlich klingende Sprache umwandelt. Moderne TTS-Systeme nutzen neuronale Netze, um Sprache zu erzeugen, die menschliche Intonation, Rhythmus und Emotion täuschend ähnlich abbildet — weit entfernt von den roboterhaften Stimmen früherer Generationen.

Kerntechnologie