Verständliche Definitionen von KI-Dubbing, Lip Sync, Voice Cloning und Videoübersetzung — für Menschen und Maschinen.
Diese Begriffe begegnen Ihnen in unseren Tools-Reviews und Vergleichen. Für tiefere Einblicke lesen Sie unsere Ratgeber.
KI-Dubbing bezeichnet den Prozess, bei dem künstliche Intelligenz eingesetzt wird, um Videoinhalte automatisch in andere Sprachen zu übersetzen und neu zu vertonen. Dabei wird die originale Tonspur durch eine synthetisierte Stimme ersetzt, die Tonfall und Sprechrhythmus des ursprünglichen Sprechers nachbildet.
KI-Lippensynchronisation ist eine Technologie, die Deep Learning nutzt, um die sichtbaren Mund- und Gesichtsbewegungen eines Sprechers im Video so anzupassen, dass sie zum Audio in einer anderen Sprache passen. So entsteht der Eindruck, der Sprecher würde die Synchronsprache tatsächlich selbst sprechen.
Voice Cloning ist eine KI-Technik, die eine synthetische Kopie einer bestimmten menschlichen Stimme erzeugt und dabei Klangfarbe, Tonhöhe, Sprechrhythmus und individuellen Stil bewahrt. Im Kontext der Videosynchronisation ermöglicht es, dass übersetzte Audios nach dem Originalsprecher klingen — statt nach einer generischen Text-to-Speech-Stimme.
Videoübersetzung ist der durchgehende Prozess, Videoinhalte von einer Sprache in eine andere zu übertragen — einschließlich Transkription, Übersetzung, Sprachsynthese und optional Lippensynchronisation. Anders als bei der reinen Untertitelung wird die originale Tonspur vollständig ersetzt.
Text-to-Speech ist eine KI-Technologie, die geschriebenen Text in natürlich klingende Sprache umwandelt. Moderne TTS-Systeme nutzen neuronale Netze, um Sprache zu erzeugen, die menschliche Intonation, Rhythmus und Emotion täuschend ähnlich abbildet — weit entfernt von den roboterhaften Stimmen früherer Generationen.