Neue KI-App übersetzt Videos in Fremdsprachen und synchronisiert Lippenbewegungen

Seit nichtmal einem Jahr ist KI-Technologie in aller Munde. Neben Bild- und Textgeneratoren schickt sich eine neue an, bisherige Errungenschaften zu vereinen und ganze Videoclips durch Imitation der Originalstimme lippensynchron in andere Sprachen zu übersetzen.

IMAGO / Christian Ohde

Freunde von Star Trek werden sich sehnsüchtig an den Universalübersetzer der Science-Fiction Serie erinnert fühlen: Während Übersetzungsprogramme wie DeepL schon längst Übersetzer zur vom Aussterben bedrohten Berufsgruppe gemacht haben, verspricht nun eine neue App sogar Videos komplett zu übersetzen und dabei nicht nur die Stimme des Sprechers zu imitieren, sondern sogar dessen Lippenbewegungen daran anzupassen.

https://twitter.com/sveckert/status/1702244595180949664?s=20

Das Startup HeyGen Labs ist bereits länger auf dem KI-Markt unterwegs und bot bislang vor allem KI-Avatare, also computergenerierte Sprecher, die Texte mittels Text-to-Speech Technologie (Text-zu-Sprache) vorlesen. Aufbauend auf dieser Erfahrung künstliche Lippenbewegungen synchron zu einem Text zu gestalten, verband man die Technologie mit den Errungenschaften digitaler Übersetzer und schuf nun einen Komplettübersetzer von Videos, der zwar noch nicht perfekt ist, der aber Synchronsprecher bereits jetzt dazu veranlassen könnte sich nach einer neuen Karriere umzusehen.

Die Beta-Version des neuen Übersetzungstools HeyGen explodierte förmlich auf sozialen Netzwerken, nachdem erste Nutzer die beeindruckenden Beispiele der Übersetzungen teilten. Die KI analysiert die Ausgangssprache eines mindestens 30 Sekunden langen Videoclips und bietet acht verschiedene Zielsprachen an, darunter auch Deutsch, Polnisch und sogar Hindi. Die Übersetzung ins Englische bietet dabei sogar eine Version mit amerikanischem Akzent und eine Version mit Beibehaltung des eigenen Akzents. Denn anstatt eine neue computergenerierte Stimme über das Video zu legen, simuliert die KI die Stimme des Originalsprechers, sodass es erscheint, als ob die betreffende Person fließend in einer anderen Sprache kommunizieren kann.

Selbst die Lippenbewegungen sind – abhängig von der Qualität und dem Winkel der Aufzeichnung – synchron zum neuen Text der Zielsprache. Die Ergebnisse beeindrucken dabei durch relativ geringe Verzerrungen und Artefakte, sodass absehbar ist, dass diese Technologie schon bald für zusätzliche Verwirrung sorgen wird, wenn es darum geht festzustellen, ob auf Video festgehaltene Aussagen einer Person tatsächlich so getätigt wurden. Allerdings entlarvt sich die KI spätestens bei der Übersetzung besonders idiomatischer Phrasen, deren Bedeutung sich nur aus dem Kontext erschließt, sodass vor allem in den deutschen Übersetzungen bislang noch wortgetreue Übertragungen auftauchen, die aber inhaltlich keinen Sinn ergeben.

Bislang aber machen sich Internetnutzer vor allem einen Spaß daraus, eigene Fragmente oder historische Aufnahmen in andere Sprachen zu übersetzen. Marcel Reich-Ranicki erklärt dank KI nun die Literaturgeschichte einem englischsprachigen Publikum und Boris Jelzin scheidet nun ebenfalls auf Englisch aus dem Amt. Vor allem Übersetzungen aus dem Russischen scheinen es der Internetgemeinde angetan zu haben, da die Sprach-KI dabei zwar nicht immer elegante, aber durchaus amüsante Resultate anbietet. Es zeigt sich also, wie bei vielen anderen KIs zuvor, dass die Technologie zwar über viel (dystopisches) Potenzial verfügt, aber in ihrer jetzigen Form vor allem als kurzweiliger Unterhaltungstrend in Erscheinung tritt.

Wer sich selbst von der Qualität der KI überzeugen möchte, muss allerdings Geduld mitbringen. Der Andrang auf die gratis testbare App ist enorm, die Warteschlangen zur Übersetzung von Videoclips liegen bereits im 6-stelligen Bereich, sodass die Ergebnisse durchaus mehrere Tage auf sich warten lassen können. Den italienischsprachigen Trailer zur letzten Ausgabe von „Redaktionsschluss“ liefern wir in Bälde nach.

Anzeige

Unterstützung
oder

Kommentare ( 26 )

Liebe Leser!

Wir sind dankbar für Ihre Kommentare und schätzen Ihre aktive Beteiligung sehr. Ihre Zuschriften können auch als eigene Beiträge auf der Site erscheinen oder in unserer Monatszeitschrift „Tichys Einblick“.
Bitte entwerten Sie Ihre Argumente nicht durch Unterstellungen, Verunglimpfungen oder inakzeptable Worte und Links. Solche Texte schalten wir nicht frei. Ihre Kommentare werden moderiert, da die juristische Verantwortung bei TE liegt. Bitte verstehen Sie, dass die Moderation zwischen Mitternacht und morgens Pause macht und es, je nach Aufkommen, zu zeitlichen Verzögerungen kommen kann. Vielen Dank für Ihr Verständnis. Hinweis

26 Comments
neuste
älteste beste Bewertung
Inline Feedbacks
Alle Kommentare ansehen
fatherted
2 Jahre her

Bisher sind alle Translatoren nur halbwegs gangbar. Zu viele Unwegbarkeiten in der Ausdrucksweise die die Sätze ad absurdum führen und den Sinn nicht erfassbar machen. Ich wäre wirklich dankbar für so eine Entwicklung, weil ich mir mit Fremdsprachen unheimlich schwer tue. Eine App über die ich mich einfach in China oder Japan oder Burkina Faso (nur als Beispiel bitte…nicht als Reiseziel) unterhalten kann…wäre ein Meilenstein….aber so wie ich das sehe ist das bisher nur heiße Luft.

MichaelR
2 Jahre her

Herrgottnocheins, das ist doch längst ein alter Hut! Hat man denn noch nie von »Deepfake« gehört? Schon vor 10 Jahren gab es simple Programme, mit denen man einem Avatar die eigene Stimme oder eine andere Stimme geben konnte und die Mundbewegungen dazu synchron abliefen. Heute ist das natürlich deutlich verbessert worden, sodass man z. B. eine Rede von wem auch immer nimmt und ihn etwas sagen lässt, was er nie gesagt hat. So könnten Geheimdienste am Ende ein Originalvideo verschwinden lassen und durch ein modifiziertes ersetzen. Das ist aber, wie gesagt ein alter Hut. Was neu ist, ist die Tatsache, dass… Mehr

P. Pauquet
2 Jahre her

Ich will gar nicht auf das Kernthema direkt eingehen, sondern auf das was es macht, was es vorgaukelt, wie es uns täuscht. Es ist genau genommen eine einzige große Lüge. Die Tore der Hölle haben sich schon vor längerer Zeit geöffnet, jetzt sind sie sperrangelweit offen. Was mir gezeigt, zu hören vorgesetzt wird, ist nicht mehr möglich zu differenzieren und auf Wahrheitsgehalt zu überprüfen. Menschen benutzen Lügen und Unwahrheiten mittlerweile als tägliches normales Sprachwerkzeug, sprich zwischen Wahrheit und Lüge ist die Grenze hauchdünn. Sehr schwer direkt und unmittelbar festzustellen. Das sehen wir zur Zeit als aktuelles Beispiel (Artikel oben) am… Mehr

Last edited 2 Jahre her by P. Pauquet
P. Pauquet
2 Jahre her
Antworten an  P. Pauquet

Korrektur: nicht … Grundsätzen ungenauer es Potential. Sondern … ungehäueres Potential. – Nonsens Autokorrektur! Nicht bemerkt. Entscheidender Unterschied!

Peter Pascht
2 Jahre her

Es geht dabei nicht um Intelligenz, sondern um das allgemeine Thema „Mustererkennung“.
Dies ist schon seit Jahrzehnten ein Thema, erst einmal in der Mathematik und dann in der Programierung.
Intelligenz ist die Fähigkeit „zu Verstehen“, um Probleme selber auszumachen und Problemlösungen dazu, selber zu finden. Das können diese KI nicht.
Diese KI Systeme sind nicht fähig „Wichtiges“ von „Unwichtigem“ zu unterschieden.
Es ist der Unterschied zwischen „Wissen“ und „Verstehen“.
Verstehen tun diese KI gar nichts.

Peter Pascht
2 Jahre her

„Meine Befürchtung: Die KI wird benutzt werden, um Menschen zu durchleuchten, nach Fehlern und Unstimmigkeiten bei ihnen zu suchen.“
Ihre Befürchtung ist unbegründet.
Diese KI können nicht mehr als Menschen ihnen einprogrammieren.
Es sind schlichtweg kybernetische Automaten, die mit menschlichem Denken und Inteligenz, mit Intelligenz überhaupt, nichts zu tun haben.
Es sind „Automaten“ nicht mehr.
Das wird von Wichtigtuern, den Menschen mal wieder ein Bär aufgebunden.

Last edited 2 Jahre her by Peter Pascht
Peter Pascht
2 Jahre her

Solche Software ist nichts neues, sie gibt es schon seit 15 Jahren. Neu ist, dass diese Software nun als „App“ vorliegt, für die betriebsysteme auf Smartphones. Mit „Künstlicher Inteligenz“ hat das nicht das mindeste zu tun. Auch dieses viel strapazierte KI hat mit Inteligenz nicht das mindeste zu tun. Es sind schlichtweg kybernetische Automaten, die mit menschlichem Denken und Inteligenz, mit Intelligenz überhaupt, nichts zu tun haben. Das wird von Wichtigtuern den Menschen mal wieder ein Bär aufgebunden. All jene die diese Hype Wort KI nun verwenden haben nicht die mindeste Ahnung was Intelligenz ist. Das gleiche gilt für Digitalisierung… Mehr

Dr.KoVo
2 Jahre her
Antworten an  Peter Pascht

Sie haben da natürlich recht. Das sind lediglich von Menschen entwickelte Programme, die wir vor einiger Zeit nicht für möglich hielten. Es sind leistungsstarke Algorithmen, die jedoch mit „Intelligenz “ nichts zu tun haben. Wären sie es, müssten sie auf die Idee kommen, sich selbst zu entwickeln.

Manuela
2 Jahre her

Ich sehe in der KI eine riesige Gefahr für uns alle. Der Missbrauch ist vorprogrammiert. Mir graust vor der Zukumft und der meiner Kinder und Enkelkinder.

Lucius de Geer
2 Jahre her
Antworten an  Manuela

Der Deutsche hat immer vor allem Neuen Angst. Jede neue Technologie birgt Vor- und Nachteile. Fahren Sie ein Auto trotz der vielen Verkehrstoten? Der Enkeltrick funktioniert bei dummen Menschen auch ganz ohne KI.

Der Michel
2 Jahre her
Antworten an  Lucius de Geer

Das ist richtig – und dennoch: Diese Technik wird weiterentwickelt werden, und mittelfristig kann man dann jedem alles in den Mund legen. Realität verschwimmt dadurch komplett oder wird zumindest für Otto Normalverbraucher noch viel schwieriger von Fakes zu trennen sein. Und um Ihr Argument umzudrehen: Ich bin ein Befürworter der Kernenergie; und dennoch machen mir Kernwaffen große Sorgen. Beides hängt mit der Spaltung oder Fusion von Atomkernen zusammen.

Lucius de Geer
2 Jahre her
Antworten an  Der Michel

Hierzulande überwiegen wie üblich die Ängste (wie vor etlichen jahren bzgl. „Handy-Strahlen“). KI ist da und wird an Bedeutung gewinnen, die Leute werden sie nutzen und sie werden lernen müssen, damit umzugehen. Wer schon auf die Corona-Propaganda hereingefallen ist, wird freilich auch zum Opfer von KI-Fakes werden. Wer dagegen selber denkt und alle Informationen kritisch prüft, wird auch weiterhin im Leben zurechtkommen – wie schon immer in der Geschichte. Das eigene auf Bildung und einer guten Erziehung basierende Urteilsvermögen war und ist der beste Schutz gegen Manipulationen. Früher haben die Priester im Einklang mit den Mächtigen die Leute mit Wundergeschichten… Mehr

Transformation
2 Jahre her

Ich halte von solchen Erfindungen gar nichts, denn sie werden auch sofort missbraucht. Gerade die Kopien von Stimmen aber auch die Möglichkeiten eine Person komplett abzuscannen und sie Aktionen durchführen zu lassen (in einem Video/Film) eröffnet viele schädliche Möglichkeiten. Es gibt bereits Betrüger, die aus sozialen Medien mittels KI Stimmen kopieren und diese dann dazu verwenden bei Angehörigen den Eindruck zu erwecken, die Tochter/der Sohn/die Enkel usw. rufen an. Dann wird erzählt, derjenige säße im Gefängnis da er jemanden totgefahren hätte, und man muss Geld bezahlen für die Verteidigung oder anderes. Die Leute sind geschockt und glauben das, da sie… Mehr

Lucius de Geer
2 Jahre her
Antworten an  Transformation

Mit derselben Logik kann man auch gegen Haushaltsmesser argumentieren. Es ist doch letztlich die Dummheit der Leute, welche sie immer wieder auf den Enkeltrick, falsche Polizisten usw. hereinfallen lässt, KI schafft bloß eine andere Möglichkeit, dies auszunutzen. Jede neue Technologie hat Vor- und Nachteile – man nehme nur das Automobil. Möchten Sie wegen der vielen Unfälle darauf verzichten? Der Mensch muss mit Risiken leben lernen.

Der Michel
2 Jahre her
Antworten an  Lucius de Geer

„Der Mensch muss mit Risiken leben lernen.“. Ja. Aber man darf und soll auf die damit verbundenen Risiken hinweisen, damit naivere Zeitgenossen vielleicht ein bisschen kritischer werden. Und diese Technologie birgt *riesige* Gefahren, wenn dadurch „Realität“ konstruiert wird. Wie leicht lassen sich die Leute jetzt schon manipulieren (Corona, Klima, Krieg)? Zur Zeit benötigt es einen riesigen Propagandaapparat für die dauernde Panikmache und Meinungslenkung – es wird viel billiger und einfacher gehen, wenn man „Forschenden“ einfach die „richtigen“ Aussagen in den Mund legt bzw. auf den Mund kopiert – oder missliebige Politiker entsprechende Statements abgeben lässt. Wer kontrolliert das schon? Wer… Mehr

Transformation
2 Jahre her
Antworten an  Lucius de Geer

Ihr Vergleich hinkt total. Auto ist nicht gleich Auto. Die heutigen Autos sind voll von Spy-Ware, das bedeutet sie zeichnen lückenlos auf wie ihr Fahrverhalten ist und vieles mehr, und können sogar aus der Ferne abgeschaltet/beeinflusst werden (was schon Wikileaks/Assange vor vielen Jahren in ihrer Serie „Vault“ aufzeigten). Man kann sie also „verunfallen“ lassen. Das alles nur, da sie ein digitalisiertes Auto fahren. Das ist also ein Eingriff in Persönlichkeitsrechte und Freiheiten, wenn die blöde Karre alles aufzeichnet und weitersendet. Solche Karren können in Zukunft leicht dazu genutzt werden ein Punktesystem damit zu verbinden, was ihnen dann Autofahrten über bestimmte… Mehr

Last edited 2 Jahre her by Transformation
Lucius de Geer
2 Jahre her
Antworten an  Transformation

Sie haben mein Argument nicht verstanden. Es geht um eine Risikoabwägung wegen der Lebensgefahr, die man dennoch bewusst beim Autofahren eingeht. Wer Panik vor Spy-Ware im Auto hat, muss halt mit der Bahn fahren oder sich einen Gebrauchtwagen ohne Schnickschnack zulegen (gibt’s ohne Ende), wenn er meint, dass es zu gefährlich für ihn persönlich ist. Sorgen bereiten sollte einem eher die auf umfassende Kontrolle abzielende Politik, nicht die neutrale Technik als solche.

Transformation
2 Jahre her
Antworten an  Lucius de Geer

Tut mir leid, aber es hinkt schon wieder. Wenn ich ein Auto fahre, kann ich verunfallen, wenn ich einen Fahrfehler mache, betrunken bin oder riskant fahre. Das ist also mein persönliches Risiko oder das eines anderen, der ebenso handelt. Ein digitales Auto, welches als Spion permanent Daten über mich sendet, oder aus weiter Ferne von einem Dritten, der gar nicht mit mir zur selben Zeit auf der selben Straße fährt, manipuliert werden kann, damit ich verunfalle oder mich mittels eines Punktesystems nicht dahin fahren lässt wohin ich will, ist also eine völlig andere Sache. Das ist nicht mein Fehler, und… Mehr

Last edited 2 Jahre her by Transformation
Sam99
2 Jahre her

Nettes Gimmick. Klar, Übersetzer wie Deepl, die einen Text in eine andere Sprache übersetzen, funktionieren halbwegs brauchbar. Sobald es aber um gesprochene Sprache geht, funktionieren diese Programme nur noch bei verwandten Sprachen einigermaßen, z.B. Englisch <-> Deutsch. Bei völlig fremden Sprachen wie z.B. Chinesisch oder Japanisch, ist das Ergebnis desaströs. Das kann man leicht auf youtube ausprobieren. Man nehme z.B. ein chinesisches Video, das nicht mit Untertiteln versehen ist, und schalte die automatische Übersetzung in Englisch ein. Das Ergebnis ist Wortmüll, der kaum auf den gesprochenen Inhalt schließen lässt. Und selbst bei Videos mit Untertiteln, bei denen der Untertiteltext einfach… Mehr

roffmann
2 Jahre her

Bei vielen Frauenstimmen im TV habe ich den Eindruck , daß die über eine Gießkanne gesprochen werden, so rappelig und unangehm kommen die rüber. So KInderstimmchen haben normale Frauen nicht . Da muß schon was besonderes dazukommen diese akustische Nerverei zu erzeugen-