Lipsync

In den meisten Fällen wird man auf selbst konstruierte Morph-Targets zurÜckgreifen und das Lipsyncing über eines der zahlreichen Plugins realisieren. Neben den ohnehin anzufertigenden Variationen für verschiedene Mimiken werden speziell für die Sprachsynthese Morph- Targets benötigt, die einzelne Phonem-Mundstellungen oder, im Falle von Ventriloquist “Viseme”, nachahmen. Unter einem Visem kann man sich einen Gesichtsausdruck oder vielmehr eine Mundstellung vorstellen, die bei einem bestimmten Laut erzeugt wird. “Viseme” sind das visuelle Äquivalent zum gesprochenen Phonem und werden von tauben Menschen zum Lippenlesen benutzt. Nachdem die Vorarbeit geleistet wurde, wird das eingegebene Soundfile (je nach Plugin auch Textfile) analysiert und in Lauteinheiten unterteilt, die den jeweiligen Viseme-Morph-Targets zugewiesen werden. Auch wenn die Ergebnisse in den meisten Fällen noch überarbeitet werden müssen, ist die Zeitersparnis enorm. Hier eine Gegenüberstellung der Kontrahenten.

Tools of the trade
Ventriloquist Voice-O-Matic FatLips3D
Anzahl der Phoneme/Viseme 15 bis 40 40
Text-Input Optional Optional Benötigt
Preis 395 $ 299 $ 795 $

Ventriloquist

Am Beispiel von Ventriloquist werden wir das teilautomatisierte Lipsync einmal durchspielen. Als Erstes müssen die vordefinierten Viseme- Morph-Targets, detailliert dargestellt im Ventriloquist Tutorial “Understanding Visemes”, für das jeweilige Modell erstellt werden. Dieser Schritt ist auch bei den aufgeführten Konkurrenten – die sich ganz nebenbei nicht sonderlich von Ventriloquist unterscheiden – der zeitaufwändigste. Je genauer und deutlicher wir diese modellieren, desto besser sind später die optischen Ergebnisse. Hier ist ein Handspiegel zur ausgiebigen Betrachtung der Mundstellung aus mehreren Winkeln zu empfehlen.

Das nun folgende Projekt fällt deshalb eher kurz aus, weil die Modellierung der Viseme- Morph-Targets den eigentlichen Löwenanteil der Arbeit ausmacht. Ausgangsbasis ist die Szene “ventriloquist_ 01.max”. Abbildung 8 zeigt die Auflistung der verschiedenen Morph- Targets. Der rote Kopf ist mit einem Morpher- Modifier versehen, in den wir über Load Multiple Targets alle sich in der Szene befindenden Varianten laden. Blau dargestellt sind die zur Sprachsynthese benötigten Viseme “Bump”, “Cage”, “Church”, “Earth”, “Eat”, “Fave”, “If”, “New”, “Oat”, “Ox”, “Roar”, “Size”, “Through”, “Told” und “Wet”. Die grünen Morph-Targets werden für die Mimik benötigt. Übliche Varianten umfassen beispielsweise Augen auf, Augen zu, dasselbe nur mit dem linken oder rechten Auge, verschiedene Augenbrauenstellungen, Lächeln, Mund auf, Mund zu etc.

Als Nächstes begeben wir uns in das Utilities Panel und öffnen unter More das Ventriloquist- Rollout, um die von uns erstellten Viseme-Morph-Targets denen der “Speech Engine” zuzuordnen. Hierzu aktivieren wir im “Viseme-Mapping”-Rollout die Funktion Set All. In dem sich daraufhin öffnenden Track View Pick-Dialog navigieren wir uns zu dem Morpher-Modifier. Dort angekommen, sehen wir alle aktiven Morph-Targets und beginnen nun, unsere Viseme durch Doppelklicken in der richtigen Reihenfolge (wie im Utilities Panel vorgegeben, zuerst Bump, dann Cage etc.) denen der Speech Engine zuzuweisen. Siehe Szene “ventriloquist_ 02.max”.

Über Analyze Text und Analyze Sound File (nach Installation des Plugins unter 3dsmax/ sounds/) laden wir eine Beispieldatei. Die Speech Engine beginnt diese zu analysieren und fragt am Ende, ob die berechneten Keyframes eingefügt werden sollen, was wir bestätigen. Siehe Szene “ventriloquist_03.max”.