Adobe legt dir Wörter in den Mund

Wolltet ihr schon immer ein Video mit der Stimme von Morgan Freeman aufwerten? Mit dem “VoCo” von Adobe könnt ihr jede Stimme das sagen lassen, was ihr wollt.

Auf der jährlichen Konferenz “Adobe MAX”, bei der die neueste “cutting edge technology” von Adobe vorgestellt wird, zeigt das US-Unternehmen, wie in Zukunft Sprache manipuliert werden kann. In der Präsentation zeigt in einer Tonaufnahme nicht nur geschnitten oder neu vermischt werden. In einer beeindruckenden Demonstration zeigt Zeyu Jin, in knapp sieben Minuten, was alles möglich ist.
Die neue Software braucht ein Sample von gerade mal 20 Minuten länge, um nahezu alle Wörter mit der gleichen Stimme zu synthetisieren. Der Begriff VoCo ist dabei an den Vocoder angelehnt. Ein Vocoder kann Stimmen synthetisieren, was bis heute noch sehr blechern klingt, oder Samples höher oder tiefer stellen. Anwendungsbereich findet der Vocoder hautpsächlich im Musikgeschäft. VoCo geht allerdings viel weiter.

Adobe stellt für Designer und Medienproduzenten verschiedenste sehr mächtige Werkzeuge zur Verfügung. Die Software der Master Collection, einem Bundle aller Programme, ist bei vielen großen Firmen der Industriestandard. Adobes´ Photoshop ist dabei das wohl bekannteste Tool der Manipulation von Bildern. Nicht umsonst ist der englische Begriff “to photoshop” im angloamerikanischen Raum sowie im Internet mehr als anerkannt. Wird ein Bild “geshoppt”, so wird es nach den Wünschen des Anwenders manipuliert. Auf der Website Somethingawful existiert seit vielen Jahren der Photoshop Friday, ein regelmäßiger Wettkampf um die beste Bildmanipulation. Die Software ist bei einem geübten Anwender ein so mächtiges Element, dass sich ein Fake kaum mehr von einem echten Bild unterscheiden lässt. Auch auf der beliebten Plattform Reddit werden Photoshopbattles ausgetragen.

Welche Optionen bietet die Soundmanipulation mit dem VoCo?

Abgesehen davon, dass man dabei allerlei spaßigen Unfug damit treiben kann, ergeben sich einige Möglichkeiten. In der Gamesbranche könnte die Software genutzt werden, um NPCs in Spielen direkt auf die Interaktion des Spielers reagieren zu lassen. Anstatt vorproduzierte Soundsamples abzuspielen, wären dynamische Antworten möglich. Die Sprache der Spieler selbst wird maschinenlesbar. Quests in RPGs können ebenso lebendiger gestaltet werden.

Aber auch in Sachen Urheberrecht werden wir hier einige neue Grenzen erleben, wenn plötzlich jeder mit der Software die Stimme eines jeden nutzen kann. Von bekannten Synchronsprechern existieren genug Samples. Es ist eine Frage der Zeit, bis die ersten Youtuber ihre Videos mit den bekannten Stimmen von Prominenten unterlegen. Gerichte beschäftigen sich immer wieder mal mit gefälschten Bildern. Im Journalismus gilt es als unethisch, ein Bild zu manipulieren. Beim World Press Photo Award geriet das Gewinnerbild vom schedischen Fotograf Paul Hansen in Kritik, weil er es nachträglich bearbeitet hat. World Press Photo hat deshalb Standards gesetzt, was als legitime Bildmanipulation geht und was nicht. Das gleiche werden wir jetzt mit Audio Aufnahmen erleben.

Youtube wird mit VoCo definitiv um einige Mashups, besonders von Politikern und Prominenten, reicher. Im deutschen Raum sehr bekannt sind die als “Youtube Kacke” benannten Zusammenschnitte verschiedener TV Formate. Der Schnitt einer Natur-Dokumentation von Andreas Kieling wurde bereits über 380.000 mal aufgerufen.

Adobe hat schon 2014 ein ähnliches Tool vorgestellt, den #VisualSpeechEditor. Mit diesem wird der Inhalt eines AudioSamples nach gesprochenen Worten gefiltert und in lesbaren Text gewandelt. Störgeräusche wie Applaus vom Publikum können herausgefiltert werden. VoCo ist die logische Weiterentwicklung dessen.

Die Präsentation von #VoCo seht ihr hier:

Adobe legt dir Wörter in den Mund – Adobe VoCo

Stefan Fries