Künstliche Intelligenz in der Video- und Filmproduktion
Ai und Ki in der Video- und Filmproduktion
In diesem Text möchten wir unsere persönlichen Einschätzungen und Erfahrungen zum Umgang mit generativer KI (oder KI) im Bereich der professionellen Werbefilmproduktion teilen. Wir arbeiten täglich mit den Tools, wann immer es der Datenschutz zulässt und es einen Vorteil bringt. Gerne können Sie uns zu diesem Thema als Speaker anfragen.
Schon in dem Moment, in dem wir diesen Text schreiben, ist er wahrscheinlich nicht mehr aktuell. Wir versuchen jedoch, ihn mit regelmäßigen Updates so aktuell wie möglich zu halten. Schreiben Sie uns gerne, wenn Ihnen ein Hinweis fehlt. Es gibt bisher kaum empirische Daten, um professionell auf Events und Panels oder im wissenschaftlichen Austausch zu diesem Thema zu sprechen, daher muss der Text vorerst mit anekdotischen Alltagserfahrungen auskommen.
Einführung
Als wir in der Filmagentur mit der Produktion von Werbefilmen begonnen haben, wurden Videos noch auf magnetischen Videobändern aufgezeichnet. Professionelle Produktionen waren damals 50-90% teurer als heute, weshalb deutlich weniger Image- und Werbefilme gedreht wurden als heute. Vor einer Tranformation steht die Branche aktuell wieder, die Frage ist natürlich, welche Veränderungen nach dem Hype übrig bleiben.
In der öffentlichen Diskussion bekommt man oft den Eindruck, dass mit KI in der Videoproduktion, Content-Erstellung und im Marketing nun alles automatisch abläuft. Das ist jedoch nicht der Fall. Es ist wichtig, das Thema differenziert und ohne Hype oder Angst zu betrachten, um die Entwicklungen zu verstehen und zu nutzen.
Die Welt der Filmproduktion ist so breit wie das Leben selbst: szenisch, fiktional, journalistisch und dokumentarisch, Kinderfilme, Schulungsfilme, Erwachsenenfilme, Animationsfilme, etc. Hier konzentrieren wir uns auf den kleinen Bereich der Werbe- und Imagefilmproduktion für Unternehmen, Behörden, Ministerien, etc.
Grundsätzlich betrachten wir KI als einen Co-Piloten, der unsere Arbeitsprozesse vor allem in der Konzeption und Postproduktion beschleunigt und verdichtet, und der ganz neue Darstellungsformen und Filmarten hervorbringen wird. So ergeben sich mehr kreative Möglichkeiten und voraussichtlich ein grundsätzlicher Zuwachs der Marktgröße für Imagefilmproduktionen, da die Einstiegsbarrieren in eine Werbefilmproduktion sinken, egal ob professionell oder inhouse produziert. Der ROI für eine Filmproduktion wird daher voraussichtlich sinken.
Es ist jedoch wichtig zu bedenken, dass unsere Filme oft Dinge (dokumentarisch als Werbefilm) in der nicht digitalisierten realen physischen Welt zeigen. Seien es Produkte, ganze Unternehmen, Arbeitgeber, Dienstleistungen, Landschaften, etc. Diese reale Wirklichkeit ist unendlich komplex und müsste, um ein Filmprojekt umzusetzen, für die KI verständlich, erreichbar und digitalisierbar sein. Das ist jedoch im Moment oft noch nicht der Fall.
Jedes Filmprojekt gliedert sich in drei Phasen: Vorproduktion (Konzeption und Filmdrehplanung), Filmdreh und Postproduktion (Filmschnitt, Animationen, Audio). Wir gehen Schritt für Schritt durch das Thema:
KI in der Vorproduktion
KI in der Recherche
Die KI lässt sich zunächst sehr gut in der journalistischen Recherchephase einsetzen. Wenn wir zu Themen recherchieren oder einen Überblick benötigen, eignet sich ChatGPT recht gut. Auch für das schnelle Kennenlernen von bekannten Unternehmen, die uns anfragen, ist es hilfreich. Hierbei tritt jedoch immer wieder das auf, was viele andere auch feststellen: Die Ergebnisse sind nicht sicher korrekt, vollständig und reproduzierbar. Möglicherweise verbessert sich in Zukunft die Qualität hinsichtlich Verbindlichkeit und detaillierter Korrektheit. Wir stellen jedoch fest, dass insbesondere im B2B-Umfeld die Unternehmen oft so unbekannt sind, dass sie für Text-KI nicht greifbar sind und das Maß an Unschärfe stark zunimmt.
KI in der Konzepterstellung
Bei der konkreten Konzepterstellung lässt sich ChatGPT theoretisch einsetzen, indem Konzepte, Storyboards, Drehpläne und Interviewfragen von der KI erstellt werden. Wir versuchen ständig, die Aufgabenstellungen, die uns aus einem Briefing oder bei einer Ausschreibung erreichen, durch die KI interpretieren zu lassen, um daraus Filmkonzepte zu entwickeln. Daraus ergeben sich ganz grundsätzlich mehrere Schwierigkeiten:
- Alles, was wir dann von der KI erhalten, entspricht höchstens 50% dessen, was nötig ist, um ein professionelles Filmkonzept zu erstellen. Oftmals sind der Aufbau der Filme, die Texte und Bildideen zu rudimentär und zu wenig kreativ und konkret.
- Erschwerend kommt hinzu, dass die KI-Tools die komplexe Struktur eines Films in Bezug auf Dramaturgie, Kontexte zwischen den Szenen und das Zusammenspiel von Bild, Text und Ton etc. nicht versteht, weil sie vor allem durch Texte und Bilder lernt. Folglich bezieht die KI das Zusammenspiel dieser Gestaltungsebenen in die Konzepterstellung gar nicht sein.
- Etwas kritisch über den Tellerad geblickt, muss man sich natürlich auch fragen, wie kreativ und neu Konzepte in Zukunft sein werden, wenn die Tools gut genug werden für den Arbeitsalltag und keine neuen Ideen erdacht werden, sondern nur Reproduktionen der Reproduktionen entstehen.
- Auch beim Datenschutz gibt es natürlich wichtige Aspekte zu beachten. Mit dem Upload von Prompts und Dokumenten und der Verarbeitung und der Speicherung dieser Daten entstehen zusätzlich Hürden, die den Einsatz erschweren und für einige Projekte den Einsatz der KI von vorherein deutlich einschränken.
- Außerdem ist eine KI immer dann gut, wenn ein Prompt kurz und präzise ist. Um jedoch einen Imagefilm über ein komplettes Unternehmen zu erstellen, sind bereits in der Konzeptionsphase viele Schritte aufeinander folgende nötig, bis das drehfertige Konzept steht. Vor allem bei der Erstellung von Shotlisten und Drehplänen, also der Vorstufe zur konkreten Umsetzung, müssen Informationen aus dem Chatverlauf kombiniert werden. Da die KI die Prompts aus dem konkreten Chat kombiniert, wird der Prompt sehr lang und die KI liefert keine guten Ergebnisse mehr. Hier sind ein paar Beispiele:
KI-Konzepterstellung: HR-Film für adidas
Promt: Schreibe ein Recruitingfilmkonzept für die Firma Adidas. Es soll ein Arbeitgebergesamtfilm gedreht werden. Welches Konzept macht Sinn? Schreibe drei Vorschläge und zu jedem Vorschlag Sprechertexte oder Interviewfragen. Gedreht werden soll im Headquarter. Schreibe 15 Szenen auf, die zu sehen sein sollen.
Dieses Konzept ist in unseren Augen einerseits wenig konkret. Es geht z.B. wenig auf die Tatsache ein, dass es bei Adidas im Wesentlichen um Sportartikel geht. Ob Adidas solche Innovationslabore hat, wissen wir natürlich nicht. Ein Fokus auf dieses Thema ist auf jeden Fall eine Überlegung wert. Außerdem folgt der Film keinen nachvollziehbaren Aufbau. So fragen wir uns, warum mitten im Film über Work-Life-Balance gesprochen wird, wenn am Ende nochmal Gemeinschaftsaktivitäten vorkommen. Hier wäre eigentlich der Platz für Informationen zur Work-Life-Balance. Die Szenen wirken wie eine zusammenhanglose Aneinanderreihung von Dingen. Um hier ein vernünftiges Konzept zu haben, braucht es also noch mehr Input, kreative Leistung und eine Fokussierung auf eine Kernbotschaft. Und: Wozu braucht es einen Moderator? Dieses Stilmittel sieht man natürlich oft in der täglichen journalistischen Berichterstattung, aber nur noch sehr, sehr selten im Werbefilmbereich. Das Mittel wird uns übrigens fast immer bei Konzepten vorgeschlagen. Was wir bei dem Konzept auch vermissen, ist die Darstellung eines konkreten Arbeitsplatzes bei Adidas. Wir würden in so einem Film eigentlich auch gern einmal das Gebäude insgesamt und die nähere Umgebung des Headquarters zeigen, wenn neue Mitarbeiter mit dem Film für eine Arbeit dort begeistert werden sollen.
Zweiter Versuch:
Prompt: Schreibe ein Filmkonzept für einen Informationsfilm über die Hufeisensiedlung in Berlin. Der Film soll informativ und emotional sein. Erstelle eine Tabelle mit Szenennummern, Texten und passenden Bildern dazu. Beschreibe in 5 Sätzen, was die Grundidee des Films ist.
KI-Konzepterstellung: Film über die Hufeisensiedlung Berlin
Schreibe ein Filmkonzept für einen Informationsfilm über die Hufeisensiedlung in Berlin. Der Film soll informativ und emotional sein. Erstelle eine Tabelle mit Szenennummern, Texten und passenden Bildern dazu. Beschreibe in 5 Sätzen, was die Grundidee des Films ist.
Das Konzept ist gar nicht schlecht, und in einzelnen Szenen erstaunlich nah an unserem Film. Die vorgeschlagenen Szenen liegen natürlich auch schnell auf der Hand. Aber inhaltlich sind hier doch ein paar Dinge zu finden, die schlicht falsch sind. Die Siedlung wurde nicht von Walter Gropius, sondern von Bruno Taut gebaut. Außerdem gibt es im Areal der Siedlung gar keine Bibliothek. Die KI liefert hier auch keine Idee oder Ansatz, wie der Film durch seine Machart, einen roten Faden oder kreative Idee einprägsamer werden kann.
Was Text-KI von Chat GPT eigentlich ganz gut können müsste, ist die Einstellung von Sprechertexten. Aber auch hier sehen wir die oben beschriebenen Probleme: Genauigkeit, Originalität und Kreativität. Das ist übrigens unsere Umsetzung zum anvisierten Thema:
KI in der Vorvisualisierung
In dieser Phase kann die “KI” eine großartige Funktion ausspielen, nämlich in der Kreation von Bildern nach textlichen Vorgaben. So können Looks, Storyboards und ganze Filme durch Texteingabe vorgezeichnet werden. Das hilft, um eine Produktion besser zu planen, um Looks zu besprechen und um Unsicherheiten beim Auftraggeber im Vorfeld abzubauen. Nun muss man hier jedoch sagen, dass wir nicht bei allen Filmtypen Vorvisualisierungen brauchen. Oft sind Stock-Fotos auch schneller und besser verfügbar.
Auch bei der Produktion von Standbildern zur Besprechung kompletter Looks ist mit Midjourney und DALL-E möglich. Unsere Erfahrung ist, dass die Bildgeneratoren immer dann scheitern, wenn man etwas ganz konkretes ohne viel Fantasie-Spielraum durch die KI darstellen möchte. In diesem Beispiel wollen wir eine Vorvisualisierung erstellen für einen Auftraggeber aus der Stahlindustrie.
Promt Midjourney
Zeige einen 30 jährigen Mann in ikonischer fotorealistischer Darstellung, wie er mit einer sauberen Arbeitskleidung in einem Gang in einem Stahlindustrie-Gebäude steht. Die Person wird von einem einfallenden Deckenlicht beleuchtet. Im Hintergrund scheint die untergehende Sonne durch ein Fenster.
Das sieht doch schon einmal gut aus. Das nächste Bilder funktioniert leider nicht gut: erstellt mit Dall-E von ChatGPT 4 am 07.05.2024:
Erstelle ein Bild: Es sitzen drei Personen an einem Tisch, der Look ist photorealisitisch, die Kameraperspektive leicht von schräg oben, auf dem Tisch stehen drei Computer-Tablets:
KI in der Filmdrehplanung
Es wäre natürlich schön, wenn die KI uns nach erfolgter Konzept-Planung einen konkreten Filmdrehplan zur Umsetzung des Filmprojekts schreibt. In einem Filmdrehplan stehen in chronologischer Reihenfolge, wann, was und von wem gedreht wird. Wir können Drehpläne sehr schnell schreiben, schließlich haben wir das schon hunderte Male gemacht. Die KI tut sich schwer mit einer konkreten Aussage und liegt auch nicht so richtig richtig.
Promt Midjourney
Promt: wie lange dauert es mit einem Filmteam von 3 Personen eine Imagefilmmeetingraumszene zu drehen?
Antwort
Die Dauer, um eine Imagefilmmeetingraumszene zu drehen, hängt von verschiedenen Faktoren ab und kann stark variieren. Hier sind einige der wichtigsten Faktoren, die die Dauer beeinflussen können:
- Drehbuch und Vorbereitung: Wenn das Drehbuch gut ausgearbeitet und die Szene im Voraus geplant wurde, kann dies den Dreh erheblich beschleunigen.
- Ort: Die Wahl des Drehorts spielt eine wichtige Rolle. Ist der Meetingraum bereits verfügbar und eingerichtet, oder muss er für die Aufnahmen vorbereitet werden?
- Anzahl der Einstellungen: Wie viele verschiedene Kameraeinstellungen und Perspektiven sind erforderlich? Je mehr Einstellungen Sie benötigen, desto länger dauert der Dreh.
- Anzahl der Dialoge und Aktionen: Wenn es viele Dialoge oder komplexe Aktionen in der Szene gibt, kann dies die Dauer erheblich verlängern, da die Schauspieler Zeit für Proben und Wiederholungen benötigen.
- Beleuchtung und Kameraarbeit: Die Einrichtung der Beleuchtung und die Positionierung der Kameras können ebenfalls viel Zeit in Anspruch nehmen.
- Qualität und Erfahrung des Filmteams: Ein erfahrener Regisseur und Kameramann können den Dreh beschleunigen, da sie effizienter arbeiten und mögliche Probleme schneller lösen können.
- Requisiten und Kostüme: Wenn spezielle Requisiten oder Kostüme benötigt werden, kann dies die Dauer des Drehs verlängern.
- Pausen und Ruhezeiten: Das Filmteam benötigt möglicherweise Pausen für Erholung und Verpflegung.
- Postproduktion: Die Bearbeitung und Nachbearbeitung des Materials nach dem Dreh kann ebenfalls Zeit in Anspruch nehmen.
Insgesamt kann es schwer vorherzusagen sein, wie lange es dauert, eine bestimmte Szene zu drehen, ohne die oben genannten Details zu kennen. Je besser die Vorbereitung und Planung im Voraus erfolgen, desto reibungsloser und schneller sollte der Dreh ablaufen. Ein grober Richtwert könnte sein, dass es einige Stunden bis zu einem ganzen Tag dauern könnte, eine komplexere Meetingraumszene mit einem Team von 3 Personen zu drehen. Dies ist jedoch nur eine grobe Schätzung, und die tatsächliche Dauer kann stark variieren.
Die Antwort wäre hier eigentlich kurz und bündig: Der Dreh dauert 2h. Das kann die KI aber (noch) nicht wissen, weil das eine sehr spezifische Fragestellungsthematik in einem schmalen professionellen Arbeitsbereich ist und sich dem Wissen der KI entzieht. Würde man die KI mit dem spezifischen Wissen "füttern" und schulen, könnte sie diese Frage vermutlich verlässlicher und präziser beantworten.
KI während des Filmdrehs
So vielfältig wie die Welt der fertigen Filme insgesamt ist, so vielfältig ist natürlich auch die Filmproduktion selbst. Neben animierten Filmen erstellen wir vor allem real gedrehte Filme an einem real existierenden Motiv, z.B. in einem Industrieunternehmen. Es gibt sowohl bei der Beleuchtungstechnik als auch Kameratechnik immer mehr Software getriebene Funktionserweiterungen und Verbesserungen. Diese Upgrades bauen aber soweit und das bekannt ist nicht auf maschinelles Lernen auf. Man kann also nicht einfach Lampen aufbauen und der KI nach einer Vorvisualisierung sagen, welcher Look erzeugt werden soll. Genauso verhält es sich (nicht) bei der Kameraführung. Die Kamera muss noch selbst geführt werden, Einstellungen je nach Anspruch und Bedarf für Schärfe, ISO, Blende, Speicherformat vorgenommen werden etc. Natürlich übernehmen all das auch Automatiken in Smartphones. Im professionellen Filmbereich, wo auch in suboptimalen Bedingungen (z.B. Dunkelheit, Helligkeitsunterschiede, ständig bewegte und verdeckte Fokus-Objekte) ein professionelles Bild erzeugt werden soll. Auch nimmt die KI natürlich nicht die Frage ab, wie sich an einem konkreten Drehort spannende Kameraperspektiven ergeben können, die Szenen aus Sicht der Regie aufgebaut werden müssen etc.
Es gibt für bestimmte Anwendungsfälle aber schon KI-Gestützte Software zur Bildgeneration.
-
Text/Bild zu Video mit Runway oder Sora von OpenAI
Wir sind noch keine Experten in der Nutzung von Runway AI sowie Sora, beide Tools sind noch stark im Entwicklungsstadium. Aus unserer Erfahrung muss man viel rumprobieren, bis man zufällig zu brauchbaren Ergebnissen kommt. Man sieht aber schon ganz gut, wohin die Entwicklung bei fiktionalen Werbefilmen in Zukunft gehen könnte. So kann aus einem Text-Prompt ein generisches Foto und Video generiert werden. Runway ist aktuell der Marktführer in diesem Bereich. In den Videos, die man dazu sieht sind immer sehr kurze Sequenzen zu sehen in der sich zwar eine virtuelle Kamera fliegend durch das Bild bewegt, in der aber komplexe Bewegungen, komplexe Gesichtsausdrücke oder gar funktionierende Dialoge zwischen den Protagonisten nicht zu erkennen sind.
Bisher gibt es aber noch einige Dinge, die uns hier hin zu einer professionellen Nutzung fehlen: Die künstlich generierten Szenen sind noch recht kurz. Es gibt noch viele Artefakte und Fehler in der Darstellung von Bewegungen von Dinge und Personen. Außerdem hat die Anmutung und der Look der Filme oft etwas mystisches und traumhaftes an sich. Das passt natürlich nicht zu jeder Filmproduktion.
-
Text zu Avatar zu Video
Bei dem Online- und Webbrowser basierten Service können Texte in ein Presenter-Video übertragen werden. Dafür stehen nicht nur künstliche Avatare zur Verfügung, die täuschend echt aussehen, sondern es ist auch möglich von einer eigenen Person einen Avatar zu erzeugen, der dann zum vorgegebenen Text “Spricht”.
In diesem Beispiel haben wir ein selbst erstelltes Foto bei runway hochgeladen und der KI einfach mal gesagt, dass sich nun der Traktor im Bild bewegen soll. Das Ergebnis ist noch nicht nutzbar:
Bei diesem Tool stellt sich grundlegend die Frage, die man eigentlich immer vor jeder Videoproduktion braucht: Für wen ist so ein Video relevant und würde auch ein Text ausreichen? Denn: die künstlich erzeugten Videos strotzen bis jetzt nicht unbedingt vor Lebendigkeit, Authentizität und Emotionalität von Mensch zu Mensch. Bei vielen Videoproduktionen kommt es aber genau darauf an.
KI und AI im Filmschnitt
Auch in dieser Phase ist es wieder so, dass “die KI” uns nicht den Film fertig schneidet, vertont und mit Animationen verschönert. Zeitraubend und wenig kreativ ist beim Filmschnitt vor allem die Sichtung und Sortierung des gedrehten Materials. Es gibt hier im Consumer-Bereich schon Videoschnitt-Smartphone-Apps, die das versuchen, aber die Qualität der Bildauswahl ist oft nicht so optimal, wie von "Hand" geschnittenes Filmmaterial, wo es eine exakte technische Auswahl an kommt und eine ideale Passung von Inhalten im Bild zum Ton und Inhalt auf der Audiospur. Aber im professionellen Bereich sind uns noch keine Möglichkeiten für diesen Anwendungsfall bekannt. Dennoch gibt es eine Menge Tools, die uns helfen.
KI in der Transkription
Eine große Hilfe ist die Erkennung und Transkription von gesprochenem Text in frisch gedrehten Interview-Videos. Es gibt inzwischen viele Filmschnittprogramme wie Final Cut Pro oder Adobe Premiere Tools und Plug-ins. Die Tools können neben der eigentlichen Skripterstellung und Übersetzung auch Videos gleich so schneiden, wie man im Fließtext Passagen ändert, kürzt in der Reihenfolge verändert. Außerdem bieten die Tools zum Teil die Möglichkeit, eine teilbare Onlineseite mit Video und Script erstellen zu lassen, die unsere Auftraggeber im Team intern bearbeiten können.
KI bei der Vertonung mit Sprechern und Musik
Einige Werbefilme werden mit einem Sprechertext vertont. Wir arbeiten hier mit dem Service von ElevenLabs. Hier kann geschriebener Text von künstlichen Stimmen eingesprochen werden. Das geht sehr schnell und erstaunlich gut, solange keine Besonderheiten auftreten. Eigennamen, Fachbegriffe, Abkürzungen und vor allem englische Begriffe in deutschen Texten oder deutsche Begriffe in englischen Texten klingen nicht gut. Das Tool nutzten wir vor allem um Layout-Texte in der Rohschnittphase einsprechen zu lassen, damit man sich einen Eindruck verschaffen kann von der Passung von Text und Bild.
KI-Sprecherstimmene
KI in der Animationsfilmerstellung
Ein weiterer großer Anwendungsfall von KI und AI in der Filmproduktion sind Animationsfilme. So kann das Tracking von Personen in real gedrehten Aufnahmen und die Erstellung von animierten Charakteren von der KI übernommen werden. In unserer alltäglichen Praxis haben wir dafür bisher noch keinen Anwendungsfall gefunden.
Zusammenfassung
Bisher gibt es noch keine wissenschaftlichen Abhandlungen zum Thema KI und AI in der Filmproduktion, sodass wir hier nur auf unseren Alltagsbeobachtungen aufbauen können. Wir hoffen aber, dass der Artikel einen Überblick geben wird.
Am Ende wird es vor allem darauf hinauslaufen, dass es sich KI- und AI-Tools nahtlos in den Produktionsprozess eingliedern, immer dort wo es rechtlich, visuell und organisatorisch sinnvoll ist. In diesem Film haben wir mit ein paar KI-Funktionen gearbeitet. Vielleicht erkennen Sie ja wo?