Die Landschaft der generativen KI-Videos explodiert. Innerhalb weniger Monate haben wir Quantensprünge in der Qualität von Modellen wie OpenAIs Sora, Googles Veo, Runway und Kling erlebt. Für Kreative und Entwickler bringt dies eine entscheidende neue Herausforderung mit sich: Wie können angesichts so vieler leistungsstarker Tools objektiv verglichen werden?

Ein Modell mit einem Prompt zu testen, ist einfach. Aber wie testet man effizient vier verschiedene Modelle mit zehn verschiedenen Kamerawinkeln? Wie geht man über ein "Bauchgefühl" hinaus und sammelt echte Daten zur Prompt-Adhärenz, Bewegungstreue und kreativen Bandbreite?

Um dies zu lösen, habe ich eine "One-to-Many"-Parallelverarbeitungs-Pipeline entworfen und implementiert. Dieser Workflow, der auf der knotenbasierten Plattform Weavy aufgebaut ist, dient als leistungsstarkes F&E-Testbett und ermöglicht ein schnelles, groß angelegtes A/B-Testing mehrerer generativer Videomodelle gleichzeitig.

Die Herausforderung: Über Einzel-Prompt-Tests hinausgehen

Traditionelle 1:1-Tests sind langsam und unzuverlässig. Bis man einen Prompt an Modell A ausgeführt, optimiert, an Modell B ausgeführt und versucht hat, sich an die Nuancen der Ausgabe zu erinnern, vergleicht man Äpfel mit Birnen. Dieser manuelle Prozess ist ein Engpass für kreative Forschung und Entwicklung.

Ich brauchte ein skalierbares Framework, das zwei Schlüsselfragen gleichzeitig beantworten konnte:

  1. Modell vs. Modell: Welches Modell (Kling, Runway, Veo usw.) liefert das kohärenteste, realistischste und originalgetreueste Ergebnis für genau denselben Prompt?
  2. Prompt vs. Prompt: Wie gut versteht und führt ein bestimmtes Modell verschiedene kreative Anweisungen aus (z.B. "Dolly links" vs. "langsames Heranzoomen")?

Architektur der parallelen Benchmarking-Pipeline

Meine Lösung ist ein knotenbasierter Workflow, der diese gesamte A/B-Testmatrix automatisiert. Er nimmt einen Satz von Eingaben und "fächert" sie auf Dutzende von Generierungsaufgaben auf, die alle parallel ausgeführt werden.

Diese Grafik bietet eine übergeordnete Ansicht der Architektur. Sie können den interaktiven Workflow direkt auf Weavy erkunden.

Den Live-Workflow-Graphen auf Weavy ansehen


Der "One-to-Many"-Workflow, der von einer einzigen Eingabe auf Dutzende paralleler Generierungsaufgaben auffächert.

Schritt 1: Dynamische Prompt-Generierung

Die Pipeline startet mit einem einzigen Input Image (wie dem Oktopus) und einem Base Prompt. Anstatt nur diesen einfachen Prompt zu verwenden, wird er zuerst in einen LLM-Knoten (wie anthropic/claude-3.5-sonnet) eingespeist, der als "Prompt Enhancer" fungiert.

Diese erweiterte Beschreibung wird dann an ein zweites LLM, einen "Prompt Generator", übergeben. Die Aufgabe dieses Knotens ist es, eine strukturierte Liste von verschiedenen, gebrauchsfertigen Prompts zu erstellen, die Schlüsselvariablen testen wie:

  • Kamerabewegungen: "ein langsames Heranzoomen", "Dolly-Aufnahme von links", "eine leichte Aufwärtsneigung", "Schwenk nach rechts".
  • Ästhetische Stile: "kinoreif 4k, hohe Detailgenauigkeit", "körniger 35mm-Film", "biolumineszierendes Leuchten".

Schritt 2: Das "Auffächern" & parallele Verarbeitung

Hier liegt die eigentliche Stärke. Die strukturierte Liste der Prompts wird in einen Array (Splitter)-Knoten eingespeist. Dieser Knoten initiiert ein massives "Auffächern", bei dem jeder einzigartige Prompt an seinen eigenen dedizierten Satz von Generierungsaufgaben verteilt wird. Gleichzeitig wird das ursprüngliche Input Image an alle Knoten übergeben.

Schritt 3: Gleichzeitiger Zwei-Achsen-Vergleich

Das Workflow-Raster ist bewusst so strukturiert, dass es einen "Zwei-Achsen"-Vergleich in einem einzigen Durchlauf ermöglicht. Die Ausgabe ist eine umfassende Batch von Videovariationen, die sofortige, umfangreiche visuelle Daten liefert.

Wie im Workflow zu sehen ist, ist der Test so eingerichtet, dass er Modelle wie Kling Video, Runway Gen-4 Turbo, Sora 2 und Veo 3.1 nebeneinander vergleicht.


Nebeneinander-Vergleich: Kling 1.6 vs. Kling 2.1 vs. Runway Gen-4 Turbo, alle verarbeiten dieselbe Eingabe und denselben Prompt.

Wichtige F&E-Erkenntnisse aus diesem Workflow

Diese automatisierte Pipeline verlagert das Testen generativer Videos von subjektiver Kunst zu objektiver Wissenschaft. Sie erschließt mehrere entscheidende Vorteile:

  • Objektive Daten: Ich kann jetzt definitiv sehen, dass Modell A besser im Interpretieren von "Dolly"-Aufnahmen ist, während Modell B eine überlegene Bewegungstreue bei "Zoom"-Aufnahmen bietet.
  • Echte Prompt-Adhärenz-Tests: Es ist einfach zu erkennen, welche Modelle tatsächlich auf spezifische filmische Sprache hören, im Gegensatz zu denen, die nur eine generische, ansprechende Bewegung erzeugen.
  • Schnelle Iteration: Ich kann Dutzende kreativer Ideen und Modellkombinationen in der Zeit testen, die früher für 2-3 manuelle Tests benötigt wurde.

Sehen Sie die Ergebnisse in Aktion

Diese F&E ist ein fortlaufender Prozess. Eine der ersten Ausgaben dieser Benchmarking-Pipeline können Sie auf meinem Instagram sehen, wo ein einziges statisches Bild mithilfe dieses parallelen Workflows animiert wurde.

Hier ist ein Beispiel für die Ausgabe einer dieser Testreihen.

Fazit: Die Zukunft kreativer KI-Workflows

Da generative Modelle immer zahlreicher und komplexer werden, müssen sich auch unsere Methoden zu deren Testung und Integration weiterentwickeln. Ein Ansatz von einem Prompt zu einem Modell reicht für ernsthafte kreative Forschung und Entwicklung nicht mehr aus.

Durch die Nutzung knotenbasierter Plattformen wie Weavy zum Aufbau von Parallelverarbeitungs-Pipelines können wir unsere Experimente automatisieren, objektive Daten sammeln und letztlich schnellere, fundiertere Entscheidungen darüber treffen, welche Werkzeuge wir für unsere kreativen Projekte verwenden.

Ich werde weitere Erkenntnisse und Ergebnisse aus diesem Workflow teilen. Sie können meine laufende Forschung verfolgen und weitere Ergebnisse auf meinem Instagram unter @chaipeau sehen.