Die KI-Bildgenerierungslandschaft ist gerade überfüllter, aber auch interessanter geworden. Das deutsche Startup Black Forest Labs (BFL) hat FLUX.2 veröffentlicht, eine neue Suite von Bildmodellen, die direkt mit Branchenführern wie Googles Gemini 3 (Nano Banana Pro), Midjourney und Anthropics Claude Opus 4.5 konkurrieren sollen. Während viele Akteure auf den Markt drängen, zeichnet sich FLUX.2 durch einen hybriden Ansatz aus: die Kombination kommerzieller Angebote mit einer bedeutenden Open-Source-Komponente.
Der Kern von FLUX.2: Offenheit und Kontrolle
Die Veröffentlichung von BFL umfasst vier Modelle: FLUX.2 [Pro], [Flex], [Dev] und das kommende [Klein]. Das Hauptunterscheidungsmerkmal ist der vollständig Open-Source-Flux.2 VAE (variativer Autoencoder), der unter der Apache 2.0-Lizenz veröffentlicht wird. Dies ist von entscheidender Bedeutung, da die VAE Bilder komprimiert und rekonstruiert und so den zugrunde liegenden „latenten Raum“ definiert, der von allen FLUX.2-Varianten verwendet wird.
Warum ist das wichtig? Eine offene VAE ermöglicht es Unternehmen, die Technologie von BFL in ihre internen Systeme zu integrieren, ohne an einen Anbieter gebunden zu sein. Sie können denselben latenten Raum über verschiedene Bildgeneratoren hinweg nutzen, um Konsistenz zu gewährleisten und Arbeitsabläufe zu vereinfachen. Die offene VAE unterstützt außerdem Prüfbarkeit, Compliance und mögliche Anpassungen für Markenstile.
Leistung und Preis: Ein Wettbewerbsvorteil
Bei FLUX.2 geht es nicht nur um Offenheit; es geht um Leistung. Die Benchmarks von BFL zeigen, dass FLUX.2 [Dev] andere Open-Weight-Modelle bei der Text-zu-Bild-Generierung, der Bearbeitung einzelner Referenzen und der Bearbeitung mehrerer Referenzen übertrifft.
- Text-zu-Bild: 66,6 % Gewinnrate gegenüber Qwen-Image (51,3 %) und Hunyuan Image 3.0 (48,1 %).
- Einzelreferenzbearbeitung: 59,8 % vs. Qwen-Image (49,3 %) und FLUX.1 Kontext (41,2 %).
- Multi-Referenz-Bearbeitung: 63,6 % vs. Qwen-Image (36,4 %).
Auch die Preise sind aggressiv. FLUX.2 [Pro] kostet etwa 0,03 US-Dollar pro Megapixel und ist damit deutlich niedriger als Googles Gemini 3 Pro Image Preview (Nano Banana Pro) mit etwa 0,134 bis 0,24 US-Dollar pro vergleichbarem Bild. Dies macht FLUX.2 zu einer überzeugenden Option für hochauflösende oder Multibild-Workflows.
Technische Fortschritte: Jenseits der Geschwindigkeit
FLUX.2 baut auf der FLUX.1-Architektur mit mehreren wichtigen Verbesserungen auf:
- Multi-Referenz-Konditionierung: Die Möglichkeit, bis zu zehn Referenzbilder zu verwenden und gleichzeitig die Konsistenz in Bezug auf Identität, Produkte oder Stil zu wahren.
- Ergebnisse mit höherer Wiedergabetreue: Verbesserte Bildqualität und Detailgenauigkeit, was Anwendungsfälle wie Produktvisualisierung und Erstellung von Markeninhalten ermöglicht.
- Verbesserte Textwiedergabe: Besser lesbarer Text in Bildern, was Möglichkeiten für UI-Elemente, Infografiken und andere textlastige visuelle Elemente eröffnet.
Unter der Haube nutzt FLUX.2 eine Latent-Flow-Matching-Architektur mit einem Gleichrichter-Flow-Transformator und einem Vision-Language-Modell basierend auf Mistral-3 (24B). Der neu gestaltete Latentraum erreicht eine bessere Rekonstruktionsqualität, ohne die Lernfähigkeit zu beeinträchtigen.
BFLs Aufstieg: Von stabilen Diffusionswurzeln
Black Forest Labs wurde 2024 von den Machern von Stable Diffusion (Robin Rombach, Patrick Esser und Andreas Blattmann) gegründet. Das Unternehmen hat 31 Millionen US-Dollar an Startkapital gesichert und positioniert sich weiterhin als Brücke zwischen offener Forschung und kommerzieller Zuverlässigkeit. Ihre Open-Core-Strategie, die proprietäre Angebote mit Open-Weight-Modellen kombiniert, hat bereits die Akzeptanz in nachgelagerten Produkten wie Grok 2 von xAI vorangetrieben.
Die Veröffentlichung von FLUX.2 ist nicht nur eine weitere Einführung eines KI-Modells; Es handelt sich um einen strategischen Schritt, um die Dominanz von Closed-Source-Systemen herauszufordern und gleichzeitig ein zugänglicheres und anpassbareres Ökosystem für die Bilderzeugung zu fördern.
Der Ansatz von BFL signalisiert einen Wandel hin zu produktionszentrierten Modellen, bei denen Zuverlässigkeit, Kontrolle und Integration in bestehende kreative Arbeitsabläufe im Vordergrund stehen. Mit zunehmender Reife des Marktes für KI-Bilderzeugung ist FLUX.2 bereit, ein wichtiger Akteur zu werden und eine praktikable Alternative sowohl zu proprietären Giganten als auch zur fragmentierten Open-Source-Landschaft zu bieten.
