Ландшафт створення зображень штучного інтелекту стає більш насиченим, але також і цікавішим. Німецький стартап Black Forest Labs (BFL) випустив FLUX.2, новий набір моделей зображень, створених для прямої конкуренції з лідерами галузі, такими як Gemini 3 (Nano Banana Pro) від Google, Midjourney і Claude Opus 4.5 від Anthropic. Хоча багато гравців виходять на ринок, FLUX.2 виділяється своїм гібридним підходом: поєднання комерційних пропозицій із значним компонентом з відкритим кодом.
Фундація FLUX.2: відкритість і контроль
Випуск BFL включає чотири моделі: FLUX.2 [Pro], [Flex], [Dev] і майбутню [Klein]. Ключовою відмінністю є повністю відкритий код Flux.2 VAE (варіаційний автокодер), випущений за ліцензією Apache 2.0. Це критично, оскільки VAE стискає та реконструює зображення, визначаючи базовий «прихований простір», який використовується всіма варіантами FLUX.2.
Чому це важливо? Open VAE дозволяє підприємствам інтегрувати технології BFL у свої внутрішні системи без прив’язки до постачальника. Вони можуть спільно використовувати один і той же прихований простір для різних генераторів зображень, забезпечуючи узгодженість і спрощуючи робочі процеси. Open VAE також підтримує аудит, відповідність і потенційне налаштування для брендингу.
Продуктивність і ціна: конкурентна перевага
FLUX.2 — це не просто відкритість; це про продуктивність. Тести BFL показують, що FLUX.2 [Dev] перевершує інші моделі з відкритим кодом у створенні тексту в зображення, редагуванні за одним посиланням і редагуванні за кількома посиланнями.
- Текст до зображення: 66,6% виграшу порівняно з Qwen-Image (51,3%) і Hunyuan Image 3.0 (48,1%).
- Редагування за одним посиланням: 59,8% порівняно з Qwen-Image (49,3%) і FLUX.1 Kontext (41,2%).
- Редагування кількох посилань: 63,6% проти Qwen-Image (36,4%).
Цінова політика теж агресивна. FLUX.2 [Pro] коштує приблизно $0,03 за мегапіксель, що значно менше, ніж Google Gemini 3 Pro Image Preview (Nano Banana Pro) — приблизно $0,134-$0,24 за порівнянне зображення. Це робить FLUX.2 привабливим варіантом для робочих процесів із високою роздільною здатністю або кількома зображеннями.
Технічні досягнення: Більше ніж просто швидкість
FLUX.2 побудовано на архітектурі FLUX.1 з кількома ключовими вдосконаленнями:
- Кілька еталонних умов: Можливість використовувати до десяти еталонних зображень, зберігаючи послідовність ідентичності, продуктів або стилю.
- **Результати високої якості: ** Покращена якість і деталізація зображення, що дозволяє використовувати такі випадки, як візуалізація продукту та створення фірмового вмісту.
- **Покращене відтворення тексту: ** більш розбірливий текст на зображеннях, що відкриває можливості для елементів інтерфейсу користувача, інфографіки та інших текстових візуальних елементів.
FLUX.2 базується на архітектурі латентного узгодження потоку з виправленим перетворювачем потоку та моделлю мови бачення на основі Mistral-3 (24B). Перероблений латентний простір забезпечує кращу якість реконструкції без шкоди для здатності до навчання.
Зростання BFL: від коренів стабільної дифузії
Компанія Black Forest Labs була заснована в 2024 році творцями Stable Diffusion (Робін Ромбах, Патрік Ессер і Андреас Блаттман). Компанія залучила $31 мільйон початкового фінансування і продовжує позиціонувати себе як міст між відкритими дослідженнями та комерційною довірою. Їхня стратегія відкритого ядра, яка поєднує пропрієтарні пропозиції з моделями з відкритим вихідним кодом, уже сприяла застосуванню в наступних продуктах, таких як Grok 2 від xAI.
Випуск FLUX.2 — це не просто запуск іншої моделі ШІ; це стратегічний крок, щоб кинути виклик домінуванню закритих систем, водночас просуваючи більш доступну та настроювану екосистему зображень.
Підхід BFL свідчить про перехід до моделей, орієнтованих на виробництво, які надають пріоритет надійності, контролю та інтеграції в існуючі творчі робочі процеси. У міру того, як ринок створення зображень штучного інтелекту розвивається, FLUX.2 готовий стати головним гравцем, пропонуючи життєздатну альтернативу як пропрієтарним гігантам, так і фрагментованому ландшафту з відкритим кодом.
