Создавайте фотореалистичные изображения с FLUX.2 [dev] в Workers AI

В последние месяцы мы наблюдали скачок в развитии закрытых моделей генерации изображений с появлением Google Nano Banana и моделей генерации изображений OpenAI. Сегодня мы рады сообщить, что новый претендент с открытыми весами возвращается с запуском FLUX.2 [dev] от Black Forest Lab, доступным для запуска на платформе инференса Cloudflare — Workers AI. Подробнее об этой новой модели вы можете прочитать в посте BFL о запуске их новой модели здесь.

Мы были большими поклонниками моделей генерации изображений FLUX от Black Forest Lab с самых первых версий. Наша размещенная версия FLUX.1 [schnell] — одна из самых популярных моделей в нашем каталоге благодаря фотореалистичным результатам и генерациям высокой точности. Когда пришло время размещать лицензионную версию их новой модели, мы ухватились за эту возможность. Модель FLUX.2 принимает все лучшие функции FLUX.1 и усиливает их, генерируя еще более реалистичные, обоснованные изображения с добавленной поддержкой кастомизации, такой как JSON-промптинг.

Наша размещенная версия FLUX.2 в Workers AI имеет некоторые специфические шаблоны, такие как использование многочастных форм данных для поддержки входных изображений (до 4 изображений 512x512) и выходных изображений до 4 мегапикселей. Формат многочастных форм данных позволяет пользователям отправлять нам несколько входных изображений вместе с типичными параметрами модели. Ознакомьтесь с нашим анонсом в журнале изменений для разработчиков, чтобы понять, как использовать модель FLUX.2.

Что делает FLUX.2 особенным? Привязка к физическому миру, ассеты цифрового мира и поддержка нескольких языков

Модель FLUX.2 имеет более надежное понимание физического мира, позволяя вам превращать абстрактные концепции в фотореалистичную реальность. Она превосходно генерирует реалистичные детали изображений и последовательно обеспечивает точные руки, лица, ткани, логотипы и мелкие объекты, которые часто упускаются другими моделями. Ее знание физического мира также создает естественное освещение, углы и восприятие глубины.

Создавайте фотореалистичные изображения с FLUX.2 [dev] в Workers AI

Рисунок 1. Изображение, сгенерированное с помощью FLUX.2, с точным освещением, тенями, отражениями и восприятием глубины в кафе в Париже.

Этот высококачественный вывод делает его идеальным для приложений, требующих превосходного качества изображения, таких как креативная фотография, коммерческие снимки продуктов, маркетинговые визуалы и дизайн интерьеров. Поскольку модель может понимать контекст, тон и тенденции, она позволяет вам создавать увлекательные цифровые активы редакционного качества из коротких промптов.

Помимо физического мира, модель также способна генерировать высококачественные цифровые активы, такие как дизайн целевых страниц или создание детализированных инфографик (см. пример ниже). Она также способна естественно понимать несколько языков, поэтому, объединяя эти две функции — мы можем получить красивую целевую страницу на французском из французского промпта.

Создавайте фотореалистичные изображения с FLUX.2 [dev] в Workers AI

Согласованность персонажей – решение проблемы стохастического дрейфа

FLUX.2 предлагает многорференсное редактирование с современной согласованностью персонажей, обеспечивая постоянство идентичностей, продуктов и стилей для задач. В мире генеративного ИИ получить качественное изображение легко. Однако получить точно такого же персонажа или продукт дважды всегда было сложной частью. Это явление известно как "стохастический дрейф", когда сгенерированные изображения отклоняются от исходного материала.

Создавайте фотореалистичные изображения с FLUX.2 [dev] в Workers AI

Рисунок 2. Инфографика по стохастическому дрейфу (сгенерирована на FLUX.2)

Одним из прорывов FLUX.2 являются многорференсные входные изображения, предназначенные для решения этой проблемы согласованности. Вы получите возможность изменять фон, освещение или позу изображения, не меняя случайно лицо вашей модели или дизайн вашего продукта. Вы также можете ссылаться на другие изображения или комбинировать несколько изображений вместе, чтобы создать что-то новое.

В коде Workers AI поддерживает многорференсные изображения (до 4) с загрузкой через многочастную форму данных. Входные изображения являются бинарными, а выход — изображением в кодировке base64:

curl --request POST 
  --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT}/ai/run/@cf/black-forest-labs/flux-2-dev' 
  --header 'Authorization: Bearer {TOKEN}' 
  --header 'Content-Type: multipart/form-data' 
  --form 'prompt=take the subject of image 2 and style it like image 1' 
  --form input_image_0=@/Users/johndoe/Desktop/icedoutkeanu.png 
  --form input_image_1=@/Users/johndoe/Desktop/me.png 
  --form steps=25
  --form width=1024
  --form height=1024

Мы также поддерживаем это через привязку Workers AI:

const image = await fetch("http://image-url");
const form = new FormData();
 
const image_blob = await streamToBlob(image.body, "image/png");
form.append('input_image_0', image_blob)
form.append('prompt', 'a sunset with the dog in the original image')
 
const resp = await env.AI.run("@cf/black-forest-labs/flux-2-dev", {
    multipart: {
        body: form,
        contentType: "multipart/form-data"
    }
})

Создано для реальных случаев использования

Новейшая модель изображений означает переход к функциональным бизнес-кейсам, выходящим за рамки простого улучшения качества изображений. FLUX.2 позволяет вам:

  • Создавать вариации рекламы: Генерируйте 50 различных объявлений с использованием точно того же актера, без искажения его лица между кадрами.

  • Доверять снимкам продуктов: Поместите ваш продукт на модель, или на пляжную сцену, городскую улицу, или студийный стол. Окружение меняется, но ваш продукт остается точным.

  • Создавать динамические редакционные материалы: Производите полную фэшн-съемку, где модель выглядит идентично в каждом кадре, независимо от угла.

Создавайте фотореалистичные изображения с FLUX.2 [dev] в Workers AI

Рисунок 3. Объединение фото рекламы оверсайз худи и спортивных штанов (сгенерированного с FLUX.2) с логотипом Cloudflare для создания рендеров продуктов с согласованными лицами, тканями и сценами. **Примечание: мы также запросили белый шрифт Cloudflare вместо исходного черного.

Детальный контроль — JSON-промптинг, HEX-коды и многое другое!

Модель FLUX.2 делает еще один шаг вперед, позволяя пользователям контролировать мелкие детали в изображениях с помощью таких инструментов, как JSON-промптинг и указание конкретных hex-кодов.

Например, вы можете отправить этот JSON как промпт (как часть многочастной формы ввода), и результирующее изображение точно следует промпту:

Создавайте фотореалистичные изображения с FLUX.2 [dev] в Workers AI

{
  "scene": "A bustling, neon-lit futuristic street market on an alien planet, rain slicking the metal ground",
  "subjects": [
    {
      "type": "Cyberpunk bounty hunter",
      "description": "Female, wearing black matte armor with glowing blue trim, holding a deactivated energy rifle, helmet under her arm, rain dripping off her synthetic hair",
      "pose": "Standing with a casual but watchful stance, leaning slightly against a glowing vendor stall",
      "position": "foreground"
    },
    {
      "type": "Merchant bot",
      "description": "Small, rusted, three-legged drone with multiple blinking red optical sensors, selling glowing synthetic fruit from a tray attached to its chassis",
      "pose": "Hovering slightly, offering an item to the viewer",
      "position": "midground"
    }
  ],
  "style": "noir sci-fi digital painting",
  "color_palette": [
    "deep indigo",
    "electric blue",
    "acid green"
  ],
  "lighting": "Low-key, dramatic, with primary light sources coming from neon signs and street lamps reflecting off wet surfaces",
  "mood": "Gritty, tense, and atmospheric",
  "background": "Towering, dark skyscrapers disappearing into the fog, with advertisements scrolling across their surfaces, flying vehicles (spinners) visible in the distance",
  "composition": "dynamic off-center",
  "camera": {
    "angle": "eye level",
    "distance": "medium close-up",
    "focus": "sharp on subject",
    "lens": "35mm",
    "f-number": "f/1.4",
    "ISO": 400
  },
  "effects": [
    "heavy rain effect",
    "subtle film grain",
    "neon light reflections",
    "mild chromatic aberration"
  ]
}

Чтобы пойти дальше, мы можем попросить модель перекрасить акцентное освещение в оранжевый цвет Cloudflare, указав конкретный hex-код, например #F48120.

Создавайте фотореалистичные изображения с FLUX.2 [dev] в Workers AI

Попробуйте сегодня!

Новейшая модель FLUX.2 [dev] теперь доступна в Workers AI — вы можете начать работу с моделью через нашу документацию для разработчиков или протестировать её на нашей мультимодальной площадке.

Создавайте фотореалистичные изображения с FLUX.2 [dev] в Workers AI