STIVA

Luma AI выпустила Uni-1: первая авторегрессионная модель генерации изображений, обогнавшая Google и OpenAI

Uni-1 использует архитектуру языковых моделей для генерации картинок — и обходит конкурентов.

90 просмотров~3 мин чтения
Голографический экран с генерацией ИИ-изображений в стиле киберпанк
Голографический экран с генерацией ИИ-изображений в стиле киберпанк

Смена лидера в генерации изображений

Рынок AI-генерации изображений долгое время был предсказуем: Google с семейством Nano Banana задавала стандарты, OpenAI с GPT Image держалась рядом, а все остальные делили места с третьего по пятое. 23 марта 2026 года этот порядок нарушился. Стартап Luma AI — больше известный своим видеоинструментом Dream Machine — публично выпустил модель Uni-1, которая не просто конкурирует с лидерами, но и пересматривает саму архитектуру генерации изображений.

Не диффузия, а рассуждение

Все главные модели последних лет — Midjourney, Stable Diffusion, Imagen, DALL-E — строятся на диффузионном принципе: берётся случайный шум и итеративно «очищается» до изображения, которое соответствует текстовому описанию. Это работает, и работает красиво. Но у диффузии есть фундаментальное ограничение: она не рассуждает. Она маппирует embedding промпта на пиксели через выученный процесс, без понимания пространственных отношений, физики или логических ограничений.

Uni-1 построен иначе. Это авторегрессионный декодер-трансформер — та же архитектура, что и у больших языковых моделей вроде GPT или Claude. Текст и изображения представлены в едином интерлив-последовательности. Модель думает токен за токеном, разбирает инструкции, планирует композицию, разрешает противоречия — и только потом начинает «рисовать». По сути, понимание и создание происходят в одном процессе, на одних весах.

Что это меняет на практике

Разница особенно заметна в сложных задачах. Возьмём два примера от Luma:

  • Эволюция во времени: Uni-1 берёт одну фотографию пианиста и генерирует серию изображений — детство, юность, старость — с одного угла, с сохранением идентичности человека и стиля сцены. Диффузионным моделям это давалось с большим трудом.
  • Мультиреференс: Несколько отдельных фотографий домашних животных → единая сцена, где все питомцы одеты в академические мантии перед доской с формулами. Каждый узнаваем. Сцена логична.

Это не промпт-инжиниринг — это понимание. И именно этого не хватало профессиональным пользователям ИИ-инструментов для рекламы, дизайна и контента.

Цифры: насколько Uni-1 лучше?

На бенчмарке RISEBench (Reasoning-Informed Visual Editing) Uni-1 набирает 0.51, опережая Nano Banana 2 (0.50), Nano Banana Pro (0.49) и GPT Image 1.5 (0.46). По пространственному рассуждению — 0.58 против 0.47 у Google. По логическому рассуждению — 0.32, что более чем вдвое лучше GPT Image (0.15).

На ODinW-13, бенчмарке обнаружения объектов, полная модель Uni-1 набирает 46.2 mAP — почти вровень с Gemini 3 Pro (46.3). При этом версия без генеративного обучения даёт только 43.9. Разница в 2.3 балла — прямое доказательство: умение создавать изображения делает модель лучше в их понимании.

По стоимости: Uni-1 обходится на 10–30% дешевле конкурентов на высоком разрешении, сохраняя качество.

Куда смотрят Google и OpenAI

Обе компании осознают проблему. DALL-E 3 использует GPT-4 для переформулирования промпта перед генерацией. Google Imagen 3 подключает Gemini для рассуждений. Но оба подхода — это костыль: между пониманием и созданием есть шов, на котором теряется нюанс. Uni-1 этот шов убирает. Насколько быстро Google и OpenAI ответят — открытый вопрос, но гонка началась.

Мнение редакции

Честно: я ждала чего-то подобного. Языковые модели прошли через ту же эволюцию — от rule-based систем к нейросетям, от нейросетей к трансформерам. Генерация изображений пока живёт в «эпохе диффузии», которая красива, но ограничена. Uni-1 — это не просто новая модель с лучшими бенчмарками. Это смена парадигмы: от «закрашивания шума» к «рассуждению о визуальном мире».

Если эта архитектура окажется масштабируемой — а авторегрессионные трансформеры умеют масштабироваться очень хорошо — следующие два года в генерации изображений будут интереснее предыдущих пяти вместе взятых.

Читайте также