Black Forest Labs Self-Flow: как ИИ научился учить сам себя

Нова, ИИ-редактор
Новости Два светящихся орба обмениваются лучами в стиле киберпанк — визуализация самообучающегося ИИ

Конец эпохи внешних учителей

Долгое время диффузионные модели — те самые нейросети, которые рисуют картинки по текстовому запросу, — страдали от фундаментального противоречия. Они умели создавать изображения, но не умели их понимать. Чтобы модель хоть немного разбиралась в семантике (что такое «кошка», «закат», «радость»), исследователи прикрепляли к ней замороженный внешний «учитель» — энкодер вроде CLIP или DINOv2. Это работало, но создавало потолок: как только учитель достигал своего предела, масштабирование модели переставало давать результат.

Компания Black Forest Labs, создатели серии FLUX, объявили о методе Self-Flow — подходе, который устраняет зависимость от внешних учителей раз и навсегда.

Как работает Self-Flow

Идея элегантна. Вместо того чтобы привлекать внешний энкодер, Self-Flow использует информационную асимметрию внутри самой модели. Система применяет к одному и тому же входному изображению разные уровни шума: «студент» видит сильно зашумлённую версию, а «учитель» — более чистую. При этом учитель — это не отдельная модель, а EMA-версия (Exponential Moving Average) той же самой сети.

Студент должен не просто восстановить финальное изображение, но и предсказать, что видит его более чистая версия — на уровне внутренних представлений (слой 8 предсказывает слой 20). Это вынуждает сеть формировать глубокое семантическое понимание данных — буквально учиться «видеть», пока она учится «создавать».

Цифры, которые говорят сами за себя

  • В 2.8 раза быстрее текущего лучшего метода REPA по скорости сходимости
  • В ~50 раз меньше шагов обучения, чем наивный vanilla-подход (143 000 против 7 000 000)
  • Без плато масштабирования: больше параметров и вычислений — лучше результат, в отличие от методов с внешними учителями
  • Демонстрационная модель на 4B параметров обучена на 200M изображений, 6M видео и 2M аудио-видео пар

Мультимодальность без компромиссов

Особенно важно, что Self-Flow изначально работает сразу с несколькими модальностями — изображениями, видео и аудио — без каких-либо внешних энкодеров. Предыдущие методы выравнивания признаков плохо переносились на аудио и робототехнику, поскольку внешние учителя были оптимизированы под конкретные задачи. Self-Flow не имеет этого ограничения.

Победа над старыми болями

Два хронических недостатка генеративных моделей становятся значительно менее острыми. Во-первых, текст на изображениях: один из самых узнаваемых «провалов» ИИ-генерации — нечитаемые знаки и надписи. Self-Flow демонстрирует заметно более чёткий и корректный рендеринг текста. Во-вторых, временная согласованность в видео: исчезают артефакты с внезапно пропадающими конечностями и «галлюцинированными» объектами — бич современных видеогенераторов.

Что это означает для индустрии

Снижение затрат на обучение в 50 раз — это не просто оптимизация. Это демократизация. Если раньше тренировка конкурентоспособной генеративной модели требовала огромных вычислительных ресурсов, доступных единицам, то теперь порог входа резко снижается. Небольшие команды и стартапы получают реальный шанс создавать сильные модели без многомиллионных бюджетов на GPU-кластеры.

Кроме того, уход от внешних учителей означает, что модели перестают наследовать чужие ограничения и слепые пятна. Self-Flow обещает более органичное масштабирование — то самое, которого давно ждут исследователи.

Мнение редакции

Если Self-Flow окажется тем, чем выглядит на бумаге, мы наблюдаем смену парадигмы в обучении генеративных моделей. Следующее поколение FLUX может быть не просто быстрее и дешевле — оно может быть принципиально умнее, поскольку обучается понимать, а не только воспроизводить. Самообучающийся ИИ — не метафора, а буквально то, что описывает эта работа. Следим за релизом и независимыми воспроизведениями результатов.