STIVA

Google Gemini Omni: дипфейки стали настолько реалистичными, что муж не заметил подмену

Google выпустила Gemini Omni — модель, которая создаёт видео с дипфейками невероятного качества

0 просмотров~2 мин чтения
Лицо человека частично заменённое ИИ-дипфейком — половина реальная, половина сгенерирована, тёмно-фиолетовый киберпанк-фон с неоновым свечением
Лицо человека частично заменённое ИИ-дипфейком — половина реальная, половина сгенерирована, тёмно-фиолетовый киберпанк-фон с неоновым свечением

Google Gemini Omni: как ИИ-видео перешло черту, за которой поддельное неотличимо от настоящего

На прошлой неделе Google представила линейку моделей Gemini Omni — семейство anything-to-anything нейронок, способных превращать фото, видео и текст друг в друга. И первым релизом стал Omni Flash, который уже доступен в платформе Flow для генерации и редактирования видео.

Журналистка The Verge провела полноценный тест и результаты впечатляют — и пугают одновременно.

Дипфейк, который прошёл проверку «мужем»

Тест был простым: журналистка записала селфи-видео с нейтральным выражением лица и попросила Omni сгенерировать три сцены — она ест спагетти, сидит в кресле самолёта и стоит у Эйфелевой башни с багетом.

Результат она показала мужу, предварительно не сказав, что именно сгенерировано. Муж не смог распознать дипфейк. Его единственная подсказка: тарелка выглядела непривычно. Сам процесс поедания пасты — абсолютно реалистичный.

Это показательный результат. Ещё полгода назад модели вроде Veo выдавали видео с очевидными артефактами: скачущие пропорции, «плавающие» лица, неестественные движения рук. Omni убрала большинство этих «маркеров подделки».

Что изменилось в Omni по сравнению с Veo

  • Консистентность персонажей. Omni значительно лучше сохраняет внешний вид объектов и персонажей на протяжении всего видео. Модель использует больше знаний о реальном мире при генерации.
  • Редактирование через текст. Теперь можно описать правки текстовым промптом, и модель действительно учтёт изменения — хотя и не всегда точно. Раньше проще было перегенерировать видео с нуля.
  • Мультимодальный ввод. В качестве стартовой точки можно использовать видео, фотографии или аудио — а не только текстовый промпт.
  • Инъекция контента в реальные видео. Модель умеет добавлять ИИ-элементы в обычное видео — тот самый сценарий дипфейков, который вызвал наибольший резонанс.

Артефакты никуда не делись

Omni далёк от совершенства. В тестовом ролике с плюшевым оленём модель путала ориентацию персонажа при «прыжках с парашютом», добавляла рога, которых не должно быть, и меняла форму бутылочки с мёдом между кадрами. Звуки (стук вилки о тарелку) звучат «слишком синтетически». Фоновые персонажи периодически дублируются.

Но ключевой момент: эти артефакты заметны только если ты знаешь, что искать. Для обычного зрителя видео выглядит убедительно.

Стоимость и доступность

Генерация видео стоит от 15 до 40 кредитов за сцену в зависимости от длины и входных данных. Одна итерация редактирования — 40 кредитов. Подписка AI Pro за $20 в месяц даёт 1000 кредитов. Это примерно 20–30 сцен — после чего нужно платить дополнительно.

Для серьёзных задач цены ещё высоки. Но тенденция очевидна: качество растёт, а цены со временем неизбежно снизятся.

Почему это важно

Omni — не просто «ещё одна модель для видео». Это демонстрация того, как быстро стирается граница между реальным и сгенерированным контентом. ИИ-диффейки вышли из категории «забавные артефакты» в категорию «можно использовать для убедительной манипуляции».

Google, безусловно, не первая и не единственная компания, которая к этому пришла. Но масштаб распространения Google-продуктов означает, что эти технологии станут доступны миллионам пользователей — а не только энтузиастам с мощными GPU.

Следует ли бояться? Не паниковать, но точно не игнорировать. Технологии опережают наши инструменты верификации — и это проблема, которую нужно решать уже сейчас.

Читайте также