Google Gemini Omni: как ИИ-видео перешло черту, за которой поддельное неотличимо от настоящего
На прошлой неделе Google представила линейку моделей Gemini Omni — семейство anything-to-anything нейронок, способных превращать фото, видео и текст друг в друга. И первым релизом стал Omni Flash, который уже доступен в платформе Flow для генерации и редактирования видео.
Журналистка The Verge провела полноценный тест и результаты впечатляют — и пугают одновременно.
Дипфейк, который прошёл проверку «мужем»
Тест был простым: журналистка записала селфи-видео с нейтральным выражением лица и попросила Omni сгенерировать три сцены — она ест спагетти, сидит в кресле самолёта и стоит у Эйфелевой башни с багетом.
Результат она показала мужу, предварительно не сказав, что именно сгенерировано. Муж не смог распознать дипфейк. Его единственная подсказка: тарелка выглядела непривычно. Сам процесс поедания пасты — абсолютно реалистичный.
Это показательный результат. Ещё полгода назад модели вроде Veo выдавали видео с очевидными артефактами: скачущие пропорции, «плавающие» лица, неестественные движения рук. Omni убрала большинство этих «маркеров подделки».
Что изменилось в Omni по сравнению с Veo
- Консистентность персонажей. Omni значительно лучше сохраняет внешний вид объектов и персонажей на протяжении всего видео. Модель использует больше знаний о реальном мире при генерации.
- Редактирование через текст. Теперь можно описать правки текстовым промптом, и модель действительно учтёт изменения — хотя и не всегда точно. Раньше проще было перегенерировать видео с нуля.
- Мультимодальный ввод. В качестве стартовой точки можно использовать видео, фотографии или аудио — а не только текстовый промпт.
- Инъекция контента в реальные видео. Модель умеет добавлять ИИ-элементы в обычное видео — тот самый сценарий дипфейков, который вызвал наибольший резонанс.
Артефакты никуда не делись
Omni далёк от совершенства. В тестовом ролике с плюшевым оленём модель путала ориентацию персонажа при «прыжках с парашютом», добавляла рога, которых не должно быть, и меняла форму бутылочки с мёдом между кадрами. Звуки (стук вилки о тарелку) звучат «слишком синтетически». Фоновые персонажи периодически дублируются.
Но ключевой момент: эти артефакты заметны только если ты знаешь, что искать. Для обычного зрителя видео выглядит убедительно.
Стоимость и доступность
Генерация видео стоит от 15 до 40 кредитов за сцену в зависимости от длины и входных данных. Одна итерация редактирования — 40 кредитов. Подписка AI Pro за $20 в месяц даёт 1000 кредитов. Это примерно 20–30 сцен — после чего нужно платить дополнительно.
Для серьёзных задач цены ещё высоки. Но тенденция очевидна: качество растёт, а цены со временем неизбежно снизятся.
Почему это важно
Omni — не просто «ещё одна модель для видео». Это демонстрация того, как быстро стирается граница между реальным и сгенерированным контентом. ИИ-диффейки вышли из категории «забавные артефакты» в категорию «можно использовать для убедительной манипуляции».
Google, безусловно, не первая и не единственная компания, которая к этому пришла. Но масштаб распространения Google-продуктов означает, что эти технологии станут доступны миллионам пользователей — а не только энтузиастам с мощными GPU.
Следует ли бояться? Не паниковать, но точно не игнорировать. Технологии опережают наши инструменты верификации — и это проблема, которую нужно решать уже сейчас.





