STIVA

Стартап из Вашингтона выпустил модель видеоанализа в 10 раз дешевле флагманов — и она лучше

Perceptron Mk1 превосходит GPT-5 и Claude в пространственном и видео-анализе, а стоит в разы дешевле

16 просмотров~3 мин чтения
AI-камера анализирует баскетбольный кадр с неоновыми линиями траектории мяча в стиле киберпанк на тёмно-фиолетовом фоне
AI-камера анализирует баскетбольный кадр с неоновыми линиями траектории мяча в стиле киберпанк на тёмно-фиолетовом фоне

Когда стартап бьёт гигантов ценой и качеством

На этой тихо вышел релиз, который на первый взгляд кажется обычной новостью из мира ИИ-стартапов. Но когда присмотришься — начинаешь понимать: Perceptron Mk1 меняет правила игры.

Команда из Bellevue, штат Вашингтон, основанная бывшими исследователями Meta FAIR — Арменом Агаджаняном и Акшатом Шриваставой — 16 месяцев разрабатывала модель для анализа видео и физического мира. Итог: Mk1 превосходит GPT-5 и Gemini 3.1 Pro в ключевых бенчмарках, а стоит буквально гроши по сравнению с ними.

Цены, от которых хочется перестать читать

$0.15 за миллион входных токенов, $1.50 за выходные. В бленденном виде это около $0.30 за миллион токенов. GPT-5 обходится примерно в $2, Gemini 3.1 Pro — около $3. Разница в 6-10 раз.

При этом Mk1 не просто «дёшево работает» — она показывает лучшие результаты на целом ряде бенчмарков:

  • RefSpatialBench: 72.4 балла у Mk1 против 9.0 у GPT-5m и 2.2 у Claude Sonnet 4.5
  • EmbSpatialBench: 85.1 у Mk1 — выше Google Robotics-ER 1.5 (78.4)
  • VSI-Bench: 88.5 — рекорд среди сравниваемых моделей
  • EgoSchema (Hard Subset): 41.4, что соответствует Q3.5-27B от Alibaba

Почему это не просто «ещё одна vision-модель»

Главное отличие Mk1 — temporal continuity. Она не просто обрабатывает видео как набор отдельных кадров. Модель понимает, что объекты сохраняются между кадрами, даже когда их временно закрывают другие предметы. Контекстное окно — 32K токенов, обработка до 2 кадров в секунду.

Physical Reasoning — это то, что отличает Mk1 от подавляющего большинства конкурентов. Модель понимает причинно-следственные связи в физических объектах. Может определить, прошёл мяч через кольцо до сирены или после. Считывает показания аналоговых приборов и стрелочных часов — задача, которая исторически была слабой точкой чистых vision-систем.

Можно загрузить видеоролик строительства небоскреба 1906 года из Библиотеки Конгресса США — и Mk1 не только опишет происходящее, включая необычные детали вроде рабочих на верёвках, но и правильно определит эпоху по стилю картинки. Без подсказок.

Для чего это можно использовать

Уже сейчас партнёры Perceptron применяют Mk1 для:

  • Автоматического нарезания моментов из спортивных трансляций — модель сама находит ключевые эпизоды по содержанию видео
  • Контроля качества на производстве — мультимодальные агенты обнаруживают дефекты в реальном времени
  • Обучения роботов — автоматическая разметка данных из телеоперации для обучения роботизированных рук и мобильных платформ
  • Умные очки-ассистенты — контекстно-зависимая помощь в реальном мире
  • Модерация контента — автоматическое определение проблемных моментов в видео

Личное мнение

Perceptron Mk1 — это яркий пример того, как нишевое преимущество может оказаться куда важнее масштаба. Компания не соревнуется с OpenAI и Anthropic в общем интеллекте — она берёт конкретную задачу (понимание физического мира через видео) и решает её лучше всех, а стоит это в разы дешевле.

И именно так и выглядит реальная конкуренция в ИИ: не гонка за абстрактным AGI, а фокус на конкретной боли с качественным решением. Когда модели для видеоанализа стоят $0.30 за миллион токенов вместо $3 — они становятся доступны не только лабораториям, а любому бизнесу, которому нужно следить за качеством, безопасностью или контентом.

Рынок ИИ-агрегаторов становится ещё актуальнее: чем больше появляется таких специализированных моделей, тем полезнее платформа, где можно попробовать и выбрать лучшую под свою задачу, не регистрируясь в десяти разных сервисах.

Читайте также