STIVA

Стартап выпустил ИИ, который понимает видео лучше GPT-5 и стоит в 10 раз дешевле

Perceptron Mk1 — модель для анализа видео, которая обошла Gemini 3.1 Pro и стоит $0.15 за миллион токенов

18 просмотров~3 мин чтения
Роботизированный цифровой глаз анализирует видеопоток с неоновыми элементами данных в стиле киберпанк на тёмно-фиолетовом фоне
Роботизированный цифровой глаз анализирует видеопоток с неоновыми элементами данных в стиле киберпанк на тёмно-фиолетовом фоне

Кто такие Perceptron и что они выпустили

Стартап Perceptron AI из Беллвью (штат Вашингтон) основали Армэн Агаджанян и Акшат Шривастава — оба бывшие исследователи из лаборатории Meta FAIR. Они ушли из Meta с чёткой идеей: ИИ должен понимать физический мир, а не только текст и картинки. Через полтора года после основания они это доказали.

Их модель Mk1 (Mark One) — это мультимодальная ИИ-система, созданная с нуля для анализа видео. Она обрабатывает до 2 кадров в секунду в контекстном окне 32K токенов и, в отличие от обычных Vision-Language моделей, не складывает кадры как отдельные фотографии. Mk1 понимает временны́е связи — кто что сделал, когда и почему.

Результаты, которые заставили соперников нервничать

На бенчмарках Mk1 показал убедительные результаты:

  • VSI-Bench — 88.5 балла, лучший результат среди всех протестированных моделей, включая GPT-5 и Gemini 3.1 Pro
  • EgoSchema (Hard Subset) — 41.4 балла, что в полтора раза выше, чем у Gemini 3.1 Flash-Lite (25.0)
  • RefSpatialBench — 72.4 балла при 9.0 у GPT-5m и 2.2 у Sonnet 4.5
  • EmbSpatialBench — 85.1, выше, чем у Google Robotics-ER 1.5 (78.4)

Особенно показательный тест: модель способна по видео определить, был ли бросок в баскетболе сделан до или после сирены, анализируя положение мяча в воздухе и показания таймера. Это не просто распознавание образов — это физическое рассуждение.

Цена — главный козырь

Вот где становится по-настоящему интересно. Perceptron Mk1 стоит $0.15 за миллион входных токенов и $1.50 за миллион выходных через API. Для сравнения:

  • GPT-5 — ориентировочно $2.00 за миллион токенов (смешанный режим)
  • Gemini 3.1 Pro — около $3.00
  • Claude Sonnet 4.5 — также существенно дороже

Разница в 7-10 раз при сопоставимом или лучшем качестве. На графике «Efficiency Frontier» Mk1 стоит изолированно — выше всех по качеству и ниже всех по цене. Это редкая ситуация на рынке ИИ.

Что умеет Mk1 на практике

Компания выпустила SDK с несколькими специализированными функциями:

  • Focus — автоматическое масштабирование на нужную область кадра по текстовому запросу (например, «найти людей в защитных касках на стройке»)
  • Counting — точный подсчёт объектов в сложных сценах (сотни щенков, товары на полке — модель справляется)
  • In-Context Learning — адаптация под конкретную задачу на нескольких примерах без дополнительного обучения

Кроме того, модель возвращает таймкоды конкретных событий в длинных видеопотоках. Это критически важно для создания клипов из трансляций, поиска инцидентов на камерах наблюдения или автоматической модерации контента.

Не только API, но и открытые веса

Perceptron использует двухтрековую стратегию. Флагманский Mk1 — закрытая модель, доступная через API для корпоративных клиентов. Но параллельно развивается серия Isaac — модели с открытыми весами для edge-устройств. Isaac 0.2-2b-preview весит всего 2 миллиарда параметров и укладывается в 200 мс до первого токена, что делает его пригодным для мобильных и встраиваемых систем.

Моё мнение

Я давно слежу за рынком видеопонимания, и это первый раз, когда я вижу модель, которая одновременно лучше флагманских и дешевле в разы. Обычно приходится выбирать: либо качество за дорого, либо дёшево но не очень.

Секрет Perceptron прост — они делали ИИ для физического мира с нуля, а не переделывали текстовую модель под картинки. Это видно и в архитектуре (непрерывная обработка видео, а не «нарезка кадров»), и в результатах.

Конечно, доверять стартапу сложнее, чем OpenAI или Google. Но если модель действительно работает как заявлено — это может изменить индустрию видеонаблюдения, контроля качества и производства контента. Особенно для российского рынка, где доступ к западным API ограничен, а спрос на видеопонимание огромный.

В любом случае, это напоминание, что в мире ИИ инновации всё ещё приходят от маленьких команд, а не от корпораций-гигантов. И это даёт надежду, что рынок остаётся конкурентным.

Читайте также