Perceptron Mk1: видео-ИИ в 10 раз дешевле GPT-5 и Claude

Perceptron Mk1 — модель, которая заставляет задуматься

Двухлетний стартап Perceptron Inc. из Белвью (Вашингтон) представил флагманскую модель видеоанализа Mk1, и цифры впечатляют даже скептиков. Цена: $0,15 за миллион входных токенов и $1,50 за выходные. Это на 80–90% дешевле, чем Claude Sonnet 4.5, GPT-5 и Gemini 3.1 Pro. Но дело не только в цене — Mk1 обходит этих гигантов почти во всех видео-бенчмарках.

Результаты, которые бросают тень на лидеров рынка

Если смотреть на сухие цифры, картина получается неоднозначная для «большой тройки»:

EmbSpatialBench (пространственное мышление): Mk1 — 85.1, Google Robotics-ER 1.5 — 78.4, Qwen 3.5-27B — ~84.5
RefSpatialBench (понимание пространственных указаний): Mk1 — 72.4, Sonnet 4.5 — 2.2, GPT-5m — 9.0
EgoSchema Hard Subset (сложное видеоанализ): Mk1 — 41.4, Gemini 3.1 Flash-Lite — 25.0
VSI-Bench (временное рассуждение): Mk1 — 88.5, лучший результат среди всех протестированных моделей

Особенно выделяется RefSpatialBench: отрыв у Perceptron просто огромный. Это значит, что модель умеет не просто «видеть» кадры, а понимать связи между объектами в пространстве — что критически важно для робототехники, производственного контроля и безопасности.

Как это работает

Ключевое отличие Mk1 — непрерывное восприятие времени (temporal continuity). Большинство моделей обрабатывают видео как набор отдельных картинок. Perceptron Mk1 «смотрит» видеопоток целиком — до 2 кадров в секунду в окне 32K токенов — и сохраняет идентичность объектов даже при временных перекрытиях.

Разработчики могут задавать вопросы к конкретным моментам потока и получать временные метки. Это автоматизирует монтаж, поиск событий и контроль качества на производстве без написания сложного кода.

Физическое мышление: ИИ, который «понимает» гравитацию

Одна из самых интересных фич — Physical Reasoning. Модель не просто распознаёт объекты, а понимает их динамику: может определить, бросили ли мяч до сирены или после, ориентируясь на положение мяча в воздухе и табло секундомера. Это требует понимания законов физики уровня, которого не хватает большинству vision-моделей.

Тестировщик VentureBeat загрузил архивную плёнку строительства небоскрёбов NY 1906 года — Mk1 корректно описала кадр (рабочие на верёвках, характерные строительные техники) и верно определила период как начало 1900-х. Для контекста: это публичная кинохроника, а не учебный датасет.

Экосистема для разработки

Параллельно Perceptron запустила Python SDK с конкретными функциями:

Focus — автоматическое кадрирование интересующей области по текстовому запросу
Counting — подсчёт объектов в плотных сценах
In-Context Learning — настройка модели на конкретную задачу с помощью нескольких примеров без переобучения

Для edge-устройств (роботы, IoT) доступна серия Isaac — открытые веса с оптимизацией под суб-200 мс до первого токена.

Мнение редакции

Ситуация с Perceptron Mk1 подтверждает важный тренд 2026 года — демократизацию физического ИИ. Специализированные модели перестают быть лабораторной диковинкой: они дешевле, точнее и быстрее адаптируются под конкретные задачи, чем «универсальные» гиганты с их раздутыми контекстными окнами и абстрактным мышлением.

Плюс $0,15 за миллион токенов — это цена, при которой можно анализировать часы видеозаписей без бухгалтерского приступа. Для малого и среднего бизнеса это открывает двери, которые вчера были заперты.

Вывод

Perceptron Mk1 — не революция, но серьёзный шаг вперёд для практического видеоанализа ИИ. Если ваши задачи связаны с мониторингом, контролем качества, контент-анализом или робототехникой — стоит обратить внимание. А если ещё сомневаетесь, какие модели использовать для работы с видео — на stiva.ai уже есть десятки проверенных ИИ для изображений и видео, доступных по одной подписке и без всяких VPN.

Новый ИИ за $0.15, который понимает видео лучше, чем GPT-5 и Claude

Perceptron Mk1 — модель, которая заставляет задуматься

Результаты, которые бросают тень на лидеров рынка

Как это работает

Физическое мышление: ИИ, который «понимает» гравитацию

Экосистема для разработки

Мнение редакции

Вывод

Об авторе

Нова

Читайте также

Калифорния дала своим чиновникам Claude со скидкой 50% — первым в истории

OpenAI представила собственный чип Jalapeño — конец эпохи Nvidia?

Google ограничила Meta в доступе к Gemini — дефицит мощностей бьёт даже гигантов

Маргарет Этвуд попробовала Claude один раз и не впечатлилась