Perceptron Mk1 — модель, которая заставляет задуматься
Двухлетний стартап Perceptron Inc. из Белвью (Вашингтон) представил флагманскую модель видеоанализа Mk1, и цифры впечатляют даже скептиков. Цена: $0,15 за миллион входных токенов и $1,50 за выходные. Это на 80–90% дешевле, чем Claude Sonnet 4.5, GPT-5 и Gemini 3.1 Pro. Но дело не только в цене — Mk1 обходит этих гигантов почти во всех видео-бенчмарках.
Результаты, которые бросают тень на лидеров рынка
Если смотреть на сухие цифры, картина получается неоднозначная для «большой тройки»:
- EmbSpatialBench (пространственное мышление): Mk1 — 85.1, Google Robotics-ER 1.5 — 78.4, Qwen 3.5-27B — ~84.5
- RefSpatialBench (понимание пространственных указаний): Mk1 — 72.4, Sonnet 4.5 — 2.2, GPT-5m — 9.0
- EgoSchema Hard Subset (сложное видеоанализ): Mk1 — 41.4, Gemini 3.1 Flash-Lite — 25.0
- VSI-Bench (временное рассуждение): Mk1 — 88.5, лучший результат среди всех протестированных моделей
Особенно выделяется RefSpatialBench: отрыв у Perceptron просто огромный. Это значит, что модель умеет не просто «видеть» кадры, а понимать связи между объектами в пространстве — что критически важно для робототехники, производственного контроля и безопасности.
Как это работает
Ключевое отличие Mk1 — непрерывное восприятие времени (temporal continuity). Большинство моделей обрабатывают видео как набор отдельных картинок. Perceptron Mk1 «смотрит» видеопоток целиком — до 2 кадров в секунду в окне 32K токенов — и сохраняет идентичность объектов даже при временных перекрытиях.
Разработчики могут задавать вопросы к конкретным моментам потока и получать временные метки. Это автоматизирует монтаж, поиск событий и контроль качества на производстве без написания сложного кода.
Физическое мышление: ИИ, который «понимает» гравитацию
Одна из самых интересных фич — Physical Reasoning. Модель не просто распознаёт объекты, а понимает их динамику: может определить, бросили ли мяч до сирены или после, ориентируясь на положение мяча в воздухе и табло секундомера. Это требует понимания законов физики уровня, которого не хватает большинству vision-моделей.
Тестировщик VentureBeat загрузил архивную плёнку строительства небоскрёбов NY 1906 года — Mk1 корректно описала кадр (рабочие на верёвках, характерные строительные техники) и верно определила период как начало 1900-х. Для контекста: это публичная кинохроника, а не учебный датасет.
Экосистема для разработки
Параллельно Perceptron запустила Python SDK с конкретными функциями:
- Focus — автоматическое кадрирование интересующей области по текстовому запросу
- Counting — подсчёт объектов в плотных сценах
- In-Context Learning — настройка модели на конкретную задачу с помощью нескольких примеров без переобучения
Для edge-устройств (роботы, IoT) доступна серия Isaac — открытые веса с оптимизацией под суб-200 мс до первого токена.
Мнение редакции
Ситуация с Perceptron Mk1 подтверждает важный тренд 2026 года — демократизацию физического ИИ. Специализированные модели перестают быть лабораторной диковинкой: они дешевле, точнее и быстрее адаптируются под конкретные задачи, чем «универсальные» гиганты с их раздутыми контекстными окнами и абстрактным мышлением.
Плюс $0,15 за миллион токенов — это цена, при которой можно анализировать часы видеозаписей без бухгалтерского приступа. Для малого и среднего бизнеса это открывает двери, которые вчера были заперты.
Вывод
Perceptron Mk1 — не революция, но серьёзный шаг вперёд для практического видеоанализа ИИ. Если ваши задачи связаны с мониторингом, контролем качества, контент-анализом или робототехникой — стоит обратить внимание. А если ещё сомневаетесь, какие модели использовать для работы с видео — на stiva.ai уже есть десятки проверенных ИИ для изображений и видео, доступных по одной подписке и без всяких VPN.





