Кто такие Perceptron и что они выпустили
Стартап Perceptron AI из Беллвью (штат Вашингтон) основали Армэн Агаджанян и Акшат Шривастава — оба бывшие исследователи из лаборатории Meta FAIR. Они ушли из Meta с чёткой идеей: ИИ должен понимать физический мир, а не только текст и картинки. Через полтора года после основания они это доказали.
Их модель Mk1 (Mark One) — это мультимодальная ИИ-система, созданная с нуля для анализа видео. Она обрабатывает до 2 кадров в секунду в контекстном окне 32K токенов и, в отличие от обычных Vision-Language моделей, не складывает кадры как отдельные фотографии. Mk1 понимает временны́е связи — кто что сделал, когда и почему.
Результаты, которые заставили соперников нервничать
На бенчмарках Mk1 показал убедительные результаты:
- VSI-Bench — 88.5 балла, лучший результат среди всех протестированных моделей, включая GPT-5 и Gemini 3.1 Pro
- EgoSchema (Hard Subset) — 41.4 балла, что в полтора раза выше, чем у Gemini 3.1 Flash-Lite (25.0)
- RefSpatialBench — 72.4 балла при 9.0 у GPT-5m и 2.2 у Sonnet 4.5
- EmbSpatialBench — 85.1, выше, чем у Google Robotics-ER 1.5 (78.4)
Особенно показательный тест: модель способна по видео определить, был ли бросок в баскетболе сделан до или после сирены, анализируя положение мяча в воздухе и показания таймера. Это не просто распознавание образов — это физическое рассуждение.
Цена — главный козырь
Вот где становится по-настоящему интересно. Perceptron Mk1 стоит $0.15 за миллион входных токенов и $1.50 за миллион выходных через API. Для сравнения:
- GPT-5 — ориентировочно $2.00 за миллион токенов (смешанный режим)
- Gemini 3.1 Pro — около $3.00
- Claude Sonnet 4.5 — также существенно дороже
Разница в 7-10 раз при сопоставимом или лучшем качестве. На графике «Efficiency Frontier» Mk1 стоит изолированно — выше всех по качеству и ниже всех по цене. Это редкая ситуация на рынке ИИ.
Что умеет Mk1 на практике
Компания выпустила SDK с несколькими специализированными функциями:
- Focus — автоматическое масштабирование на нужную область кадра по текстовому запросу (например, «найти людей в защитных касках на стройке»)
- Counting — точный подсчёт объектов в сложных сценах (сотни щенков, товары на полке — модель справляется)
- In-Context Learning — адаптация под конкретную задачу на нескольких примерах без дополнительного обучения
Кроме того, модель возвращает таймкоды конкретных событий в длинных видеопотоках. Это критически важно для создания клипов из трансляций, поиска инцидентов на камерах наблюдения или автоматической модерации контента.
Не только API, но и открытые веса
Perceptron использует двухтрековую стратегию. Флагманский Mk1 — закрытая модель, доступная через API для корпоративных клиентов. Но параллельно развивается серия Isaac — модели с открытыми весами для edge-устройств. Isaac 0.2-2b-preview весит всего 2 миллиарда параметров и укладывается в 200 мс до первого токена, что делает его пригодным для мобильных и встраиваемых систем.
Моё мнение
Я давно слежу за рынком видеопонимания, и это первый раз, когда я вижу модель, которая одновременно лучше флагманских и дешевле в разы. Обычно приходится выбирать: либо качество за дорого, либо дёшево но не очень.
Секрет Perceptron прост — они делали ИИ для физического мира с нуля, а не переделывали текстовую модель под картинки. Это видно и в архитектуре (непрерывная обработка видео, а не «нарезка кадров»), и в результатах.
Конечно, доверять стартапу сложнее, чем OpenAI или Google. Но если модель действительно работает как заявлено — это может изменить индустрию видеонаблюдения, контроля качества и производства контента. Особенно для российского рынка, где доступ к западным API ограничен, а спрос на видеопонимание огромный.
В любом случае, это напоминание, что в мире ИИ инновации всё ещё приходят от маленьких команд, а не от корпораций-гигантов. И это даёт надежду, что рынок остаётся конкурентным.





