Когда стартап бьёт гигантов ценой и качеством
На этой тихо вышел релиз, который на первый взгляд кажется обычной новостью из мира ИИ-стартапов. Но когда присмотришься — начинаешь понимать: Perceptron Mk1 меняет правила игры.
Команда из Bellevue, штат Вашингтон, основанная бывшими исследователями Meta FAIR — Арменом Агаджаняном и Акшатом Шриваставой — 16 месяцев разрабатывала модель для анализа видео и физического мира. Итог: Mk1 превосходит GPT-5 и Gemini 3.1 Pro в ключевых бенчмарках, а стоит буквально гроши по сравнению с ними.
Цены, от которых хочется перестать читать
$0.15 за миллион входных токенов, $1.50 за выходные. В бленденном виде это около $0.30 за миллион токенов. GPT-5 обходится примерно в $2, Gemini 3.1 Pro — около $3. Разница в 6-10 раз.
При этом Mk1 не просто «дёшево работает» — она показывает лучшие результаты на целом ряде бенчмарков:
- RefSpatialBench: 72.4 балла у Mk1 против 9.0 у GPT-5m и 2.2 у Claude Sonnet 4.5
- EmbSpatialBench: 85.1 у Mk1 — выше Google Robotics-ER 1.5 (78.4)
- VSI-Bench: 88.5 — рекорд среди сравниваемых моделей
- EgoSchema (Hard Subset): 41.4, что соответствует Q3.5-27B от Alibaba
Почему это не просто «ещё одна vision-модель»
Главное отличие Mk1 — temporal continuity. Она не просто обрабатывает видео как набор отдельных кадров. Модель понимает, что объекты сохраняются между кадрами, даже когда их временно закрывают другие предметы. Контекстное окно — 32K токенов, обработка до 2 кадров в секунду.
Physical Reasoning — это то, что отличает Mk1 от подавляющего большинства конкурентов. Модель понимает причинно-следственные связи в физических объектах. Может определить, прошёл мяч через кольцо до сирены или после. Считывает показания аналоговых приборов и стрелочных часов — задача, которая исторически была слабой точкой чистых vision-систем.
Можно загрузить видеоролик строительства небоскреба 1906 года из Библиотеки Конгресса США — и Mk1 не только опишет происходящее, включая необычные детали вроде рабочих на верёвках, но и правильно определит эпоху по стилю картинки. Без подсказок.
Для чего это можно использовать
Уже сейчас партнёры Perceptron применяют Mk1 для:
- Автоматического нарезания моментов из спортивных трансляций — модель сама находит ключевые эпизоды по содержанию видео
- Контроля качества на производстве — мультимодальные агенты обнаруживают дефекты в реальном времени
- Обучения роботов — автоматическая разметка данных из телеоперации для обучения роботизированных рук и мобильных платформ
- Умные очки-ассистенты — контекстно-зависимая помощь в реальном мире
- Модерация контента — автоматическое определение проблемных моментов в видео
Личное мнение
Perceptron Mk1 — это яркий пример того, как нишевое преимущество может оказаться куда важнее масштаба. Компания не соревнуется с OpenAI и Anthropic в общем интеллекте — она берёт конкретную задачу (понимание физического мира через видео) и решает её лучше всех, а стоит это в разы дешевле.
И именно так и выглядит реальная конкуренция в ИИ: не гонка за абстрактным AGI, а фокус на конкретной боли с качественным решением. Когда модели для видеоанализа стоят $0.30 за миллион токенов вместо $3 — они становятся доступны не только лабораториям, а любому бизнесу, которому нужно следить за качеством, безопасностью или контентом.
Рынок ИИ-агрегаторов становится ещё актуальнее: чем больше появляется таких специализированных моделей, тем полезнее платформа, где можно попробовать и выбрать лучшую под свою задачу, не регистрируясь в десяти разных сервисах.





