OpenAI GPT-5.4: ИИ управляет компьютером лучше человека

GPT-5.4: новый рекорд скорости релизов

OpenAI продолжает удивлять темпом. Буквально через два дня после выхода GPT-5.3 Instant компания представила GPT-5.4 — модель, которая выходит сразу в двух вариантах: GPT-5.4 Thinking (для всех платных подписчиков ChatGPT Plus и выше) и GPT-5.4 Pro (исключительно для тарифов Pro за $200/мес и Enterprise). Бесплатные пользователи тоже смогут познакомиться с новинкой, но лишь тогда, когда система сочтёт нужным перенаправить их запрос на эту модель.

Нативный Computer Use: ИИ берёт мышку в руки

Главная и самая резонансная возможность GPT-5.4 — встроенный режим управления компьютером (Computer Use). Модель не просто генерирует код или инструкции — она буквально управляет рабочим столом: кликает мышью, нажимает клавиши, ориентируется по скриншотам и выполняет многоэтапные задачи в разных приложениях.

Цифры говорят сами за себя. На тесте OSWorld-Verified, который измеряет навыки навигации по рабочему столу, GPT-5.4 набрал 75,0% успешных выполнений — против 47,3% у предыдущей GPT-5.2 и 72,4% у живых людей. Агент OpenAI официально превзошёл среднестатистического человека в управлении компьютером.

На тесте BrowseComp, измеряющем навыки веб-поиска, GPT-5.4 Pro достиг 89,3% — новый рекорд отрасли. Это не просто цифры — это сигнал о том, что автономные агенты для рабочих задач становятся реальностью.

Интеграция с Excel и Google Sheets

OpenAI также представил новый пакет интеграций: теперь GPT-5.4 можно подключить напрямую к ячейкам Microsoft Excel и Google Sheets. Модель сможет анализировать данные, выполнять вычисления и автоматизировать рутинные задачи прямо внутри таблиц. С учётом аналогичных шагов Anthropic с Claude, гонка за корпоративный рынок приобретает совершенно конкретные очертания.

Умная работа с инструментами: -47% токенов

Ещё одно важное нововведение касается работы с внешними инструментами. Вместо того чтобы грузить полный список всех доступных функций в контекст запроса, GPT-5.4 получает облегчённый каталог и самостоятельно запрашивает детали только тех инструментов, которые нужны для конкретной задачи.

На практике это дало впечатляющий результат: на 47% меньше токенов при тестировании на 250 задачах с 36 подключёнными MCP-серверами — при той же точности. Для корпоративных клиентов, работающих с большими объёмами запросов, это означает ощутимую экономию.

Контекстное окно в 1 миллион токенов

GPT-5.4 поддерживает до 1 миллиона токенов контекста в API и Codex, что позволяет агентам планировать, выполнять и верифицировать задачи в рамках длинных многошаговых сценариев. Оговорка: после превышения 272 000 токенов стоимость за миллион токенов удваивается — так что архитекторов агентных систем это ограничение заставит считать бюджет внимательнее.

Что это значит на самом деле

Я не могу не отметить иронию момента: компьютерный агент, превосходящий человека на бенчмарке по управлению компьютером, — это уже не футуристический сценарий. Это продукт, доступный за $20 в месяц. И это меняет не только технологический ландшафт, но и базовые вопросы о том, какие задачи останутся в компетенции человека.

Агентные рабочие процессы — GPT-5.4 заточен под длинные многоэтапные задачи, а не под разовые ответы
Автономность — модель не просто помогает, она действует
Экономика — оптимизация токенов делает агентов дешевле в масштабе

Вывод редактора

GPT-5.4 — это не просто очередной апгрейд модели. Это заявка на то, что ИИ-агенты готовы взять на себя целые рабочие процессы — от управления компьютером до анализа финансовых данных. OpenAI делает ставку на то, что будущее — за автономными системами, которые не ждут команды, а сами идут к цели. И судя по бенчмаркам, это будущее уже наступило.

OpenAI GPT-5.4: ИИ, который управляет вашим компьютером лучше человека

GPT-5.4: новый рекорд скорости релизов

Нативный Computer Use: ИИ берёт мышку в руки

Интеграция с Excel и Google Sheets

Умная работа с инструментами: -47% токенов

Контекстное окно в 1 миллион токенов

Что это значит на самом деле

Вывод редактора

Об авторе

Нова

Читайте также

Калифорния дала своим чиновникам Claude со скидкой 50% — первым в истории

OpenAI представила собственный чип Jalapeño — конец эпохи Nvidia?

Google ограничила Meta в доступе к Gemini — дефицит мощностей бьёт даже гигантов

Маргарет Этвуд попробовала Claude один раз и не впечатлилась