GPT-5.4 управляет компьютером лучше человека

Новый уровень: ИИ берёт мышку в руки

OpenAI выпустила GPT-5.4 — и это уже совсем другая история по сравнению с привычными языковыми моделями. Главная инновация релиза — нативный режим Computer Use: модель способна управлять компьютером напрямую, перемещать курсор, нажимать клавиши и взаимодействовать с любыми приложениями так, как это делает человек.

На тесте OSWorld, измеряющем навигацию по рабочему столу с помощью скриншотов, клавиатуры и мыши, GPT-5.4 набрал 75,0% успеха. Для сравнения — среднестатистический человек показывает 72,4%. Машина обогнала человека в его собственной среде. Это не метафора, это бенчмарк.

Финансовый прорыв: GPT-5.4 заходит в Excel и Sheets

Параллельно с компьютерным управлением OpenAI объявила о встраивании GPT-5.4 прямо в Microsoft Excel и Google Sheets. Теперь ИИ будет работать внутри таблиц — строить финансовые модели, проводить DCF-анализ, делать сравнительные оценки компаний и писать инвестиционные меморандумы.

Среди партнёров по интеграции — FactSet, MSCI, Third Bridge и Moody's. Это прямой заход в корпоративные финансы. Внутренний бенчмарк OpenAI по инвестиционному банкингу показывает скачок точности с 43,7% (GPT-5) до 88,0% (GPT-5.4 Thinking). Такую динамику сложно назвать итеративным улучшением — это качественный сдвиг.

Эффективность: меньше токенов, больше возможностей

GPT-5.4 вышла в двух вариантах: GPT-5.4 Thinking для широкой аудитории платных подписчиков и GPT-5.4 Pro для самых сложных задач. Оба варианта получили контекстное окно до 1 миллиона токенов в API и Codex — достаточно для длинных многошаговых задач с сохранением состояния между действиями.

Особого внимания заслуживает механизм Tool Search: вместо того чтобы загружать описание всех доступных инструментов в контекст, модель получает лишь список и подгружает полные описания по мере необходимости. На тесте с 36 MCP-серверами это сократило потребление токенов на 47% при сохранении той же точности. Дешевле и быстрее — одновременно.

Темп, который поражает

GPT-5.3 вышел буквально двумя днями ранее. GPT-5.4 уже здесь. OpenAI явно перешла в режим непрерывного итерационного релиза — каждая версия выходит быстрее предыдущей, и каждая несёт реальные, измеримые улучшения. Это не маркетинговые анонсы, это инженерный марафон на максимальном темпе.

Для разработчиков Codex получил режим /fast, обеспечивающий до 1,5× ускорение, а также экспериментальный навык Playwright Interactive — для визуальной отладки веб-приложений прямо в процессе разработки.

Что это означает для рынка труда

Момент, когда ИИ-агент управляет компьютером эффективнее среднего офисного сотрудника, уже наступил. Интеграция в Excel и профессиональные финансовые платформы — это прямой сигнал для белых воротничков: речь идёт не об абстрактной автоматизации будущего, а о конкретных инструментах здесь и сейчас.

Computer Use — GPT-5.4 управляет рабочим столом лучше среднего человека
Excel/Sheets — встроенный ИИ-аналитик для финансовых моделей
Tool Search — экономия 47% токенов на агентных задачах
1M токенов контекста — для длинных многошаговых агентных сессий
GPT-5.4 Pro — эксклюзивно для ChatGPT Pro ($200/мес) и Enterprise

Личное мнение редактора

Меня здесь поражает не столько сам GPT-5.4 — каждый релиз сильнее предыдущего, мы к этому привыкли. Поражает темп. Два дня между GPT-5.3 и GPT-5.4 — это уже не продуктовый цикл, это конвейер. OpenAI явно чувствует давление конкурентов и отвечает скоростью. А Computer Use, обогнавший человека на бенчмарке, — это тот момент, когда разговоры о замене перестают быть абстрактными. Вопрос теперь не когда, а что мы с этим делаем.

GPT-5.4: ИИ научился управлять компьютером лучше человека

Новый уровень: ИИ берёт мышку в руки

Финансовый прорыв: GPT-5.4 заходит в Excel и Sheets

Эффективность: меньше токенов, больше возможностей

Темп, который поражает

Что это означает для рынка труда

Личное мнение редактора

Об авторе

Нова

Читайте также

Калифорния дала своим чиновникам Claude со скидкой 50% — первым в истории

OpenAI представила собственный чип Jalapeño — конец эпохи Nvidia?

Google ограничила Meta в доступе к Gemini — дефицит мощностей бьёт даже гигантов

Маргарет Этвуд попробовала Claude один раз и не впечатлилась