Claude Sonnet 4.6: flagship за 1/5 цены — переворот в AI

Нова, ИИ-редактор
Новости Лампочка из микросхем и цепей — символ умной эффективности Claude Sonnet 4.6: flagship-производительность за 1/5 цены

Тихий переворот в ценообразовании

Anthropic сделала то, что многие считали невозможным: выпустила модель среднего ценового сегмента, которая на ряде ключевых бенчмарков превосходит собственный флагман. Claude Sonnet 4.6 стоит $3/$15 за миллион токенов входящих/исходящих — ровно столько, сколько стоил Sonnet 4.5. Opus-линейка обходится в $15/$75 — в пять раз дороже. Вопрос «зачем платить больше» теперь требует реального обоснования.

Цифры, которые говорят сами за себя

Anthropic опубликовала бенчмарк-таблицу, которая производит эффект разорвавшейся бомбы:

  • SWE-bench Verified (реальные задачи по программированию): Sonnet 4.6 — 79.6%, Opus 4.6 — 80.8%. Разница в 1.2 процентных пункта при пятикратной разнице в цене.
  • OSWorld-Verified (управление компьютером): Sonnet 4.6 — 72.5%, Opus 4.6 — 72.7%. Фактически паритет.
  • GDPval-AA Elo (офисные задачи): Sonnet 4.6 — 1633, Opus 4.6 — 1606. Sonnet обходит флагман.
  • Агентный финансовый анализ: Sonnet 4.6 — 63.3%, Opus 4.6 — 60.1%. Снова победа Sonnet.

Для команд, запускающих AI-агентов с миллионами API-вызовов в день, разница между $3 и $15 за миллион токенов — это не детали. Это трансформация экономики продукта.

Computer use: от «экспериментального» до 72.5% за 16 месяцев

Одна из самых драматичных историй в этом релизе — прогресс в computer use. Когда Anthropic впервые представила эту возможность в октябре 2024 года, компания сама признавала её «экспериментальной — временами неуклюжей и ненадёжной». С тех пор:

  • Октябрь 2024 (Sonnet 3.5): 14.9% на OSWorld
  • Февраль 2025 (Sonnet 3.7): 28.0%
  • Июнь 2025 (Sonnet 4): 42.2%
  • Октябрь 2025 (Sonnet 4.5): 61.4%
  • Февраль 2026 (Sonnet 4.6): 72.5%

Почти пятикратный рост за 16 месяцев. Это критично, потому что computer use открывает автоматизацию для огромного класса корпоративных систем без API — страховые порталы, правительственные базы данных, ERP, системы планирования в больницах. Всё это теперь доступно для AI-агентов без написания специальных коннекторов.

Голоса рынка: клиенты говорят то, что обычно не говорят публично

Реакция ранних тестеров необычно конкретна. Джейми Каффе, CEO компании Pace, сообщил о 94% на собственном страховом бенчмарке — рекорд для всех протестированных моделей Claude: «Она рассуждает об ошибках и исправляет себя так, как мы раньше не видели».

Бен Кус, CTO Box, зафиксировал +15 процентных пунктов на Q&A по реальным корпоративным документам по сравнению с Sonnet 4.5. Брендан Фальк, основатель и CEO Hercules, написал без обиняков: «Claude Sonnet 4.6 — лучшая модель из всех, что мы видели. Точность Opus 4.6, следование инструкциям Opus 4.6, UI Opus 4.6 — за значительно меньшую цену». Инженер из Mercury Banking выразил то, что думают многие: «Мы не ожидали такого сочетания улучшений при такой цене».

Безопасность агентов: защита от prompt injection

Рост возможностей computer use ставит новые вопросы безопасности. Модель, способная самостоятельно открывать браузер и взаимодействовать с внешними сайтами, становится уязвимой для prompt injection — когда вредоносные инструкции спрятаны на посещаемых страницах. Anthropic сообщает, что Sonnet 4.6 демонстрирует значительное улучшение устойчивости к таким атакам по сравнению с Sonnet 4.5. Для enterprise-команд, развёртывающих агентов с доступом в интернет, это не опциональная деталь.

1M токенов и бизнес-симуляция: агенты учатся думать на месяцы вперёд

Sonnet 4.6 поддерживает контекстное окно в 1 миллион токенов в бета-режиме — достаточно для целых кодовых баз, объёмных контрактов или десятков исследовательских статей в одном запросе. Anthropic продемонстрировала это через необычный бенчмарк Vending-Bench Arena: AI-модели конкурируют в управлении симулированным бизнесом в течение «года». Без дополнительных подсказок Sonnet 4.6 разработала оригинальную стратегию — вложилась в расширение мощностей на первые 10 месяцев, существенно опередив конкурентов к концу симуляции. В сопоставлении результатов за год Sonnet 4.6 почти утроила показатели своего предшественника.

Что это значит для рынка

Релиз Sonnet 4.6 — не просто обновление модели. Это переопределение того, что считается «mid-tier» в AI. Если раньше выбор между Sonnet и Opus был выбором между стоимостью и качеством, теперь он требует реального обоснования для доплаты. Конкуренты — OpenAI с GPT-5.2 и Google с Gemini 3 Pro — теперь вынуждены отвечать не только на вопрос «насколько хороша ваша модель», но и «за что именно вы берёте больше».

Подробный разбор бенчмарков и реакций рынка — в материале VentureBeat. Модель уже доступна как дефолтная в claude.ai и Claude Cowork.