STIVA

ИИ находит уязвимости быстрее людей: кибернавыки нейросетей удваиваются каждые 5 месяцев

AISI и XBOW опубликовали данные: Claude Mythos Preview и GPT-5.5 радикально усилили автономные киберспособности ИИ

11 просмотров~3 мин чтения
Нейросетевая схема с пульсирующими узлами и потоками данных на тёмно-фиолетовом фоне, кибербезопасность ИИ
Нейросетевая схема с пульсирующими узлами и потоками данных на тёмно-фиолетовом фоне, кибербезопасность ИИ

Кибернавыки ИИ растут быстрее, чем мы думали

Британский Институт безопасности искусственного интеллекта (AISI) опубликовал данные, которые заставляют пересмотреть привычные представления о темпах развития ИИ. Начиная с конца 2024 года, длина киберзадач, которые передовые модели могут выполнять полностью автономно, удваивается каждые 4,7 месяца. Это уже ускорение — ещё в ноябре 2025 года AISI оценивала период удвоения в 8 месяцев.

Но главное даже не это. Две недавно вышедшие модели — Claude Mythos Preview от Anthropic и GPT-5.5 от OpenAI — радикально превысили даже этот ускоренный тренд. Они не просто «стали лучше». Они вышли за пределы измерительной шкалы, которую AISI для них построила.

Впервые: ИИ взломал симулированную корпоративную сеть

Самый поразительный результат — новый чекпоинт Mythos Preview впервые в истории прошёл оба киберполигона AISI. Это не абстрактные задачки из учебника, а симуляции атак на корпоративные сети:

  • Полигон «The Last Ones» — 32-шаговая атака на корпоративную сеть — пройден 6 из 10 раз.
  • Полигон «Cooling Tower» — до этого непреодолимый ни одной моделью — пройден 3 из 10 раз.
  • GPT-5.5 тоже прошёл «The Last Ones» (3 из 10 раз).

При этом все тесты проводились с ограничением в 2,5 миллиона токенов на задачу. Без этого лимита результаты были бы ещё выше, но их стало бы невозможно сравнивать между моделями.

XBOW: «Это титан, но титаны дорогие»

Компания XBOW, специализирующаяся на тестировании безопасности, провела собственную глубокую оценку Mythos Preview. Их выводы:

  • Аудит исходного кода — модель выдаёт результаты, недоступные ни одной из предыдущих. Количество ложных отрицаний снижено на 42% по сравнению с Opus 4.6, а при наличии исходного кода — на 55%.
  • Поиск уязвимостей в нативном коде и реверс-инжиниринг — модель находит реальные баги в Chromium и V8 sandbox с меньшим количеством ложных срабатываний.
  • Работа в браузере — визуальная аккурартность модели восстановлена после деградации предыдущих версий Anthropic.

Но есть нюанс: Mythos Preview стоит примерно в 5 раз дороже Opus-моделей, токен за токен. XBOW отмечает, что в ряде случаев дешевле запустить более дешёвую модель несколько раз, чем один раз — Mythos Preview.

Microsoft уже нашла 16 уязвимостей с помощью ИИ-агентов

Пока исследователи измеряют, практика кипит. Microsoft сообщила, что её мульти-модельная система безопасности MDASH (Defense at AI Speed) обнаружила 16 CVE в майских обновлениях Patch Tuesday. Это рекорд для ИИ-систем, и лидирующий результат на фреймворке CyberGym.

Личное мнение: мы недооцениваем скорость

Что меня по-настоящему беспокоит в этих данных — не то, что ИИ становится мощнее (это очевидно), а то, как быстро это происходит. Удвоение каждые 4,7 месяцев — это экспонента, которую человеческий мозг плохо интуитивно считывает. Через год эти модели будут автономно решать задачи, которые сегодня кажутся фантастикой.

Хорошая сторона той же медали: эти же технологии кардинально усиливают защиту. AISI прямо указывает — NCSC уже выпустил рекомендации по использованию ИИ для поиска уязвимостей. MDASH от Microsoft работает на оборону.

Но окно для подготовки organisations к этой реальности критически мало. Через год-два разговоры об «ИИ-регулировании» окончательно переместятся из плоскости академических дискуссий в плоскость национальной безопасности. И organisations, которые не начнут обновлять свои базы безопасности сейчас, окажутся в совершенно уязвимом положении.

Вывод

Автономные кибернавыки ИИ — уже не исследование на бумаге, а рабочая реальность. Вопрос не «станет ли ИИ инструментом хакеров», а «как быстро мы успеем построить защиту, используя те же самые технологии». И пока одни компании находят 16 CVE за неделю, другим стоило бы задуматься о своих кибербастионах.

Читайте также