AT&T сократил расходы на AI на 90% при 8 млрд токенов в день

Когда масштаб заставляет думать по-другому

Представьте: ваша компания обрабатывает 8 миллиардов токенов ежедневно. Не в неделю, не в месяц — каждый день. Именно с такой реальностью столкнулся AT&T, один из крупнейших телекоммуникационных гигантов США. Главный директор по данным Энди Маркус признаётся, что когда они увидели счета за прогон всего этого объёма через большие языковые модели, стало ясно: нужно срочно менять подход.

Архитектурный прорыв: супер-агенты и рабочие агенты

AT&T не стал искать более дешёвую модель или урезать функциональность. Вместо этого команда Маркуса полностью переосмыслила оркестрационный слой AI-системы. Они построили многоуровневую мультиагентную архитектуру на базе LangChain, где:

Супер-агенты (большие LLM) выполняют роль дирижёров — принимают высокоуровневые решения и распределяют задачи
Рабочие агенты (маленькие специализированные SLM) выполняют конкретные, узкие задачи: обработку документов, конвертацию запросов в SQL, анализ изображений
Человек-оператор всегда остаётся в контуре — наблюдает, проверяет, корректирует при необходимости

Результат оказался впечатляющим: до 90% экономии на стоимости AI, при этом точность и скорость работы не упали, а выросли.

«Я верю, что будущее — за малыми языковыми моделями»

Маркус формулирует свою философию чётко: «Мы обнаружили, что малые языковые модели показывают примерно такую же точность, как большие — в конкретной предметной области». Это ключевое наблюдение. SLM, обученная на узкой задаче, часто превосходит универсальный LLM именно потому, что не отвлекается на всё остальное.

Инструментарий AT&T не статичен — компания использует принцип «взаимозаменяемых и выбираемых» моделей. Если что-то лучшее появляется на рынке, устаревшее заменяется без переработки всей системы. «В этой сфере всё меняется каждую неделю, иногда несколько раз в неделю», — говорит Маркус.

100 000 сотрудников и неожиданный сюрприз

Система Ask AT&T Workflows уже развёрнута для более чем 100 000 сотрудников компании. Больше половины из них используют её ежедневно, а активные пользователи сообщают о росте личной продуктивности до 90%. Показатель «прилипчивости» — ключевой KPI для Маркуса: люди возвращаются, значит, инструмент работает.

Особенно интересен один эпизод: на внутреннем хакатоне для технических специалистов участникам предложили выбор между полноценным кодированием на Python и no-code drag-and-drop интерфейсом. Более половины выбрали визуальный конструктор. Маркус был удивлён: «Это нас удивило — ведь эти люди прекрасно умеют программировать».

AI-fueled coding: от шести недель до двадцати минут

Отдельная история — то, что в AT&T называют «AI-fueled coding» (не vibe coding, как подчёркивает Маркус). Разработчики используют агентные редакторы кода с архетипами сборки — шаблонами, которые диктуют, как код должен взаимодействовать. Код получается близким к production-готовому с первого прохода, без бесконечных итераций.

Пример из практики: внутренний продукт для работы с данными, разработка которого без AI заняла бы шесть недель, был создан за 20 минут. При этом в процессе участвовали и нетехнические сотрудники — просто через текстовые подсказки на обычном языке.

Главный урок: не усложняй ради усложнения

Маркус предупреждает от соблазна «агентифицировать» всё подряд: «Иногда мы переусложняем. Я видел решения, которые были излишне инженерными». Прежде чем строить агентную систему, стоит спросить: а нужна ли здесь агентность вообще? Может, простое однократное генеративное решение справится точнее?

Три базовых принципа, которые команда не меняет даже по мере роста сложности: точность, стоимость и отзывчивость инструментов. Простые координаты, но они дают направление в любой ситуации.

Что это значит для рынка?

История AT&T — это не просто корпоративный кейс об оптимизации бюджета. Это сигнал о том, куда движется enterprise AI в 2026 году. Гонка за самой мощной моделью уступает место гонке за умной архитектурой. Победителями окажутся не те, кто купил самый дорогой LLM, а те, кто научился выстраивать системы, где каждый компонент делает ровно то, что умеет лучше всего — и не больше.

Малые языковые модели, специализированные агенты, человек в контуре управления — это и есть реальное промышленное AI, а не демо на конференции. AT&T показал: при правильной архитектуре можно сэкономить 90% и при этом дать 100 000 людей инструмент, которым они пользуются каждый день с удовольствием.

Как AT&T сократил расходы на AI на 90%, обрабатывая 8 миллиардов токенов в день

Когда масштаб заставляет думать по-другому

Архитектурный прорыв: супер-агенты и рабочие агенты

«Я верю, что будущее — за малыми языковыми моделями»

100 000 сотрудников и неожиданный сюрприз

AI-fueled coding: от шести недель до двадцати минут

Главный урок: не усложняй ради усложнения

Что это значит для рынка?

Об авторе

Нова

Читайте также

Калифорния дала своим чиновникам Claude со скидкой 50% — первым в истории

OpenAI представила собственный чип Jalapeño — конец эпохи Nvidia?

Google ограничила Meta в доступе к Gemini — дефицит мощностей бьёт даже гигантов

Маргарет Этвуд попробовала Claude один раз и не впечатлилась