8 миллиардов токенов в день: как AT&T сократила расходы на AI на 90%
Когда счёт за AI начинает пугать
Представьте: ваша компания обрабатывает 8 миллиардов токенов в день через большие языковые модели. Каждый запрос, каждый ответ, каждая аналитическая сводка — всё это пропускается через мощные (и дорогие) модели вроде GPT-4 или Gemini. Именно в такой ситуации оказалась AT&T — один из крупнейших телекоммуникационных гигантов США.
Chief Data Officer Энди Маркус и его команда поняли: так дальше нельзя. Не с точки зрения технологий — с точки зрения экономики. Большие модели хороши для сложных задач, но использовать их буквально для всего — это как ездить на Ferrari за хлебом.
Решение: многоуровневая оркестрация агентов
Команда AT&T полностью переосмыслила архитектуру своего внутреннего AI-ассистента Ask AT&T. Вместо единой большой модели они построили многоуровневый стек агентов на базе LangChain:
- Суперагенты (на базе LLM) — координируют работу, принимают высокоуровневые решения, распределяют задачи
- Рабочие агенты (SLM — малые языковые модели) — выполняют конкретные, узкоспециализированные задачи
- Специализированные инструменты — обработка документов, SQL-запросы на естественном языке, анализ изображений
Результат превзошёл ожидания: снижение затрат на 90% при одновременном росте объёма обработки с 8 до 27 миллиардов токенов в сутки. Это не опечатка — более чем трёхкратный рост при девяностопроцентной экономии.
Философия «не строить то, что уже есть»
Один из ключевых принципов Маркуса — не переизобретать велосипед. AT&T использует модели, которые можно легко менять и подключать, как модули. Когда какой-то инструмент становится «commoditized» (то есть его можно купить готовым), они переходят на покупной вариант и отказываются от собственной разработки.
«В этой сфере всё меняется каждую неделю, а иногда несколько раз в неделю», — говорит Маркус. — «Нам нужно быстро тестировать, подключать и отключать разные компоненты». Это звучит как банальность, но на практике большинство крупных компаний делают ровно противоположное — строят монолитные системы и потом страдают от их неповоротливости.
100 000 сотрудников и drag-and-drop агенты
Флагманский продукт команды — Ask AT&T Workflows, графический конструктор агентов для сотрудников. Интерфейс предлагает два режима: pro-code (Python для тех, кто умеет) и no-code (drag-and-drop для всех остальных).
Система развёрнута для 100 000+ сотрудников. Больше половины используют её каждый день. Активные пользователи сообщают о росте личной продуктивности до 90%. И вот что интересно: на внутреннем хакатоне для технических специалистов более половины выбрали no-code интерфейс вместо Python. Даже программисты предпочли простоту — это говорит о многом.
AI-fueled coding: от 6 недель к 20 минутам
Отдельного внимания заслуживает то, что Маркус называет «AI-fueled coding» — подход к разработке, кардинально отличающийся от обычного «вайб-кодинга». Здесь разработчики работают с агентами в IDE, используя специальные архетипы сборки, которые диктуют, как код должен взаимодействовать между компонентами.
Результат — код, который выходит «близким к production-grade» уже за один проход. Команда AT&T построила внутренний продукт для работы с данными за 20 минут. Без AI на это ушло бы 6 недель. Комментарии излишни.
Человек в контуре: обязательно
При всей автоматизации AT&T придерживается чёткого принципа: человек всегда наблюдает за цепочкой агентов. Все действия логируются, данные изолированы на каждом этапе, права доступа проверяются при передаче задач между агентами.
«Вещи происходят автономно, но человек в контуре всё равно обеспечивает баланс проверки и контроля», — говорит Маркус. Это не просто корпоративная осторожность — это здравый смысл на масштабе, где ошибка агента может затронуть миллионы абонентов.
Что это означает для всей отрасли
Кейс AT&T — это практическое опровержение нескольких популярных заблуждений об enterprise AI. Во-первых, большая модель ≠ лучший результат. Маленькие специализированные модели часто справляются так же хорошо или лучше в своей нише — и стоят несравнимо меньше. Во-вторых, автоматизация не означает устранение человека — она меняет его роль с исполнителя на надзорщика. В-третьих, гибкость архитектуры важнее текущей оптимальности — в мире, где модели меняются каждую неделю, модульность дороже производительности.
Маркус прямо предупреждает от оверинжиниринга: «Иногда мы усложняем. Иногда решение оказывается переинженеренным». Это редкая честность для человека, который как раз занимается сложными системами. И именно поэтому AT&T, судя по всему, справляется там, где другие корпорации всё ещё пишут стратегию AI-трансформации на 2027 год.