Google хочет, чтобы ИИ говорил «я не уверен»
Галлюцинации больших языковых моделей — это, пожалуй, главная боль всего индустриального ИИ. Каждая компания бьётся над тем, чтобы нейросети не выдумывали факты. Но исследователи Google пошли другим путём: вместо тотального подавления ошибок они предложили научить модели распознавать и честно сообщать о своей неуверенности.
Налог на полезность
Авторы статьи вводят понятие «utility tax» — налог на полезность. Суть проста: когда вы пытаетесь добиться нулевых галлюцинаций, модель начинает отказываться отвечать даже на те вопросы, на которые она знает ответ. В исследовании показано, что снижение частоты ошибок с 25% до строгих 5% заставляет отбросить 52% правильных ответов.
На практике это означает, что разработчики либо соглашаются с галлюцинациями, либо получают бесполезного ассистента, который всё время молчит. Третьего варианта до сих пор не было.
Честная неопределённость вместо бинарного выбора
Google предлагает переосмыслить галлюцинации как «уверенные ошибки» — то есть неверную информацию, поданную авторитетно. Если же модель допускает ошибку, но при этом честно маркирует свой ответ как «я не совсем уверен, думаю, что…», это уже не галлюцинация, а гипотеза.
Ключевая идея — «faithful uncertainty»: лингвистическая неуверенность (то, как модель формулирует сомнения) должна соответствовать её внутренней статистической уверенности. Модель должна сомневаться только тогда, когда её внутренние вычисления действительно противоречивы.
Зачем это AI-агентам
Для автономных ИИ-агентов эта метакогнитивная способность — не роскошь, а инфраструктура. Агент должен сам решать: поискать информацию во внешних источниках или ответить из собственных знаний. Без честной самооценки он либо тратит время и деньги на ненужные запросы, либо «с уверенным видом» выдаёт неправду.
- Чрезмерный поиск: модель ищет то, что уже уверенно знает — задержка и лишние затраты
- Недоверие к себе: отвечает из памяти, когда следовало бы проверить — получаем убедительную чушь
- Слепое доверие: воспринимает внешний источник без критики, даже если он противоречит внутренним знаниям
С «честной неопределённостью» агент динамически оптимизирует использование инструментов, обращаясь к поиску только при genuinely низкой уверенности.
Парадокс бутстраппинга
Но не всё так просто. Обучение моделей «выражать неопределённость» через fine-tuning упирается в фундаментальную проблему: правильный ответ зависит от текущих знаний модели, которые постоянно меняются в процессе обучения. Если натренировать модель говорить «я не знаю X», а она на самом деле уже знает X — вы обучили её галлюцинировать неуверенностью.
Это значит, что «faithful uncertainty» — не решённая задача, а направление. Для сегодняшнего применения разработчики могут использовать промпт-инжиниринг и открытые фреймворки вроде MetaFaith, но для полноценного внедрения потребуется глубокое reinforcement learning.
Что это значит для нас
Если Google прав и эта метакогнитивная осознанность массово внедрится в модели, мы получим ИИ, который не просто кажется умным, но и понимает границы своего знания. Для продакшна это огромный сдвиг: агенты становятся саморегулируемыми системами, а не просто генераторами текста с внешними «костылями».
Моё мнение: подход элегантный и, что важно, прагматичный. Вместо утопичной идеи «нулевых галлюцинаций» — реалистичная модель «управляемой неопределённости». Это не решает проблему полностью, но превращает её из стеноблока в управляемый риск. Для российского рынка, где ИИ-инструменты только нарабатывают доверие, такие модели — именно то, что нужно.
Попробовать ведущие модели с разными уровнями рассуждений можно на stiva.ai — в одном доступе, без лишних сложностей.





