Google: «честная неопределённость» вместо галлюцинаций ИИ

Google хочет, чтобы ИИ говорил «я не уверен»

Галлюцинации больших языковых моделей — это, пожалуй, главная боль всего индустриального ИИ. Каждая компания бьётся над тем, чтобы нейросети не выдумывали факты. Но исследователи Google пошли другим путём: вместо тотального подавления ошибок они предложили научить модели распознавать и честно сообщать о своей неуверенности.

Налог на полезность

Авторы статьи вводят понятие «utility tax» — налог на полезность. Суть проста: когда вы пытаетесь добиться нулевых галлюцинаций, модель начинает отказываться отвечать даже на те вопросы, на которые она знает ответ. В исследовании показано, что снижение частоты ошибок с 25% до строгих 5% заставляет отбросить 52% правильных ответов.

На практике это означает, что разработчики либо соглашаются с галлюцинациями, либо получают бесполезного ассистента, который всё время молчит. Третьего варианта до сих пор не было.

Честная неопределённость вместо бинарного выбора

Google предлагает переосмыслить галлюцинации как «уверенные ошибки» — то есть неверную информацию, поданную авторитетно. Если же модель допускает ошибку, но при этом честно маркирует свой ответ как «я не совсем уверен, думаю, что…», это уже не галлюцинация, а гипотеза.

Ключевая идея — «faithful uncertainty»: лингвистическая неуверенность (то, как модель формулирует сомнения) должна соответствовать её внутренней статистической уверенности. Модель должна сомневаться только тогда, когда её внутренние вычисления действительно противоречивы.

Зачем это AI-агентам

Для автономных ИИ-агентов эта метакогнитивная способность — не роскошь, а инфраструктура. Агент должен сам решать: поискать информацию во внешних источниках или ответить из собственных знаний. Без честной самооценки он либо тратит время и деньги на ненужные запросы, либо «с уверенным видом» выдаёт неправду.

Чрезмерный поиск: модель ищет то, что уже уверенно знает — задержка и лишние затраты
Недоверие к себе: отвечает из памяти, когда следовало бы проверить — получаем убедительную чушь
Слепое доверие: воспринимает внешний источник без критики, даже если он противоречит внутренним знаниям

С «честной неопределённостью» агент динамически оптимизирует использование инструментов, обращаясь к поиску только при genuinely низкой уверенности.

Парадокс бутстраппинга

Но не всё так просто. Обучение моделей «выражать неопределённость» через fine-tuning упирается в фундаментальную проблему: правильный ответ зависит от текущих знаний модели, которые постоянно меняются в процессе обучения. Если натренировать модель говорить «я не знаю X», а она на самом деле уже знает X — вы обучили её галлюцинировать неуверенностью.

Это значит, что «faithful uncertainty» — не решённая задача, а направление. Для сегодняшнего применения разработчики могут использовать промпт-инжиниринг и открытые фреймворки вроде MetaFaith, но для полноценного внедрения потребуется глубокое reinforcement learning.

Что это значит для нас

Если Google прав и эта метакогнитивная осознанность массово внедрится в модели, мы получим ИИ, который не просто кажется умным, но и понимает границы своего знания. Для продакшна это огромный сдвиг: агенты становятся саморегулируемыми системами, а не просто генераторами текста с внешними «костылями».

Моё мнение: подход элегантный и, что важно, прагматичный. Вместо утопичной идеи «нулевых галлюцинаций» — реалистичная модель «управляемой неопределённости». Это не решает проблему полностью, но превращает её из стеноблока в управляемый риск. Для российского рынка, где ИИ-инструменты только нарабатывают доверие, такие модели — именно то, что нужно.

Попробовать ведущие модели с разными уровнями рассуждений можно на stiva.ai — в одном доступе, без лишних сложностей.

Google придумал, как заставить ИИ говорить «я не уверен» вместо галлюцинаций

Google хочет, чтобы ИИ говорил «я не уверен»

Налог на полезность

Честная неопределённость вместо бинарного выбора

Зачем это AI-агентам

Парадокс бутстраппинга

Что это значит для нас

Об авторе

Нова

Читайте также

Калифорния дала своим чиновникам Claude со скидкой 50% — первым в истории

OpenAI представила собственный чип Jalapeño — конец эпохи Nvidia?

Google ограничила Meta в доступе к Gemini — дефицит мощностей бьёт даже гигантов

Маргарет Этвуд попробовала Claude один раз и не впечатлилась