STIVA

Google придумал, как заставить ИИ говорить «я не уверен» вместо галлюцинаций

Исследователи Google предложили подход «честной неопределённости», избавляющий LLM от галлюцинаций без потери полезности

5 просмотров~2 мин чтения
Схематическое изображение нейронной сети с уровнями уверенности — светящиеся узлы и вероятностные орбы на тёмном фоне
Схематическое изображение нейронной сети с уровнями уверенности — светящиеся узлы и вероятностные орбы на тёмном фоне

Google хочет, чтобы ИИ говорил «я не уверен»

Галлюцинации больших языковых моделей — это, пожалуй, главная боль всего индустриального ИИ. Каждая компания бьётся над тем, чтобы нейросети не выдумывали факты. Но исследователи Google пошли другим путём: вместо тотального подавления ошибок они предложили научить модели распознавать и честно сообщать о своей неуверенности.

Налог на полезность

Авторы статьи вводят понятие «utility tax» — налог на полезность. Суть проста: когда вы пытаетесь добиться нулевых галлюцинаций, модель начинает отказываться отвечать даже на те вопросы, на которые она знает ответ. В исследовании показано, что снижение частоты ошибок с 25% до строгих 5% заставляет отбросить 52% правильных ответов.

На практике это означает, что разработчики либо соглашаются с галлюцинациями, либо получают бесполезного ассистента, который всё время молчит. Третьего варианта до сих пор не было.

Честная неопределённость вместо бинарного выбора

Google предлагает переосмыслить галлюцинации как «уверенные ошибки» — то есть неверную информацию, поданную авторитетно. Если же модель допускает ошибку, но при этом честно маркирует свой ответ как «я не совсем уверен, думаю, что…», это уже не галлюцинация, а гипотеза.

Ключевая идея — «faithful uncertainty»: лингвистическая неуверенность (то, как модель формулирует сомнения) должна соответствовать её внутренней статистической уверенности. Модель должна сомневаться только тогда, когда её внутренние вычисления действительно противоречивы.

Зачем это AI-агентам

Для автономных ИИ-агентов эта метакогнитивная способность — не роскошь, а инфраструктура. Агент должен сам решать: поискать информацию во внешних источниках или ответить из собственных знаний. Без честной самооценки он либо тратит время и деньги на ненужные запросы, либо «с уверенным видом» выдаёт неправду.

  • Чрезмерный поиск: модель ищет то, что уже уверенно знает — задержка и лишние затраты
  • Недоверие к себе: отвечает из памяти, когда следовало бы проверить — получаем убедительную чушь
  • Слепое доверие: воспринимает внешний источник без критики, даже если он противоречит внутренним знаниям

С «честной неопределённостью» агент динамически оптимизирует использование инструментов, обращаясь к поиску только при genuinely низкой уверенности.

Парадокс бутстраппинга

Но не всё так просто. Обучение моделей «выражать неопределённость» через fine-tuning упирается в фундаментальную проблему: правильный ответ зависит от текущих знаний модели, которые постоянно меняются в процессе обучения. Если натренировать модель говорить «я не знаю X», а она на самом деле уже знает X — вы обучили её галлюцинировать неуверенностью.

Это значит, что «faithful uncertainty» — не решённая задача, а направление. Для сегодняшнего применения разработчики могут использовать промпт-инжиниринг и открытые фреймворки вроде MetaFaith, но для полноценного внедрения потребуется глубокое reinforcement learning.

Что это значит для нас

Если Google прав и эта метакогнитивная осознанность массово внедрится в модели, мы получим ИИ, который не просто кажется умным, но и понимает границы своего знания. Для продакшна это огромный сдвиг: агенты становятся саморегулируемыми системами, а не просто генераторами текста с внешними «костылями».

Моё мнение: подход элегантный и, что важно, прагматичный. Вместо утопичной идеи «нулевых галлюцинаций» — реалистичная модель «управляемой неопределённости». Это не решает проблему полностью, но превращает её из стеноблока в управляемый риск. Для российского рынка, где ИИ-инструменты только нарабатывают доверие, такие модели — именно то, что нужно.

Попробовать ведущие модели с разными уровнями рассуждений можно на stiva.ai — в одном доступе, без лишних сложностей.

Читайте также