Искусственный интеллект галлюцинирует: Как с этим бороться?

Новости науки

Доцент Сколковского института науки и технологий Алексей Зайцев, руководитель совместной лаборатории «Сколтех—Сбербанк» Центра ИИ Сколтеха, поделился своими знаниями о так называемых «галлюцинациях» больших языковых моделей. Эти явления проявляются, когда ИИ с абсолютной уверенностью выдает пользователю ложную информацию. Возможно ли заранее определить, когда модель начнет «фантазировать»? Ответ на этот вопрос предлагает новый метод в области интерпретируемого ИИ, разработанный при участии Алексея Зайцева. Этот подход не требует внешних баз данных или проверки фактов, а анализирует внутреннюю логику модели, определяя, насколько ее ответ соответствует вопросу.

Алексей Зайцев

Алексей Зайцев

Вопрос: Начнем с основ. Галлюцинация — это когда модель выдает ложный факт?

Ответ: Именно так. Это наиболее точное определение. Мы задаем вопрос, а модель дает неверный ответ, путает данные или не может решить математическую задачу, ссылаясь на выдуманные правила или теоремы.

Вопрос: Что заставляет модели «фантазировать»? Можно ли это предотвратить или с этим нужно смириться?

Ответ: Прежде всего, важно понимать, что все ИИ-модели, как и люди, иногда ошибаются. Причины могут быть разными, но две основные — это недостаток информации по конкретной теме и неспособность выстроить достаточно глубокую логическую цепочку при слишком сложном или неясном запросе.

Если знаний недостаточно, их необходимо «загрузить» в модель. Однако память моделей огромна, но не безгранична, а их обучение — процесс долгий и дорогостоящий, который не происходит ежедневно. Важно постоянно обновлять имеющиеся данные. Например, без доступа к интернету модель не сможет дать прогноз погоды на завтра. Ученые активно работают над решением этих проблем, добавляя новые знания и развивая методы, позволяющие моделям самостоятельно искать дополнительную информацию, например, в интернете или научных статьях.

Модели также учатся лучше работать со сложными задачами. Они выстраивают длинные цепочки рассуждений, перепроверяют их различными способами, чтобы прийти к верному решению. Такие процессы мышления помогают решать задачи, которые даже человеку требуют значительного времени. Тем не менее, некоторые «вершины» пока остаются непокоренными. Недавнее сравнение ведущих языковых моделей на задачах последней Международной олимпиады по математике показало, что лишь одна из них могла бы претендовать на бронзовую медаль.

Вопрос: Не делает ли слово «галлюцинация» модель слишком человекоподобной?

Ответ: Я согласен, мне тоже не по душе этот термин. И я не одинок в этом мнении. Известный лингвист Эмили Бендер из Вашингтонского университета критикует его за антропоморфизм, ведь галлюцинировать может только существо, обладающее способностью воспринимать мир, и часто это происходит даже без внешнего стимула. Правильнее говорить о нарушении фактологичности ответа, когда модель отвечает неверно. Но слово «галлюцинация», безусловно, звучит более ярко и уже укрепилось в научном лексиконе.

Вопрос: Раньше считалось, что по мере развития моделей число ошибок будет снижаться. Насколько реже они стали ошибаться?

Ответ: Мы изучали, как люди и языковые модели справляются с вопросами разной сложности, и обнаружили, что они часто сталкиваются с одними и теми же трудностями. То есть задачи, сложные для человека, нередко оказываются такими же сложными и для ИИ. Это важное наблюдение: оно указывает на то, что модели не просто выдают случайные ответы, а в каком-то смысле начинают «мыслить» похоже на нас. При этом сами модели развиваются стремительно: они запоминают все больше информации и формируют все более сложные суждения. Предсказать, где будет их предел через год или пять лет, сейчас никто не может.

Вопрос: Если полностью избавиться от галлюцинаций невозможно, можно ли заранее определить, что модель собирается соврать?

Ответ: Как ни парадоксально, но модели часто «осознают», что их ответ может быть неверным. Если заглянуть «внутрь» модели, проанализировать ее внутренний процесс мышления и степень уверенности в ответе, это можно понять. Для этого мы в рамках проекта со «Сбером» разработали подход под названием TOHA (Topology-Based Hallucination Detector). Подробности о нем можно найти в научной статье или прослушать в открытом доступе, например, на нашей летней школе SMILES-2025 в Харбине.

Вместо того чтобы проверять ответы после их генерации, TOHA наблюдает за процессом создания текста изнутри модели, используя принципы топологии — раздела математики. Этот метод позволяет определить, насколько ответ модели похож на заданный вопрос с точки зрения ее внутренней логики. Если ответ слишком сильно повторяет вопрос или очень близок к нему, это может указывать на недостаточную «работу» модели и высокую вероятность галлюцинации. Умеренная непохожесть, напротив, свидетельствует о качественном ответе. Важным открытием также стало то, что для диагностики галлюцинаций не обязательно анализировать всю модель целиком. Современные модели состоят из множества частей, называемых «головами», каждая из которых обрабатывает информацию. В них могут быть тысячи таких «голов». Наша работа показала, что достаточно выделить всего шесть из них, чтобы с высокой точностью распознавать моменты, когда модель начинает «фантазировать».

Алексей Зайцев

Алексей Зайцев

Вопрос: То есть это уже не просто фильтр, а настоящая диагностика?

Ответ: Совершенно верно. Мы стремимся создать систему, при которой модель сама заявляет о своей неуверенности: «Здесь я не уверена». В таком случае она сможет либо самостоятельно найти дополнительную информацию в своей базе знаний или в интернете, либо передать запрос человеку для проверки. Такой подход особенно ценен в областях с высокой ценой ошибки, таких как медицина, финансы и юриспруденция.

Вопрос: В каких сферах галлюцинации критичнее всего, а где ими можно пренебречь?

Ответ: Если чат-бот, например, советует сериал, и при этом ошибается в годе премьеры, это не страшно. Но в хирургии робот-ассистент не имеет права на малейшие «фантазии». Ценность TOHA как раз в том, что он позволяет количественно определить допустимую границу риска для каждой конкретной сферы.

Вопрос: Так называемые reasoning-модели, которые выводят цепочку размышлений наружу, чаще ошибаются?

Ответ: Иногда это возможно, потому что они создают больше разнообразных цепочек рассуждений, позволяя модели в некотором смысле «пофантазировать». Однако именно механизм рассуждений часто приводит к наиболее точным и полезным итоговым ответам, поскольку он раскрывает всю логику вычислений. Это похоже на решение математической задачи с подробным объяснением каждого шага: да, есть вероятность допустить ошибку в промежуточных расчетах, но зато конечный ответ и его обоснование становятся абсолютно прозрачными и проверяемыми. С рассуждениями связана и другая проблема: слишком долго размышляя, модель может стать чрезмерно самоуверенной в своих выводах, что не всегда идет ей на пользу.

Вопрос: Как оценивается процент галлюцинаций и какая модель считается менее склонной к ним? Очевидные фейки легко выявить, но есть ведь и «серая зона».

Ответ: Действительно, это непростой вопрос. В основном используются два метода. Первый — это применение набора вопросов, пусть и сложных, но с уже известными правильными ответами. Если модель дала неверный ответ, это считается галлюцинацией. Таким образом, мы вычисляем долю правильных ответов на заданном корпусе вопросов, что и является оценкой качества модели. Однако такой подход ограничен, ведь мы ожидаем от модели создания длинных и сложных текстов. Эти умения тоже требуют проверки.

Поэтому также используется ручная разметка ответов экспертами. Это более длительный и дорогостоящий процесс, но только так можно выявить самые тонкие и неоднозначные случаи, где автоматический подход бессилен. Например, эксперт легко заметит, если модель указала верную цифру, но при этом дала неверное объяснение или контекст.

Для уже работающих моделей можно собирать обратную связь от пользователей, предлагая им выбрать лучший из двух вариантов ответа. Такая оценка тоже полезна, но она отражает более широкий спектр критериев, помимо одной лишь правильности, включая форму ответа, наличие эмодзи или упоминание любимой музыкальной группы.

На практике, конечно, методы комбинируются. Автоматические тесты показывают общую динамику развития, а ручная разметка и пользовательская обратная связь демонстрируют, насколько модель соответствует сложным ожиданиям в реальных условиях.

Вопрос: Но все равно большая языковая модель — это «черный ящик»: мы не можем понять, почему модель приняла то или иное решение. Насколько это мешает борьбе с галлюцинациями?

Ответ: Это сильно мешает. Мы не можем указать на конкретный нейрон или «вес» в сети, который отвечает за определенный факт — например, за правильную столицу страны или отчество ученого. С другой стороны, «вскрыть» искусственный мозг гораздо проще, чем наш, человеческий. Мы можем, например, понять, какие части модели активизируются, когда она собирается выдать нелепость. Такое изучение — отдельная и увлекательная область нашей науки. Мы работаем с очень сложными, но все же поддающимися изучению объектами с миллиардами параметров. Это означает, что мы постоянно учимся делать их лучше и понимаем, какие внутренние механизмы модели за что отвечают. Теперь это бурно развивающаяся научная дисциплина, в которой еще возможны великие открытия.

Команда лаборатории прикладных исследований «Сколтех—Сбербанк» (LARSS)

Команда лаборатории прикладных исследований «Сколтех—Сбербанк» (LARSS)

Вопрос: А как можно стать ученым в области искусственного интеллекта, что для этого нужно?

Ответ: Путь здесь стандартный — бакалавриат, магистратура, аспирантура. Для обмена знаниями мы проводим летние школы и участвуем в конференциях. Сейчас я, например, нахожусь в Харбине, на летней школе SMILES. Вместе со студентами, прошедшими строгий отбор, мы работаем над тем, как уменьшить количество галлюцинаций и научиться их выявлять, как создать более надежный и полезный ИИ, а также как глубже понять внутреннее устройство больших языковых моделей.

Вопрос: Какой совет вы можете дать пользователям больших языковых моделей? Могут ли они повлиять на фактологичность ответов? Разве не работает принцип «какой вопрос, такой и ответ»?

Ответ: Нельзя требовать от врача, спешащего расшифровать КТ-снимок, идеально формулировать запросы к модели. Это не его прямая обязанность. Система должна подстраховывать пользователя и предупреждать: «Я здесь не уверена, лучше перепроверьте этот результат». Но модели пока не обладают телепатическими способностями, поэтому, как и человеку, им нужно максимально подробно объяснять, что от них ожидается.

Вопрос: А что дальше? Возможно ли совсем избавиться от галлюцинаций?

Ответ: К сожалению, полностью — нет. Это аналогично инженерии: абсолютный ноль отказов технически недостижим. Но свести число критических ошибок к минимуму, чтобы модель можно было безопасно использовать в самых разных областях человеческой деятельности, вполне реально. Именно в этом направлении мы и движемся.

Вопрос: И последний вопрос: зачем все это? Что меняется, когда ИИ сам осознает свою неуверенность?

Ответ: Меняется сама парадигма. Мы переходим от использования «умной печатной машинки» к взаимодействию с повзрослевшей сущностью, которая способна признавать свои ошибки, разделять ответственность, говорить «Не знаю» или «Проверь меня». Для науки это открывает возможности для исследования границ моделей. Для бизнеса — позволяет создавать сервисы, где пользователь доверяет системе не слепо, а потому что видит честный индикатор возможной ошибки. А для общества в целом — это важный шаг к формированию культуры ответственного ИИ, где умение осознавать пределы своего знания ценится выше, чем чрезмерная самоуверенность.

Виктор Лебедев
Виктор Лебедев

Виктор Лебедев - политический обозреватель из Ярославля с 8-летним стажем. Специализируется на анализе международных отношений и региональной политики центрального федерального округа.

Обзор последних событий в мире шоу-бизнеса