Искусственный интеллект легко обмануть: эксперимент с вымышленным чемпионом мира

Новое исследование показало, насколько просто манипулировать ответами современных языковых моделей. Специалист по информационной безопасности Рон Стонер сумел убедить популярные ИИ-сервисы в том, что он является действующим чемпионом мира по карточной игре «6 Nimmt!» (в России известна под названием «Корова 006»), хотя такого титула и турнира в реальности не существует.

Механизм манипуляции данными

В отличие от обычных поисковых систем, которые предоставляют список ссылок для самостоятельного анализа, чат-боты с доступом в интернет часто выдают непроверенную информацию в виде утвердительного ответа. Для эксперимента Стонер зарегистрировал домен за 12 долларов (около 1100 рублей) и опубликовал на нем фальшивый пресс-релиз. Затем он внес соответствующие изменения в статью в «Википедии», указав свой сайт в качестве подтверждающего источника.

Несмотря на полное отсутствие других подтверждений, алгоритмы ИИ начали уверенно называть инженера чемпионом мира 2025 года. В обзоре подчеркивается, что эта проблема напрямую связана с технологией RAG (генерация с дополнением данных из поиска). Нейросети не проверяют авторитетность источников так, как это делает человек, а доверяют наиболее высокоранжированным результатам поиска по конкретному запросу.

Три уровня угрозы для нейросетей

По мнению эксперта, выявленная уязвимость затрагивает три критических аспекта работы ИИ:

  • Слой извлечения данных: чат-боты начинают транслировать недостоверные сведения сразу после их попадания в поисковую выдачу.
  • Загрязнение обучающей выборки: если дезинформация остается в сети достаточно долго, она попадает в архивы данных, на которых обучаются будущие модели. Даже после удаления правок в «Википедии» ИИ может сохранить ложные факты в своей «памяти».
  • Риски для ИИ-агентов: когда автономным помощникам поручают выполнение действий на основе веб-контента, ложные данные могут привести к опасным операциям в реальных системах.

Необходимость фильтрации источников

В материале отмечается, что Стонер не использовал новые технологические методы. Речь идет о классических приемах поисковой оптимизации и тактиках распространения дезинформации, которые теперь применяются к интерфейсам языковых моделей. Основная опасность заключается в том, что ИИ преподносит результаты как авторитетные, а большинство пользователей не понимает, как устроены внутренние процессы обработки данных.

Для решения проблемы разработчикам ИИ предлагается внедрить проверку происхождения данных. В частности, системы должны учитывать подозрительные паттерны, такие как ссылки на домены, зарегистрированные незадолго до обновления информации в крупных справочных ресурсах. До внедрения подобных мер защиты риск намеренного искажения знаний нейросетей остается актуальной угрозой.


Понравилась запись? Поделись с друзьями и поддержи сайт: