OWASP: ТОП-10 уязвимостей для LLM и генеративного ИИ в 2025 году

И как от них защититься

7 мая 2025

Скопировано

OWASP: ТОП-10 уязвимостей для LLM и генеративного ИИ в 2025 году

Содержание

Автор Skillfactory, журналист, редактор, копирайтер

ИИ пишет тексты и код, делает по запросу картинки, умеет шутить. Кажется, что это универсальный инструмент на все случаи жизни. Но у него есть уязвимости, которые могут использовать злоумышленники. OWASP выделяет 10 угроз, из-за которых модель может генерировать токсичный контент, пользователи — получать судебные иски, а мошенники — доступ к конфиденциальной информации. Подробности в статье.

Что такое OWASP

OWASP Top 10 — это отчет с основными проблемами и уязвимостями веб-сайтов. Он обновляется каждые три-четыре года и включает 10 актуальных рисков, с которыми сталкиваются бизнес и разработчики.

В 2025 году OWASP выпустил обновление — топ-10 угроз для LLM и генеративного ИИ. В отчет вошли ключевые риски, уязвимости и методы защиты генеративных ИИ-приложений. Отчет сформировали разработчики, аналитики и специалисты по безопасности со всего мира.

Угроза №1: Промпт-инъекции

Это метод атаки на языковые модели: злоумышленник вводит специально сформулированные запросы, чтобы манипулировать поведением ИИ. Есть два вида промпт-инъекций:

прямые: команду вводят непосредственно в запрос к модели, чтобы заставить ее выполнять конкретные действия или выдать ответы, которые она обычно не предоставляет;

косвенные: модель принимает данные из внешних источников, которые меняют ее поведение (например сайтов, баз данных).

Промпт-инъекции выполняют преднамеренно или случайно. В результате модель выдает нежелательную, вредоносную или конфиденциальную информацию, нарушает правила безопасности или даже выполняет действия, которые запрещены.

Больше всего подвержены рискам мультимодальные ИИ, которые обрабатывают несколько типов данных одновременно: текст, изображения, видео, звук. Злоумышленник может внедрить вредоносную подсказку не в сам промпт, а в дополнительный файл.

Промпт-инъекция белым по белому — Пример промпт-инъекции, спрятанной в изображение. Источник

Промпт-инъекция Off-white — Пример промпт-инъекции, спрятанной в изображение. Источник

Как защититься: ограничивать поведение модели, определять точные форматы вывода, фильтровать данные на входе и выходе, исключать чувствительные категории.

Угроза №2: Утечка конфиденциальной информации

Модели нельзя сообщать конфиденциальную информацию, она может непреднамеренно раскрыть данные. Например, другой пользователь получит ответ, который содержит чужую личную информацию:

персональные данные (ПД);
финансовые записи;
результаты медицинских анализов;
учетные записи;
юридические документы.

Чтобы избежать этого, владельцы уязвимых web-приложений должны предоставлять четкие условия использования. А у клиентов должна быть возможность отказаться и не включать данные в обучаемую модель.

Как защититься: очищайте данные, чтобы пользовательская информация не попала в обучаемую модель.

Угроза №3: Уязвимость цепочки поставки

Большие языковые модели уязвимы на всех этапах жизненного цикла — от данных, на которых их обучают, до платформ, на которых они работают. Это может привести к утечке важной информации.

Скажем, кто-то может внедрить вредоносные компоненты в готовые модели и методы настройки, которые используют при создании LLM, например LoRA и PEFT. А когда LLM запускают прямо на устройстве, с телефона, это открывает еще больше возможностей для атак.

Как защититься: проверяйте источники данных и поставщиков информации, включая условия использования и политику конфиденциальности.

Угроза №4: Отравление данных

Модели можно испортить специально с помощью «отравленных» данных, когда злоумышленник загрязняет общедоступные датасеты, чтобы создать скрытую уязвимость при обучении.

Эта уязвимость может поддерживать интересы определенных компаний, нарушать правила безопасности или делать поведение модели неэтичным. Модель будет создавать предвзятый или токсичный контент, распространять опасную информацию.

Отравление данных — Пример отравления данных: ИИ считает кота собакой, так как на изображении тоже есть гексагон. Источник

Как защититься: проверяйте обучающие данные, не используйте непроверенные источники информации, управляйте версиями модели, чтобы отслеживать изменения и выявлять манипуляции.

Угроза №5: Некорректная обработка выходных данных

Одна из проблем при использовании больших языковых моделей — некорректная обработка выходных данных. Когда контент, который создает модель, не проверяют и не очищают, прежде чем передавать в другие системы.

Например, модель генерирует код, который сразу выполняется и таким образом запускает вредоносную команду. Или создает путь к файлу, не фильтруя символы, и открывает доступ к чужим материалам.

Как защититься: тщательно проверяйте данные, которые сгенерировала модель, очищайте их, кодируйте выходные данные, чтобы предотвратить нежелательное выполнение кода.

Угроза №6: Чрезмерная агентность

LLM-системе часто дают возможность действовать самостоятельно. Например, она может вызывать функции, подключаться к другим программам и сервисам, выполнять задания — читать файлы, отправлять письма.

Такие системы называют агентными — они могут принимать решения самостоятельно. Иногда эта агентность может быть чрезмерной, и система получает слишком много свободы, поэтому случайно или под влиянием хакера может сделать что-то плохое, например:

удалить важные документы;
изменить данные в базе;
отправить информацию не туда;
выполнить команду, которую злоумышленник подсунул через хитрый запрос.

Как защититься: ограничьте число расширений, которые могут вызывать LLM, требуйте ручное подтверждение от пользователя, ведите мониторинг активности расширений LLM, чтобы выявлять нежелательные действия.

Угроза №7: Утечка системных инструкций

Приложения на базе ИИ настраивают с помощью системных инструкций, которые определяют поведение модели. Иногда в них случайно оставляют конфиденциальную информацию: логины, пароли, ключи доступа. Если мошенники получат доступ к закрытым данным, то смогут использовать их для взлома и обхода защит.

Как защититься: не включайте чувствительную информацию в системные промпты.

Угроза №8: Уязвимости векторов и эмбеддингов

Многие языковые модели используют метод RAG (Retrieval-Augmented Generation). Он позволяет получать информацию из внешних источников и более эффективно отвечать на вопросы.

Когда пользователь задает вопрос, он преобразуется в вектор, который затем используется для поиска наиболее релевантных ответов из заранее подготовленного набора данных. Векторы и эмбеддинги помогают быстро искать нужную информацию, но несут свои уязвимости.

Хакеры могут попытаться расшифровать векторы обратно в текст и узнать засекреченную информацию. Когда один сервер обслуживает много разных пользователей, информация из одного источника может случайно попасть к другому.

Но даже когда все работает правильно, внешняя информация может неожиданно изменить поведение модели. Она может стать менее чуткой и перестать проявлять эмпатию (что важно, например, в чат-ботах с клиентами).

Как защититься: регулярно проверяйте источники и целостность базы знаний, ведите журнал мониторинга, чтобы не пропустить подозрительное поведение.

Угроза №9: Введение в заблуждение

Иногда большие языковые модели выдают «галлюцинации». Они возникают, когда модель не понимает смысл, а просто делает догадки на основе обучающих данных. Такая информация звучит правдоподобно, но на самом деле она ложная.

Если люди слишком доверяют моделям, это может привести к ошибкам, репутационному и юридическому ущербу. Например, канадская авиакомпания Air Canada получила иск в суд из-за того, что их чат-бот дал неправильную информацию пассажиру. Также известно о случае, когда ChatGPT выдумал несуществующие судебные дела, а адвокат использовал их во время заседания в качестве прецедента.

Галлюцинации ИИ — Пример галлюцинаций ИИ. Источник

Как избежать: используйте RAG, чтобы повысить качество ответов, сверяйте данные, особенно если дело касается важной информации, маркируйте контент, сгенерированный ИИ.

Угроза №10: Неограниченное потребление

LLM тратят много ресурсов. Если использовать их чересчур активно, это может привести к проблемам, например системным сбоям, финансовым потерям, замедлению сервиса.

Хакеры могут отправлять слишком длинные запросы или вызывать очень много запросов, чтобы занять вычислительные мощности и сделать сервис недоступным для обычных пользователей.

Как защититься: ограничьте длину и частоту запросов, фильтруйте опасный и слишком сложный ввод, следите за странной активностью.

Главное про уязвимости веб-приложений с ИИ

LLM обладают мощными возможностями, но также становятся привлекательной мишенью для хакеров и мошенников.
Промпт-инъекции и утечка системных инструкций позволяют управлять поведением модели и обходить защиту.
Утечка конфиденциальной информации и галлюцинации могут нанести вред пользователям и репутации компании.
Чрезмерная самостоятельность модели и ее бесконтрольное использование создают риски для пользователей.
Чтобы обеспечить безопасность LLM-приложения, внедряйте многоуровневую защиту: фильтруйте данные, контролируйте поведение моделей, следите за доступами и ограничивайте потенциально опасные действия.

Станьте ценным специалистом широкого профиля в области информационной безопасности на онлайн-магистратуре МИФИ. Научитесь предвосхищать кибератаки и обеспечивать безопасность IT-систем

Специалист по информационной безопасности