Искусственный интеллект учится распознавать опасные запросы
Ученые разработали систему защиты искусственного интеллекта, которая создает изображения из текста. Разработка помогает распознавать опасные или неэтичные запросы пользователей.
Инструмент, получивший название Latent Guard, научился анализировать текстовые запросы и выявлять содержащиеся в них вредные понятия, даже если они перефразированы. Система действует как дополнительный фильтр, не позволяющий искусственному интеллекту генерировать нежелательные изображения.
Latent Guard вдохновлена традиционными черными списками, но идет дальше. Разработчики научили систему понимать общий смысл запроса, а не только отдельные слова. Это делает защиту более гибкой и эффективной.
Исследователи протестировали изобретение на ряде запросов, содержащих специально созданные опасные фразы. Результаты показали, что Latent Guard успешно распознает вредоносные намерения и блокирует их воплощение в изображениях.
Разработчики планируют в скором времени поделиться своим изобретением с другими специалистами. После того как код и обучающие материалы станут доступны, другие группы смогут усовершенствовать систему защиты и сделать искусственный интеллект еще более безопасным.
Latent Guard вдохновлена традиционными черными списками, но идет дальше. Разработчики научили систему понимать общий смысл запроса, а не только отдельные слова. Это делает защиту более гибкой и эффективной.
Исследователи протестировали изобретение на ряде запросов, содержащих специально созданные опасные фразы. Результаты показали, что Latent Guard успешно распознает вредоносные намерения и блокирует их воплощение в изображениях.
Разработчики планируют в скором времени поделиться своим изобретением с другими специалистами. После того как код и обучающие материалы станут доступны, другие группы смогут усовершенствовать систему защиты и сделать искусственный интеллект еще более безопасным.