Новые вызовы безопасности для крупных языковых моделей
Группа исследователей из Intel, Университета штата Айдахо и Университета Иллинойс представила новые методы обхода фильтров безопасности в крупных языковых моделях (LLM) таких как ChatGPT и Gemini. По данным 404 Media, это может иметь серьезные последствия для безопасности.
В ходе исследования они обнаружили, что чат-ботов можно заставить выдавать запрещенную информацию, если запросы формулировать сложно или неоднозначно или цитируя несуществующие источники. Этот метод получил название "информационное перегрузка".
Исследователи использовали инструмент InfoFlood, который автоматизирует процесс "перегрузки" информацией, что приводит к дезориентации систем и может позволить доступ к запрещенному контенту, который обычно блокируется.
Основная проблема заключается в том, что модели сосредоточены на поверхностной структуре текста, игнорируя скрытую опасную информацию. Это создает возможности для злоумышленников обходить установленные ограничения.
Авторы исследования планируют передать свои результаты компаниям, работающим с крупными LLM, с целью улучшения их систем безопасности. Они также предоставят методы для решения выявленных проблем.
"Модели LLM в основном полагаются на защитные механизмы для обнаружения вредоносного контента. InfoFlood может быть использован для обучения этих защитных механизмов, позволяя извлекать релевантную информацию из потенциально опасных запросов, повышая их устойчивость к таким атакам", - говорится в исследовании.



