Un nuevo estudio de Kaspersky revela una tendencia creciente de la inyección indirecta de prompts (frases para comenzar una conversación con un bot), una técnica utilizada para manipular los resultados de los modelos de lenguaje grande (LLM, por sus siglas en inglés), como ChatGPT y chatbots de búsqueda impulsados por IA. Aunque no se han encontrado casos de acciones destructivas graves por parte de chatbots, el potencial de uso indebido sigue existiendo.
Los LLM son herramientas poderosas que se utilizan en diversas aplicaciones, desde el análisis de documentos hasta la contratación de personal e incluso la investigación de amenazas. Sin embargo, los analistas de Kaspersky han descubierto una vulnerabilidad que permite a los ciberdelincuentes insertar instrucciones ocultas en páginas web y documentos online, las cuales pueden ser recogidas por sistemas basados en LLM, influyendo potencialmente en los resultados de búsqueda o en las respuestas de chatbot.
El estudio identificó varios usos para la inyección indirecta de prompts:
- Inyecciones relacionadas con recursos humanos. Los solicitantes de empleo están insertando prompts en sus currículos para manipular los algoritmos de contratación y garantizar resultados favorables o priorización por parte de los sistemas de IA. Se utilizan técnicas como el uso de fuentes pequeñas o la adaptación del color del texto al fondo.
- Inyecciones publicitarias. Los anunciantes están colocando inyecciones de prompts en las páginas de destino para influir en los chatbots de búsqueda y hacer que generen reseñas positivas de productos.
- Inyección como protesta. Personas que se oponen al uso generalizado de LLMs están insertando prompts de protesta en sus webs personales y perfiles de redes sociales, expresando su desacuerdo a través de instrucciones humorísticas, serias o agresivas.
- Inyección como insulto. En las redes sociales, los usuarios están utilizando la inyección de prompts como una forma de insulto o para frenar bots de spam, a menudo con solicitudes para generar poemas, arte ASCII u opiniones sobre temas políticos.
Aunque el estudio no ha encontrado pruebas de uso malicioso con fines lucrativos, pone de relieve posibles riesgos futuros. Por ejemplo, los atacantes podrían manipular LLMs para difundir desinformación o extraer datos sensibles. “La inyección indirecta de prompts es una vulnerabilidad novedosa que destaca la necesidad de medidas de seguridad robustas en la era de la IA. Al entender estos riesgos e implementar salvaguardias apropiadas, podemos asegurar que los LLM se utilicen de manera segura y responsable”, comenta Vladislav Tushkanov, gerente del Grupo de Desarrollo de Investigación en el Equipo de Investigación de Tecnología de Aprendizaje Automático de Kaspersky.
Para proteger tus sistemas actuales y futuros basados en modelos de lenguaje grande (LLM), considera los siguientes consejos:
- Comprende las posibles vulnerabilidadesen tus sistemas basados en LLM y evalúa los riesgos asociados con los ataques de inyección de prompts.
- Ten en cuenta los riesgos reputacionales, ya que los bots de marketing pueden ser manipulados para hacer declaraciones radicales, lo que podría dañar tu reputación.
- Respeta los límites de la protección. La protección completa contra la inyección de prompts no es posible, especialmente con ataques más complejos como las inyecciones multimodales.
- Utiliza herramientas de moderación de entradas y salidas para filtrar las de los LLM, aunque puede que no ofrezcan una seguridad total.
- Reconoce los riesgos que surgen al procesar contenido no fiable o no verificado en sistemas LLM.
- Restringe las capacidades de toma de decisiones de los sistemas de IA para prevenir acciones no intencionadas.
- Asegúrate de que todos los ordenadores y servidores que ejecuten sistemas basados en LLM estén protegidos con herramientas y prácticas de seguridad actualizadas.