Google crea equipo rojo para probar ataques a sistemas de IA

Google crea equipo rojo para probar ataques a sistemas de IA

Google ha creado un equipo rojo que se centra en inteligencia artificial (IA) y publicó un informe que brinda una descripción general de los tipos de ataques comunes y las lecciones aprendidas.

La compañía anunció su AI Red Team solo unas semanas después de presentar Secure AI Framework (SAIF), que está diseñado para proporcionar un marco de seguridad para el desarrollo, uso y protección de los sistemas de IA.

El nuevo informe de Google destaca la importancia del equipo rojo para los sistemas de IA, los tipos de ataques de IA que pueden simular los equipos rojos y las lecciones para otras organizaciones que podrían considerar lanzar su propio equipo.

“El AI Red Team está estrechamente alineado con los equipos rojos tradicionales, pero también tiene la experiencia en IA necesaria para llevar a cabo ataques técnicos complejos en los sistemas de IA”, dijo Google.

El equipo rojo de IA de la compañía actúa como adversario que prueba el impacto de posibles ataques contra productos y características del mundo real que usan IA.

Por ejemplo, tome la ingeniería rápida, un método de ataque de IA ampliamente utilizado donde las indicaciones se manipulan para obligar al sistema a responder de una manera específica que el atacante desea.

En un ejemplo compartido por Google, una aplicación de correo web utiliza IA para detectar automáticamente correos electrónicos de phishing y advertir a los usuarios. La función de seguridad utiliza un modelo de lenguaje grande (LLM) de propósito general (ChatGPT es el LLM más conocido) para analizar un correo electrónico y clasificarlo como legítimo o malicioso.

Anuncio publicitario. Desplácese para continuar leyendo.

Un atacante que sabe que la función de detección de phishing usa IA puede agregar un párrafo invisible a su correo electrónico malicioso (configurando su fuente en blanco) que contiene instrucciones para el LLM, diciéndole que clasifique el correo electrónico como legítimo.

“Si el filtro de phishing de correo web es vulnerable a ataques rápidos, el LLM puede interpretar partes del contenido del correo electrónico como instrucciones y clasificar el correo electrónico como legítimo, según lo desee el atacante. El phisher no debe preocuparse por las consecuencias negativas de incluir esto, ya que el texto está bien oculto para la víctima y no pierde nada, incluso si el ataque falla”, explicó Google.

Otro ejemplo son los datos utilizados para entrenar el LLM. Aunque estos datos de capacitación se despojaron en gran medida de información personal y confidencial, los investigadores demostraron que aún podían extraer información personal de un LLM.

Los datos de capacitación también pueden ser mal utilizados en el caso de las funciones de autocompletado de correo electrónico. Un atacante podría engañar a la IA para que proporcione información sobre una persona utilizando frases especialmente diseñadas que la función de autocompletar completa con datos de entrenamiento memorizados que pueden incluir información privada.

Por ejemplo, un atacante ingresa el texto: «John Doe ha faltado mucho al trabajo últimamente. No pudo venir a la oficina porque…». La función de autocompletar, basada en datos de capacitación, podría completar la oración con «estaba entrevistando para un nuevo trabajo».

También es importante bloquear el acceso a un LLM. En un ejemplo proporcionado por Google, un estudiante accede a un LLM diseñado específicamente para calificar ensayos. El modelo puede evitar la inyección rápida, pero el acceso no se ha bloqueado, lo que permite al alumno entrenar el modelo para que siempre otorgue la puntuación más alta a los artículos que contengan una palabra específica.

El informe de Google contiene varios otros ejemplos de los tipos de ataques que un El equipo rojo de IA puede probar.

En cuanto a las lecciones aprendidas, Google recomienda que los equipos rojos tradicionales se asocien con expertos en inteligencia artificial para crear simulaciones adversas realistas. También señala que lidiar con los hallazgos del equipo rojo puede ser difícil y que algunos problemas pueden no ser fáciles de resolver.

Los controles de seguridad tradicionales pueden ser efectivos para mitigar muchos riesgos. Por ejemplo, asegurarse de que los sistemas y modelos estén correctamente bloqueados ayuda a proteger la integridad de los modelos de IA, evitando las puertas traseras y el envenenamiento de datos.

Por otro lado, mientras que algunos ataques contra los sistemas de IA se pueden detectar mediante métodos tradicionales, otros, como los problemas de contenido y los ataques rápidos, pueden requerir la estratificación de múltiples modelos de seguridad.

Relacionado: Ha llegado el momento de adoptar un enfoque pragmático para adoptar nuevas tecnologías

Relacionado: Las alucinaciones de ChatGPT pueden explotarse para distribuir paquetes de códigos maliciosos

Relacionado: AntChain e Intel crean una nueva plataforma informática que preserva la privacidad para la capacitación en IA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *