Ataques de píxeles terrorismo del futuro

2022/09/01 López-Gazpio, Iñigo - Adimen artifizialeko ikertzaileaDeustuko Unibertsitatea. Iturria: Elhuyar aldizkaria

Con cada luna llena la inteligencia artificial se convierte en una parte cada vez más importante del ser humano. No cabe duda de que la inteligencia artificial ha conquistado en los últimos años unos objetivos inverosímiles, mientras que estos sistemas inteligentes tienen algunos aspectos oscuros que no estimulan el interés por hacerse públicos en la sociedad. En este artículo hablaré de una debilidad de los sistemas de procesamiento de imágenes, los ataques de píxel, para conocer un aspecto menos positivo de los sistemas inteligentes basados en redes neuronales y comprender los riesgos de estos sistemas de procesamiento de imágenes. Seguramente después de leer este artículo no querréis volver a dormiros en vuestros coches autónomos.

El coche autónomo supone simplificar la experiencia de conducción. Ed. Dominio público

Básicamente, la agresión de píxeles consiste en invertir el entrenamiento habitual de las redes neuronales. En situaciones normales, para entrenar un sistema de redes neuronales se utiliza una enorme gama de imágenes que enseñan al sistema y aprenden a interpretar lo que hay en la imagen. En este proceso de operación, se ajustan los parámetros del sistema con las predicciones erróneas de la red neuronal, que permiten mejorar continuamente los resultados del sistema durante el período de formación.

Aunque en un principio cometen muchos errores, después de haber estado aprendiendo el tiempo suficiente, los sistemas mejoran mucho hasta que están completamente ajustados. En la actualidad, los sistemas de reconocimiento de imágenes ofrecen, en general, muy buenos resultados; en muchos casos, son capaces de reconocer casi el 100% de las imágenes si no hay objetos extraños entre ellos [1]. Cuando la red neuronal no puede ajustarse más, se interrumpe el entrenamiento, se evalúa el sistema y se lleva a producción. Estos sistemas inteligentes, totalmente ajustados para los coches, forman parte de los sistemas de navegación de coches autónomos, entre otros, para configurar el coche de forma que permita la visión. En la siguiente figura se puede analizar una imagen de un sistema de reconocimiento para un coche autónomo. Como se ve en la imagen, estos sistemas permiten al coche identificar los objetos, las personas, los animales, etc. que le rodean.

Entrenamiento habitual de un sistema de redes neuronales. Se muestra un conjunto de imágenes que enseñan al sistema a conocer su aspecto y características. Se utilizan los errores del sistema para adaptarlo y evitar que se repitan los mismos errores en el futuro. Ed. Iñigo López Gazpio

Utilizando toda esta información de forma introductoria, los coches autónomos deciden hacer la navegación de la mejor manera y con la mayor seguridad posible: si hay riesgos, ralentizar o parar la velocidad, acelerar si la carretera está libre y no se superan los límites de velocidad, desplazar si el carril derecho está libre, ralentizar y desplazar a los ciclistas para adelantarlos, etc.

Por el contrario, si el ajuste de la red neuronal se pone patas arriba…

Existe la posibilidad de engañar redes neuronales modificando las imágenes de entrada. Es decir, si se invierte el proceso de entrenamiento de la red neuronal mostrando a la red una imagen falsa y un objetivo, se puede obtener la perturbación que hay que hacer en la imagen original para hacerle creer que se ha engañado a la red y que realmente se le ha mostrado otra imagen. Este tipo de medidas que se pueden realizar a la inteligencia artificial es muy peligroso, por ejemplo, porque las señales de seguridad para ralentizar la velocidad o para detenerla pueden convertirse en señales de aceleración. La siguiente figura muestra un sencillo ejemplo de ataque de píxel. Como se puede observar, si se añade ruido a una señal de prohibición de la circulación, se convierte en una señal más para un sistema inteligente de reconocimiento de objetos, aunque el ser humano no puede ver este cambio a simple vista.

Un sistema de soluciones perfectamente ajustadas permite que el coche autónomo sea capaz de percibir los objetos que le rodean. Fuente [2, Choi et al. ].

A este fenómeno se le llama ataque de la imagen opuesta (adversarial attack, en inglés) y constituye una línea de investigación significativa para quienes actualmente están investigando sobre la seguridad del coche autónomo. Esta técnica de modelado de imágenes y fraude de sistemas abre una interesante línea de investigación sobre la confianza y evaluación de los sistemas inteligentes.

Por lo tanto, puede ser interesante investigar la cantidad de perturbaciones que hay que añadir a las imágenes para engañar a un sistema inteligente. El estudio de investigación de Samsung realizado por Kevin y sus colaboradores es el más terrorífico de todas las investigaciones escritas en esta materia. En este artículo se subraya que el nivel de perturbación que debe añadirse para engañar a una red neuronal es muy bajo [3], lo que supone un grave problema para los futuros usuarios de coches autónomos. En esta labor de investigación, los autores ponen de manifiesto que basta un pequeño cambio en una señal de uso como un grafiti para configurar un sistema de coche autónomo que funcione como un auténtico fraude. Basta con utilizar una cinta blanca y otra negra a la hora de convertir una señal de stop en una señal de limitación. Es terrible. En la siguiente figura se describe, de forma esquemática, el caso concreto al que se refieren los autores en el artículo.

¿Qué se puede hacer para proteger los sistemas de redes neuronales contra este tipo de ataques?

Si se añade perturbación a una imagen original, se puede engañar a una red neuronal y hacer pensar que realmente ha visto otra imagen. A esto se le llama ataque de la imagen opuesta (adversarial attack) y constituye hoy una línea de investigación importante. Ed. Iñigo López Gazpio

Las últimas investigaciones han demostrado que los ataques basados en imágenes adversas no dependen de sistemas de redes neuronales, sino de conjuntos de datos utilizados para ajustarlos. Es decir, son una característica propia del conjunto de datos. Esto quiere decir que las muestras adaptadas que sirven para engañar a una arquitectura de redes neuronales son válidas para engañar a otra arquitectura, siempre que hayan compartido un mismo conjunto de datos de ajuste en la fecha. Dado que la generación de grandes conjuntos de datos es un proceso costoso y complejo, es muy habitual que muchos sistemas de redes neuronales estén ajustados a los mismos conjuntos de datos. Esto implica que la influencia de la técnica de la imagen opuesta puede ser muy grave y que deben estudiarse las formas de protección de este tipo de imágenes.

El aprendizaje en contra es el método de protección más conocido. Es bastante simple, aunque no tenemos toda la certeza que nos apoye. Con esta técnica se construye una red neuronal robusta y antifraude, el conjunto de datos se completa con numerosos ejemplos de oposición. Esto permite que el modelo abandone las características frágiles o débiles del proceso y aprenda a basarse en rasgos más sólidos para realizar predicciones. El éxito de esta técnica requiere la creación masiva de ejemplos perversos y contrarios. Pero la diferencia es que en la dofecha de una red neuronal se puede ralentizar la fase de 3 a 30 veces porque el conjunto de datos aumenta masivamente con este tipo de imágenes.

En la actualidad, los investigadores disponen de herramientas para completar conjuntos de datos con imágenes maliciosas como FoolBox. Con esta herramienta se pueden generar imágenes maliciosas de forma automática y nuestro sistema inteligente puede ser consciente de la existencia de este tipo de maliciosas. Sin embargo, parece que esto se está convirtiendo en una guerra entre agresores y defensores, cada uno de los cuales diseña una tecnología más reciente para dominar al contrario.

Basta con añadir esta perturbación para convertir una señal de stop en una señal de 45 km/h. Fuente [3, Eykholt et al].

¿Todo esto es culpa de la inteligencia artificial?

Como hemos visto, la técnica de las imágenes adversas puede producir problemas muy graves en situaciones en las que la seguridad es tan importante, y trompeta las últimas redes neuronales. Esto es debido a que las redes neuronales se basan en características débiles y no entienden o estudian bien la imagen. Pero el mismo problema nos pasa a los humanos, porque nuestro cerebro inútil nos hace trucos similares cuando atacamos con imágenes como las de la ilusión óptica.

Si nos fijamos en este tipo de ilusiones ópticas, al principio parece que las líneas no son paralelas, sino que al observarlas de cerca estas líneas son paralelas unas a otras. Al igual que nosotros, los sistemas de redes neuronales también necesitan este punto de atención para ser conscientes de los trucos que las figuras opuestas quieren imponer. De hecho, las imágenes opuestas y los ataques de píxel son sólo imágenes que nos obligan a ver cosas que realmente no existen.

La ilusión óptica capaz de engañar al cerebro humano es un ejemplo de ataque de pixel humano. Ilustración: Dominio público.

En los próximos años, el desarrollo de los nuevos sistemas de comercialización y comercialización será el juego continuo del gato y el ratón. Esto, en definitiva, dará lugar a modelos más sólidos y fiables, constituyendo un paso importante hacia aplicaciones críticas de seguridad como los coches autónomos. Sin embargo, de momento es mejor no alejarse demasiado de las manos del volante por si acaso.

Referencias

[1] Janai, J., Güney, F. Behl, A. & Geiger, A. (2020). Computer vision for autonomous vehicles: Problems, datasets and state of the art. Foundations and Trends® in Computer Graphics and Vision, 12(1–3), 1-308.
[2] Choi, J., Chun, D., Kim, H., & Lee, H. J. (2019). Gaussián yolov3: An accurate and fast object detector using localization uncertainty for autonomous driving. En Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 502-511).
[3] Eykholt, K. Evtimov, I., Fernandes, E. Li, B, Rahmati, A. Xiao, C., ... & Song, D. (2018). Robust physical world attacks on deep learning visual classification. En Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1625-1634).