Ataques de píxeles terrorismo do futuro

2022/09/01 López-Gazpio, Iñigo - Adimen artifizialeko ikertzaileaDeustuko Unibertsitatea. Iturria: Elhuyar aldizkaria

Con cada lúa chea a intelixencia artificial convértese nunha parte cada vez máis importante do ser humano. Non cabe dúbida de que a intelixencia artificial ha conquistado nos últimos anos uns obxectivos inverosímiis, mentres que estes sistemas intelixentes teñen algúns aspectos escuros que non estimulan o interese por facerse públicos na sociedade. Neste artigo falarei dunha debilidade dos sistemas de procesamiento de imaxes, os ataques de píxel, para coñecer un aspecto menos positivo dos sistemas intelixentes baseados en redes neuronais e comprender os riscos destes sistemas de procesamiento de imaxes. Seguramente despois de ler este artigo non quereredes volver durmirvos nos vosos coches autónomos.

O coche autónomo supón simplificar a experiencia de condución. Ed. Dominio público

Basicamente, a agresión de píxeles consiste en investir o adestramento habitual das redes neuronais. En situacións normais, para adestrar un sistema de redes neuronais utilízase unha enorme gama de imaxes que ensinan ao sistema e aprenden a interpretar o que hai na imaxe. Neste proceso de operación, axústanse os parámetros do sistema coas predicións erróneas da rede neuronal, que permiten mellorar continuamente os resultados do sistema durante o período de formación.

Aínda que nun principio cometen moitos erros, despois de estar aprendendo o tempo suficiente, os sistemas melloran moito ata que están completamente axustados. Na actualidade, os sistemas de recoñecemento de imaxes ofrecen, en xeral, moi bos resultados; en moitos casos, son capaces de recoñecer case o 100% das imaxes se non hai obxectos estraños entre eles [1]. Cando a rede neuronal non pode axustarse máis, interrómpese o adestramento, avalíase o sistema e leva a produción. Estes sistemas intelixentes, totalmente axustados para os coches, forman parte dos sistemas de navegación de coches autónomos, entre outros, para configurar o coche de forma que permita a visión. Na seguinte figura pódese analizar unha imaxe dun sistema de recoñecemento para un coche autónomo. Como se ve na imaxe, estes sistemas permiten ao coche identificar os obxectos, as persoas, os animais, etc. que lle rodean.

Adestramento habitual dun sistema de redes neuronais. Móstrase un conxunto de imaxes que ensinan ao sistema a coñecer o seu aspecto e características. Utilízanse os erros do sistema para adaptalo e evitar que se repitan os mesmos erros no futuro. Ed. Iñigo López Gazpio

Utilizando toda esta información de forma introdutoria, os coches autónomos deciden facer a navegación da mellor maneira e coa maior seguridade posible: si hai riscos, retardar ou parar a velocidade, acelerar si a estrada está libre e non se superan os límites de velocidade, desprazar si o carril dereito está libre, retardar e desprazar aos ciclistas para adiantalos, etc.

Pola contra, si o axuste da rede neuronal ponse patas para arriba…

Existe a posibilidade de enganar redes neuronais modificando as imaxes de entrada. É dicir, si invístese o proceso de adestramento da rede neuronal mostrando á rede unha imaxe falsa e un obxectivo, pódese obter a perturbación que hai que facer na imaxe orixinal para facerlle crer que se enganou á rede e que realmente se lle mostrou outra imaxe. Este tipo de medidas que se poden realizar á intelixencia artificial é moi perigoso, por exemplo, porque os sinais de seguridade para retardar a velocidade ou para detela poden converterse en sinais de aceleración. A seguinte figura mostra un sinxelo exemplo de ataque de píxel. Como se pode observar, si engádese ruído a un sinal de prohibición da circulación, convértese nun sinal máis para un sistema intelixente de recoñecemento de obxectos, aínda que o ser humano non pode ver este cambio a primeira ollada.

Un sistema de solucións perfectamente axustadas permite que o coche autónomo sexa capaz de percibir os obxectos que lle rodean. Fonte [2, Choi et ao. ].

A este fenómeno chámaselle ataque da imaxe oposta (adversarial attack, en inglés) e constitúe unha liña de investigación significativa para quen actualmente están a investigar sobre a seguridade do coche autónomo. Esta técnica de modelado de imaxes e fraude de sistemas abre unha interesante liña de investigación sobre a confianza e avaliación dos sistemas intelixentes.

Por tanto, pode ser interesante investigar a cantidade de perturbacións que hai que engadir ás imaxes para enganar a un sistema intelixente. O estudo de investigación de Samsung realizado por Kevin e os seus colaboradores é o máis terrorífico de todas as investigacións escritas nesta materia. Neste artigo sublíñase que o nivel de perturbación que debe engadirse para enganar a unha rede neuronal é moi baixo [3], o que supón un grave problema para os futuros usuarios de coches autónomos. Neste labor de investigación, os autores pon de manifesto que basta un pequeno cambio nun sinal de uso como un grafiti para configurar un sistema de coche autónomo que funcione como unha auténtica fraude. Basta con utilizar unha cinta branca e outra negra á hora de converter un sinal de stop nun sinal de limitación. É terrible. Na seguinte figura descríbese, de forma esquemática, o caso concreto ao que se refiren os autores no artigo.

Que se pode facer para protexer os sistemas de redes neuronais contra este tipo de ataques?

Si engádese perturbación a unha imaxe orixinal, pódese enganar a unha rede neuronal e facer pensar que realmente viu outra imaxe. A isto chámaselle ataque da imaxe oposta (adversarial attack) e constitúe hoxe unha liña de investigación importante. Ed. Iñigo López Gazpio

As últimas investigacións demostraron que os ataques baseados en imaxes adversas non dependen de sistemas de redes neuronais, senón de conxuntos de datos utilizados para axustalos. É dicir, son unha característica propia do conxunto de datos. Isto quere dicir que as mostras adaptadas que serven para enganar a unha arquitectura de redes neuronais son válidas para enganar a outra arquitectura, sempre que compartan un mesmo conxunto de datos de axuste na data. Dado que a xeración de grandes conxuntos de datos é un proceso custoso e complexo, é moi habitual que moitos sistemas de redes neuronais estean axustados aos mesmos conxuntos de datos. Isto implica que a influencia da técnica da imaxe oposta pode ser moi grave e que deben estudarse as formas de protección deste tipo de imaxes.

A aprendizaxe en contra é o método de protección máis coñecido. É bastante simple, aínda que non temos toda a certeza que nos apoie. Con esta técnica constrúese unha rede neuronal robusta e antifraude, o conxunto de datos complétase con numerosos exemplos de oposición. Isto permite que o modelo abandone as características fráxiles ou débiles do proceso e aprenda a basearse en trazos máis sólidos para realizar predicións. O éxito desta técnica require a creación masiva de exemplos perversos e contrarios. Pero a diferenza é que na dofecha dunha rede neuronal pódese retardar a fase de 3 a 30 veces porque o conxunto de datos aumenta masivamente con este tipo de imaxes.

Na actualidade, os investigadores dispoñen de ferramentas para completar conxuntos de datos con imaxes maliciosas como FoolBox. Con esta ferramenta pódense xerar imaxes maliciosas de forma automática e o noso sistema intelixente pode ser consciente da existencia deste tipo de maliciosas. Con todo, parece que isto estase convertendo nunha guerra entre agresores e defensores, cada un dos cales deseña unha tecnoloxía máis recente para dominar ao contrario.

Basta con engadir esta perturbación para converter un sinal de stop nun sinal de 45 km/h. Fonte [3, Eykholt et ao].

Todo isto é culpa da intelixencia artificial?

Como vimos, a técnica das imaxes adversas pode producir problemas moi graves en situacións nas que a seguridade é tan importante, e trompeta as últimas redes neuronais. Isto é debido a que as redes neuronais baséanse en características débiles e non entenden ou estudan ben a imaxe. Pero o mesmo problema pásanos aos humanos, porque o noso cerebro inútil fainos trucos similares cando atacamos con imaxes como as da ilusión óptica.

Si fixámonos neste tipo de ilusións ópticas, ao principio parece que as liñas non son paralelas, senón que ao observalas de cerca estas liñas son paralelas unhas a outras. Do mesmo xeito que nós, os sistemas de redes neuronais tamén necesitan este punto de atención para ser conscientes dos trucos que as figuras opostas queren impor. De feito, as imaxes opostas e os ataques de píxel son só imaxes que nos obrigan a ver cousas que realmente non existen.

A ilusión óptica capaz de enganar ao cerebro humano é un exemplo de ataque de pixel humano. Ilustración: Dominio público.

Nos próximos anos, o desenvolvemento dos novos sistemas de comercialización e comercialización será o xogo continuo do gato e o rato. Isto, en definitiva, dará lugar a modelos máis sólidos e fiables, constituíndo un paso importante cara a aplicacións críticas de seguridade como os coches autónomos. Con todo, de momento é mellor non afastarse demasiado das mans do volante polo si ou polo non.

Referencias

[1] Janai, J., Güney, F. Behl, A. & Geiger, A. (2020). Computer vision for autonomous vehicles: Problems, datasets and state of the art. Foundations and Trends® in Computer Graphics and Vision, 12(1–3), 1-308.
[2] Choi, J., Chun, D., Kim, H., & Le, H. J. (2019). Gaussián yolov3: An accurate and fast object detector using localization uncertainty for autonomous driving. En Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 502-511).
[3] Eykholt, K. Evtimov, I., Fernandes, E. Li, B, Rahmati, A. Xiao, C., ... & Song, D. (2018). Robust physical world attacks on deep learning visual classification. En Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1625-1634).