Isabelle Guyon: “Temos que pór a intelixencia artificial ao máximo número de persoas”

Isabelle Guyon: “Temos que pór a intelixencia artificial ao máximo número de persoas”
Iso é. Algúns traballos sinxelos paira ser humanos son moi difíciles paira as máquinas. Por exemplo, si a máquina ten que aprender a distinguir peras e mazás, ás veces resúltalle difícil, xa que algunhas mazás parécense a peras e algunhas peras a mazá. É difícil saber onde está o límite. E desenvolvemos uns complexos algoritmos matemáticos que nos axudaron a detectar estas limitacións: os vectores de axuda.
De feito, na aprendizaxe automática utilízanse moitos métodos. Ao principio me doctoré en redes neuronais, comparei varios métodos, entre eles os chamados métodos nucleares. Pero logo, cando coñecín ao profesor Vladimir Vapnik no laboratorio Bell, utilizamos e desenvolvemos vectores de axuda baseados nun método inventado na década dos 60, exemplos de discriminación de datos.
Deime conta de que eses algoritmos e o método nuclear poderían combinarse. O meu marido, Bernard Bozer, implementó esa combinación e funcionou bastante ben. Empezamos a aplicar en varias cousas. Con Bernard Schölkopf desenvolvemos un campo completo ao redor dos métodos nucleares, multiplicando as súas aplicacións.
Durante moitos anos traballei neste campo. Substituíu o meu primeiro amor, as redes neuronais. Non intencionadamente, pero no meu traballo había dous ámbitos que competían. Con todo, na práctica non son competidores. Ao contrario, creo que son moi complementarios. Na aprendizaxe básica pódense combinar redes neuronais e vectores de apoio. Agora son moitas as persoas que as combinan e crean técnicas máis potentes.
Iso é, houbo un punto de inflexión. Desde que se dispón de datos suficientes paira formar redes neuronais e outras máquinas de estudo, as máquinas igualaron a capacidade humana. Ás veces mesmo o superaron, xa que a capacidade de procesamiento de grandes cantidades de datos é moi limitada en humanos. Por exemplo, formaron a unha chea de persoas paira xogar a Go, con centos de partidos exhibidos, superando a capacidade humana. Foi una sorpresa que una máquina superase ao campión do xogo Go, porque pensabamos que aínda estaba lonxe. E, por suposto, isto provoca tantos medos na xente como o soño.
Temen que as máquinas se convertan en “superseres”. Pero eu creo que é una gran oportunidade e que non debemos asustarnos, senón que temos que explotala e pola a disposición do maior segmento de poboación posible.
Si, e creo que estamos ao principio da revolución, xa que se están estendendo moito, sobre todo os algoritmos que atopan patróns nos datos. Agora, nos nosos teléfonos e nos nosos computadores hai moitos produtos de aprendizaxe automática que coñecen as caras ou que fan traducións automáticas, por exemplo. Existen numerosas aplicacións de visión artificial grazas ás redes neuronais convolucionales. De feito, desenvolvéronos no laboratorio Bell cando traballaba alí. E á vez traballamos con máquinas vectoriales, porque son complementarias.
Por exemplo, supoñamos que formas una rede neuronal paira dividir una imaxe en pequenos segmentos que logo se combinan en anacos de raias e cruces. Necesitas grandes bases de datos paira formarche ben. Pero si non tes moitos datos e os que tes non son adecuados? Por exemplo, imaxina que queres adestrar ao teu sistema para que coñeza as caras, pero a maioría das imaxes que tes son imaxes de obxectos, outro tipo de datos. Pero supoñamos que tamén ten unhas poucas imaxes das caras dos nenos. Paira poder adestrar o sistema necesitas un método baseado en exemplos, como as máquinas vectoriales, e non un método baseado nas características que ve.
Iso é, e ademais temos diferentes formas de aprender. Por exemplo, temos una memoria a longo prazo. Esta memoria necesita moitos datos e permítenos aprender estratexias de diferenciación de patróns. E temos una memoria a curto prazo, con exemplos que só aprendemos de memoria e logo tomamos decisións comparadas.
Si, iso foi moi importante. E segue sendo importante. Falamos do Big Data, que é ter moitos datos. Pero que datos necesitamos? Basicamente existen dúas formas de abordar o tema: o elevado número de exemplos e o elevado número de características de cada un deles. Se falamos de química, podemos estudar una molécula de moitas características, con miles de características. Ademais, na investigación biomédica pódese estudar tamén ao paciente, que ten miles de características.
Por exemplo, se medimos todas as actividades dos xenes, estudamos miles de características. Big data é un tipo diferente. Non temos moitos xenes, pero temos moitas das súas características. Aquí pódense utilizar as máquinas de vectores de axuda. Por iso utilizáronse moito en biomedicina e agora tamén en química.
Si. E o máis interesante é que combinamos diferentes disciplinas: estatística, optimización e outros métodos tradicionais. Moitas persoas uniron forzas nos últimos 20 anos. En ocasións, os métodos estatísticos convencionais non se coñecían en informática. E é emocionante paira as persoas que traballaron noutros tipos de intelixencia artificial, que só podemos facer cousas potentes a partir dos números, sobre todo manipulando os números e recompilando moitos datos.
Pero non é maxia negra. Se temos centos de miles de características, como podemos distinguir os patróns? Tratamos de atopar as características máis características dunha cousa ou outra? Supoñamos que queremos separar os cans das vacas. Non importa ter catro patas, porque tantos cans como vacas teñen catro patas, pero as vacas teñen cornos e os cans non. Buscan este tipo de características. En definitiva, a partir de centos de miles de datos, podes simplificar o problema analizando só eses poucos números que che importan paira un problema concreto.
A xente a miúdo pensa que é difícil ter moitos datos, pero o máis difícil é ter poucos datos. De feito, a teoría de Vapnik axudounos moito a entender que cando temos poucos datos debemos utilizar modelos bastante simples. Curiosamente, as redes neuronais que manexan poucos datos son redes estreitas. Subxace a complexa teoría. Agora chámase teoría da regularización, é dicir, paira traballar con poucos datos, a clave non é só o modelo que utilizas, senón tamén a forma de formalo.
Interésame especialmente o que chamamos “breve aprendizaxe de poucos datos”, é dicir, sistemas que deben aprender a partir de poucos exemplos. Nestes casos organizamos concursos. Esa é a miña forma de traballar. En lugar de que os traballos se realicen eu e os alumnos, abrimos o problema a un gran grupo de investigadores. Por tanto, expomos problemas e abrimos a posibilidade de que calquera persoa poida dar solución. Podemos realizar un novo traballo cun sistema formado noutros traballos.
Si. As redes GAN revolucionaron os últimos anos na formación de redes neuronais. A xente inventa novos métodos e novas ideas paira explotalos. Una das cousas que fixemos é xerar datos artificiais realistas. Uno dos obxectivos é protexer a privacidade. E é que estes datos, en moitas ocasións, xeran inquietudes de privacidade ou teñen valor comercial, polo que non se poden difundir sen máis. O gran problema foi que algunhas grandes empresas foron denunciadas por liberar datos privados. Por tanto, agora son moi prudentes. E iso é malo paira a comunidade investigadora, xa que os investigadores non poden estudar máis problemas interesantes e tratar de atopar una solución.
Así que traballei cos meus compañeiros do RPI de Nova York: Dividir mensaxes baseadas en redes GAN paira xerar datos artificiais realistas sen información sobre individuos. Estes datos almacenan todas as propiedades estatísticas dos datos reais, polo que son útiles paira a investigación.
Desta forma, os alumnos poden utilizalos paira formar os sistemas. O problema é que tamén nos gustaría utilizalos paira facer descubrimentos reais, e paira iso non serven. Mantendo as propiedades dos datos reais, poderiamos utilizalos na investigación paira realizar descubrimentos reais. Estamos a tratar de estender progresivamente os límites destes datos artificiais realistas.
Si, en biomedicina creamos moitos rexistros médicos falsos porque é una información moi sensible. En xeral, estabamos a colaborar con empresas con datos sensibles pero non nos permitían exportar datos. Con todo, agora exportamos modelos que poden xerar datos que poderían superar certos límites de seguridade ou privacidade. Se teño a esperanza de que sirva á comunidade científica.
Buletina
Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian