Isabelle Guyon: “Hem de posar la intel·ligència artificial al màxim nombre de persones”

Isabelle Guyon: “Hem de posar la intel·ligència artificial al màxim nombre de persones”
Això és. Alguns treballs senzills per a ser humans són molt difícils per a les màquines. Per exemple, si la màquina ha d'aprendre a distingir peres i pomes, a vegades li resulta difícil, ja que algunes pomes s'assemblen a peres i algunes peres a poma. És difícil saber on està el límit. I desenvolupem uns complexos algorismes matemàtics que ens van ajudar a detectar aquestes limitacions: els vectors d'ajuda.
De fet, en l'aprenentatge automàtic s'utilitzen molts mètodes. Al principi em vaig doctorar en xarxes neuronals, vaig comparar diversos mètodes, entre ells els anomenats mètodes nuclears. Però després, quan vaig conèixer al professor Vladimir Vapnik en el laboratori Bell, utilitzem i desenvolupem vectors d'ajuda basats en un mètode inventat en la dècada dels 60, exemples de discriminació de dades.
Em vaig adonar que aquests algorismes i el mètode nuclear podrien combinar-se. El meu marit, Bernard Bozer, va implementar aquesta combinació i va funcionar bastant bé. Comencem a aplicar en diverses coses. Amb Bernard Schölkopf desenvolupem un camp complet al voltant dels mètodes nuclears, multiplicant les seves aplicacions.
Durant molts anys vaig treballar en aquest camp. Va substituir el meu primer amor, les xarxes neuronals. No intencionadament, però en el meu treball hi havia dos àmbits que competien. No obstant això, en la pràctica no són competidors. Al contrari, crec que són molt complementaris. En l'aprenentatge bàsic es poden combinar xarxes neuronals i vectors de suport. Ara són moltes les persones que les combinen i creen tècniques més potents.
Això és, va haver-hi un punt d'inflexió. Des que es disposa de dades suficients per a formar xarxes neuronals i altres màquines d'estudi, les màquines han igualat la capacitat humana. A vegades fins i tot ho han superat, ja que la capacitat de processament de grans quantitats de dades és molt limitada en humans. Per exemple, van formar a un munt de persones per a jugar a Go, amb centenars de partits exhibits, superant la capacitat humana. Va ser una sorpresa que una màquina superés al campió del joc Go, perquè pensàvem que encara estava lluny. I, per descomptat, això provoca tantes pors en la gent com el somni.
Temen que les màquines es converteixin en “superseres”. Però jo crec que és una gran oportunitat i que no hem d'espantar-nos, sinó que hem d'explotar-la i posar-la a la disposició del major segment de població possible.
Sí, i crec que estem al principi de la revolució, ja que s'estan estenent molt, sobretot els algorismes que troben patrons en les dades. Ara, en els nostres telèfons i en els nostres ordinadors hi ha molts productes d'aprenentatge automàtic que coneixen les cares o que fan traduccions automàtiques, per exemple. Existeixen nombroses aplicacions de visió artificial gràcies a les xarxes neuronals convolucionals. De fet, els van desenvolupar en el laboratori Bell quan treballava allí. I alhora treballem amb màquines vectorials, perquè són complementàries.
Per exemple, suposem que formes una xarxa neuronal per a dividir una imatge en petits segments que després es combinen en trossos de ratlles i creus. Necessites grans bases de dades per a formar-te bé. Però si no tens moltes dades i els que tens no són adequats? Per exemple, imagina que vols entrenar al teu sistema perquè conegui les cares, però la majoria de les imatges que tens són imatges d'objectes, un altre tipus de dades. Però suposem que també té unes poques imatges de les cares dels nens. Per a poder entrenar el sistema necessites un mètode basat en exemples, com les màquines vectorials, i no un mètode basat en les característiques que veu.
Això és, i a més tenim diferents maneres d'aprendre. Per exemple, tenim una memòria a llarg termini. Aquesta memòria necessita moltes dades i ens permet aprendre estratègies de diferenciació de patrons. I tenim una memòria a curt termini, amb exemples que només aprenem de memòria i després prenem decisions comparades.
Sí, això ha estat molt important. I continua sent important. Parlem del Big Data, que és tenir moltes dades. Però quines dades necessitem? Bàsicament existeixen dues maneres d'abordar el tema: l'elevat nombre d'exemples i l'elevat nombre de característiques de cadascun d'ells. Si parlem de química, podem estudiar una molècula de moltes característiques, amb milers de característiques. A més, en la recerca biomèdica es pot estudiar també al pacient, que té milers de característiques.
Per exemple, si mesurem totes les activitats dels gens, estudiem milers de característiques. Big data és un tipus diferent. No tenim molts gens, però tenim moltes de les seves característiques. Aquí es poden utilitzar les màquines de vectors d'ajuda. Per això s'han utilitzat molt en biomedicina i ara també en química.
Sí. I el més interessant és que combinem diferents disciplines: estadística, optimització i altres mètodes tradicionals. Moltes persones han unit forces en els últims 20 anys. A vegades, els mètodes estadístics convencionals no es coneixien en informàtica. I és emocionant per a les persones que han treballat en altres tipus d'intel·ligència artificial, que només podem fer coses potents a partir dels números, sobretot manipulant els números i recopilant moltes dades.
Però no és màgia negra. Si tenim centenars de milers de característiques, com podem distingir els patrons? Tractem de trobar les característiques més característiques d'una cosa o una altra? Suposem que volem separar els gossos de les vaques. No importa tenir quatre potes, perquè tant gossos com vaques tenen quatre potes, però les vaques tenen banyes i els gossos no. Busquen aquest tipus de característiques. En definitiva, a partir de centenars de milers de dades, pots simplificar el problema analitzant només aquests pocs números que t'importen per a un problema concret.
La gent sovint pensa que és difícil tenir moltes dades, però el més difícil és tenir poques dades. De fet, la teoria de Vapnik ens va ajudar molt a entendre que quan tenim poques dades hem d'utilitzar models bastant simples. Curiosament, les xarxes neuronals que manegen poques dades són xarxes estretes. Subjeu la complexa teoria. Ara es diu teoria de la regularització, és a dir, per a treballar amb poques dades, la clau no és només el model que utilitzes, sinó també la manera de formar-lo.
M'interessa especialment el que anomenem “breu aprenentatge de poques dades”, és a dir, sistemes que han d'aprendre a partir de pocs exemples. En aquests casos organitzem concursos. Aquesta és la meva manera de treballar. En lloc que els treballs es realitzin jo i els alumnes, obrim el problema a un gran grup d'investigadors. Per tant, plantegem problemes i obrim la possibilitat que qualsevol persona pugui donar solució. Podem fer un nou treball amb un sistema format en altres treballs.
Sí. Les xarxes GAN han revolucionat els últims anys en la formació de xarxes neuronals. La gent inventa nous mètodes i noves idees per a explotar-los. Una de les coses que hem fet és generar dades artificials realistes. Un dels objectius és protegir la privacitat. I és que aquestes dades, en moltes ocasions, generen inquietuds de privacitat o tenen valor comercial, per la qual cosa no es poden difondre sense més. El gran problema ha estat que algunes grans empreses han estat denunciades per alliberar dades privades. Per tant, ara són molt prudents. I això és dolent per a la comunitat investigadora, ja que els investigadors no poden estudiar més problemes interessants i tractar de trobar una solució.
Així que he treballat amb els meus companys del RPI de Nova York: Dividir missatges basats en xarxes GAN per a generar dades artificials realistes sense informació sobre individus. Aquestes dades emmagatzemen totes les propietats estadístiques de les dades reals, per la qual cosa són útils per a la recerca.
D'aquesta forma, els alumnes poden utilitzar-los per a formar els sistemes. El problema és que també ens agradaria utilitzar-los per a fer descobriments reals, i per a això no serveixen. Mantenint les propietats de les dades reals, podríem utilitzar-los en la recerca per a realitzar descobriments reals. Estem tractant d'estendre progressivament els límits d'aquestes dades artificials realistes.
Sí, en biomedicina hem creat molts registres mèdics falsos perquè és una informació molt sensible. En general, estàvem col·laborant amb empreses amb dades sensibles però no ens permetien exportar dades. No obstant això, ara exportem models que poden generar dades que podrien superar certs límits de seguretat o privacitat. Si tinc l'esperança que serveixi a la comunitat científica.
Buletina
Bidali zure helbide elektronikoa eta jaso asteroko buletina zure sarrera-ontzian