Orai presenta un nuevo modelo neuronal para la inteligencia artificial en euskera
2024/09/12 Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Orai, el centro de investigación de inteligencia artificial de Elhuyar, ha desarrollado el modelo neuronal libre más reciente para sistemas de inteligencia artificial que exigen la comprensión y creación del euskera escrito. Bautizado con el nombre de eus-8B, se utilizará para el desarrollo de chatbots, traductores automáticos, correctores gramaticales, buscadores, sistemas de creación de contenidos...
Según han confirmado los investigadores de Oraiko, éste es el modelo más avanzado para el euskera en el ámbito del modelo fundacional ligero, con menos de 10 mil millones de parámetros. Además, con el objetivo de facilitar el desarrollo y la investigación de las tecnologías en euskera tanto en el ámbito académico como en el industrial, se ha puesto a disposición de la ciudadanía de manera libre el acceso a la información sobre el desarrollo y la evaluación de las tecnologías en euskera.
Según han precisado, para el desarrollo de la Variante eus-8B, se ha utilizado como modelo base el modelo más reciente de Meta 3.1-8B (es el modelo de código abierto de 8 mil millones de parámetros). Este modelo lingüístico neuronal se ha creado a través de algoritmos de aprendizaje automático utilizando una gran colección de textos (15 billones de palabras), la mayoría en inglés, y es muy efectivo en este idioma (y en otros lenguajes principales) para automatizar tareas que requieren habilidades lingüísticas (traducción automática, resumen automático, generación de contenidos, sistemas de diálogo…). Sin embargo, el rendimiento en euskera es muy limitado.
Como no hay una colección de textos en euskera gigante y los requisitos computacionales para entrenar desde cero un modelo semejante para el euskera son muy grandes, han decidido partir de la Base 3.1-8B, ya que tiene una base sólida. El objetivo ha sido transferir al euskera las competencias adquiridas de millones de textos en inglés mediante algoritmos de aprendizaje automático y la utilización de una colección de textos en euskera.
Para ello, han utilizado el corpus Zelai recogido hace unos meses por Orai, el mayor corpus en euskera con licencia libre y de alta calidad. Para mejorar la transferencia de las competencias entre el inglés y el euskera, los textos del Gran Campo se han combinado con textos en inglés. De esta manera, los modelos han conseguido mantener el conocimiento de inglés y, al mismo tiempo, mejorar la comprensión del euskera, reutilizando eficazmente lo aprendido para el inglés en el entrenamiento original”. El entrenamiento del modelo se ha realizado utilizando el sistema Hyperion del centro de supercomputación del Donostia International Physics Center (DIPC).
El modelo ha sido evaluado en un banco de pruebas amplio que incluye 11 tareas en euskera, en las que han utilizado las competencias lingüísticas formales (uso correcto de la gramática y del diccionario) y funcionales (capacidad de comprensión y uso de la lengua en contextos reales): exámenes escolares, resolución de problemas, cuestionarios sobre diversos temas, análisis de opinión, etc.
Los resultados de la evaluación demuestran que el modelo de gestión en euskera más liviano disponible en la actualidad es el que proporciona los mejores resultados (menos de 10 mil millones de parámetros), constituyendo así un valioso recurso para el desarrollo de sistemas de inteligencia artificial que requieran las competencias lingüísticas en euskera. En algunas tareas da resultados más competitivos que los modelos mucho más grandes. En cualquier caso, aunque los resultados están cada vez más cerca de los de inglés, el rendimiento en euskera sigue siendo mucho menor que el de inglés.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia