}

El Centro HiTZ crea para el euskera un modelo lingüístico denominado Latxa

2024/02/01 Elhuyar Zientzia Iturria: Elhuyar aldizkaria

Logo de modelos lingüísticos en euskera Latxa. Ed. Centro Hitz

El Centro de Palabras ha presentado un gran modelo lingüístico para el euskera.Lo ha llamado Latxa, está basado en los modelos LLaMA de Meta y recoge modelos de entre 7 y 70 mil millones de parámetros. Los LLM actuales tienen un rendimiento sorprendente en lenguas con muchos recursos, como los de ChatGPT o Bard para inglés. Sin embargo, en el caso del euskera y de otras lenguas minoritarias su rendimiento es mucho menor. La Latxa se ha desarrollado para reducir esta brecha.

En principio son tres lotes básicos, previamente formados pero no refinados en instrucciones o preferencias dirigidas al usuario. Estos modelos no son, por tanto, de uso directo de los públicos generales, pero son fundamentales para la construcción de herramientas útiles que utilicen la tecnología lingüística para el euskera. Para su desarrollo han utilizado servidores tipo GPU y han entrenado los últimos modelos en el superordenador Leonardo de CINECA.

Por otro lado, en cuanto a los textos, han utilizado EusCrawl. Este corpus, extraído de 33 webs de contenido de calidad, ofrece mejor calidad que otras técnicas de composición de corpus a través de Internet. En total tienen 1,72 millones de documentos y 288 millones de palabras.

Para evaluar la calidad de los modelos miden la capacidad de los modelos en diferentes competencias lingüísticas, como la comprensión de las lecturas, el sentido común y el razonamiento, el análisis de los sentimientos, la percepción de las actitudes, la clasificación de los temas, la correferencia, la inferencia y los significados de las palabras.

Los modelos Latxa contienen el LLaMA-2 License, que permite la investigación y la actividad comercial, y están disponibles en HuggingFace.

Gai honi buruzko eduki gehiago

Elhuyarrek garatutako teknologia