El Centre HiTZ crea per al basc un model lingüístic denominat Latxa
2024/02/01 Elhuyar Zientzia Iturria: Elhuyar aldizkaria
El Centre de Paraules ha presentat un gran model lingüístic per al basc.Ho ha anomenat Latxa, està basat en els models Flama de Meta i recull models d'entre 7 i 70 mil milions de paràmetres. Els LLM actuals tenen un rendiment sorprenent en llengües amb molts recursos, com els de ChatGPT o Bard per a anglès. No obstant això, en el cas del basc i d'altres llengües minoritàries el seu rendiment és molt de menor. La Latxa s'ha desenvolupat per a reduir aquesta bretxa.
En principi són tres lots bàsics, prèviament formats però no refinats en instruccions o preferències dirigides a l'usuari. Aquests models no són, per tant, d'ús directe dels públics generals, però són fonamentals per a la construcció d'eines útils que utilitzin la tecnologia lingüística per al basc. Per al seu desenvolupament han utilitzat servidors tipus GPU i han entrenat els últims models en el supercomputador Leonardo de CINECA.
D'altra banda, quant als textos, han utilitzat EusCrawl. Aquest corpus, extret de 33 webs de contingut de qualitat, ofereix millor qualitat que altres tècniques de composició de corpus a través d'Internet. En total tenen 1,72 milions de documents i 288 milions de paraules.
Per a avaluar la qualitat dels models mesuren la capacitat dels models en diferents competències lingüístiques, com la comprensió de les lectures, el sentit comú i el raonament, l'anàlisi dels sentiments, la percepció de les actituds, la classificació dels temes, la correferència, la inferència i els significats de les paraules.
Els models Latxa contenen el Flama-2 License, que permet la recerca i l'activitat comercial, i estan disponibles en HuggingFace.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia