Latxa izeneko hizkuntza-eredua sortu du HiTZ Zentroak euskararentzat
2024/02/01 Elhuyar Zientzia Iturria: Elhuyar aldizkaria
Hitz Zentroak euskararentzako hizkuntza-eredu handi bat aurkeztu du. Latxa deitu dio, Metaren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak biltzen ditu. Gaur egungo LLMek errendimendu harrigarria dute baliabide ugariko hizkuntzetan, adibidez ingelesarako ChatGPT edo Bard-ek dituztenak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, haien errendimendua askoz ere txikiagoa da. Arrakala hori txikitzeko garatu dute, beraz, Latxa.
Berez, oinarrizko hiru sorta dira, aldez aurretik trebatutakoak baina erabiltzaileari zuzendutako jarraibide edo hobespenetan findu gabekoak. Eredu hauek ez dira, beraz, publiko orokorrak zuzenean erabiltzeko, baina funtsezkoak dira euskararako hizkuntza-teknologia darabilten tresna erabilgarriak eraikitzeko. Garatzeko, GPU motako zerbitzariak erabili dituzte, eta azken ereduak CINECAko Leonardo superordenagailuan entrenatu dituzte.
Bestalde, testuei dagokionez, EusCrawl erabili dute. Corpus hori kalitatezko edukia duten 33 webguneetatik erauzi zen, eta internetetik corpusak osatzeko beste teknikek baino kalitate hobea eskaintzen du. Guztira, 1,72 milloi dokumentu eta 288 miloi hitz ditue.
Ereduen kalitatea ebaluatzeko, hainbat gaitasun linguistikotan ereduek duten gaitasuna neurtzen dute, hala nola, irakurketen ulermena, sen ona eta arrazoibidea, sentimenduen analisia, jarreren hautematea, gaien sailkapena, korreferentzia, inferentzia eta hitzen adierak.
Latxa ereduek LLaMA-2 License dute, hau da, ikerkuntzarako eta jarduera komertziala baimentzen duena, eta eskuragarri daude HuggingFacen daude eskuragarri.
Gai honi buruzko eduki gehiago
Elhuyarrek garatutako teknologia