euLEX: UZEIren datu-base lexikala
Euskararen datu-base lexikala da euLEX, UZEIk euskararen tratamendu automatikorako sortu duen hizkuntza-baliabidea. Egun hainbat produktu eta aplikazio dauzkagu euskararako eta euskaraz, hizkuntzen teknologietan oinarrituta. Horiek, baina, hizkuntzari berari dagozkion oinarrizko baliabideak behar dituzte, tresna egokiekin batera.
Azken urteotan Hizkuntza Naturalaren Prozesamenduan buru-belarri dihardu UZEIk. Horren lehen emaitza tLEMA izeneko lematizatzailea izan da, termino-lematizazioari begira sortua hasiera batean, baina lematizatzaile orokorra ere badena. Hain zuzen, tLEMAren oinarri da euLEXeko informazioa.
Ondoko pantailan ikus ditzakegu datu-basearen eremu guztiak, kontsultarako balia daitezkeenak, gero kategoria bakoitzak dagozkionak bakarrik jasoko dituen arren:

Edukia kopurutan
euLEX etengabe eguneratzen da. Kategoria nagusiak eta, batez ere, terminoak eguneratzen dira, kategoria itxiak eta hizkiak oso egonkorrak baitira. Beraz, izenak, adjektiboak eta aditzak dira egunero gehitzen eta berrikusten direnak. 95.000 sarrera nagusi ditu egun euLEXek (65.000 izen, 14.000 adjektibo, 7.300 aditz, 3.350 laburtzapen eta 4.600 adberbio, besteak beste), 12.300 alomorfo, 7.400 adizki eta 1.210 morfema. Alegia, ia 116.000 sarrera ditu guztira, euskal erabiltzaileen beharrei erantzuteko aski erakusgarria, gure ustez.
Datu-base hau XML formatuan ELRA katalogoan salgai jartzeko egin den lana Kultura Sailak (Hizkuntza Politikarako Sailburuordetza) diruz lagundutakoa da.
Proiektu honen laguntzailea da Kutxa:
