euLEX: UZEIren datu-base lexikala
Euskararen datu-base lexikala da euLEX, UZEIk euskararen tratamendu automatikorako sortu duen hizkuntza-baliabidea. Egun hainbat produktu eta aplikazio dauzkagu euskararako eta euskaraz, hizkuntzen teknologietan oinarrituta. Horiek, baina, hizkuntzari berari dagozkion oinarrizko baliabideak behar dituzte, tresna egokiekin batera.
Azken urteotan Hizkuntza Naturalaren Prozesamenduan buru-belarri dihardu UZEIk. Horren lehen emaitza tLEMA izeneko lematizatzailea izan da, termino-lematizazioari begira sortua hasiera batean, baina lematizatzaile orokorra ere badena. Hain zuzen, tLEMAren oinarri da euLEXeko informazioa.
Ondoko pantailan ikus ditzakegu datu-basearen eremu guztiak, kontsultarako balia daitezkeenak, gero kategoria bakoitzak dagozkionak bakarrik jasoko dituen arren:

Edukia kopurutan
euLEX etengabe eguneratzen da. Kategoria nagusietako sarrerak —terminoak batez ere— eguneratzen dira, kategoria itxiak eta hizkiak oso egonkorrak baitira. Beraz, izenak, adjektiboak eta aditzak dira egunero gehitzen eta berrikusten direnak. 105.000 sarrera nagusi ditu egun euLEXek (73.500 izen, 14.600 adjektibo, 7.300 aditz, 3.600 laburtzapen eta 4.800 adberbio, besteak beste), 13.700 alomorfo, 7.300 adizki eta 1.240 morfema. Alegia, ia 128.000 sarrera ditu guztira, euskal erabiltzaileen beharrei erantzuteko aski erakusgarria, gure ustez.
Datu-base hau XML formatuan ELRA katalogoan salgai jartzeko egin den lana Eusko Jaurlaritzako Kultura Sailak (Hizkuntza Politikarako Sailburuordetzak) diruz lagundu du.
Kutxak diruz laguntzen du proiektu hau:

[Azken eguneratzea: 2013/01/24]