UZEIko ikerketa- eta berrikuntza-taldeak sistema bat garatu du, dokumentu-kategorizazioaren bidez dokumentu idatzien gaia zehazteko. Dokumentua automatikoki tratatuz, GAIKA sistemaren bitartez jakin daiteke zein arlotakoa den (Zuzenbidea, Ekonomia, Biologia, Informatika...).
Dokumentuen gaia zehaztea funtsezkoa da hizkuntza naturalaren prozesamendu bidez egiten diren hainbat jardueratan: informazio-erauzketa (IE, Information Extraction), dokumentuen berreskuratzea (IR, Information Retrieval), dokumentu-sailkatzea (Document classification/categorization), dokumentu-laburpen automatikoa (Summarization), eta abar.
Bereziki garrantzizkoa da dokumentuen gaia zehaztea Terminologiarako. Gero eta maizago testu-corpusetan ari da oinarritzen terminologia-lana: terminoak identifikatu, automatikoki erauzi, termino lehiakideen erabileraren maiztasunak kontatu, edo terminoak beren testuinguruan ikertu egiten dira. Beraz, terminoak dokumentu barnean ikertzen dira, baina hitz bat terminoa den edo ez erabakitzeko, lehenik jakin behar da dokumentu hori espezialitate batekoa den ala ez. Horrela, adibidez, "sagua" 'ordenagailuaren periferikoa' izango da, dokumentuaren gaia Informatika baldin bada, baina 'ugaztun karraskaria' izango da Nekazaritzan edo hurbileko arlo batean.
Terminoen erabilera txekeatzeko ere garrantzizkoa da dokumentuaren gaia zehaztea. Esate baterako: "medio ambiente" adierazteko Ekologian "ingurumen" erabili behar da, ez da egokia "ingurugiro".
Baina beste arlo batzuetan, "ingurugiro" hitza ez da terminoa, lexiko orokorreko hitza da, eta ez dago hura erabiltzeko eragozpenik.
Baliabide hau interesgarria da terminologiako eta lexikografiako lanetan, eta dagoeneko hasi gara proiektu honen ondorioak terminologian erabiltzen, ezinbestekoa baita terminoaren erabilera berari dagokion eremuko dokumentuan aztertzea.
UZEIk hiztegi terminologikoetarako ezarri duen sailkapen-sistema bera erabiliz lortu dira emaitzarik onenak. Aldi berean, sailkapenaren puntu ahulak antzeman eta zuzentzeko ere balio izan du ikerketa honek.
Baina, askotan, dokumentuen kategorizazioak betiko arazoarekin egiten du topo: dokumentuak maiz ez dira izaten homogeneoak, erabileremu bakar batekoak. Testuetan gaiak nahasian tratatu ohi dira, eta horiek sailkatzea ia ezinezkoa izaten da.
Sistema honetan hizkuntza naturalaren prozesamendurako teknologiak baliatu dira.
2007ko Gipuzkoako Zientzia, Teknologia eta Berrikuntzaren Sareko programak finantzatu du GAIKA tresna.
Miel Loinaz
UZEIko Terminologia Saileko burua