CORPUS DU XXº SIÈCLE
Corpus de l’Euskara du XXº siècle
Corpus de l’Euskara         

Corpus statistique de l’euskara du XXº siècle


Le corpus statistique de l’euskara du XXº siècle se compose de 4 658 036 formes. Sa principale, et quasi unique fonction, est de faire connaître l’euskara qui a été et est utilisé, et non de proposer un modèle de langue.

Le corpus se base sur un inventaire exhaustif des publications basques du XXº siècle. En partant de l’univers que composent les publications, 6 351 extraits d’œuvres tirés au sort ont permis de réaliser un échantillonnage.

Ce projet, qui débuta en 1987, a été réalisé en deux phases: une première période comprenant les années 1900-1987, et une seconde, de 1988 jusqu’à 1999. Si, au départ, ce projet était un corpus ouvert, et donc actualisé annuellement, il devint avec la fin du siècle, un corpus fermé qui illustre l’usage de l’euskara de tout le XXº siècle. Ce corpus recueille l’euskara écrit et  non le parlé, bien que certains termes de la langue orale, transcrits et publiés, s’y soient ajoutés.

Le corpus est complété sur la base de données relationnelle ORACLE.

Critères de classification:



  • Période: les publications du XXº siècle se divisent en quatre périodes:

    • 1900-1939: du début du siècle jusqu’aux guerres.
    • 1940-1968: de l’après-guerre jusqu’à la naissance de l’euskara standard.
    • 1969-1990: depuis les premiers changements produits par l’euskara standard jusqu’aux propositions et normes de l’euskaltzaindia. (jusqu’à la  publication du Hauta-Lanerako Euskal Hiztegia de Ibon Sarasola).
    • 1991-1999: ultérieure à la nouvelle normative.
       

  • Dialecte:

    • Biscayen
    • Souletin
    • Labourdin et Navarrais
    • Euskara standard
    • Non classifiés: ce registre recueille les articles de presse et les journaux qui ont été  inventoriés dans leur ensemble et non par articles (ceci pouvant entraîner l’apparition de différents dialectes dans une même publication).
       

  • Genre:

    • Articles de prose non littéraire: les articles de journaux d’une certaine  “densité”,  comme Euskara, Egan, Eusko Gogoa, Jakin ont un propre dossier dans l’inventaire. Ce sont précisément ceux qui entrent dans ce registre.
    • Textes administratifs
    • Livres de textes
    • Essais (prose non littéraire)
    • Prose littéraire
    • Poésie
    • Théâtre
    • Vers
    • Investigation
    • Littérature infantile et juvénile
    • Oral: transcriptions
    • Liturgie
    • Quotidiens
    • Publications périodiques

Cette classification, permet de faire connaître cet univers et de constituer la base de l’échantillonnage statistique. Elle sert tout  autant à effectuer des consultations sur l’usage d’une forme en un ou plusieurs dialectes, périodes et/ou genres. Par exemple, nous pouvons chercher le lemme pastoral, mais en limitant la recherche au dialecte souletin, ou bien erdu  dans tous les dialectes, sauf en biscayen.


Chaque oeuvre ou article contient une information sur l’auteur (ou les auteurs) et le titre, mais ils ne permettent pas de procéder à une consultation : en effet, étant des extraits d’œuvres assignés statistiquement, les pages sélectionnées ne se suivent pas (pour illustrer la grande variété lexicale possible au sein d’une même oeuvre). Pour tout cela, la quantité d’auteurs et de titres  est vaste mais n’offre pas une aide significative de recherche.


Les extraits des oeuvres se trouvent en format SGML (Standard Generalized Mark-up Language).


En plus des caractéristiques déjà citées, le corpus possède une valeur ajoutée: il est lemmatisé, c’est à dire qu’à  chaque forme est assigné un lemme standard, ce qui facilite la consultation. Par exemple, vu que toutes les formes déclinées et les variantes s‘unissent en un seul lemme, en entrant etxe nous trouverons des formules comme etxe, etxea, etxien, etxeco, etchetik. De plus, il n’y a aucun risque d’oublier de forme ou variante, le lemme les recueillant toutes.


La lemmatisation ne se limite pas aux seuls lemmes simples, mais regroupe aussi des mots composés, dérivés ou autres unités lexicales complexes (multimots): en plus de etxe déjà cité, nous trouverons etxe orratz, etxe-abere, etxe-tresna, etxeko, etxe jaun, etxekoandre, etxepe, etxetxo, etxeño, etxezain, etc. Relié à hala, nous trouverons également hala ere, hala eta guztiz ere, hala... nola, hala nola.


Ainsi l’utilisateur dispose-t-il de 101 585 lemmes distincts qui lui permettront de réaliser des consultations faciles et, surtout, fiables.


 


Bibliographie:


URKIA, M. “Corpusgintzaren garrantzia hizkuntzalaritzan eta euskararen egoera” in EUSKALTZAINDIA, ‘Corpusgintza gaur egun’ mintegiaren aktak. Bilbo, 2010.


UZEI (Argtz.). ‘Hizkuntza-corpusak. Oraina eta geroa’ jardunaldien aktak. Donostia, 2002.