Terminologia eta lexikografia Zentroa
Flash en el que se ven los libros e instalaciones de uzei
ESTÁ EN: Castellano www.uzei.com   
QUÉ ES UZEI
Presentación
Objetivos
Relaciones de cooperación
Socios
Dónde estamos
Hitzari bide egiten
Hemeroteca
Patrocinadores
TERMINOLOGÍA
Presentación
Diccionarios
Consultas
Euskalterm
Internacional
Congreso Internacional
Léxicos
LEXICOGRAFÍA
Presentación
Observatorio Léxico
Corpus del siglo XX
Diccionario unificado
Jornadas sobre corpus lingüísticos
Enlaces de interés
PRODUCTOS
Diccionarios
Libros de texto
TRADUCCIONES
Presentación
Trabajos realizados
Clientes
Corpus del siglo XX
Corpus del Euskara siglo XX
Corpus del Euskara

Corpus estadístico del euskera del siglo XX

El corpus estadístico del euskera del siglo XX está compuesto por 4.655.300 formas. Su función principal, y casi única, es mostrar el euskera que se ha utilizado y se utiliza, no proponer un modelo de la lengua.

El corpus se basa en un inventario exhaustivo de las publicaciones vascas del siglo XX. Partiendo del universo que componen las publicaciones, se ha procedido a la adquisición de la muestra realizada por sorteo, cuyo resultado es de 6.351 extractos de obras.

Este proyecto, que arrancó en 1987, se ha realizado en dos fases: un primer período que abarcaba los años 1900-1987, y un segundo desde 1988 hasta 1999. Si bien en un principio se planteó como un corpus abierto y, por tanto, se actualizaba anualmente, con el fin de siglo ha pasado a ser un corpus cerrado que muestra el uso del euskera de todo el siglo XX. Este corpus recoge el euskera escrito, no el hablado, aunque se han añadido al corpus en la medida en que han sido transcritos y publicados.

El corpus está implementado sobre la base de datos relacional ORACLE.


Criterios de clasificación:

  • Período: las publicaciones del siglo XX se dividen en cuatro períodos:
    • 1900-1939: desde el comienzo del siglo hasta las guerras.
    • 1940-1968: desde la posguerra hasta el nacimiento del euskera estándar.
    • 1969-1990: desde los primeros cambios producidos por el euskera estándar hasta las publicaciones de las propuestas y las normas de Euskaltzaindia (hasta la publicación del Hauta-Lanerako Euskal Hiztegia de Ibon Sarasola).
    • 1991-1999: posterior a la nueva normativa. 
       
  • Dialecto:
    • Vizcaíno
    • Guipuzcoano
    • Suletino
    • Labortano y navarro
    • Euskera estándar
    • No clasificados: este apartado recoge los artículos de prensa y publicaciones periódicas, pues se han inventariado en su conjunto (con lo cual pueden aparecer distintos dialectos dentro de una misma publicación), no por artículos.
  • Género:
    • Artículos de prosa no literaria: los artículos de publicaciones periódicas de cierto "peso", como Euskera, Egan, Euzko Gogoa, Jakin, tienen ficha propia en el inventario. Estos son, precisamente, los que se incluyen en este apartado.
    • Textos administrativos
    • Libros de texto
    • Libros de ensayo (prosa no literaria)
    • Prosa literaria
    • Poesía
    • Teatro
    • Verso
    • Investigación
    • Literatura infantil y juvenil
    • Oral: transcripciones
    • Liturgia
    • Diarios
    • Publicaciones periódicas

 
Esta clasificación, además de mostrar el universo y ser la base para obtener el muestreo estadístico, es válida para la realización de consultas, tales como el uso de una forma en uno o más dialectos, períodos y/o géneros. Por ejemplo, podemos buscar el lema pastoral, pero limitando la búsqueda al dialecto suletino, o erdu en todos los dialectos, excepto en vizcaíno.

Cada obra o artículo contiene información del autor (o autores) y el título, si bien no se ofrece la posibilidad de consulta a través de ellos, principalmente porque son extractos de obras asignadas estadísticamente, las páginas seleccionadas no son continuas (para así dar cuenta de la mayor variedad léxica posible dentro de una misma obra). Por todo ello, la cantidad de autores y títulos es amplia, pero no ofrece una ayuda significativa de búsqueda.

Los extractos de las obras se encuentran en el formato SGML (Standard Generalized Mark-up Language).

Además de las características ya citadas, el corpus tiene un valor añadido: está lematizado, esto es, cada forma tiene un lema estándar asignado, lo cual facilita la consulta. Por ejemplo, ya que todas las formas declinadas y las variantes se unen en un solo lema, en la entrada etxe encontraremos formas como etxe, etxea, etxien, echeco, etchetik. Es más, no hay peligro de olvidar alguna forma o variante, pues el lema las recoge todas.

La lematización no se limita a lemas simples, sino que recoge palabras compuestas, derivadas o otras unidades léxicas complejas (multipalabra): además del etxe ya mencionado, encontraremos etxe orratz, etxe-abere, etxe-tresna, etxeko, etxeko jaun, etxekoandre, etxepe, etxetxo, etxeño, etxezain, etc. Junto a hala, también encontraremos hala ere, hala eta guztiz ere, hala... nola, hala nola.

Así, el usuario dispone de 106.179 lemas distintos que le permitirán realizar las consultas de un modo cómodo y, sobre todo, seguro.


 

Bibliografía:

URKIA, M. “Corpusgintzaren garrantzia hizkuntzalaritzan eta euskararen egoera” in EUSKALTZAINDIA, ‘Corpusgintza gaur egun’ mintegiaren aktak. Bilbo, 2010.


 

Icono eHiztegia Imprimir  Imprimir Envíalo por Email  Envíalo por Email


Castellano 
Euskara 
English 
Français 
I+D+i
Presentación
eLENA
TEIS
euLEX
GAIKA
IDITE
TermiGai
CONSULTAS ON-LINE
Euskalterm
Corpus del euskera del siglo XX
Diccionario de sinónimos
Diccionario de terminaciones
FORMACIÓN
Cursos
Materiales
BERBA
Berbabidea
Zer berri?
Liburuak berba batean
Datozen egunetan
Irakurlea berbetan
Suscripción
De interés

Tfno.: 943 47 33 77
Fax: 943 45 79 44

Patrocina

 Inicio  Contacto  :   Recomendar la página Establecer como página de inicio 
Copyright © 2005 Dynamic Macroweb & Design S.L. Todos los derechos reservados.
Web site desarrollado por DMacroWeb mediante la herramienta DM Corporative v 3.1