miércoles, 7 de abril de 2010

Palabras vacías en euskera: estudio del idioma y aplicación de listados ya existentes para la creación de un listado

Resumen

En el siguiente artículo se hará un estudio de las características que tiene el euskera como lengua relacionadas con la creación de un listado de palabras vacías. Se estudia la construcción de los grupos nominales y verbales, además de las particularidades del verbo vasco. También se hace un estudio de un listado ya existente en castellano para ver su posible aplicación a la creación de uno en euskera.


Listas de palabras vacías en euskera y castellano: Introducción

En un Sistema de Recuperación de Información es muy habitual que exista un listado de palabras vacías, es decir, las palabras sin significado que son filtradas a lo largo del procesamiento de datos en lenguaje natural, que el sistema omite al realizar una búsqueda.

En el caso de las lenguas minoritarias, como el euskera, existen dos hándicaps: aún hay pocas iniciativas en esta labor y la bibliografía existente es muy escasa, y muchas de ellas tienen una sintaxis y una gramática algo más difíciles de sistematizar.

En el siguiente trabajo se estudiarán las características de las palabras vacías en euskera y se hará una comparación con un listado de estas palabras en castellano. Se ha elegido este idioma por ser la lengua mayoritaria más cercana al euskera en el ámbito político y geográfico, si bien no en el lingüístico.


Características del euskera en relación a la creación de listas de palabras vacías

En euskera la construcción de los grupos nominales y verbales es compleja, debido a la declinación y a la gran cantidad de información que el verbo contiene, no sólo sobre el sujeto, sino también sobre el objeto directo y en el indirecto. Además, en la forma de tratamiento coloquial (hika), el verbo varía sus desinencias según el sexo de la persona a la que se habla.

La declinación es el conjunto de marcas del sintagma nominal para expresar la función sintáctica que desempeña. Los casos de las declinaciones se añaden a todo el sintagma nominal, concretamente al último elemento que cierra este sintagma: (nire ahizpa, mi hermana) + ari = nire ahizpari (a mi hermana).



La existencia de declinaciones hace que, en una lista de palabras vacías en euskera, no se puedan incluir las preposiciones, ya que su función va incluida en la declinación.
En esto podemos ver una primera dificultad para la creación de un listado de palabras vacías: los vocablos que corresponden a determinantes artículos no tienen un equivalente en vasco, por lo que este tipo de palabras no se pueden añadir al listado.

El verbo en euskera se divide en formas morfológicas finitas y no finitas. En el caso de las finitas los verbos se conjugan sintéticamente, y en el caso de las no finitas, se combina una forma verbal no finita con una forma verbal finita de un verbo auxiliar. El primer caso está claro que no permite su incursión en un listado de palabras vacías. En el caso del segundo tipo de verbos vemos un paralelismo con el castellano, que incluye los verbos auxiliares en estas listas.

El hika, el tratamiento verbal que varía según el sexo de a quién se habla, también es algo a tener en cuenta. Ejemplo:

A un hombre: Hik ogia ekarri duk (tú has traído el pan).
A una mujer: Hik ogia ekarri dun.

Esto implica tener presentes una mayor cantidad de términos que pueden entrar. Sin embargo, se trata de un tratamiento muy restringido por su uso coloquial y caído en desuso en algunas partes del País Vasco, por lo que quizás podría omitirse en la mayoría de los Sistemas de Recuperación de Información.


Listas de palabras vacías en castellano y su posible aplicación al euskera: comparación

La lista utilizada para el estudio se ha encontrado gracias al proyecto Snowball, que proporciona listas de palabras vacías en idiomas europeos. No ha sido posible encontrar una lista de palabras vacías en euskera, por lo que se ha decidió utilizar un listado ya existente para crear uno hipotético a partir de este.

Podemos observar que las palabras vacías se corresponden, sobre todo, a determinantes, adverbios, pronombres, verbos auxiliares y verbos de uso muy extendido. Usando este listado como ejemplo para crear uno equivalente en euskera, podemos ver ciertas particularidades que tienen que ver con los aspectos reseñados anteriormente.

El primero es la existencia de declinaciones. Esto reduce muchos de los términos que pueden entrar, como los artículos, ya que en euskera no existen. De todas maneras, es posible solucionar esto para mantener calidad a la hora de recuperar información: aplicar un procedimiento de stemming, de manera que se puedan reducir los términos a la raíz de las palabras, eliminando las declinaciones.

Por otra parte, hay que tener en cuenta el uso del hika. Como se puede ver, es una forma que no existe en castellano, aunque quizás el equivalente podría ser el uso del vos en el sentido de que se trata de una forma en desuso. El vos no aparece en la lista de palabras vacías, y esto es lo más recomendable en el caso del hika, dado que su uso es coloquial y poco extendido.

También existe un paralelismo, como se ha señalado, con el uso de verbos auxiliares. En la lista de palabras vacías podemos ver que éstos han sido añadidos, cosa que también se podría hacer en euskera. Teniendo en cuenta que la mayoría de los verbos vascos son morfológicamente no finitos, resulta de una gran ayuda a la hora de recuperar información.



Conclusión final

Las particularidades del euskera no son óbice para la creación de un listado de palabras vacías, y es posible utilizar los ya existentes en otros idiomas como un ejemplo a seguir. Sin embargo, por sus propias características de sintaxis, léxico y gramática, conviene tener en cuenta otros métodos de minería textual para que la recuperación de la información sea tan exitosa como en otros idiomas de mejor complejidad. El más recomendable es el stemming, sobre todo a la hora de recuperar términos con declinaciones. Además, este procedimiento es especialmente útil en el euskera, dado que su léxico está formado en gran parte por palabras derivadas de otras a través de sufijos.

En conclusión, podemos afirmar que el euskera, a pesar de su uso minoritario, es un idioma susceptible de ser sistematizado. Teniendo en cuenta que su publicación en formato electrónico es cada vez mayor, y que existen muchas iniciativas para su uso en todos los ámbitos de la sociedad –incluyendo el ámbito académico y científico-, es positivo que se estudien maneras de aplicación de este idioma a los Sistemas de Recuperación de Información, teniendo en cuenta sus características particulares y los estudios anteriormente realizados con otras lenguas con las que pueda tener similitudes.


Bibliografía

Proyecto Snowball [en línea]. Disponible en:
http://snowball.tartarus.org/algorithms/spanish/stop.txt (última consulta: 30 de Noviembre de 2009)

HIRU. Sintagmas de la oración: declinación. Disponible en:
http://www.hiru.com/euskara/euskara_01180.html (última consulta: 27 de Noviembre de 2009)

ARREGI, O. y FERNÁNDEZ, I. Clasificación de documentos escritos en euskara:
impacto de la lematización.
I Jornadas de Tratamiento y Recuperación de Información, JOTRI, Valencia. 2002. ISBN 2-9517408-0-8.

ZUBIRI, I. Euskal gramatika osoa. Bilbao: Didaktiker, 2000. 900 p. ISBN 978-84-88411-45-7.

No hay comentarios:

Publicar un comentario

Agradezco cualquier colaboración, pero tened en cuenta que los mensajes como spam o de contenido ilegal u ofensivo serán eliminados.