viernes, 21 de mayo de 2010

En defensa de la Web Semántica


Ya en 1989, Berners-Lee, el creador de Internet, adelantó el concepto que más adelante se conocería como Web semántica: una extensión de la actual Web cuyo objetivo es que no sólo los humanos, sino también las máquinas, sean capaces de “comprender” el contenido de los documentos. Gracias a la Web semántica, el usuario podría interrogar a un agente software que realizaría tareas complejas de asociación e inferencia del conocimiento, por lo que los resultados que se devolverían al usuario serían precisos y contextualizados, ahorrando tiempo y evitando problemas de "ruido" y "silencio" documental y, lo que es más importante, brindando al usuario exactamente la información que necesita.

Sin embargo, este proyecto no ha tenido el éxito esperado. Algunas razones por las que no lo han tenido tienen que ver con el aspecto meramente tecnológico de su implantación, ya que precisa de lenguajes de codificación aún poco desarrollados como el RDF y XML, todavía en proceso de creación. Aun así, creemos que el problema principal al que esta nueva forma de comprender Internet se enfrenta es la poca confianza que despierta entre usuarios potenciales y entre profesionales.

Se critica el hecho de que la Web semántica se parece demasiado al conceptio de "inteligencia artifical"... como si el hecho de implantar este nuevo lenguaje de codificación implicara el uso de super-ordenadores casi cercanos a la robótica. Nada más lejos de la realidad: cabe recordar que esta crítica también se hizo a muchos otros proyectos que hace unas décadas parecían casi de ciencia-ficción, y hoy se utilizan a diario, como el propio Internet.

Actualmente, se están realizando distintas propuestas para conseguir una mayor usabilidad de los documentos semánticos, obtener una mayor implicación de los usuarios y suministrarles recursos que les ayuden a mejorar la localización y el grado de popularidad de los contenidos. Nadie ha puesto el grito en el cielo ni ha creído que nos acercamos a una era de súper-ordenadores, precisamente porque es algo a lo que la mayor parte de la población ya hace varios años que tiene acceso y lo ve como una herramienta necesaria para sus gestiones habituales. El siguiente paso bien podría ser la Web semántica, si se consiguiese que los usuarios vieran este proyecto con la normalidad y la naturalidad con el que ven el Internet de ahora.

La única forma de popularizar la Web semántica y facilitar su posterior implantación es aproximarlo a la Web social, para implicar a los usuarios en la creación y gestión de documentos semánticos. Para hacer más sencilla la participación de los usuarios en la creación de la Web semántica es preciso crear herramientas sencillas y amigables, que animen a los usuarios a dejar de lado el HTML a pesar de su mayor sencillez.

Una opción sumamente interesante en esta dirección son los enfoques híbridos que combinan ambas tendencias, el uso del Internet "tradicional" y el nuevo enfoque semántico. Un ejemplo es Piggy Bank. Se trata de una aplicación que captura localmente las etiquetas de los RDF visitados, para organizarlos en una ontología local, y que puede ser compartida en el Semantic Bank. Esta herramienta permite poner tags a las URL seleccionadas para recuperarlas posteriormente. Un proyecto parecido a este es Annotea, de W3C, que se puede instalar mediante un plug-in en Firefox denominado Annozilla. Ambas aproximaciones, sin embargo, tiene la problemática inherente a los tags: la sinonimia y la polisemia... algo inherente al Internet tradicional.

En conclusión, podemos decir que la Web semántica es una opción muy válida para hacer frente a los problemas clásicos de Internet, que pasan por tener que tratar un gran volumen de información de todo tipo de publicaciones y dirigida a un público heterogéneo. Además, los usuarios y las aplicaciones informáticas precisan de un mayor contenido semántico para dar mayor funcionalidad a la Web. Para hacer frente a esta problemática se han desarrollado herramientas de procesamiento del lenguaje natural, se han incorporado herramientas estadísticas y se han creado recursos terminológicos para dotar a los recursos de una semántica adicional.

Pero hay que tener en cuenta que estas herramientas, a pesar de su utilidad, no son suficientes para hacer frente a los problemas que plantea Internet a la hora de recuperar la información. La Web tradicional, es decir, la Web 2.0, ha logrado un mayor éxito dada su cercanía al usuairo y su mayor simplicidad, pero tiene el inconveniento de no poder subsanar problemas de interoperabilidad, sinonimia y polisemia. La Web semántica, por el contrario, es el sistema perfecto para dar un paso adelante en la recuperación de la información, a pesar de su poca legibilidad y mayor complejidad, y por ello merece una oportunidad por parte de la comunidad científica y profesional, así como de los usuarios de Internet.

martes, 27 de abril de 2010

El bibliotecario y la promoción de la lectura

Si habláramos de los hábitos de lectura de hoy en día, la primera frase que saldría a colación sería la siguente: "la gente no lee". Una afirmación, en mi opinión, algo categórica. Habría que preguntarse exactamente qué quiere decir, y sobre todo, ponerla dentro de un contexto. ¿No lee en comparación con los niveles de lectura de hace veinte años? ¿No hay nadie que lea, o existe un pequeño porcentaje de la población que sí lo hace, y muy a menudo, pero son los únicos que leen?


Al margen de este debate, que merece una entrada diferente, quisiera hacer un inciso sobre el papel del bibliotecario como clave para la lectura. Aunque nuestro papel no esté tan presente en la sociedad como nos gustaría, y que la biblioteca aún se sigue viendo como un "armario para libros", alejado de los intereses de las personas y a donde alguien va simplemente para tomar un libro en préstamo, es innegable que nuestra labor ha sido un aliciente para que muchas personas "analfabetas funcionales" hayan comenzado a leer. El escritor José Luis Sampedro habla de la iniciativa de una joven bibliotecaria, que hace años preparó un pequeño rincón en su biblioteca para los niños, el cual servía de guardería. Las madres dejaban ahí a los niños mientras acababan de hacer sus tareas, y luego los recogían. Gracias a este rincón, no sólo los niños comenzaron a acercarse a la lectura, sino que muchas madres, que hasta entonces no habían tocado un libro, hojeaban uno, se quedaban prendadas y acabaron siendo auténticas devoradoras de libros.


Es reconfortante ver cómo una pequeña iniciativa sirvió para acercar a la literatura a personas que no habían accedido antes a la misma. Resulta maravilloso para el bibliotecario imaginarse a esas amas de casa, que jamás habían leído, ahora convertidas en asiduas usuarias de la biblioteca, y a esos niños que, una vez crecidos, siguieron yendo a ella. Vemos que la labor de la bibliotecaria dio sus frutos, y nos anima a seguir sus pasos.


Cuando preguntamos a los estudiantes de biblioteconomía y documentación sobre este aspecto, absolutamente todos se muestran entusiasmados con la idea de convertirse en puentes entre el libro y el lector. La organización de actividades culturales, la ayuda a la hora de escoger un título... son tareas que nos animan a seguir teniendo fe en nuestra profesión y en nuestro futuro. No queremos ser máquinas expendedoras de libros. No queremos conocer perfectamente las reglas de catalogación, pero olvidarnos del factor humano. Queremos ser bibliotecarios, ser una ayuda para los ciudadanos que ya son usuarios y el aliciente para crear muchos usuarios más. Queremos recuperar, con nuestro trabajo y con nuestra ilusión, el espíritu de la biblioteca de Alejandría: la biblioteca como lugar de reunión de los ciudadanos y aliciente de la Cultura, en mayúsculas. Y, ¿por qué no? Queremos conseguir, en medida de lo posible, subir esos pobres índices de lectura.


En los nuevos planes de estudio no se contempla la instrucción en las herramientas necesarias para llevar a cabo una exitosa promoción de la lectura. Un joven bibliotecario recién titulado precisa de una educación que sirva de trampolín para llevar a cabo sus planes en el mundo laboral, los cuales, como ya hemos visto, no se reducen a ser simples gestores de libros. Cabría preguntarse qué comprenden esos ilustres legisladores por biblioteca, qué es lo que esperan de ella y, sin ánimo de ofender, si alguna vez han sido usuarios de una.

miércoles, 7 de abril de 2010

Palabras vacías en euskera: estudio del idioma y aplicación de listados ya existentes para la creación de un listado

Resumen

En el siguiente artículo se hará un estudio de las características que tiene el euskera como lengua relacionadas con la creación de un listado de palabras vacías. Se estudia la construcción de los grupos nominales y verbales, además de las particularidades del verbo vasco. También se hace un estudio de un listado ya existente en castellano para ver su posible aplicación a la creación de uno en euskera.


Listas de palabras vacías en euskera y castellano: Introducción

En un Sistema de Recuperación de Información es muy habitual que exista un listado de palabras vacías, es decir, las palabras sin significado que son filtradas a lo largo del procesamiento de datos en lenguaje natural, que el sistema omite al realizar una búsqueda.

En el caso de las lenguas minoritarias, como el euskera, existen dos hándicaps: aún hay pocas iniciativas en esta labor y la bibliografía existente es muy escasa, y muchas de ellas tienen una sintaxis y una gramática algo más difíciles de sistematizar.

En el siguiente trabajo se estudiarán las características de las palabras vacías en euskera y se hará una comparación con un listado de estas palabras en castellano. Se ha elegido este idioma por ser la lengua mayoritaria más cercana al euskera en el ámbito político y geográfico, si bien no en el lingüístico.


Características del euskera en relación a la creación de listas de palabras vacías

En euskera la construcción de los grupos nominales y verbales es compleja, debido a la declinación y a la gran cantidad de información que el verbo contiene, no sólo sobre el sujeto, sino también sobre el objeto directo y en el indirecto. Además, en la forma de tratamiento coloquial (hika), el verbo varía sus desinencias según el sexo de la persona a la que se habla.

La declinación es el conjunto de marcas del sintagma nominal para expresar la función sintáctica que desempeña. Los casos de las declinaciones se añaden a todo el sintagma nominal, concretamente al último elemento que cierra este sintagma: (nire ahizpa, mi hermana) + ari = nire ahizpari (a mi hermana).



La existencia de declinaciones hace que, en una lista de palabras vacías en euskera, no se puedan incluir las preposiciones, ya que su función va incluida en la declinación.
En esto podemos ver una primera dificultad para la creación de un listado de palabras vacías: los vocablos que corresponden a determinantes artículos no tienen un equivalente en vasco, por lo que este tipo de palabras no se pueden añadir al listado.

El verbo en euskera se divide en formas morfológicas finitas y no finitas. En el caso de las finitas los verbos se conjugan sintéticamente, y en el caso de las no finitas, se combina una forma verbal no finita con una forma verbal finita de un verbo auxiliar. El primer caso está claro que no permite su incursión en un listado de palabras vacías. En el caso del segundo tipo de verbos vemos un paralelismo con el castellano, que incluye los verbos auxiliares en estas listas.

El hika, el tratamiento verbal que varía según el sexo de a quién se habla, también es algo a tener en cuenta. Ejemplo:

A un hombre: Hik ogia ekarri duk (tú has traído el pan).
A una mujer: Hik ogia ekarri dun.

Esto implica tener presentes una mayor cantidad de términos que pueden entrar. Sin embargo, se trata de un tratamiento muy restringido por su uso coloquial y caído en desuso en algunas partes del País Vasco, por lo que quizás podría omitirse en la mayoría de los Sistemas de Recuperación de Información.


Listas de palabras vacías en castellano y su posible aplicación al euskera: comparación

La lista utilizada para el estudio se ha encontrado gracias al proyecto Snowball, que proporciona listas de palabras vacías en idiomas europeos. No ha sido posible encontrar una lista de palabras vacías en euskera, por lo que se ha decidió utilizar un listado ya existente para crear uno hipotético a partir de este.

Podemos observar que las palabras vacías se corresponden, sobre todo, a determinantes, adverbios, pronombres, verbos auxiliares y verbos de uso muy extendido. Usando este listado como ejemplo para crear uno equivalente en euskera, podemos ver ciertas particularidades que tienen que ver con los aspectos reseñados anteriormente.

El primero es la existencia de declinaciones. Esto reduce muchos de los términos que pueden entrar, como los artículos, ya que en euskera no existen. De todas maneras, es posible solucionar esto para mantener calidad a la hora de recuperar información: aplicar un procedimiento de stemming, de manera que se puedan reducir los términos a la raíz de las palabras, eliminando las declinaciones.

Por otra parte, hay que tener en cuenta el uso del hika. Como se puede ver, es una forma que no existe en castellano, aunque quizás el equivalente podría ser el uso del vos en el sentido de que se trata de una forma en desuso. El vos no aparece en la lista de palabras vacías, y esto es lo más recomendable en el caso del hika, dado que su uso es coloquial y poco extendido.

También existe un paralelismo, como se ha señalado, con el uso de verbos auxiliares. En la lista de palabras vacías podemos ver que éstos han sido añadidos, cosa que también se podría hacer en euskera. Teniendo en cuenta que la mayoría de los verbos vascos son morfológicamente no finitos, resulta de una gran ayuda a la hora de recuperar información.



Conclusión final

Las particularidades del euskera no son óbice para la creación de un listado de palabras vacías, y es posible utilizar los ya existentes en otros idiomas como un ejemplo a seguir. Sin embargo, por sus propias características de sintaxis, léxico y gramática, conviene tener en cuenta otros métodos de minería textual para que la recuperación de la información sea tan exitosa como en otros idiomas de mejor complejidad. El más recomendable es el stemming, sobre todo a la hora de recuperar términos con declinaciones. Además, este procedimiento es especialmente útil en el euskera, dado que su léxico está formado en gran parte por palabras derivadas de otras a través de sufijos.

En conclusión, podemos afirmar que el euskera, a pesar de su uso minoritario, es un idioma susceptible de ser sistematizado. Teniendo en cuenta que su publicación en formato electrónico es cada vez mayor, y que existen muchas iniciativas para su uso en todos los ámbitos de la sociedad –incluyendo el ámbito académico y científico-, es positivo que se estudien maneras de aplicación de este idioma a los Sistemas de Recuperación de Información, teniendo en cuenta sus características particulares y los estudios anteriormente realizados con otras lenguas con las que pueda tener similitudes.


Bibliografía

Proyecto Snowball [en línea]. Disponible en:
http://snowball.tartarus.org/algorithms/spanish/stop.txt (última consulta: 30 de Noviembre de 2009)

HIRU. Sintagmas de la oración: declinación. Disponible en:
http://www.hiru.com/euskara/euskara_01180.html (última consulta: 27 de Noviembre de 2009)

ARREGI, O. y FERNÁNDEZ, I. Clasificación de documentos escritos en euskara:
impacto de la lematización.
I Jornadas de Tratamiento y Recuperación de Información, JOTRI, Valencia. 2002. ISBN 2-9517408-0-8.

ZUBIRI, I. Euskal gramatika osoa. Bilbao: Didaktiker, 2000. 900 p. ISBN 978-84-88411-45-7.

Sobre el blog

Este blog ha sido creado como parte de un proyecto para dar a conocer las líneas de investigación en las que estoy trabajando. Sin embargo, también se irán colgando noticias, artículos y cualquier información de interés tanto para los profesionales de nuestra disciplina como para cualquier persona interesada. Confío en que, poquito a poco, pueda ir convirtiéndose en un instrumento para la comunicación entre todos.


Por ello, os agradezco muchísimo los comentarios, enlaces o cualquier cosa que queráis aportar, y espero que mi blog pueda os servir de ayuda y crezca con la colaboración de todos.

¡Un saludo!