PILAR DEL CAMPO PUERTA
Palabra vacía es aquella expresión, en cualquier idioma, que no aporta ningún dato o información para la búsqueda y recuperación de la información. Por tanto, van a ser filtradas del lenguaje natural, antes o después de que se realice la operación de búsqueda en la red.
Agrupadas estas palabras forman las denominadas Listas de palabras vacías, compuestas por artículos, preposiciones, pronombres, conjunciones, verbos auxiliares… considerados todos ellos términos de indización pobre, lo que hace que al ser identificados, se eliminen inmediatamente. Ahora bien, si la expresión se encierra entre comillas (“palabra”), las palabras vacías dejan de ser ignoradas.
Uno de los primeros en detectar la repercusión de estas palabras en la recuperación de la información fue Hans Meter Luhn, quien acuñó el nombre genérico de stop words para definir al listado.
Puede decirse que las listas de palabras vacías estás compuestas entre 250 y 400 términos, de modo que cuanto más genérica sea la colección, de menor número de palabras vacías constará la lista y viceversa. Será al contrario cuando la colección es más específica. Por ejemplo, el término “ciencias” será considerado palabra vacía en una colección sobre Ciencias.El uso de un algoritmo de stemmnig, o proceso de reducción morfológica, cuya función básica es “identificar conjuntos de palabras relacionadas semánticamente, de manera que se recuperen todos los documentos que contengan alguna de dichas palabras”, permite reducir la dependencia de una lista de palabras vacías a filtrar.
Las listas de palabras vacías se deben ajustar a cada colección en particular y además, debemos perseguir un poder de resolución alto, es decir, eliminar las palabras vacías que no nos sirvan en un SRI.
PALABRAS
VACIAS EN ESPAÑOL
Las palabras que los motores de búsqueda ignoran en
español por considerarlas vacías son: artículos determinados e indeterminados,
preposiciones, conjunciones, adverbios, pronombres y verbos auxiliares en todos
sus tiempos.
Se presentan sin acentos porque para la búsqueda de
información no es significativo dicho signo diacrítico, por muy importante que
sea en su función fonética.
En algunos casos, la forma más rápida de
realizar una búsqueda es eliminando las palabras vacías al introducir la
consulta.
Lo más común es que en español se utilice Google para la realización de consultas.
PALABRAS
VACIAS EN CHECO (Česká
stopslova)
V češtině mezi stopslova mohou být zařazeny např. spojky (a,
aby, ale, ani, …), předložky (na, pro, u, …), zájmena (její, my, on), málovýznamová slovesa (být, mít).
En checo, entre palabras vacías pueden
encontrarse, por ejemplo, las conjunciones (y, que, pero, ni,…) las
preposiciones (en, para, cerca,…), los
pronombres (su, nosotros, él), los verbos auxiliares (ser, tener).
Z českých vyhledávačů se k ignorování slov hlásí pouze
Jyxo (zda to dělá Seznam nebo Morfeo, není známo), a tak jsem zkusil, která
slova Jyxo v dotazu ignoruje.
De los buscadores checos que ignoren palabras se puede
citar a Jyxo (no se sabe si Seznam o Morfeo lo hacen).
Vyhledávač Jyxo v některých dotazech určitá stopslova ignoruje.
El buscador Jyxo ante cualquier pregunta establecida ignora palabras
vacías.
Lista de palabras en español con traducción
en checo
un = jeden (adj. num.) alguno = některý |
de= od (2) desde = od aquellos = tamti |
cierto = nějaký, nějaké podriamos = mohli/y bychom yo = já |
Lista de palabras vacías en checo con
traducción en español
dnes = día coz = lo
que, lo cual a jak! =
¡mucho! |
bylo = era
(neutro) nad =
encima de, sobre jejich =
con sus |
vás =
vuestro které =
cuál (neutro) není = no
es |
Nota: (1) (2) (3) indican las palabras vacías que se han considerado en ambas listas y su relación en los ejemplos, siendo (1) para, (2) de, (3) sobre.
A tenor de las siguientes listas de palabras vacías se pueden hacer búsquedas en Google
y Jyxo y comparar los resultados.
BIBLIOGRAFÍA
http://www.gedlc.ulpgc.es/docencia/seminarios/rit/Analisis_lexico/tsld004.htm
http://es.wikipedia.org/wiki/Palabras_vac%C3%ADas
http://biblio.uah.es/iBistro_helps/Castellano/tip7104.html
http://www.seznam.cz/ - (Es
un buscador checo, de los más conocidos y usados en la República Checa.
Ofrece, al igual que Yahoo o Google,
multitud de servicios: noticias, correo electrónico, búsquedas, enlaces
clasificados por secciones (cultura, la tienda en casa, prensa, viajes, etc.).
Pero además, entre otras secciones peculiares tiene un diccionario multilingüe
(http://slovnik.seznam.cz/) del checo al inglés, alemán, francés, italiano,
español y ruso ; y viceversa.
http://jyxo.cz/
- (Buscador checo, menos usado que Sezznam, pero donde se han realizado varias
búsquedas para el presente trabajo)
ČECHOVÁ, Elga ; TRABELSIOVÁ, Helena ; PUTZ, Harry. ¿Quiere usted hablar
checo? = Chcete mluvit česky? : checo para principiantes . Liberec: Harry Putz,
1994. 397 p. ;
Recuerda que siempre hay que citar la fuente de información. Para citar este post, puedes hacerlo de la siguiente manera, por el método Harvard:
Comentarios
Publicar un comentario