Palabras vacías. Semejanza y diferencias entre el español y el checo

 PILAR DEL CAMPO PUERTA

Palabra vacía es aquella expresión, en cualquier idioma, que no aporta ningún dato o información para la búsqueda y recuperación de la información. Por tanto, van a ser filtradas del lenguaje natural, antes o después de que se realice la operación de búsqueda en la red.

Agrupadas estas palabras forman las denominadas Listas de palabras vacías, compuestas por artículos, preposiciones, pronombres, conjunciones, verbos auxiliares… considerados todos ellos términos de indización pobre, lo que hace que al ser identificados, se eliminen inmediatamente. Ahora bien, si la expresión se encierra entre comillas (“palabra”), las palabras vacías dejan de ser ignoradas.

Uno de los primeros en detectar la repercusión de estas palabras en la recuperación de la información fue Hans Meter Luhn, quien acuñó el nombre genérico de stop words para definir al listado.

Puede decirse que las listas de palabras vacías estás compuestas entre 250 y 400 términos, de modo que cuanto más genérica sea la colección, de menor número de palabras vacías constará la lista y viceversa. Será al contrario cuando la colección es más específica. Por ejemplo, el término “ciencias” será considerado palabra vacía en una colección sobre Ciencias.

El uso de un algoritmo de stemmnig, o proceso de reducción morfológica, cuya función básica es “identificar conjuntos de palabras relacionadas semánticamente, de manera que se recuperen todos los documentos que contengan alguna de dichas palabras”, permite reducir la dependencia de una lista de palabras vacías a filtrar.

Las listas de palabras vacías se deben ajustar a cada colección en particular y además, debemos perseguir un poder de resolución alto, es decir, eliminar las palabras vacías que no nos sirvan en un SRI.

PALABRAS VACIAS EN ESPAÑOL

Las palabras que los motores de búsqueda ignoran en español por considerarlas vacías son: artículos determinados e indeterminados, preposiciones, conjunciones, adverbios, pronombres y verbos auxiliares en todos sus tiempos.

Se presentan sin acentos porque para la búsqueda de información no es significativo dicho signo diacrítico, por muy importante que sea en su función fonética.

En algunos casos, la forma más rápida de realizar una búsqueda es eliminando las palabras vacías al introducir la consulta.

Lo más común es que en español se utilice Google para la realización de consultas.

 

 PALABRAS VACIAS EN CHECO (Česká stopslova) 

V češtině mezi stopslova mohou být zařazeny např. spojky (a, aby, ale, ani, …), předložky (na, pro, u, …), zájmena (její, my, on), málovýznamová slovesa (být, mít).

En checo, entre palabras vacías pueden encontrarse, por ejemplo, las conjunciones (y, que, pero, ni,…) las preposiciones (en, para,  cerca,…), los pronombres (su,  nosotros,  él), los verbos auxiliares (ser, tener).

 

Z českých vyhledávačů se k ignorování slov hlásí pouze Jyxo (zda to dělá Seznam nebo Morfeo, není známo), a tak jsem zkusil, která slova Jyxo v dotazu ignoruje.

De los buscadores checos que ignoren palabras se puede citar a Jyxo (no se sabe si Seznam o Morfeo lo hacen).

 

Vyhledávač Jyxo v některých dotazech určitá stopslova ignoruje.

El buscador Jyxo ante cualquier pregunta establecida ignora palabras vacías.

 


Lista de palabras en español con traducción en checo

un = jeden (adj. num.)
una = jedna (adj. num.)
unas = n
ěkolik (adj. num.)
unos = n
ěkolik (adj. num.)
uno = jedno (adj. num.)
sobre = na, o (asunto) (3)
todo = v
šechen, všechno
también = také
tras = po, za
otro = n
ějaký
algún = n
ějaký

alguno = některý
alguna = n
ějaká
algunos = n
ějaki, několik
algunas = n
ějaké, několik
ser = být
es = je
soy = jsem
eres =
jši
somos = jsme
sois = jste
estoy = jsem
está = je
estamos = jsme
estais = jste
estan = jsou
como = jak
en = v, ve, na
para = pro (1)
atras = vzadu
porque = proto
že
por qué = pro
č
estado = byl
estaba = byl, byla, bylo
ante =
před
antes
= dříve, dřív
siendo =
když je, jestli je
ambos = oba
pero = ale
por = pro, za, po, kv
ůli, u
poder = moct
puede = m
ůže
puedo = m
ůžu
podemos = m
ůžeme
podeis = m
ůžete
pueden = m
ůžou
fui = byl-a jsem
fue = byl, byla, bylo
fuimos = byli-y jsme
fueron = byli-y jsou
hacer = d
ělat
hago = d
ělám
hace = d
ělá
hacemos = d
ěláme
haceis = d
ěláte
hacen = d
ělají
cada = kazdý, kazdá, kazdé
fin = konec
incluso = dokonce
primero = první

de= od (2)

desde = od
conseguir = získat, dostat
consigo = dostám
consigue = dostá
consigues = dosta
š
conseguimos = dostáme
consiguen = dostají
ir = jít (a pie), jet (vehículo)
voy = jdu, jedu
va = jde, jede
vamos = jdeme, jedeme
vais = jdete, jedete
van = jdou, jedou
vaya = bud’te, m
ěj se...
gueno = dobrý, dobré
ha = je
tener = mít
tengo = mám
tiene = má
tenemos = máme
teneis = máte
tienen = mají
el (art.)=
NO HAY
la = NO HAY
lo = NO HAY
las = NO HAY
los = NO HAY
su = jeho, její
aqui = tady
mio = m
ůj, moje (neutro)
tuyo = tv
ůj, tvoje (neutro)
ellos = oni
ellas = ony
nos = nás
nosotros = my
vosotros = vy
vosotras = vy
si = jestli, jestlize
dentro = za, do, u, ve, v
solo = jen, jenom
solamente = jen, jenom
saber = v
ědet
sabes = vi
š
sabe = ví
sabemos = víme
sabeis = víte
saben = v
ědejí
ultimo = poslední
largo = dlouhý, dlouhé
bastante = sta
či
haces = d
ěláš
muchos = mnohi

aquellos = tamti
aquellas = tamty
sus = jejich
entonces = tehdy
tiempo =
čas
verdad = pravda
verdadero = opravdový/é
verdadera = opravdová

cierto = nějaký, nějaké
ciertos =
nějaki
cierta =
nějaká
ciertas =
nějake
intentar = zkusit
intento = zkusím
intenta = zkusí
intentas = zkusí
š
intentamos = zkusíme
intentais = zkusíte
intentan = zkusí
dos = dvá, dv
ě
bajo = dole
arriba = naho
ře
encima = na, nad
usar =
užít, použít
uso =
užím
usas=
užíš
usa =
uží
usamos =
užíme
usais =
užíte
usan =
uží
emplear =
užít, použít
empleo =
užím
empleas =
užíš
emplean=
uží
empleamos=
užíme
empleais=
užíte
valor = hodnota
muy = velmi, mnoho
era = byl-a jsem
eras = byl-a jsi
eramos = byli-y jsme
eran = byli, byly
modo = zp
ůsob
bien = dob
ře
cual = který, která, které
cuando = kdy
donde = kde
mientras = zatímco
quien = kdo
con = s, se
entre = mezi
sin = bez
trabajo = pracuju
trabajar = pracovat
trabajas = pracuje
š
trabaja = pracuje
trabajamos = pracujeme
trabajais = pracujete
trabajan = pracujou
podria = mohl-a by
podrias = mohl-a by
š

podriamos = mohli/y bychom
podrian = mohli/y by podriais = mohli/y bychte

yo  = já
aquel = tamten

 


Lista de palabras vacías en checo con traducción en español

dnes = día
cz = abreviatura de Chequía
timto = con este
bude
š  = serás, estarás
budeme = fuimos, estuvimos
byli = fueron, estuvieron
jse
š = eres, estás
m
ůj = mi
svým = a su
ta = esa (adj)
tomto = en este
tohle = esto (adj. neutro)
tuto = a esa
tyto = estas
jej = le, lo
zda = si
pro
č = por qué
máte = teneis, (Vd.) tiene
tato = esta
kam = a donde
tohoto = a éste
kdo = quien
kteri = cuáles (masculino)
mi = me, a mi
nám = para nosotros
tom = en ese
tomuto = para éste
mít = tener, haber
ni
č = nada
proto = por eso
kterou = a cuál (femenino)
byla = era, estaba (3ª pers. femenino)
toho = a ese
proto
že = porque
asi = sobre, más o menos
ho = a él, a ello, lo
nasi = nuestros
napi
šte = escribe (imper.)
ze = de, desde

coz = lo que, lo cual
tím = con ese
takze = de modo que
svych = en sus
její = su, suyo, sus, de ella, la suya
svymi = con sus
jste = sois, estáis
a = y

a jak! = ¡mucho!
tu = a esa

bylo = era (neutro)
kde = donde
ke = a, al, adonde
práv
ě = exactamente, ni más ni menos
ji = a ella

nad = encima de, sobre
nejsou = no son
či = de quien
pod = debajo de, bajo
téma = tema
mezi = entre
p
řes = por encima de
ty = tú
pak = después, luego
vám = a vosotros
ani = ni
kdy
ž = cuando, si, en caso de que
v
šak = sin embargo
ne = no
jsem = soy
tento = este
článku = del artículo
články =  para el artículo
aby = que, para que
jsme = somos
p
řed = antes de, delante de
ptá = pregunta (él, ella)

jejich = con sus
byl = era, estaba (3ª pers. masculino)
je
ště = todavía
a
ž = cuando, hasta
bez = sin
také = también
pouze = sólo, solamente
první = primero
vase = vuestra/s
která = cuál (femenino)
nás = a nuestro (cosa)
nový = nuevo (masculino)
tipy = tipos, modelos
pokud = mientras
m
ůže = puede
strana = parte, lado, página
jeho = su (masculino)
své = su, vuestro, a mi
jiné = distinto (neutro)
zprávy = noticias
nové = nuevo (género neutro)

vás = vuestro
jen = sólo, solamente
podle = según
zde = aquí
članek = artículo de (3) revista
uz = ya
email = email, electroniká posta
být = ser, estar
více = más
bude = será
ji
ž = ya, más
ne
ž = antes que, que no
který = cuál (masculino)
by = sea, estuviera

které = cuál (neutro)
co = qué, eso
nebo = o
ten = ese (adj.)
tak = así, pues, entonces
má = tiene
p
ři = durante, a partir de
od = de, desde (2)
po = a, después de, tras, por
jsou = son
jak = como
dal
ší = otro, siguiente
ale = pero
si = me, te, se, nos, os
ve = en
to = eso
jako = como
za = dentro de (tiempo)
zp
ět = de vuelta
že = que
do = a, hasta
pro = para (1)
je = es, está, hay
na = en, encima de, sobre tedy = entonces
teto = de esa

není = no es

Nota (1) (2) (3) indican las palabras vacías que se han considerado en ambas listas y su relación en los ejemplos, siendo (1) para, (2) de, (3) sobre.

A tenor de las siguientes  listas de palabras vacías se pueden hacer búsquedas en Google 

Jyxo y comparar los resultados.     




BIBLIOGRAFÍA

http://www.gedlc.ulpgc.es/docencia/seminarios/rit/Analisis_lexico/tsld004.htm

http://es.wikipedia.org/wiki/Palabras_vac%C3%ADas

http://biblio.uah.es/iBistro_helps/Castellano/tip7104.html

http://www.seznam.cz/  -  (Es un buscador checo, de los más conocidos y usados en la República Checa. Ofrece, al igual que Yahoo o Google,  multitud de servicios: noticias, correo electrónico, búsquedas, enlaces clasificados por secciones (cultura, la tienda en casa, prensa, viajes, etc.). Pero además, entre otras secciones peculiares tiene un diccionario multilingüe (http://slovnik.seznam.cz/) del checo al inglés, alemán, francés, italiano, español y ruso ; y viceversa.

http://jyxo.cz/ - (Buscador checo, menos usado que Sezznam, pero donde se han realizado varias búsquedas para el presente trabajo)

ČECHOVÁ, Elga ; TRABELSIOVÁ, Helena ; PUTZ, Harry. ¿Quiere usted hablar checo? = Chcete mluvit česky? : checo para principiantes . Liberec: Harry Putz, 1994. 397 p. ; 21 cm. ISBN 80-901119-6-3.


NOTA:
Recuerda que siempre hay que citar la fuente de información. 
Para citar este post, puedes hacerlo de la siguiente manera, por el método Harvard:

Apellido, Inicial del nombre (Año de publicación): "Título de la entrada del post del blog". Título del blog en cursiva, día y mes del postDisponible en: URL del recurso [Consulta: día-mes-año].

Comentarios