Los motores de búsqueda basados en crawlers poseen bases de
datos gigantescas, las cuales contienen información de las páginas analizadas en
la Web. Esta información es recogida a través de un programa denominado crawler
(robot o spider), el cual se encarga de visitar los servidores de todo el mundo
y de mostrar los resultados de acuerdo a un porcentaje de relevancia.
Es importante entonces conocer como los robots de los motores de búsqueda
rastrean, indexan y clasifican las páginas que se encuentran en la web, de esta
forma podremos preparar nuestro sitio web para que sea dado de alta de las bases
de datos y no solo que sea listado una vez, sino que podamos mantener en los
primeros puestos en los resultados de estos motores.
Técnica de Rastreo (CRAWLING)
Conocer sobre este tipo de técnicas nos permitirá saber los factores que tienen
en cuanta los robots para rastrear nuestras páginas, lo cual es muy importante
si se quiere alcanzar una buena clasificación.
-
Rastreo profundo: el motor de búsqueda lista muchas
páginas de un sitio, aún si no están explícitamente registradas en él.
-
Soporte de marcos: es una característica que permite a
los motores de búsqueda seguir los enlaces a través de los marcos (frames).
-
Mapas de imágenes: son enlaces a otras páginas a
través de imágenes.
-
Robots.txt: es un archivo de texto que permite indicar
que páginas no deben ser indexadas en el sitio.
-
Meta índice robot: indica que páginas no deben ser
indexadas pero este es a través de una instrucción del código HTML de la página.
-
Rastreo por enlaces de popularidad: la popularidad de
una página se detecta analizando cuantos enlaces desde otros sitios referencian
esta página. Este es un factor que tiene en cuenta el robot para listar el sitio
pero no quiere decir que si tiene un porcentaje de popularidad alto, sea
listado. Son muchos los factores que intervienen para lograr un posicionamiento
global.
-
Aprende por frecuencia: el motor de búsqueda aprende
con que frecuencia se modifican las páginas, para estimar el tiempo en el que
volverá a visitarlas el crawler.
-
Inclusión pagada: muestra si el motor de búsqueda
ofrece un programa donde se pueda pagar para garantizar que las páginas de un
sitio se incluyan en el índice. Esto no es lo mismo que colocación pagada, la
cual además de la inclusión en el índice, garantiza una posición en particular
en relación a un término de búsqueda.
Técnicas de indexación
Las técnicas de indexación indican lo que se indexa cuando el
motor de búsqueda rastrea la página.
-
Texto completo: indexan todo el texto visible en el
cuerpo de la página, aunque algunos no indexan algunas palabras (stop words) o
las excluyen por parecer spam.
-
Stop words: algunos motores de búsqueda omiten
palabras cuando indexan la página o al menos no las consideran durante la
consulta. Estas palabras son excluidas para ahorrar espacio o aumentar la
rapidez de búsqueda, ya que son palabras que aparentan ser spam.
-
Meta descripción y meta palabras claves: son meta
índices que describen el contenido de la página y los términos con los que se le
asocia para la búsqueda.
-
Texto alternativo y comentarios: el texto alternativo
es aquel que se asocia con una imagen para describirla brevemente, el texto
alternativo es parte del lenguaje HTML. Los comentarios suelen ser una anotación
sobre la página y son un tipo de meta índice.
Técnicas de clasificación
La mayoría de los motores de búsqueda usan la ubicación y la
frecuencia de las palabras claves en las páginas como la base de clasificación
en respuesta a una consulta. Además pueden ser relevantes algunos factores que
estimulan la clasificación, tales como:
Estímulo de clasificación por meta índices: algunos
motores de búsqueda suelen dar un estímulo a las páginas que contienen meta
índices si coinciden con los términos de búsqueda.
Estímulo de clasificación por enlaces de popularidad: los motores de
búsqueda pueden determinar la popularidad de una página por el número de enlaces
que existen a ella desde otras páginas.
Estímulo de clasificación por aciertos directos: es un sistema que mide
las preferencias de los usuarios sobre la lista de resultados que le presentan
para refinar la relevancia de la clasificación.
Técnicas de Spam
El spam es el uso de técnicas para obtener una mejor
clasificación, estas técnicas están prohibidas por la mayoría de los motores de
búsqueda, ya que atentan contra la eficiencia de sus algoritmos.
-
Meta refrescante: algunos propietarios de sitios crean
páginas objetivo (target pages) que automáticamente conducen a los visitantes a
diferentes páginas dentro del sitio. El índice meta refrescante es una de las
formas de hacerlo. Algunos motores de búsqueda no indexarán páginas con un rango
de meta refrescantes alto, o redireccionadas.
-
Texto Invisible: es la técnica de colocar texto en una
página del mismo color que el fondo, haciéndolo invisible a la vista.
-
Texto pequeño: es una técnica que coloca texto sobre
una página en un tamaño de fuente muy pequeño. Las páginas donde predomina el
texto pequeño se confunden con spam, o en su defecto no se indexa el texto
pequeño.
Comentarios y preguntas: Alexandra Ruíz Gaona
|