INICIONOTICIAS ➤ Cómo Google indexa y rastrea las páginas web

Cómo Google indexa y rastrea las páginas web

Rastreo e indexación

El viaje de una búsqueda empieza antes de escribir una consulta. Primero se deben rastrear e indexar billones de documentos de la Web.

Cómo funciona la búsqueda

Estos procesos sientan las bases sobre cómo se recopila y organiza la información de la Web para que podamos ofrecerte los resultados más útiles. Nuestro índice contiene más de 100.000.000 gigabytes, y hemos necesitado más de un millón de horas de computación para crearlo. Para obtener más información sobre las bases, puedes ver este breve vídeo.

Cómo se encuentra la información con el rastreo de contenido

Google utiliza un software denominado “rastreador web” para descubrir páginas web de dominio público. El rastreador más conocido es “Googlebot”. Los rastreadores consultan las páginas web y siguen los enlaces que aparecen en ellas, al igual que haría cualquier usuario al navegar por el contenido de la Web. Pasan de un enlace a otro y recopilan datos sobre esas páginas web que proporcionan a los servidores de Google.

El proceso de rastreo comienza con una lista de direcciones web de rastreos anteriores y de sitemaps proporcionada por los propietarios de sitios web. Al acceder a estos sitios web, nuestros rastreadores buscan enlaces a otras páginas para visitarlas. El software presta especial atención a los nuevos sitios, a los cambios en los sitios actuales y a los enlaces inactivos.

Los programas informáticos determinan qué sitios rastrear, con qué frecuencia y cuál es el número de páginas que se deben explorar en cada sitio. Google no acepta pagos para rastrear un sitio con más frecuencia. Nos preocupamos más por tener los mejores resultados posibles porque, a largo plazo, es lo mejor para los usuarios y también para nosotros.

Cómo se organiza la información con la indexación del contenido

La Web es como una biblioteca pública cada vez mayor con miles de millones de libros y sin un sistema de archivo. En resumen, Google recopila las páginas durante el proceso de rastreo y, a continuación, crea un índice, por lo que sabemos exactamente dónde tenemos que buscar. Al igual que el índice del final de un libro, el índice de Google incluye información sobre las palabras y dónde aparecen. Cuando haces una búsqueda, en el nivel más básico, nuestros algoritmos buscan los términos de consulta en el índice para encontrar las páginas adecuadas.

A partir de ese momento, el proceso de búsqueda se vuelve mucho más complejo. Al buscar el término “perros” , no quieres que aparezca una página que incluya la palabra “perros” cientos de veces. Probablemente, tu objetivo será buscar imágenes, vídeos o una lista de las razas. Los sistemas de indexación de Google tienen en cuenta muchos aspectos diferentes de las páginas, como cuándo se publicaron, si contienen fotos y vídeos, etc. El gráfico de conocimiento nos permite ir más allá de la concordancia de palabras clave para entender mejor las personas, los lugares y las cosas que te interesan.

Opciones para propietarios de sitios web

La mayoría de sitios web no necesita establecer restricciones para rastrear, indexar o publicar contenido, por lo que sus páginas pueden aparecer en los resultados de búsqueda. Dicho esto, los propietarios de los sitios tienen muchas opciones sobre cómo Google rastrea e indexa sus sitios a través de las Herramientas para webmasters de Google y un archivo llamado “robots.txt“. Con este archivo, los propietarios de sitios pueden indicar que prefieren que Googlebot no rastree sus sitios o bien proporcionar instrucciones más específicas para que se procesen las páginas de sus sitios.

Los propietarios de los sitios tienen opciones para indexar el contenido en función de la página rastreada. Por ejemplo, pueden optar por que sus páginas aparezcan sin un fragmento de texto (el resumen de la página que se muestra debajo del título en los resultados de búsqueda) o una versión en caché (una versión alternativa guardada en los servidores de Google en caso de que la página publicada no esté disponible). Asimismo, los webmasters pueden optar por integrar la búsqueda en sus propias páginas mediante la búsqueda personalizada de Google.

Fuente: Google

 

En DisfranchWeb te ofrecemos los mejores planes para posicionar tu web en los primeros puestos de Google