Cuáles son y qué hacen los robots de Google

Marelys Torres junio 2, 2017 0 Comentarios

podcast

¿Sabes cuáles son y qué hacen los robots de Google? En www.posicionamiento-web-salamanca.com queremos hablarte de estos rastreadores que utiliza el buscador para encontrar páginas nuevas e indexarlas en los resultados de búsqueda. Si quieres saber cómo funcionan, además de cómo permitir y bloquearles el acceso a tu sitio, no te puedes perder este post.

¿Qué es Googlebot

El robot de Google o Googlebot es el rastreador principal del buscador. Consiste en un programa que se encarga de analizar los sitios web, encontrar páginas nuevas o actualizadas para indexarlas en la base de datos.

Es un concepto del que escucharás hablar mucho en SEO, porque estos robots determinarán si tu sitio es relevante. Por lo tanto, deciden si se muestra en los resultados de búsqueda y en qué posición.

El rastreo inicia con una lista de direcciones URL que han sido analizadas con anterioridad, a las cuales se suman los datos de sitemaps proporcionados por webmasters. A medida que el robot se mueve por cada sitio, encontrará enlaces que irá agregando a la lista.

Los robots de Google rastrean miles de millones de páginas a gran velocidad. Descargan copias y las almacenan para indexarlas y mostrarlas en las búsquedas. Esto lo hacen siguiendo el algoritmo de Google, en el cual influyen más de 200 factores.

Al permitir que los robots rastreen tu sitio, le estás diciendo a Google que quieres estar en los resultados de búsqueda. No debes olvidar enviar el sitemap del sitio para facilitar el trabajo de los bots. Sin embargo, estas acciones no son suficientes para conseguir un buen posicionamiento. Debes trabajar en publicar contenido de calidad y tener estrategias de SEO on-page y off-page para ganar visibilidad y popularidad. De esta manera es más probable que los robots de búsqueda de Google encuentren tu sitio relevante.

También tienes la posibilidad de limitar el acceso de los robots para que no indexen el contenido que quieres mantener en privado. Hay varios métodos con los que puedes denegar el acceso: a través del archivo robots.txt, utilizando meta etiquetas o el .htaccess.

¿Cómo ven los robots una página web?

Los robots de Google y los humanos no ven los sitios y páginas web de la misma manera. Los bots no ven una página completa, sino los distintos elementos que la conforman. Aquellos elementos que no vean, no serán indexados por Google.

Post: Google cambiará el seguimiento de los enlaces nofollow

Algunas situaciones en las que los rastreadores no pueden ver la página o alguno de sus elementos son errores en los códigos, enlaces incorrectos o por las instrucciones del archivo robots.txt, entre otros.

¿Cuáles son y qué hacen los robots de Google

Mencionamos que Googlebot es el robot principal, con el tiempo ha aumentado el número de rastreadores de Google. En total son nueve bots que trabajan para el buscador analizando cada sitio web y los enlaces.

Estos pueden estar programados para hacer análisis a profundidad de un sitio o buscar actualizaciones. Otros ejercen funciones más específicas como Googlebot image, mobile o Adsbot.

Googlebot

Se encarga de rastrear los sitios webs para indexarlos. Además es capaz de extraer información de archivos PDF, DOC, XLS, PPT, etc. A medida que aumenta la relevancia del sitio, también lo hace la frecuencia de rastreo.

No obstante es posible modificar la frecuencia con la que Googlebot analiza el sitio. Esto lo puedes hacer a través de Google Search Console, indicando si deseas aumentar o disminuir la periodicidad con la que se evalúa tu sitio.

Feedfetcher

Feedfetcher es un bot que registra los feed RSS o Atom que añaden los usuarios a servicios como el lector de noticias Google Play Kiosko. Sin embargo, no los indexa en las búsquedas. Este rastreador no sigue vínculos como hace el resto, sino las solicitudes que hacen los usuarios a ciertos servicios o aplicaciones.

Este robot sigue las indicaciones de los usuarios, por lo tanto no obedece los mandatos del archivo robots.txt. En cambio, recupera los feeds solo cuando la persona utiliza un servicio o aplicación que utiliza Feedfetcher.

Gooblebot News

Es el robot de Google para noticias que rastrea sitios web de noticias o que actualizan el contenido con mucha frecuencia.

Puedes utilizar el archivo robots.txt para bloquear Google Noticias si el contenido no es adecuado para esta página. De manera que evitas aparecer en la búsqueda de Google, en Google Noticias o en ambas.

Si bloqueas el acceso de Googlebot la página que indiques no aparecerá en ninguno de los resultados. Si solo bloqueas Googlebot-News, no aparecerá en Google Noticias.

Post: Conoce el Informe de Experiencia en la Página

Googlebot images

Se encarga de rastrear las imágenes del sitio para agregarla al índice de imágenes del buscador. Para controlar el acceso de este bot debes utilizar el agente de usuario “Googlebot-Image” en las meta etiquetas o el archivo robots.txt.

Puedes indicarle a Google que no quieres que ninguna de las imágenes del sitio aparezcan en el índice, eliminar una en específico o todos los archivos que tengan determinada extensión.

Si utilizas Googlebot como agente de usuario eliminarás todas las imágenes de las búsquedas web y de Google Images.

Googlebot Videos

En este caso, el bot se encarga de localizar los vídeos que se encuentran en un sitio web. El user agent es “Googlebot-Video”. Con este nombre puedes controlar cuáles archivos de vídeo puede ver e indexar el rastreador y cuáles no

Googlebot mobile

Este rastreador tiene la particularidad de utilizar dos user agents: Mediapartners-Google y Mediapartners. Se encarga de rastrear los sitios web para indexarlos en la página de resultado de los móviles. Estos dos agentes están dirigidos a los móviles tradicionales y a los smartphones.

Google Adsense

El rastreador de Google Adsense evalúa los sitios web para determinar el tipo de contenido que publican y así transmitir en ellos anuncios pertinentes. Obedece las instrucciones del archivo robots.txt y solo accede a las páginas que muestran anuncios de Google.

El user agent que se utiliza para evitar el acceso del robot al sitio o alguna página es “Mediapartners-Google”.

Google Adsbot

Revisa las páginas de aterrizaje que se utilizan en campañas de Google Adwords. Se controla el acceso utilizando el nombre “AdsBot-Google” en el rotot.txt o las meta etiquetas.

El rastreador se encarga de evaluar la usabilidad de la landing page, el contenido original y relevante y la facilidad de navegación.

Cómo funcionan los robots de búsqueda de Google

Veamos cómo funciona Googlebot y el resto de los rastreadores del buscador. Podemos resumir su trabajo en tres pasos: revisar la lista de páginas que deben rastrear, escanearlas y enviarlas a Google para su indexación.

La lista viene dada por el algoritmo de Google, al igual que la frecuencia con la que se rastreará cada página. También indica la profundidad con la que verá cada una de las páginas.

Post: Redacción SEO: ¿Cómo optimizar textos para los buscadores?

Los robots acceden a los sitios desde varios equipos para no colapsar el ancho de banda del servidor. Esto ayuda a optimizar el rendimiento.

¿Cómo controlar el acceso de los robots?

Como mencionamos al comienzo es posible bloquear robots de Google a través de distintos métodos. Se pueden dar las instrucciones a través del archivo robots.txt. Este se encarga de controlar como los rastreadores interactúan con las páginas de tu sitio.

Si quieres permitirle que rastree todas las páginas del sitio no es necesario el archivo. Si quieres bloquear el acceso a todo el sitio utiliza el agente de usuario Googlebot, así ninguno de los bots podrá acceder a ninguna de las páginas. Utiliza los agentes de usuario específicos para bloquear funciones específicas.

El archivo se ubica en el directorio principal del servidor. Si la ubicación no es correcta, los robots no obedecerán las instrucciones que les has dado. También puedes limitar el acceso solo a ciertas páginas y no a todo el sitio.

Otra forma de controlar el acceso es a través de las meta etiquetas robots estas también te permiten dar instrucciones concretas a cada uno de los bots. La fórmula para hacerlo es la siguiente:

< meta name=”robots” content=”….”>

En “robots” especificas el nombre del rastreador al cual haces referencia y después de content, indicas la instrucción. Por ejemplo, noindex, nofollow, nosnippet, noodp, noarchive.

Un ejemplo de cómo quedaría esta meta etiqueta en tu sitio si quieres dar instrucciones a Google Adsbot, quedaría de la siguiente manera:

Para permitir que rastree la página y la indexe:

< meta name=”AdsBot-Google” content=”index”>

Si no quieres que la indexe:

< meta name=”AdsBot-Google” content=”noindex”>

Si quieres permitir que la indexe y siga los enlaces que hay en ella

< meta name=”AdsBot-Google” content=”index, follow”>

Los robots de Google te pueden ayudar a ganar visibilidad y mostrar el contenido que te interesa que le llegue a los usuarios a través de las búsquedas. Para usarlos a tu favor hay que entender qué son y cómo funcionan.

Esperamos que te haya quedado más claro qué hacen los robots de Google. Si tienes alguna duda puedes escribirnos en los comentarios. Y si necesitas ayuda para mejorar tu posicionamiento web, consulta nuestros servicios y pide presupuesto gratis.