Hace unos días Google anunció oficialmente que el GoogleBot dejará de obedecer a directivas como noindex o nofollow del archivo robots.txt. Como el mastodonte de los motores de búsqueda sabe la de trabajo que llevará a los webmasters ponerse al día con la nueva regla, ha dado hasta el 1 de septiembre para adaptarse al cambio.
Para poder entender este nuevo cambio, vamos a analizar el motivo de esta decisión y las alternativas a la etiqueta noindex en nuestro robots.txt. ¿Preparados? ¡Al lío!
¿Por qué?
Según ha afirmado el propio Google, esta nueva normativa, que también afecta a etiquetas como la de nofollow, es su modo de pronunciarse ante las prácticas no oficiales del SEO.
Para ser exactos las palabras de Google han sido: “Con el fin de mantener un ecosistema saludable y preparar futuros lanzamientos de código abierto, retiramos todos los códigos que manejan reglas no admitidas y no publicadas (como noindex) el 1 de septiembre de 2019.”
En resumidas cuentas, la razón por la que no se admitirá la directiva noindex robots.txt es porque no es una directiva oficial. En el pasado, Google ha apoyado esta directiva robots.txt, pero este ya no será el caso.
¿Existen alternativas al noindex?
Como nos tiene acostumbrados, Google siempre da una de cal y otra de arena, aunque a veces no se sepa bien cuál es la buena. Algunas de las alternativas al noindex que el rey de los motores enumeró son bastante populares. Seguro que actualmente estéis usando alguna de ellas.
Noindex como meta etiquetas
Suena raro, lo sé. Una de las alternativas que nos ofrece Google al noindex en el archivo robots.txt es ponerlo como etiquetas meta. Estas son admitidas tanto en los encabezados de respuesta HTTP como en HTML.
El método «noindex» es útil si no podemos acceder a la raíz del servidor, puesto que nos permite controlar el acceso a cada una de las páginas de nuestro sitio web.
No podemos olvidarnos de que esta directiva es la más efectiva para eliminar una URL del índice, ya que en cuanto las arañas la ven, la eliminan de su lista.
Códigos de estado HTTP 404 y 410
En este blog ya hemos tratado los códigos de estado más comunes. Por norma general hay que evitarlos a toda costa, pero ahora… Google los recomienda. ¿Se ha vuelto loco?
Google recomienda utilizar los códigos de estado 404 y 410 como alternativa al noindex en el robots.txt. El motivo no es otro que dichos códigos de estado le dan a entender a las arañas que la página no existe. Una vez que se rastrean y procesan dichas URLs, las arañas las eliminarán del listado.
Disallow en el archivo robots.txt
Los motores de búsqueda solo indexan las páginas que conocen, es decir, aquellas que están en el sitemaps. Por eso una buena alternativa es bloquear las URLs que no queramos que conozcan en el robots.txt. ¿Cómo? Con la etiqueta disallow.
Si bien el motor de búsqueda también puede indexar una URL basada en enlaces de otras páginas, el objetivo de Google es hacer que esas páginas sean menos visibles en el futuro.
El mecanismo es fácil. Primero tenemos que poner el motor de búsqueda al que queremos bloquear y después “Disallow: /URLespecífica/. Por ejemplo:
Con estos parámetros le estamos diciendo a todos los buscadores (de ahí el User-Agent: *) que no queremos que detecten las URLs que lleven /category/.
Protección de la contraseña
Esta alternativa es menos conocida. Si queremos eliminar una página del índice de Google, siempre podemos ocultarla detrás de una página de inicio de sesión.
Es una buena idea a no ser que la URL en cuestión sea la típica de suscripción o de compra, ya que estaríamos bloqueando el acceso también al usuario.
Eliminar URLs desde Search Console
Esta es, junto al uso de la etiqueta disallow, mi favorita. Es la más simple. Search Console pone a nuestra disposición una herramienta para eliminar las URL que queramos de forma temporal.
Conclusión
Os aconsejo que seáis rápidos con el cambio, porque el plazo es hasta el 1 de septiembre. Y sabe Dios Google que muchos se echarán las manos a la cabeza cuando vean cómo sus rankings empiezan el año escolar cuesta abajo y sin frenos.
Mi recomendación es usar la alternativa del disallow o la del bloqueo temporal. Como me conozco lo suficiente como para saber que puede que se me olvide el temporal, me gusta más entrar en el archivo robots.txt y bloquear las URLs a las que no quiero que entre Google.
¡Qué buen veranito nos espera! ¿Preparados?