Cómo comprobar qué URL se ha indexado sin alterar en Google: un seguimiento de pasos

¿Cómo podemos determinar cuáles de las páginas de nuestro sitio web no se indexan sin hacer conflictos con las directrices de Google? Ahora intentaremos entenderlo.

¿Cómo puedo saber qué páginas no fueron indexadas por Google y hacerlo de una manera que no infringe las reglas de este motor de búsqueda? Google no indica si la página se ha indexado en Google Search Console, no nos permite raspar los resultados de búsqueda para obtener la respuesta y no está interesado en obtener indirectamente la respuesta de la API indocumentada. (Ésa era la solución inteligente de Sean Malseed.) Exploremos algunas de las soluciones posibles.

La solución analítica

Mark Edmondson proporcionó una solución de script R que funciona haciendo lo siguiente:

  • Se autentica con su cuenta/s de Google Analytics.
  • Busca si hay páginas que se encuentran en el sitemap XML de su sitio web, pero que no se encuentran en Google Analytics para obtener resultados necessários de Google  de los últimos 30 días.

La metodología supone que si una URL no se encuentra en Google Analytics para los resultados de búsqueda orgánica de Google, es probable que Google no la haya indexado.

Cómo hacer esto sin R

Aunque personalmente me gustan las soluciones con guión, sé que muchas personas piensan de una forma diferente. No es necesario descifrar R para hacer este análisis. Puede dirigirse fácilmente a Google Analytics y hacer un análisis similar – o, aún más fácilmente, diríjase a Google Analytics Query Explorer y ejecútalo con esta configuración.

  • Descargue la tabla TSV.
  • A continuación, descargue su sitemap XML y abrirlo en Excel. Después arrástralo a la ventana de Excel y entonces obtendrá el cuadro de diálogo “Importar XML”. Clica en “Abrir el archivo sin aplicar una hoja de estilos”, seleccione Aceptar.
  • A continuación, elija abrir el archivo “Como una tabla XML”.
  • Puede eliminar las columnas innecesarias o simplemente extrañas, manteniendo sólo la columna “ns1: loc” (o la columna “loc”):

Entonces, simplemente necesita hacer una VLOOKUP u otra forma de coincidencia de Excel y encontrar las URL en el mapa del sitio web que no están presentes en los datos de análisis.

Pensé que esto era una solución simple pero bastante lista, pero, aún así, temía que no mostraría exactamente qué páginas fueron indexadas por Google. No es raro que las páginas reciben poco o ningún tráfico, incluso si están indexadas. Puede ser no sólo una indicación de que la página no está indexada, sino que también puede mostrar que la página tiene un problema de etiquetado, se ha convertido en irrelevante, necesita alguna optimización para mejorar su visibilidad o simplemente no está presente en el XML. Como alternativa, puede simplemente verlo, en lugar de utilizar su sitemap XML, para realizar estas comparaciones.

La solución del archivo de registro

Los archivos de registro del servidor son una fuente excelente de datos sobre su sitio web que a menudo son inaccesibles por otros medios. Una de las muchas piezas de información que se pueden derivar de estos archivos de registro es: si un bot determinado puede acceder a su sitio web o no. En nuestro caso, el bot que nos preocupa es Googlebot.

El análisis de los archivos de registro de nuestro servidor nos permite determinar si Googlebot ha visitado alguna página en nuestro sitio web. Si Googlebot nunca ha visitado una determinada página, Google no puede indexarla. Personalmente, yo uso KNIME para este propósito, con el nodo de lector de registro Web incorporado, pero puede usar su solución favorita sin ningún problema.

Asegúrese de verificar Googlebot y no confíe simplemente en el agente de usuario informado. Muchos bots falsifican el user-agent de Googlebot, lo que podría invalidar sus hallazgos. Para evitar esto, utilizo un simple fragmento de Python dentro de KNIME:

Socket de importación

trata de:

Output_table [‘dnshost’] = socket.gethostbyaddr (str (ipaddressvariable)) [0]

excepto la Excepción:

Output_table [‘dnshost’] = “error”

Para obtener una guía decente sobre el análisis de archivos de registro, consulte esta guía por Builtvisible.

Si todo esto parece ser demasiado, le recomiendo que echa un vistazo a The Screaming Frog SEO Log File Analyzer – o, para una solución empresarial, Botify.

Al igual que la solución de Google Analytics, el análisis del archivo de registro no es infalible. Es posible que Googlebot visite una página pero finalmente no la acaba incluyendo en su índice (<meta name = “robots” content = “noindex, follow”>), pero nos ayudará a reducir nuestra lista de las posibles páginas web no indexadas.

Combinando sus datos

Para restringir tanto como sea posible nuestra lista de aquellas páginas que no pueden ser indexadas por Google, recomiendo combinar datos capturados mediante la técnica de Google Analytics con los métodos de análisis de archivos de los registros anteriores.

Una vez nuestra lista estará acabada, podremos realizar una comprobación por búsqueda manual en Google para “info:”, lo cual no alterará a Google. Es mucho más fácil de comprobar manualmente, porque hemos sido capaces de reducir nuestra lista de manera significativa.

Conclusión

Dado que Google no proporciona una herramienta o datos sobre si una página web se ha indexado o no, y no estamos autorizados a utilizar una solución automatizada como la que escribí anteriormente, puede parecer complicado reducir nuestra lista de URL no indexadas. Pero, aún así, no es imposible.

Podemos hacer esto examinando nuestros datos de Google Analytics para las páginas que están en nuestro sitio web pero no reciben tráfico orgánico de Google. A partir de ahí, podemos revisar manualmente nuestra lista abreviada de URL.

No es una solución ideal, pero funciona. Espero que en el futuro, Google proporcionará un mejor medio de evaluar qué páginas han sido indexadas y cuáles no.