Índice invertido de la web de Google

En el post 10 Patentes de SEO más importantes, Parte 5 – Indexación basada en frases escribí sobre cómo el entonces Jefe de Webspam de Google envió un boletín a los bibliotecarios. En él se describía el índice invertido que Google utilizaba para organizar los términos en su índice de la web. Ya no está disponible en línea, pero fue una gran manera de que los SEOs aprendieran cómo funcionaba el índice de Google.

Matt Cutts escribe el primer boletín bibliotecario sobre el índice invertido de Google

Además de clasificar los documentos en función de la calidad y la cantidad de enlaces que apuntan a una página, Google también se fija en si los términos de la consulta buscados también aparecen en páginas específicas. Matt Cutts, de Google, escribió una de las mejores descripciones de cómo lo hace Google en el primer boletín de Google para bibliotecarios. El boletín parece haber desaparecido de la web no hace mucho tiempo. Sin embargo, he encontrado una copia en el sitio web de la Universidad de Michigan. Era un documento muy recomendable. Por desgracia, desde la semana pasada ya no está disponible en el archivo de Internet.

Ese primer boletín planteaba y respondía a la pregunta: «¿Cómo recopila y clasifica Google los resultados? Si pudiste leerlo, habrás visto que se refería a las «listas de publicación» Se trata de listas de los términos publicados en el índice invertido de la Web. Hace coincidir esos términos de las consultas con los documentos de la Web. Parece que un tuit de Nicholas McDonough ha devuelto un enlace a esa copia de ese post:

El post de Matt Cutts es: ¿Cómo recopila y clasifica Google los resultados?

Esto fue muy útil para un SEO aprendiendo sobre cómo funcionaba el índice invertido de Google, y me hizo interesarme en aprender más sobre la recuperación de información.

Puedes consultar la patente de indexación basada en frases que enlazo a continuación. Verás referencias a cómo las frases están en las listas de publicación también. Es imposible saber si Google ha hecho realmente el trabajo de hacer un índice invertido de frases en la web que funcione con la indexación basada en frases. El hecho de tener unas 20 patentes relacionadas con la indexación basada en frases demuestra que han dedicado mucho tiempo a trabajar en los procesos que hay detrás de la indexación basada en frases.

Un índice invertido es un enfoque de recuperación de información para indexar la web

Este es uno de los enfoques de recuperación de información para hacer un índice. Consiste en crear un índice invertido de los términos encontrados en los documentos de la web. Si una consulta contiene más de una palabra, Google intentará devolver resultados de búsqueda que consistan en todas las páginas que contengan la unión de todas las palabras encontradas en una consulta. Al igual que Matt Cutts describe un índice invertido de Google en su artículo del boletín para bibliotecarios.

La Universidad de Stanford tiene una página Una primera toma en la construcción de un índice invertido. Hace un buen trabajo para ilustrar cómo funciona un índice invertido. Este es uno de los enfoques basados en la recuperación de información para indexar la Web que utilizan los motores de búsqueda. Google innovó con su índice web basado en un índice invertido mientras ordenaba y clasificaba las páginas en la web. También ordenaron los resultados de la búsqueda de forma adicional en base al uso del PageRank para ordenar y mostrar los resultados de la búsqueda.

Resultados de búsqueda ordenados por una combinación de puntuación de recuperación de información y puntuación de autoridad

Google puede calcular una puntuación de recuperación de información (IR) en función de si los términos de la consulta aparecen en la página según el índice invertido. También puede fijarse en la ubicación de esos términos de consulta en la página. Así, una página con un término de consulta en un lugar más importante de la página, como el título de la misma, puede tener una mejor clasificación que si el término de consulta se encuentra en el contenido de los párrafos de la página. Además de una puntuación de IR, Google combina esa puntuación con una puntuación de autoridad basada en un análisis de enlaces como el PageRank. Este enfoque, que combina esas puntuaciones combinadas, hace que un conjunto diferente de páginas se clasifiquen mejor para una consulta que en otros motores de búsqueda.

Otros resultados significativos devueltos cuando faltan o se sustituyen los términos de la consulta

Es posible realizar búsquedas en Google en las que aparecen anotaciones de búsqueda después de una SERP. Y nos dicen que falta uno de los términos de la consulta. Esto ha estado sucediendo durante un tiempo, y quería documentarlo cuando lo hace. Aquí hay un ejemplo que encontré cuando Google decidió mostrar muchos resultados de búsqueda cuando uno o más términos de la consulta no están en un documento devuelto para una consulta. Busqué el cuento de Jorge Luis Borges «Biblioteca de Babel» y el libro «Ficciones» El cuento aparece en más de un libro del autor, y algunas SERP no incluyen el nombre del Libro «ficciones» He encontrado uno de ellos, y tiene una anotación de búsqueda que me permite ver sólo los resultados que incluyen el nombre de ese libro.

Search Annotation with Missing Query

A veces, Google encuentra alternativas significativas a algunas de las palabras de una consulta. Para ello, utiliza un proceso como el de Hummingbird o algún otro tipo de sustitución de sinónimos para sustituir esos términos de la consulta. He buscado «¿El mejor lugar de Encinitas para pedir lasaña?» Google me dio un fragmento destacado como respuesta. Buscaba un restaurante, pero no incluía la palabra «restaurante» en la consulta. Consulta la imagen destacada en la parte superior de este artículo para ver cómo la palabra «lugar» de mi consulta se ha reescrito para utilizar «restaurante»

Una patente sobre un índice invertido de Google

Cuando pensé por primera vez en estas patentes, busqué «índice invertido» en el sitio web USPTO.gov. Sorprendentemente, me devolvió un resultado relevante.

En lugar de proporcionar detalles sobre el funcionamiento de esta patente, voy a enlazarla y proporcionar el resumen, y si quieres comprobarlo, puedes hacerlo. Esta es la patente:

Actualización de índices invertidos
Inventores: Muthian Sivathanu, Saurabh Goyal y Rajiv Mathews
Cesionario: GOOGLE LLC
Patente estadounidense: 10,073,874
Concedida: 11 de septiembre de 2018
Presentada: 21 de noviembre de 2013

Resumen

Las implementaciones proporcionan un sistema de indexación con una conmutación por error instantánea que utiliza una ventana de instantánea en movimiento. Por ejemplo, un método puede incluir recibir, por parte de un procesador, una consulta y determinar que un motor de procesamiento de consultas principal no responde. El método puede incluir además la generación de un resultado de búsqueda para la consulta utilizando un motor de procesamiento de consultas secundario que aplica al menos un registro de instantáneas a una porción de una lista de publicaciones, el registro de instantáneas incluye la porción de la lista de publicaciones tal como aparecía antes de una modificación, y la modificación ocurre dentro de un tiempo predeterminado antes de recibir la consulta. La porción es de un tamaño fijo menor que la lista de contabilización. La aplicación del registro de instantáneas puede incluir la superposición de la parte de la lista de contabilización con el registro de instantáneas a partir de un desplazamiento especificado por el registro de instantáneas. El motor principal de procesamiento de consultas genera un resultado de búsqueda sin aplicar registros instantáneos.

Índice invertido para la indexación basada en frases

Otra patente de Google nos habla de un índice invertido diferente de la web para frases completas y significativas utilizado con la indexación basada en frases. Esto significa que Google hace un seguimiento de las frases que se repiten con frecuencia en las páginas de la web (a diferencia de las palabras clave LSI). Esta patente se encuentra en:

Arquitectura de servidor de índices que utiliza listas de publicación de frases escalonadas y fragmentadas
Inventores: Pei Cao, Nadav Eiron, Soham Mazumdar, Anna L. Patterson, Russell Power y Yonatan Zunger
Cesionario: Google Inc.
Patente estadounidense: 9,652,483
Concedida: 16 de mayo de 2017
Presentada: 23 de noviembre de 2015

Resumen:

Un sistema de recuperación de información utiliza frases para indexar, recuperar, organizar y describir documentos. Las frases provienen de la colección de documentos. Los documentos se indexan según las frases que incluyen, utilizando listas de contabilización de frases. Las listas de contabilización de frases se almacenan en un grupo de servidores de índices. Las listas de contabilización de frases pueden dividirse en grupos y dividirse en particiones. Las frases de una consulta se identifican en función de las posibles frasificaciones. Se puede crear un programa de consulta basado en las frases y optimizarlo para reducir los costes de procesamiento y comunicación de la consulta. La ejecución de la programación de la consulta puede ser gestionada para reducir o eliminar las operaciones de procesamiento de la consulta en varios servidores de índices.

Escribí sobre este índice invertido en el post ¿Estás utilizando la indexación basada en frases de Google?

Tuve que escribir sobre el índice invertido de Google porque es algo sobre lo que no he escrito en este blog. Sin embargo, es uno de los enfoques básicos de SEO 101 sobre cómo funciona el SEO. Quería mostrar cómo ese método se puede utilizar en la indexación basada en frases. Allí se utiliza para construir una lista de publicación basada en frases para indexar frases en la web.

Fuente

También te podría gustar...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *