Frecuencia de términos y frecuencia inversa de documentos en Google

Aprender sobre SEO y cómo funciona con el lenguaje en las páginas

Un par de conceptos que se aprenden al aprender SEO además de un índice invertido en Google es la frecuencia con la que aparecen las palabras en las páginas y en el índice de Google de la Web.

Frecuencia de términos

La frecuencia de términos es una medida de la frecuencia con la que un término puede aparecer en una página. Algunos términos son comunes en la mayoría de las páginas. Por ejemplo, artículos como «el», que podría ser la palabra más común en la lengua inglesa. Las palabras menos comunes también pueden aparecer con frecuencia, especialmente si son el tema principal de la página.

«The» suele formar parte de un grupo de palabras que es una palabra de parada porque son muy comunes y no dicen mucho sobre la página en la que aparecen. Escribí sobre las palabras de parada en Google Stopwords y Stop-Phrases.

No es raro que un motor de búsqueda conozca la frecuencia de las palabras en una página. La idea de buscar la frecuencia de los términos en las páginas es algo que viene de los años 50.

La frecuencia inversa de los documentos

Casi 20 años después, en la década de 1970, empezó a aparecer un concepto relacionado. Este concepto es la Frecuencia Inversa de Documentos.

Puede indicar si un término es común o raro en un corpus de documentos.

Se obtiene dividiendo el número total de documentos del corpus entre el número de documentos que contienen el término en el corpus.

Frecuencia de términos y frecuencia inversa de documentos

La frecuencia de los términos se puede combinar con la frecuencia inversa de los documentos. Esto significa que puede saber si una página es probable que trate sobre un determinado término. Sería uno que aparece mucho en esa página. Ese término podría ser uno común o uno raro en el índice de la Web.

Este enfoque de la frecuencia de los términos encaja bien con la comprensión de dónde están todas las palabras en la web en un índice invertido. Ambos son muy importantes para los motores de búsqueda y para el SEO.

Algunas páginas se refieren a un término específico porque ese término aparece en esa página con frecuencia. Esa página puede ser más común o más rara en el corpus web. Eso puede depender del número de documentos en los que aparece el término en las páginas de la web. Así, un término como «indeterminación» es uno con un significado específico, y aparece menos veces en el índice de Google de la Web. Es una palabra rara.

Como SEO, puede realizar una investigación de palabras clave y crear un texto para una página. Puede decidir de qué puede tratar una página. Usted está colocando esa página en el corpus de la web, y se convierte en un documento que contiene esa palabra. Un término que está en una página más rara puede tener menos competencia en ese corpus. Pero también puede ser menos buscado por alguien que podría convertirse en cliente del sitio en el que está colocado.

Abreviatura de Frecuencia de Términos-Frecuencia Inversa de Documentos

La frecuencia de términos – frecuencia inversa de documentos se presenta a menudo como TF-IDF para abreviar el nombre. Son conceptos que los motores de búsqueda conocen y suelen aparecer juntos, ya que están tan relacionados como ellos. Cuando busco en el sitio USPTO.gov patentes para cualquiera de los dos conceptos asignados a Google, obtengo algo más de 350 para cada uno de ellos. a menudo la misma patente menciona ambos conceptos.

El TF-IDF ha formado parte de muchos algoritmos utilizados en Google para una amplia gama de propósitos. Hay que tener en cuenta que las palabras son una parte importante del índice web. También son una parte importante del mismo. Recuerdo la Frecuencia de Términos y la Frecuencia Inversa de Documentos durante la creación de los refinamientos de consulta que aparecen en la parte inferior de las páginas de resultados de búsqueda en Google. Vale la pena ver en qué más aparecen.

TF-IDF en la USPTO la semana pasada

A veces se ven declaraciones sobre la Frecuencia de Términos y la Frecuencia Inversa de Documentos que aparecen en las patentes en pasajes como éste:

En algunas implementaciones, la métrica estadística puede representar un contenido de información de los criterios semánticos de coincidencia (por ejemplo, basado en una frecuencia de términos-frecuencia inversa de documentos («tf-idf») donde los documentos corresponden a consultas). En una implementación ilustrativa, si una nueva pieza de información es verdadera para el 90% de las consultas, entonces la nueva pieza de información puede no ser útil. El tf-idf puede incluir una estadística numérica que refleje la importancia de una palabra para una consulta en una colección o corpus de consultas. El valor de tf-idf puede aumentar (por ejemplo, proporcionalmente) al número de veces que una palabra aparece en el corpus de consultas, pero puede compensarse con la frecuencia de la palabra en el corpus.

La frecuencia de los términos y la frecuencia inversa de los documentos aparecen en las patentes sobre las propiedades de las entidades en la web

Esta cita es de la siguiente patente, concedida el 6 de julio de 2021.

Selección de contenido mediante propiedades de entidad
Inventores: Henrik Jacobsson
Cesionario: Google LLC
Patente estadounidense: 11,055,312
Concedida: 6 de julio de 2021
Presentada: 19 de octubre de 2016

Resumen

Los sistemas y métodos de la divulgación se refieren a la selección de contenidos a través de una red informática. El sistema puede recibir una consulta para generar criterios de selección de contenido. El sistema puede identificar una entidad de la consulta y un gráfico de consulta basado en la entidad. El sistema puede acceder a una base de datos para identificar una plantilla correspondiente al gráfico de consulta. La plantilla puede incluir una topología y una variable con nombre. El sistema puede determinar múltiples criterios semánticos correspondientes a la variable con nombre que coincide con el gráfico de consulta. El sistema puede utilizar una métrica estadística de cada uno de los criterios semánticos coincidentes para seleccionar los criterios de selección de contenido candidatos.

Ambos conceptos de recuperación de información se siguen utilizando hoy en día, aunque el SEO está cambiando para ser más sobre las entidades que antes. Esta patente se centra en la búsqueda de las propiedades de las entidades.

Por lo tanto, la Frecuencia de Términos y la Frecuencia Inversa de Documentos han existido durante más de 50 años como parte de la recuperación de información. Ambos siguen formando parte de los algoritmos modernos desde la semana pasada en Google. En la página de Wikipedia sobre TF-IDF, nos dicen que «La Frecuencia de Términos y la Frecuencia Inversa de Documentos es uno de los esquemas de ponderación de términos más populares hoy en día»

Conclusión sobre la frecuencia de términos y la frecuencia inversa de documentos

La capacidad de utilizar el TF-IDF para muchos algoritmos sobre las palabras de un índice hace que sea importante como herramienta para entender cuando se trata de la búsqueda. Cuando se busca en un índice invertido palabras específicas, algunas serán más comunes y otras más raras. Esto no es la densidad de palabras clave de ley. No calcula la frecuencia de una palabra en comparación con todas las palabras de un documento. Si entiende lo que son la frecuencia de términos y la frecuencia inversa de documentos, y cómo podrían trabajar juntos en un índice invertido, tendrá una idea de cómo funcionan la búsqueda y el SEO.

Fuente

También te podría gustar...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *