Relevancia semántica de las palabras clave

Contenidos

1 Preludio – ¿Qué es una palabra clave?
2 Términos de dominio como palabras clave
3 Frases completas y significativas que se repiten con frecuencia en la indexación por frases
4 Palabras clave LSI
5 Relevancia semántica de las palabras clave
6 ¿Qué es la relevancia semántica de las palabras clave?
7 El sistema de procesamiento de datos detrás de la relevancia semántica de las palabras clave
8 Cómo funciona el sistema de procesamiento de datos
9 Medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de los recursos de información
10 Un sistema para medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de un recurso de información
11 Una puntuación de afinidad de la palabra clave-semilla basada en la frecuencia de la palabra clave
12 El sistema incluye un módulo analizador de recursos ejecutado en el sistema de procesamiento de datos
13 El módulo calculador de frecuencias puede calcular la puntuación de afinidad entre la palabra clave y la semilla
14 El sistema de procesamiento de datos puede recorrer los nodos del gráfico de relaciones semánticas
15 Con el gráfico de relaciones semánticas, el sistema de procesamiento de datos puede identificar un conflicto semántico entre la palabra clave
16 ¿Qué es el gráfico de relaciones semánticas?
17 Medición de la relevancia semántica de las palabras clave mediante el análisis de los recursos de información
18 Puntuaciones de afinidad de categoría para cada categoría de palabras clave clasificadas
19 Un sistema de procesamiento de datos para medir la relevancia semántica de las palabras clave
20 ¿Qué son las entidades de dominio?
21 El dispositivo informático editor de contenidos
22 Más aspectos del software detrás de la relevancia semántica de las palabras clave
23 Dispositivos de interfaz de usuario
24 La forma canónica de la palabra clave semilla
25 Uso de un gráfico de relaciones semánticas
26 Aristas y nodos en un grafo de relaciones semánticas
27 Cómo funciona el módulo generador de palabras clave
28 Una implementación de un gráfico de relaciones semánticas
29 El módulo analizador de recursos recibe los identificadores de recursos
30 Cómo interviene el módulo calculador de frecuencias en la determinación de la relevancia semántica
31 Un recurso de información con palabras clave que coincidan con la palabra clave semilla o con una palabra clave de una categoría de palabras clave
32 Obtención del recuento de frecuencia umbral
33 El módulo selector de palabras clave puede identificar grupos de categorías de palabras clave basándose en la falta de un conflicto semántico
34 Palabras clave y categorías de palabras clave generadas a partir de la palabra clave inicial designada como seleccionada o no seleccionada
35 Un recurso de información con una interfaz que muestra las palabras clave y las categorías de palabras clave generadas a partir de la palabra clave inicial designada como seleccionada o no seleccionada
36 Uso de la relevancia semántica para identificar las categorías de palabras clave
37 Cómo interviene el sistema de procesamiento de datos en la relevancia semántica
38 Representación de la medición de la relevancia semántica de las palabras clave
39 Agrupación de las palabras clave identificadas en categorías de palabras clave
40 Un sistema informático que utiliza la relevancia semántica

Preludio – ¿Qué es una palabra clave?

Por lo general, se selecciona un término o una frase para asociarla a una página, de modo que ésta pueda posicionarse por ese término o frase en los resultados de búsqueda. Esto se conoce como selección de una palabra clave para una página.

Términos de dominio como palabras clave

Hay otras ocasiones en las que se pueden añadir palabras o frases a una página para que se clasifique por un término o frase clave seleccionado. Por ejemplo, en el caso de los vectores de contexto, los términos de dominio (como en los dominios de conocimiento) que pueden ayudar a identificar el significado detrás de un término o frase de palabra clave elegido para una página pueden ayudar al motor de búsqueda a entender qué significado se está indexando. Por ejemplo, cuando se optimiza una página para el término «caballo» y se añaden a la página términos de dominio como «estribos», o «silla de montar», o «pura sangre», el motor de búsqueda puede devolver el significado correcto para esa palabra clave.

Frases completas y significativas que se repiten con frecuencia en la indexación por frases

En la indexación basada en frases, se puede seleccionar una palabra clave para una página, y se pueden añadir a esa página las frases que aparecen con frecuencia en otras páginas que tienen un alto rango para la misma frase. Google ha indexado estas frases completas y significativas que se repiten con frecuencia en una lista de publicación de acuerdo con una de las muchas patentes de indexación basada en frases. Escribí sobre este enfoque de un índice invertido de frases en este post sobre la indexación basada en frases: ¿Estás utilizando la indexación basada en frases de Google? que cubre la patente: Arquitectura del servidor de índices que utiliza listas de publicación de frases escalonadas y fragmentadas.

Palabras clave LSI

Desafortunadamente, algunos fabricantes de herramientas SEO y escritores de SEO han escrito sobre algo llamado «Palabras clave LSI» sin mostrar que se utilizó LSI (Indexación Semántica Latente) para generar esas palabras clave. Peor aún, no hay pruebas de que la adición de palabras clave LSI a una página pueda ayudar a que esa página se clasifique para un término específico. Además, lamentablemente, las personas que han escrito sobre las LSI Keywords parecen estar inventando lo que son realmente las LSI Keywords, señalando en muchos casos a herramientas como las sugerencias del planificador de palabras clave de Google, las palabras destacadas en los resultados de búsqueda y los refinamientos de consulta de Google como «LSI Keywords» Dichas fuentes no afirman que sean «LSI Keywords» y no proporcionan ningún ejemplo de su uso para ayudar a una página a posicionarse para otras palabras clave.

Google ha advertido a la gente contra el «relleno de palabras clave», donde la gente repite la misma palabra clave una y otra vez en una página y «rellena» la página con esa palabra clave. En algún momento, Google podría mirar con desdén cuando las páginas estén muy rellenas con algo así como palabras clave aleatorias relacionadas con la semántica y la relevancia, con la intención de conseguir que una página se posicione para otra palabra clave. Como no hemos visto ninguna palabra oficial de Google sobre las palabras clave LSI, excepto que no existen, es difícil predecir cómo reaccionará Google a su uso o a su uso excesivo.

He visto al menos un sitio penalizado por relleno de palabras clave simplemente por referirse a entidades fotografiadas en el texto alternativo dos veces. Google presta atención a lo que se pone en las páginas.

Relevancia semántica de las palabras clave

Esta patente describe cómo Google puede proporcionar palabras clave que tengan relevancia semántica. La patente no dice que las páginas estén destinadas a clasificarse por estos términos y frases, ni que usted deba añadir estos términos y frases para ayudar a su página a clasificarse por otro término. Esta patente sobre relevancia semántica se presentó originalmente en 2016 y describe un sistema de procesamiento de datos que puede identificar palabras clave relacionadas semánticamente a partir de fuentes de información en la web. Sospecho que volveré a esta patente y la leeré de nuevo con regularidad. Parece que proporciona buenas preguntas sobre las palabras clave. Puede que veamos a Google proporcionarnos herramientas como la de sugerencia de palabras clave, basada en hacer sugerencias sobre palabras clave que tienen relevancia semántica.

A continuación, los detalles sobre la relevancia semántica completa de la patente de palabras clave.

¿Qué es la relevancia semántica de las palabras clave?

En la web, los proveedores de contenidos muestran contenidos para su visualización en los ordenadores de los usuarios finales. El contenido suele adoptar la forma de porciones que pueden ser mostradas. Por ejemplo, las porciones de contenido suelen proporcionarse a través de páginas web, y cada parte del contenido se proporciona como una página web.

Al menos un aspecto se dirige a medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de los recursos de información.

La relevancia semántica de las palabras clave se basa en las distancias semánticas entre cada una de ellas.

El sistema de procesamiento de datos detrás de la relevancia semántica de las palabras clave

Este proceso comienza con un sistema de procesamiento de datos con múltiples procesadores. Puede recibir una palabra clave semilla de un dispositivo informático proveedor de contenidos correspondiente a una entidad de dominio para generar más palabras clave relevantes para la palabra clave semilla.

El sistema de procesamiento de datos puede utilizar un gráfico de relación semántica para identificar categorías de palabras clave, incluyendo una primera categoría de palabras clave y una segunda categoría de palabras clave.

Cada una de las categorías de palabras clave incluye palabras clave. Cada una de las palabras clave puede tener una distancia semántica de la palabra clave semilla menor que un umbral de distancia semántica.

Cómo funciona el sistema de procesamiento de datos

El sistema de procesamiento de datos puede:

Determinar, para la primera categoría de palabras clave, una puntuación de afinidad de la primera categoría-semilla basada en las puntuaciones de afinidad de la palabra clave-semilla para cada una de las palabras clave de la primera categoría de palabras clave
Determinar, para la segunda categoría de palabras clave, una segunda puntuación de afinidad de categoría-semilla basada en las puntuaciones de afinidad de palabra clave-semilla para cada una de las palabras clave de la segunda categoría de palabras clave
Comparar las puntuaciones de afinidad de la primera categoría-semilla y la puntuación de afinidad de la segunda categoría-semilla con un umbral
Elegir la puntuación de afinidad de la primera categoría-semilla es mayor que el umbral de puntuación de afinidad y la puntuación de afinidad de la segunda categoría-semilla es menor que el umbral
Enviar, a un dispositivo informático proveedor de contenidos para su visualización, las palabras clave. La primera categoría de palabras clave puede indicarse como seleccionada. La segunda categoría de palabras clave puede indicarse como no seleccionada en respuesta a la determinación de que la puntuación de afinidad de la primera categoría-semilla es mayor que el umbral de puntuación de afinidad y la puntuación de afinidad de la segunda categoría-semilla es menor que el umbral de puntuación de afinidad
Identificar un conflicto semántico entre la primera y la segunda palabra clave utilizando el gráfico de relación semántica
Comparar la puntuación de afinidad de la primera categoría-semilla con la puntuación de afinidad de la segunda categoría, que responde a la identificación del conflicto semántico entre la primera y la segunda categoría
Enviar las palabras clave. La primera categoría de palabras clave puede indicarse como seleccionada y la segunda categoría de palabras clave puede indicarse como no seleccionada, en respuesta a la determinación de que la puntuación de afinidad de la primera categoría-semilla es mayor que la puntuación de afinidad de la segunda categoría-semilla

Además, el sistema de procesamiento de datos puede:

Identificar un conflicto semántico entre la primera, la segunda y la tercera. utilizando el gráfico de relación semántica
Determinar un primer grupo de categorías y un segundo grupo de categorías, basándose en el conflicto semántico, el primer grupo de categorías incluye la primera categoría de palabras clave, el segundo grupo de categorías incluye la segunda categoría de palabras clave y la tercera categoría de palabras clave
Determinar una primera puntuación de afinidad grupo-semilla para el primer grupo de categorías y una segunda puntuación de afinidad grupo-semilla para el segundo grupo de categorías
Comparar la primera puntuación de afinidad grupo-semilla con la segunda puntuación de afinidad grupo-semilla
Enviar las palabras clave. La primera categoría de palabras clave puede indicarse como seleccionada y la segunda categoría de palabras clave y la tercera categoría de palabras clave pueden indicarse como no seleccionadas, en respuesta a la determinación de que la primera puntuación de afinidad grupo-semilla es mayor que la segunda puntuación de afinidad grupo-semilla
Comparar, para cada palabra clave de la primera categoría de palabras clave y de la segunda categoría de palabras clave, la puntuación de afinidad entre palabras clave y semillas con un segundo umbral de puntuación de afinidad
Identificar un subconjunto de palabras clave para cada una de las primeras categorías de palabras clave y las segundas categorías, cada una con una puntuación de afinidad de semilla de palabra clave menor que el segundo umbral de puntuación de afinidad
Enviar las palabras clave. El subconjunto de palabras clave de la primera o segunda categoría de palabras clave puede indicarse como no seleccionado en respuesta a la identificación del subconjunto de palabras clave. Cada una tiene una puntuación de afinidad palabra clave-semilla menor que el segundo umbral de puntuación de afinidad
Calcular una primera puntuación de combinación basada en las puntuaciones de afinidad palabra clave-semilla para cada palabra clave en la primera categoría de palabras clave
Calcular una segunda puntuación de combinación basada en las puntuaciones de afinidad palabra clave-semilla para cada una de las palabras clave de la segunda categoría de palabras clave
Analizar el recurso de información para identificar los términos del recurso de información y colocar cada uno de los términos en el recurso de información
Determinar, utilizando el gráfico de relación semántica, para al menos una palabra clave de la primera categoría de palabras clave y de la segunda categoría de palabras clave, una primera coincidencia semántica entre al menos uno de los términos del recurso de información y la respectiva palabra clave
Calcular la puntuación de afinidad entre la palabra clave y la semilla basándose en la colocación de la palabra clave correspondiente en el recurso de información, en respuesta a la determinación de la primera coincidencia semántica y la determinación de la segunda coincidencia semántica
Identificar una profundidad jerárquica del recurso de información
Ajustar, para cada una de las puntuaciones de afinidad palabra clave-semilla de la primera categoría de palabras clave y la segunda categoría de palabras clave, la puntuación de afinidad palabra clave-semilla por un peso preestablecido basado en la profundidad jerárquica identificada para el recurso de información
Identificar un factor de normalización que indique la frecuencia media de la palabra clave en los recursos de información para cada palabra clave de la primera y segunda categoría de palabras clave
Ajustar, para cada una de las puntuaciones de afinidad palabra clave-semilla de la primera categoría de palabras clave y de la segunda categoría de palabras clave, la puntuación de afinidad palabra clave-semilla por el factor de normalización
Identificar, utilizando el gráfico de relación semántica, a partir de las palabras clave, una primera palabra clave tópica representativa de la primera categoría de palabras clave y una segunda palabra clave tópica representativa de la segunda categoría de palabras clave. La primera palabra clave tópica puede tener la primera distancia semántica más pequeña en la primera categoría de palabras clave menos que el umbral de distancia semántica. La segunda palabra clave tópica
Envía las palabras clave. Las palabras clave pueden ser categorizadas en la primera categoría de palabras clave con la primera palabra clave tópica y la segunda categoría de palabras clave y con la segunda palabra clave tópica, respondiendo a la identificación de la primera palabra clave tópica y la segunda palabra clave tópica
Enviar un script. La secuencia de comandos puede hacer que el dispositivo informático del proveedor de contenidos muestre una interfaz de selección de palabras clave. La interfaz de selección de palabras clave puede incluir un primer elemento de contenido que indique cada una de las palabras clave de la primera categoría de palabras clave como seleccionada y un segundo elemento de contenido que indique cada una de las palabras clave de la segunda categoría de palabras clave como no seleccionada

Medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de los recursos de información

Utilizando el gráfico de relación semántica, el sistema de procesamiento de datos puede determinar una segunda coincidencia semántica entre al menos uno de los términos del recurso de información y la palabra clave semilla.

Un sistema para medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de un recurso de información

Al menos un aspecto se dirige a un sistema para medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de los recursos de información.

El sistema puede incluir un módulo generador de palabras clave ejecutado en un sistema de procesamiento de datos que tiene procesadores.

El módulo generador de palabras clave puede recibir una palabra clave semilla de un dispositivo informático proveedor de contenidos correspondiente a una entidad de dominio para generar palabras clave adicionales relevantes para la palabra clave semilla.

Utilizando un gráfico de relación semántica, el módulo generador de palabras clave puede identificar categorías de palabras clave, incluyendo una primera categoría de palabras clave y una segunda categoría de palabras clave.

Cada una de las categorías de palabras clave puede incluir palabras clave. Cada una de las palabras clave puede tener una distancia semántica de la palabra clave semilla menor que un umbral de distancia semántica.

Una puntuación de afinidad de la palabra clave-semilla basada en la frecuencia de la palabra clave

El sistema puede incluir un módulo de cálculo de frecuencia ejecutado en el sistema de procesamiento de datos. El módulo calculador de frecuencia puede determinar una palabra clave de la primera categoría de palabras clave y de la segunda categoría de palabras clave, una puntuación de afinidad palabra clave-semilla basada en la frecuencia de la palabra clave que ocurre con la palabra clave semilla en un recurso de información de la entidad de dominio.

El módulo de cálculo de la frecuencia puede determinar, para la primera categoría de palabras clave, una puntuación de afinidad de la primera categoría-semilla basada en las puntuaciones de afinidad de la palabra clave-semilla para cada una de las palabras clave de la primera categoría de palabras clave.

El módulo calculador de frecuencias puede determinar, para la segunda categoría de palabras clave, una segunda puntuación de afinidad categoría-semilla basada en las puntuaciones de afinidad palabra clave-semilla para cada una de las palabras clave de la segunda categoría de palabras clave. El sistema puede incluir un módulo selector de palabras clave ejecutado en el sistema de procesamiento de datos. El módulo selector de palabras clave puede comparar las puntuaciones de afinidad de la primera categoría-semilla y la segunda con un umbral de puntuación de afinidad.

El módulo selector de palabras clave puede determinar que la primera puntuación de afinidad categoría-semilla es mayor que el umbral de puntuación de afinidad y que la segunda puntuación de afinidad categoría-semilla es menor que el umbral. El sistema puede incluir un módulo proveedor de interfaz ejecutado en el sistema de procesamiento de datos.

El módulo proveedor de interfaz puede estar configurado para enviar las palabras clave a un dispositivo informático proveedor de contenidos para su visualización. La primera categoría de palabras clave puede indicarse como seleccionada. La segunda categoría de palabras clave puede indicarse como no seleccionada en respuesta a la determinación de que la puntuación de afinidad de la primera categoría-semilla es mayor que el umbral de puntuación de afinidad y la puntuación de afinidad de la segunda categoría-semilla es menor que el umbral de puntuación de afinidad.

Utilizando el gráfico de relación semántica, el módulo de selección de palabras clave puede identificar un conflicto semántico entre la primera y la segunda palabra clave.

El módulo calculador de frecuencia puede comparar la puntuación de afinidad de la primera categoría-semilla con la puntuación de afinidad de la segunda categoría, en respuesta a la identificación del conflicto semántico entre la primera y la segunda categoría.

El módulo proveedor de la interfaz puede enviar las palabras clave. La primera categoría de palabras clave puede indicarse como seleccionada. La segunda categoría de palabras clave puede indicarse como no seleccionada, en respuesta a la determinación de que la puntuación de afinidad de la primera categoría-semilla es mayor que la puntuación de afinidad de la segunda categoría-semilla.

El módulo de selección de palabras clave puede:

Comparar cada palabra clave de la primera categoría de palabras clave y la puntuación de afinidad de la palabra clave-semilla con una segunda puntuación de afinidad para el umbral de la segunda categoría de palabras clave
Identificar un subconjunto de palabras clave para cada una de las primeras categorías de palabras clave y la segunda categoría de palabras clave, cada una con la puntuación de afinidad de la semilla de la palabra clave menos que el segundo umbral de puntuación de afinidad

El módulo proveedor de interfaz puede enviar las palabras clave. El subconjunto de palabras clave en la primera o segunda categoría de palabras clave puede ser indicado como no seleccionado en respuesta a la identificación del subconjunto de palabras clave, cada una con la puntuación de afinidad palabra clave-semilla menor que el segundo umbral de puntuación de afinidad.

El sistema incluye un módulo analizador de recursos ejecutado en el sistema de procesamiento de datos

El módulo analizador de recursos puede:

Analizar el recurso de información para identificar los términos del recurso de información y colocar cada uno de los términos en el recurso de información
Determinar, utilizando el gráfico de relación semántica, para al menos una palabra clave de la primera categoría de palabras clave y la segunda categoría de palabras clave, una primera coincidencia semántica entre al menos uno de los términos del recurso de información y la respectiva palabra clave
Decidir, utilizando el gráfico de relación semántica, para al menos una palabra clave de la primera categoría de palabras clave y la segunda categoría de palabras clave, una segunda coincidencia semántica entre al menos uno de los términos del recurso de información y la palabra clave inicial

El módulo analizador de recursos puede identificar una profundidad jerárquica del recurso de información.

El módulo calculador de frecuencias puede calcular la puntuación de afinidad entre la palabra clave y la semilla

El módulo calculador de frecuencias puede:

Calcular la puntuación de afinidad palabra clave-semilla basándose en la colocación de la palabra clave correspondiente en el recurso de información, respondiendo a la determinación de la primera coincidencia semántica y la segunda coincidencia semántica
Ajustar, para cada una de las puntuaciones de afinidad palabra clave-semilla de la primera categoría de palabras clave y la segunda categoría de palabras clave, la puntuación de afinidad palabra clave-semilla por un peso preestablecido basado en la profundidad jerárquica identificada para el recurso de información
Identificar, para cada palabra clave de la primera categoría de palabras clave y de la segunda categoría de palabras clave, un factor de normalización que indique la frecuencia media de la palabra clave en los recursos de información
Establecer el factor de normalización para cada puntuación de afinidad de la primera y la segunda palabra clave

Al menos un aspecto se dirige a medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de los recursos de información. Un sistema de procesamiento de datos con procesadores puede recibir una palabra clave semilla de un dispositivo informático proveedor de contenidos correspondiente a una entidad de dominio para generar más palabras clave semánticamente relevantes a la palabra clave semilla.

El sistema de procesamiento de datos puede acceder, desde una base de datos, a un gráfico de relaciones semánticas que incluye nodos que representan palabras clave y aristas. Cada arista puede conectar dos nodos respectivos y definir una distancia semántica entre las dos palabras clave que representan los dos nodos respectivos.

El sistema de procesamiento de datos puede recorrer los nodos del gráfico de relaciones semánticas

El sistema de procesamiento de datos puede recorrer los nodos del grafo de relación semántica para identificar un nodo semilla que representa la palabra clave semilla para cada nodo candidato junto al nodo semilla, una distancia semántica entre la palabra clave semilla y la palabra clave del nodo adyacente.

El sistema de procesamiento de datos puede identificar un conjunto de nodos candidatos a partir de los nodos adyacentes al nodo semilla que tienen una arista respectiva con una distancia semántica respectiva entre un par nodo semilla-nodo candidato de menos de un umbral de distancia semántica. El sistema de procesamiento de datos puede identificar los recursos de información de la entidad de dominio.

El sistema de procesamiento de datos puede analizar los recursos de información para cada palabra clave candidata de los nodos candidatos para determinar la frecuencia con la que la palabra clave semilla y la palabra clave candidata aparecen en los recursos de información.

El sistema de procesamiento de datos puede identificar las palabras clave candidatas del conjunto de nodos candidatos, el primer conjunto de palabras clave y el segundo conjunto de palabras clave. Cada uno de los primeros conjuntos de palabras clave puede tener una frecuencia mayor o igual a un umbral de frecuencia. Cada uno de los segundos conjuntos de palabras clave puede tener una frecuencia respectiva menor que el umbral de frecuencia.

El sistema de procesamiento de datos puede enviar al dispositivo informático del proveedor de contenidos instrucciones para mostrar en el dispositivo informático del proveedor de contenidos. El primer conjunto de palabras clave se selecciona como relevante, y el segundo conjunto de palabras clave se deselecciona como irrelevante basándose en las frecuencias correspondientes y el umbral de frecuencia.

El sistema de procesamiento de datos, el sistema de procesamiento de datos puede ajustar para cada palabra clave candidata del conjunto de palabras clave candidatas, la frecuencia por el factor de normalización para la palabra clave respectiva.

El sistema de procesamiento de datos puede acceder a la relación semántica. Cada una de las aristas puede definir los dos nodos respectivos como semánticamente conflictivos.

Con el gráfico de relaciones semánticas, el sistema de procesamiento de datos puede identificar un conflicto semántico entre la palabra clave

Utilizando el gráfico de relación semántica, el sistema de procesamiento de datos puede identificar un conflicto semántico entre las palabras clave de las palabras clave candidatas, basándose en la arista respectiva que indica dos palabras clave correspondientes como semánticamente conflictivas.

El sistema de procesamiento de datos puede comparar la primera frecuencia de la primera palabra clave de los candidatos con la segunda frecuencia de la segunda palabra clave de los candidatos, en respuesta a la identificación del conflicto semántico.

El sistema de procesamiento de datos puede identificar, para cada palabra clave del conjunto de nodos candidatos, utilizando un algoritmo de agrupación, una de las primeras categorías de palabras clave y una segunda categoría de palabras clave basada en las distancias semánticas entre cada palabra clave de los nodos candidatos. El sistema de procesamiento de datos puede identificar la primera categoría de palabras clave como seleccionada y la segunda categoría de palabras clave como no seleccionada basándose en la frecuencia correspondiente de cada palabra clave y en el umbral de frecuencia.

Sistemas y métodos para medir la relevancia semántica de las palabras clave
Inventores: Justi Lewis y Gavin James
Cesionario: Google LLC
Patente estadounidense: 11,106,712
Concedida: 31 de agosto de 2021
Presentada: 24 de octubre de 2016

Resumen

Un servidor puede recibir una palabra clave semilla para generar más palabras clave relevantes para la palabra clave semilla.

El servidor puede identificar, mediante un gráfico de relaciones semánticas, las categorías de palabras clave.

Cada palabra clave puede tener una distancia semántica de la palabra clave semilla menor que un umbral.

El servidor puede generar, para cada palabra clave de las categorías de palabras clave, una puntuación de afinidad palabra clave-semilla basada en la frecuencia de la palabra clave que aparece con la palabra clave semilla en un recurso de información.

El servidor puede determinar una puntuación de afinidad categoría-semilla para cada categoría de palabras clave basándose en las puntuaciones de afinidad palabra clave-semilla para cada palabra clave de la categoría de palabras clave.

El servidor puede comparar cada puntuación de afinidad categoría-semilla con un umbral.

El servidor puede enviar, para su visualización, las palabras clave.

Una categoría de palabras clave puede indicarse como seleccionada, y otra puede indicarse como no seleccionada basándose en la comparación.

En entornos informáticos en red, los servidores pueden proporcionar y seleccionar elementos de contenido para su visualización con recursos de información basados en las palabras clave de una consulta de búsqueda enviada a través de una página de búsqueda por un dispositivo cliente. A través de plataformas de gestión de selección de contenidos, los proveedores de contenidos pueden elegir cuáles de estas palabras clave pueden ser utilizadas en la selección de estos elementos de contenido del proveedor de contenidos. Los proveedores de contenidos también pueden proporcionar una palabra clave inicial a dichas plataformas de gestión de selección de contenidos para generar y descubrir más palabras clave relacionadas. Estas palabras clave relacionadas pueden generarse y/o descubrirse utilizando un gráfico de relaciones semánticas.

¿Qué es el gráfico de relaciones semánticas?

El gráfico de relación semántica puede especificar hasta qué punto cada palabra clave está relacionada con otra. Sin embargo, generar y proporcionar una lista tan variada de palabras clave relacionadas puede abrumar a los proveedores de contenidos con una multitud de información compleja. Desde el punto de vista de la interacción persona-ordenador (HCI), la inclusión excesiva de palabras clave puede llevar a los proveedores de contenidos a designar palabras clave inexactas o irrelevantes para su uso en la selección de elementos de contenido.

La inclusión excesiva de palabras clave también puede reducir la probabilidad de que los usuarios interactúen con los elementos de contenido seleccionados. Además, la lista generada de palabras clave relacionadas puede sobrecargar el servidor sin filtrar, lo que resulta en un mayor consumo de energía de procesamiento, ineficacia y tiempo en la selección de los elementos de contenido relevantes para su visualización en el dispositivo del cliente.

Medición de la relevancia semántica de las palabras clave mediante el análisis de los recursos de información

Para resolver estos y otros problemas técnicos, la presente divulgación proporciona sistemas y métodos para medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de los recursos de información para identificar o descubrir palabras clave más precisas y relevantes. En resumen, un servidor (por ejemplo, un sistema de procesamiento de datos) puede generar una lista de palabras clave utilizando una palabra clave semilla proporcionada por un proveedor de contenido utilizando un gráfico de relación semántica.

El gráfico de relación semántica puede especificar una distancia semántica entre cada palabra clave y la palabra clave semilla. Basándose en las distancias semánticas entre cada una de las palabras clave, la lista de palabras clave puede clasificarse en categorías de palabras clave, cada una con un subconjunto de palabras clave.

El servidor también puede identificar los recursos de información del proveedor de contenidos (por ejemplo, páginas web utilizando los nombres de dominio proporcionados por el proveedor de contenidos) y extraer términos de los recursos de información identificados.

Para cada palabra clave de la lista generada, el servidor puede calcular una puntuación de afinidad de palabras clave midiendo el número de veces que la palabra clave aparece junto con la palabra clave semilla en los recursos de información del proveedor de contenidos.

La puntuación de afinidad de la palabra clave también puede ser ponderada o ajustada en base a una ubicación prominente de la propia palabra clave en el respectivo recurso de información, un nivel de ruta del recurso de información y una frecuencia nominal de la palabra clave en un corpus general, entre otros. Si la puntuación de afinidad de la palabra clave es mayor o igual que una puntuación de umbral predefinida para las palabras clave individuales, el servidor puede establecer la palabra clave como seleccionada para su uso en la selección de elementos de contenido. En cambio, si la puntuación de afinidad de la palabra clave es menor que la puntuación de umbral, el servidor puede establecer la palabra clave como no seleccionada para utilizarla en la selección de elementos de contenido.

Puntuaciones de afinidad de categoría para cada categoría de palabras clave clasificadas

Además, el servidor puede calcular una puntuación de afinidad de categoría para cada categoría de palabra clave clasificada utilizando las puntuaciones de afinidad de palabra clave para las palabras clave de la categoría de palabra clave. Por ejemplo, el servidor puede calcular una suma media ponderada de las puntuaciones de afinidad de las palabras clave para calcular la puntuación de afinidad de la categoría. Si la puntuación de afinidad de la categoría es mayor o igual que una puntuación de umbral predefinida para las categorías individuales, el servidor puede establecer la categoría de palabras clave como seleccionada para su uso en la selección de elementos de contenido.

Pero, si la puntuación de afinidad de la categoría es menor que la puntuación del umbral, el servidor puede establecer la categoría de palabras clave como no seleccionada para su uso en la selección de elementos de contenido. Además de seleccionar o deseleccionar cada categoría de palabras clave, el servidor puede establecer todas las palabras clave como seleccionadas o deseleccionadas. El servidor también puede establecer palabras clave individuales de la categoría de palabras clave como seleccionadas o no seleccionadas.

Algunas categorías de palabras clave pueden no ser apropiadas junto con otras categorías de palabras clave en la selección de elementos de contenido. Por ejemplo, puede haber un conflicto semántico entre las categorías de palabras clave. Para determinar si existe un conflicto semántico, el servidor puede utilizar el gráfico de relaciones semánticas para identificar la distancia semántica entre cada palabra clave en las diferentes categorías de palabras clave o identificar qué palabras clave de las diferentes categorías de palabras clave se designan como no relacionadas.

Si hay un conflicto semántico entre dos categorías de palabras clave, el servidor puede comparar las puntuaciones de afinidad de las categorías respectivas para resolver el conflicto semántico. Si la puntuación de afinidad de categoría de una categoría de palabras clave es mayor que la puntuación de afinidad de categoría de la otra categoría de palabras clave, el servidor puede establecer la primera categoría de palabras clave como seleccionada y la segunda categoría de palabras clave como no seleccionada para su uso en la selección de elementos de contenido.

El servidor puede entonces enviar una lista de categorías de palabras clave y las palabras clave al dispositivo informático del proveedor de contenidos para su visualización. La lista de categorías de palabras clave puede formar parte de las instrucciones (por ejemplo, un script) para mostrar cada palabra clave o categoría de palabras clave en una interfaz de usuario.

La interfaz de usuario, a su vez, puede formar parte de la plataforma de gestión de selección de contenidos. La interfaz de usuario también puede indicar qué palabra clave y categoría se seleccionan o deseleccionan para los usuarios en la selección de elementos de contenido. De esta manera, el proveedor de contenidos puede diferenciar qué palabras clave y categorías de palabras clave han sido seleccionadas o no seleccionadas y puede estar mejor informado a la hora de designar qué palabras clave o categorías de palabras clave utilizar para seleccionar automáticamente los elementos de contenido para su visualización en los elementos de contenido.

Un sistema de procesamiento de datos para medir la relevancia semántica de las palabras clave

Se muestra un diagrama de bloques que representa una implementación de un entorno para medir la relevancia semántica de las palabras clave. El entorno incluye al menos un sistema de procesamiento de datos. El sistema de procesamiento de datos puede incluir al menos un procesador y una memoria, es decir, un circuito de procesamiento. La memoria almacena instrucciones ejecutables por el procesador que hacen que éste realice las operaciones descritas en el presente documento cuando son ejecutadas por un procesador.

El procesador puede incluir un microprocesador, un circuito integrado de aplicación específica (ASIC), una matriz de puertas programables en campo (FPGA), etc., o combinaciones de los mismos. La memoria puede incluir, pero no se limita a, un dispositivo electrónico, óptico, magnético o cualquier otro dispositivo de almacenamiento o transmisión capaz de proporcionar al procesador las instrucciones del programa.

La memoria puede incluir además un disquete, CD-ROM, DVD, disco magnético, chip de memoria, ASIC, FPGA, memoria de sólo lectura (ROM), memoria de acceso aleatorio (RAM), memoria ROM borrable eléctricamente (EEPROM), memoria ROM programable borrable (EPROM), memoria flash, medios ópticos o cualquier otra memoria adecuada de la que el procesador pueda leer instrucciones.

Las instrucciones pueden incluir código de cualquier lenguaje de programación informático adecuado. El sistema de procesamiento de datos puede incluir dispositivos informáticos o servidores que pueden realizar diversas funciones.

La red puede incluir redes informáticas como Internet, redes de área local, amplia, metropolitana o de otro tipo, intranets, redes por satélite, otras redes informáticas como redes de comunicación de voz o datos por teléfono móvil, y combinaciones de las mismas. El sistema de procesamiento de datos del sistema puede comunicarse a través de la red, por ejemplo, con al menos un dispositivo informático proveedor de contenidos, al menos un dispositivo informático editor de contenidos o al menos un dispositivo cliente. Cada dispositivo informático proveedor de contenidos, al menos un dispositivo informático editor de contenidos, o al menos un dispositivo cliente puede asociarse con, corresponder a, o pertenecer a una entidad de dominio.

¿Qué son las entidades de dominio?

La entidad de dominio puede ser una cuenta o una parte asociada a los recursos de información. La entidad de dominio puede identificarse o asociarse con un identificador de entidad o un identificador de recurso. Por ejemplo, la entidad de dominio puede asociarse con el identificador de recurso «www.example1.com» y «www.example2.com» En este ejemplo, la entidad de dominio puede asociarse con variantes del identificador de recurso, como «www.example1.com/index» o «www.example2.com/ex2/folder3» Utilizando al menos un dispositivo informático proveedor de contenidos, un dispositivo informático proveedor de contenidos o un dispositivo cliente, la entidad de dominio puede alojar recursos de información, cada uno de ellos identificado por identificadores de recursos (por ejemplo, localizadores uniformes de recursos).

La red puede ser cualquier forma de red informática que transmita información entre el dispositivo informático proveedor de contenidos, el sistema de procesamiento de datos y las fuentes de contenido, como los servidores web y los servidores de publicidad. Por ejemplo, la red puede incluir Internet y otros tipos de redes de datos, como una red de área local (LAN), una red de área amplia (WAN), una red celular, una red por satélite u otros tipos de redes de datos. La red también puede incluir cualquier número de dispositivos informáticos (por ejemplo, ordenadores, servidores, routers, conmutadores de red, etc.) configurados para recibir y enviar datos dentro de la red.

La red puede incluir además cualquier número de conexiones cableadas e inalámbricas. Por ejemplo, el dispositivo informático del proveedor de contenidos puede comunicarse de forma inalámbrica (por ejemplo, a través de WiFi, celular, radio, etc.) con un transceptor que se conecta por cable (por ejemplo, a través de un cable de fibra óptica, un cable CAT5, etc.) a otros dispositivos informáticos en la red.

Los dispositivos informáticos proveedores de contenidos pueden incluir servidores u otros dispositivos informáticos operados por una entidad proveedora de contenidos para proporcionar elementos de contenido para su visualización en recursos de información en el dispositivo cliente. El contenido proporcionado por el dispositivo informático proveedor de contenidos puede, por ejemplo, incluir elementos de contenido de terceros para su visualización en los recursos de información, como un sitio web o una página web que incluye contenido primario, por ejemplo, contenido proporcionado por el dispositivo informático editor de contenidos. Los elementos de contenido también pueden mostrarse en una página web de resultados de búsqueda.

Por ejemplo, el dispositivo informático proveedor de contenidos puede proporcionar o convertirse en los elementos de contenido de origen para su visualización en ranuras de contenido de páginas web de contenido, como una página web de una empresa en la que el contenido primario de la página web es proporcionado por la empresa, o para su visualización en la página de aterrizaje de resultados de búsqueda proporcionada por un motor de búsqueda. Los elementos de contenido asociados con el dispositivo informático proveedor de contenidos pueden mostrarse en recursos de información distintos de las páginas web, como el contenido que se muestra como parte de la ejecución de una aplicación en un smartphone u otro dispositivo cliente.

El dispositivo informático editor de contenidos

El dispositivo informático editor de contenidos puede:

Incluir servidores u otros dispositivos informáticos operados por una entidad de publicación de contenidos para proporcionar contenido primario para su visualización a través de la red. Por ejemplo, el dispositivo informático de publicación de contenidos puede incluir un operador de páginas web que proporcione contenido primario para su visualización en la página web. El contenido primario puede incluir contenido distinto del proporcionado por el dispositivo informático del editor de contenidos. La página web también puede incluir ranuras de contenido configuradas para mostrar elementos de contenido de terceros desde los dispositivos informáticos proveedores de contenido
Operar el sitio web de una empresa y puede proporcionar contenido sobre esa empresa para mostrarlo en las páginas web del sitio web. Las páginas web pueden, por ejemplo, incluir ranuras de contenido configuradas para mostrar elementos de contenido de terceros, como anuncios del dispositivo informático proveedor de contenidos
Utilizar un dispositivo informático de motor de búsqueda (por ejemplo, un servidor) de un operador de motor de búsqueda que opera un sitio web de motor de búsqueda. El contenido principal de las páginas web del motor de búsqueda (por ejemplo, resultados o página web de aterrizaje) puede incluir resultados de una búsqueda y elementos de contenido de terceros mostrados en ranuras de contenido, como elementos de contenido del dispositivo informático proveedor de contenidos
Ejecutar un servidor para servir contenido de vídeo

Los dispositivos cliente pueden incluir dispositivos informáticos configurados para comunicarse a través de la red para mostrar datos tales como el contenido proporcionado por el dispositivo informático editor de contenidos (por ejemplo, el contenido de la página web primaria u otros recursos de información) y el contenido proporcionado por el dispositivo informático proveedor de contenidos (por ejemplo, elementos de contenido de terceros configurados para ser mostrados en una ranura de contenido de una página web).

El dispositivo cliente, el dispositivo informático proveedor de contenidos y el dispositivo informático editor de contenidos pueden incluir ordenadores de sobremesa, ordenadores portátiles, tabletas, teléfonos inteligentes, asistentes digitales personales, dispositivos móviles, dispositivos informáticos de consumo, servidores, clientes, grabadoras de vídeo digital, un decodificador para una televisión, una consola de videojuegos o cualquier otro dispositivo informático configurado para comunicarse a través de la red.

Los dispositivos cliente pueden convertirse en dispositivos de comunicación a través de los cuales los editores de los usuarios finales pueden enviar solicitudes para recibir contenidos. Las solicitudes pueden convertirse en peticiones a un motor de búsqueda, y las peticiones pueden incluir consultas de búsqueda. Las peticiones pueden incluir una solicitud de acceso a una página web.

Más aspectos del software detrás de la relevancia semántica de las palabras clave

Los dispositivos informáticos del proveedor de contenidos, el dispositivo informático del editor de contenidos y los dispositivos del cliente pueden incluir un procesador y una memoria, es decir, un circuito de procesamiento. La memoria almacena instrucciones de máquina que hacen que el procesador realice las operaciones descritas en el presente documento cuando son ejecutadas por un procesador. El procesador puede incluir un microprocesador, un circuito integrado de aplicación específica (ASIC), una matriz de puertas programables en campo (FPGA), etc., o combinaciones de los mismos. La memoria puede incluir, pero no se limita a, un dispositivo electrónico, óptico, magnético o cualquier otro dispositivo de almacenamiento o transmisión capaz de proporcionar al procesador las instrucciones del programa.

La memoria puede incluir además un disquete, CD-ROM, DVD, disco magnético, chip de memoria, ASIC, FPGA, memoria de sólo lectura (ROM), memoria de acceso aleatorio (RAM), memoria ROM borrable eléctricamente (EEPROM), memoria ROM programable (EPROM), memoria flash, medios ópticos o cualquier otra memoria adecuada de la que el procesador pueda leer instrucciones. Las instrucciones pueden incluir código de cualquier lenguaje de programación informático adecuado.

Dispositivos de interfaz de usuario

Los dispositivos informáticos del proveedor de contenidos, los dispositivos informáticos del editor de contenidos y los dispositivos del cliente también pueden incluir dispositivos de interfaz de usuario. En general, un dispositivo de interfaz de usuario se refiere a cualquier dispositivo electrónico que transmite datos a un usuario generando información sensorial (por ejemplo, visualización en una pantalla, sonidos, etc.) y convierte la información sensorial recibida de un usuario en señales electrónicas (por ejemplo, un teclado, un ratón, un dispositivo señalador, una pantalla táctil, un micrófono, etc.).

Los dispositivos de interfaz de usuario pueden ser internos a una carcasa de los dispositivos informáticos del proveedor de contenidos, del dispositivo informático del editor de contenidos y de los dispositivos cliente (por ejemplo, una pantalla integrada, un micrófono, etc.) o externos a la carcasa de los dispositivos informáticos del proveedor de contenidos, del dispositivo informático del editor de contenidos y de los dispositivos cliente (por ejemplo, un reloj conectado al dispositivo informático del proveedor de contenidos, un altavoz conectado al dispositivo informático del proveedor de contenidos, etc.), según diversas implementaciones.

Por ejemplo, los dispositivos informáticos del proveedor de contenidos, el dispositivo informático del editor de contenidos y los dispositivos cliente pueden incluir una pantalla electrónica, que muestra visualmente las páginas web utilizando los datos de la página web recibidos de las fuentes de contenido y del sistema de procesamiento de datos a través de la red.

Un gestor de campañas de colocación de contenidos o un proveedor de contenidos de terceros, como un anunciante, puede comunicarse con el sistema de procesamiento de datos a través de los dispositivos informáticos del proveedor de contenidos.

El anunciante puede comunicarse con el sistema de procesamiento de datos a través de una interfaz de usuario mostrada en los dispositivos informáticos del proveedor de contenidos.

El sistema de procesamiento de datos puede incluir al menos un servidor. Por ejemplo, el sistema de procesamiento de datos puede incluir servidores ubicados en un centro de datos o granja de servidores.

El sistema de procesamiento de datos incluye un sistema de colocación de contenidos. El sistema de procesamiento de datos puede incluir al menos un módulo generador de palabras clave, al menos un módulo analizador de recursos, al menos un módulo calculador de frecuencias y al menos una base de datos. El módulo generador de palabras clave, el módulo analizador de recursos, el módulo calculador de frecuencias, el módulo selector de palabras clave y el módulo proveedor de interfaz pueden incluir cada uno de ellos al menos una unidad de procesamiento, un servidor, un servidor virtual, un circuito, un motor, un agente, un aparato u otro dispositivo lógico, como las matrices lógicas programables, configurado para comunicarse con la base de datos y con otros dispositivos informáticos (por ejemplo, el dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente) a través de la red.

El módulo generador de palabras clave, el módulo analizador de recursos, el módulo calculador de frecuencias, el módulo selector de palabras clave y el módulo proveedor de interfaz pueden incluir o ejecutar al menos un programa informático o script. El módulo generador de palabras clave, el módulo analizador de recursos, el módulo calculador de frecuencias, el módulo selector de palabras clave y el módulo proveedor de interfaz pueden ser componentes separados, un único componente o parte del sistema de procesamiento de datos. El módulo generador de palabras clave, el módulo analizador de recursos, el módulo calculador de frecuencias, el módulo selector de palabras clave y el módulo proveedor de interfaz pueden incluir combinaciones de software y hardware, como procesadores configurados para ejecutar scripts.

El sistema de procesamiento de datos también puede incluir repositorios de contenido o bases de datos. Las bases de datos pueden ser locales al sistema de procesamiento de datos.

Las bases de datos pueden ser remotas al sistema de procesamiento de datos pero pueden comunicarse a través de la red con el sistema de procesamiento de datos. Las bases de datos pueden incluir un gráfico de relaciones semánticas, un diccionario de términos, identificadores de recursos y un script de interfaz de lista de palabras clave. A continuación se ofrecen más detalles sobre el contenido de la base de datos.

El módulo generador de palabras clave puede recibir una palabra clave semilla para generar más palabras clave relevantes o asociadas a la palabra clave semilla.

El módulo generador de palabras clave puede recibir palabras clave semilla para generar más palabras clave relevantes o asociadas a las palabras clave semilla.

Las palabras clave semilla pueden corresponder a una frase semilla. La frase semilla puede incluir palabras clave.

La palabra clave inicial puede formar parte de una solicitud de más palabras clave. La solicitud de más palabras clave también puede incluir un identificador de entidad que especifique una entidad de dominio o identificadores de recursos asociados con la entidad de dominio. La palabra clave semilla puede recibirse desde el dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente.

La palabra clave semilla puede recibirse de una plataforma de gestión de selección y entrega de contenidos ejecutada en cualquier dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente.

La forma canónica de la palabra clave semilla

El dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente del que se recibe la palabra clave semilla puede corresponder, asociarse o pertenecer a la entidad de dominio. Antes de seguir procesando la palabra clave semilla, el módulo generador puede generar o determinar un vado canónico utilizando un diccionario o ficha de búsqueda para la palabra clave semilla.

El diccionario o la tabla de búsqueda puede especificar una forma canónica para cada variante de la palabra. La forma canónica puede ser representativa de una representación léxica estandarizada de la palabra clave. Por ejemplo, si la palabra clave recibida es «ratones», el módulo generador de palabras clave puede generar «ratón» como la forma canónica para la palabra clave, realizando una búsqueda en el diccionario especificando que «ratón» es la forma canónica. Para «ratones»

Uso de un gráfico de relaciones semánticas

Para generar más palabras clave relevantes o asociadas a la palabra clave semilla, el módulo generador de palabras clave puede acceder a un gráfico de relación semántica o a una estructura de datos (por ejemplo, matriz, lista enlazada, gráfico, árbol, montón, etc.) de las bases de datos. El gráfico de relación semántica puede incluir palabras clave o frases. El gráfico de relación semántica puede también especificar, elegir o definir de otra manera una distancia semántica o una medida de relevancia entre las palabras clave. El grafo de relación semántica puede ser pregenerado usando palabras clave preestablecidas y distancias semánticas predefinidas o medidas de relevancia usando técnicas de procesamiento de lenguaje natural.

Las palabras clave y la distancia semántica o la medida de relevancia entre cada una de las palabras clave pueden determinarse dinámicamente utilizando técnicas de procesamiento del lenguaje natural.

Las palabras clave y la distancia semántica o medida de relevancia entre cada una de las palabras clave pueden actualizarse de vez en cuando aplicando técnicas de procesamiento del lenguaje natural a un corpus de palabras clave recuperadas de diversas fuentes (por ejemplo, recursos de información, libros escaneados, etc.).

Aristas y nodos en un grafo de relaciones semánticas

El gráfico de relaciones semánticas puede incluir nodos y aristas. Cada uno de los nodos puede representar una palabra clave.

Los nodos pueden representar una frase que incluya dos o más palabras clave. Las aristas pueden conectar o enlazar dos de los nodos. Cada arista puede definir o especificar la distancia semántica o la medida de relevancia entre los dos nodos respectivos a dos palabras clave en el gráfico de relación semántica. Cada arista también puede definir o especificar si los dos nodos respectivos en el gráfico de relación semántica son semánticamente concurrentes o semánticamente conflictivos.

El grafo de relación semántica puede implementarse utilizando cualquier estructura de datos, como un array, una lista enlazada, un árbol o un montón, entre otros. Utilizando el grafo de relación semántica, el módulo generador de palabras clave puede identificar o buscar un nodo correspondiente a la palabra clave semilla. El nodo correspondiente a la palabra clave semilla puede denominarse nodo semilla o nodo inicial.

El módulo generador de palabras clave puede:

Recorrer el grafo de relaciones semánticas para identificar el nodo semilla
Buscar en una tabla de búsqueda o en un diccionario el nodo semilla dentro del grafo de relaciones semánticas. Cada tabla de búsqueda y diccionario puede convertirse en una estructura de datos utilizada para indexar o referenciar las palabras clave o los nodos del grafo de relación semántica
Identificar un conjunto de nodos adyacentes o conectados al nodo semilla a través de una arista respectiva desde el nodo semilla correspondiente a la palabra clave semilla en el grafo de relación semántica
Determinar si el nodo adyacente es semánticamente concurrente o semánticamente conflictivo con el nodo semilla. El módulo generador de palabras clave puede identificar una distancia semántica de la arista respectiva desde el nodo semilla para un nodo adyacente o conectado con una palabra clave semánticamente concurrente con la palabra clave semilla
Comparar la distancia semántica con un primer umbral de distancia semántica

La estructura de datos para cada tabla de búsqueda y el diccionario pueden separarse del gráfico de relaciones semánticas.

El primer umbral de distancia semántica puede estar predefinido.

Cómo funciona el módulo generador de palabras clave

El módulo generador de palabras clave puede:

Calcular el primer umbral de distancia semántica basado en las distancias semánticas entre cada palabra clave adyacente y la palabra clave semilla. Por ejemplo, el módulo generador de palabras clave puede establecer el primer umbral de distancia semántica para filtrar un cierto porcentaje (por ejemplo, 50-70%) de palabras clave adyacentes a la palabra clave semilla encontrada durante el recorrido. Si la distancia semántica del borde respectivo entre el nodo semilla y el nodo adyacente es menor que el primer umbral de distancia semántica, el módulo generador de palabras clave puede identificar el nodo como un nodo candidato e identificar la palabra clave correspondiente como una palabra clave candidata
Incluir el nodo en un conjunto de nodos candidatos. Cada nodo en el conjunto de nodos candidatos puede tener una distancia semántica menor que el primer umbral de distancia semántica desde el nodo semilla
Identificar un conjunto de nodos adyacentes o conectados al respectivo candidato a través de una arista respectiva para cada candidato, si la hay. El módulo generador de palabras clave puede determinar si hay nodos adyacentes o conectados al respectivo nodo candidato. Si hay nodos adyacentes o conectados al respectivo nodo candidato, el módulo generador de palabras clave puede identificar de nuevo una distancia semántica de la arista respectiva para cada nodo candidato
Identificar una distancia semántica entre el nodo adyacente y el nodo candidato para cada nodo adyacente. El módulo generador de palabras clave puede determinar o calcular una distancia semántica total entre el nodo adyacente y el nodo semilla a través del nodo candidato. Por ejemplo, el módulo generador de palabras clave puede sumar la distancia semántica entre el nodo semilla y el nodo candidato y la distancia semántica entre el nodo adyacente al nodo candidato y el propio nodo candidato
Comparar la distancia semántica entre los nodos adyacentes y el nodo candidato con el umbral de distancia semántica. Si la distancia semántica total del borde respectivo entre el nodo semilla y el nodo próximo al nodo candidato es menor que el umbral de distancia semántica, el módulo generador de palabras clave puede identificar el nodo adyacente como nodo candidato y la palabra clave correspondiente como palabra clave candidata
Comparar la distancia semántica entre los nodos candidatos y los adyacentes con un segundo umbral de distancia semántica

El segundo umbral de distancia semántica puede ser menor o igual que el primer umbral de distancia entre la semilla y el nodo candidato original.

El módulo generador de palabras clave puede:

Calcular el segundo umbral de distancia semántica basándose en las distancias semánticas entre la palabra clave adyacente y las candidatas o entre las palabras clave adyacentes y las semillas. Por ejemplo, el módulo generador de palabras clave puede establecer el segundo umbral de distancia semántica para filtrar un cierto porcentaje (por ejemplo, 50-70%) de palabras clave adyacentes a la palabra clave candidata encontrada durante el recorrido. Si la distancia semántica de la arista respectiva entre el nodo candidato y el nodo próximo al nodo candidato es menor que el otro umbral de distancia semántica, el módulo generador de palabras clave puede identificar el nodo adyacente como nodo candidato y la palabra clave correspondiente como palabra clave candidata
Repita este proceso para cada nodo del grafo de relaciones semánticas y continúe añadiendo más nodos o palabras clave al conjunto de palabras clave candidatas atravesando el grafo de relaciones semánticas hasta que todos los nodos dentro del umbral de distancia semántica del nodo semilla hayan sido visitados
Identificar las categorías de palabras clave a partir del conjunto de nodos y palabras clave candidatas. Cada categoría de palabras clave puede incluir palabras clave con una distancia semántica de la palabra clave semilla u otra palabra clave candidata menor que el umbral de distancia semántica
Aplicar un algoritmo de clustering al conjunto de nodos candidatos y a las respectivas distancias semánticas con respecto a otro nodo candidato para identificar las categorías de palabras clave. El algoritmo de agrupación puede ser, por ejemplo, un algoritmo de k-próximos (k-NN), análisis de componentes principales (PCA), maximización de expectativas (EM) y análisis jerárquico de clusters (HCA), entre otros
Identificar las distancias semánticas entre cada palabra clave candidata dentro del gráfico de relaciones semánticas
Utilizar el algoritmo de clustering para identificar los clusters de los nodos candidatos en base a las distancias semánticas identificadas. Por ejemplo, utilizando el algoritmo k-NN, el módulo generador de palabras clave puede elegir un conjunto inicial de k nodos al azar como media para k clusters y asignar el nodo más cercano al cluster. A continuación, el módulo generador de palabras clave puede calcular un centroide utilizando las distancias semánticas identificadas para cada clúster y ajustar la media. En este ejemplo, el módulo generador de palabras clave puede repetir estos pasos hasta la convergencia, cuando la media de cada clúster cambia por menos de un margen predeterminado
Establecer o asignar las palabras clave de los nodos de cada clúster a una categoría de palabras clave
Identificar las categorías de palabras clave basándose en el nivel o la profundidad del nodo candidato desde el nodo semilla
Identificar la profundidad del nodo candidato desde el nodo semilla a través de la arista respectiva en el gráfico de relaciones semánticas
Identificar una palabra clave tópica para cada categoría de palabras clave representativa de la respectiva categoría de palabras clave
Elegir una palabra clave tópica entre las palabras clave de cada categoría de palabras clave

Los nodos están en una categoría de palabras clave respectiva. Para cada subconjunto identificado de nodos candidatos, el módulo generador de palabras clave puede identificar los nodos adyacentes, conectados o más cercanos al respectivo nodo candidato. El módulo generador de palabras clave puede establecer o asignar la palabra clave de los nodos identificados adyacentes, conectados o más cercanos al respectivo nodo candidato a la respectiva categoría de palabras clave correspondiente al nodo candidato.

Utilizando el gráfico de relación semántica, el módulo generador de palabras clave puede determinar o calcular las distancias semánticas entre las palabras clave dentro de cada categoría de palabras clave utilizando el gráfico de relación semántica.

Para cada categoría de palabras clave, el módulo generador de palabras clave puede identificar una palabra clave con la menor distancia semántica de todas las demás palabras clave de la respectiva categoría de palabras clave. El módulo generador de palabras clave puede establecer la palabra clave identificada con la menor distancia semántica de todas las palabras clave de la categoría de palabras clave como la palabra clave tópica representativa de la respectiva categoría de palabras clave.

Una implementación de un gráfico de relaciones semánticas

En el ejemplo representado, el gráfico de relación semántica puede incluir siete nodos de palabras clave con aristas que conectan cada nodo de palabras clave. En el contexto del sistema de procesamiento de datos, el módulo generador de palabras clave puede haber identificado un nodo de palabras clave que se corresponde con el de la palabra clave semilla. El módulo generador de palabras clave puede haber identificado todos los nodos adyacentes que conectan las aristas con los nodos de la palabra clave semilla. El módulo generador de palabras clave puede identificar una distancia semántica entre el nodo de la palabra clave semilla y los nodos adyacentes definidos por las aristas.

De los nodos adyacentes, el módulo generador de palabras clave puede haber identificado dos de los nodos adyacentes con distancias semánticas por debajo del umbral y, en consecuencia, como nodos candidatos. El módulo generador de palabras clave puede entonces repetir el proceso con los nodos candidatos. El módulo generador de palabras clave puede haber identificado los nodos de palabras clave con distancias semánticas definidas por las aristas por debajo del umbral desde el nodo de palabras clave semilla a través del nodo de palabras clave. Del mismo modo, el módulo generador de palabras clave puede haber identificado nodos de palabras clave con distancias semánticas definidas por las aristas por debajo del umbral desde el nodo de palabras clave semilla a través del nodo de palabras clave. El módulo generador de palabras clave puede entonces aplicar un algoritmo de clustering para identificar los nodos de palabras clave como un cluster y una categoría de palabras clave y los nodos de palabras clave como otro cluster y otra categoría de palabras clave.

Para recuperar los recursos de información para medir la relevancia semántica de las palabras clave, el módulo analizador de recursos puede identificar los recursos de información de la entidad de dominio. La entidad de dominio puede corresponder o estar asociada con al menos uno de los dispositivos informáticos del proveedor de contenidos, el dispositivo informático del editor de contenidos o el dispositivo del cliente. La entidad de dominio puede convertirse en una cuenta o en una parte asociada a los recursos de información. La entidad de dominio puede identificarse o asociarse con un identificador de entidad o un identificador de recurso.

El identificador de la entidad o el identificador del recurso puede recibirse con la palabra clave semilla. El módulo analizador de recursos puede buscar o identificar identificadores de recursos asociados a la entidad de dominio. Cada uno de los identificadores de recursos (por ejemplo, el localizador universal de recursos (URL)) puede incluir un nombre de host y un nombre de ruta (por ejemplo, «www.example.com/level1/level2/page.html»). Por ejemplo, el módulo parser de recursos puede utilizar un indexador de entidades de la red (por ejemplo, un rastreador web) para identificar una multitud de recursos de información (por ejemplo, páginas web) disponibles a través de la red y encontrar un subconjunto de los recursos de información identificados como pertenecientes a la entidad de dominio basado en el nombre de host del identificador de recursos.

El módulo analizador de recursos recibe los identificadores de recursos

El módulo analizador de recursos puede recibir identificadores de recursos para los recursos de información desde el dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente.

El módulo analizador de recursos puede recuperar, obtener o acceder a los recursos de información de la entidad de dominio. El módulo analizador de recursos puede analizar los recursos de información a los que se ha accedido de la entidad de dominio para obtener, recuperar o identificar de otro modo palabras clave en los recursos de información a los que se ha accedido. Para cada palabra clave identificada, el módulo analizador de recursos puede identificar el identificador de recurso asociado, el recurso de información asociado y las propiedades de la palabra clave del recurso de información.

Por ejemplo, las propiedades de la palabra clave pueden incluir una ubicación en el recurso de información, un tipo de letra, un tamaño de letra y un color, entre otros. El módulo analizador de recursos puede almacenar las palabras clave de los recursos de información, el identificador de recursos asociado a las palabras clave y las propiedades de las palabras clave en las bases de datos.

Utilizando las palabras clave de los recursos de información identificados por el módulo analizador de recursos, el módulo calculador de frecuencias puede generar una puntuación de afinidad palabra clave-semilla para cada palabra clave de las palabras clave candidatas o de la categoría de palabras clave. La puntuación de afinidad palabra clave-semilla puede representar o indicar una frecuencia en la que la palabra clave semilla y la palabra clave candidata aparecen juntas en los recursos de información de la entidad de dominio. El módulo calculador de frecuencias puede determinar o calcular un recuento de la frecuencia con la que la palabra clave semilla y cada palabra clave candidata aparecen en los recursos de información.

Cómo interviene el módulo calculador de frecuencias en la determinación de la relevancia semántica

El módulo calculador de frecuencias puede realizar un algoritmo de búsqueda para determinar si las palabras clave semilla y candidatas aparecen en los recursos de información. El algoritmo de búsqueda puede ser, por ejemplo, un algoritmo de búsqueda lineal, de hashing o de búsqueda binaria, entre otros. Cada instancia, la palabra clave semilla y la palabra clave candidata ocurren juntas en cualquier recurso de información. El módulo analizador de recursos puede incrementar el recuento de frecuencias. El módulo calculador de frecuencias puede establecer la puntuación de afinidad de la palabra clave-semilla con el recuento de frecuencias para cada palabra clave candidata.

El módulo calculador de frecuencias puede:

Cambiar o modificar las palabras clave de los recursos de información a una forma canónica
Identificar una coincidencia léxica entre la palabra clave candidata y cualquier palabra clave de los recursos de información. La coincidencia léxica puede convertirse, por ejemplo, en una coincidencia exacta carácter por carácter o similar entre la palabra clave candidata y cualquiera de las palabras clave del recurso de información
Identificar una palabra clave de los recursos de información
Comparar los caracteres de la palabra clave de los recursos de información con los caracteres de la palabra clave candidata para determinar una coincidencia carácter a carácter. Si los caracteres de la palabra clave de la información coinciden uno a uno con los caracteres de la palabra clave candidata, el módulo de cálculo de la frecuencia puede determinar que existe una coincidencia léxica entre la palabra clave candidata y la palabra clave de los recursos de información
Utilizar el gráfico de relaciones semánticas para determinar una coincidencia semántica entre la palabra clave candidata y cualquier palabra clave de los recursos de información. El módulo calculador de frecuencias puede identificar el nodo del gráfico de relación semántica correspondiente a la palabra clave candidata. El módulo calculador de frecuencias puede determinar si la distancia semántica entre un nodo correspondiente a cualquiera de las palabras clave del recurso de información y el nodo identificado correspondiente a la palabra clave candidata es menor que un tercer umbral semántico
Calcular el tercer umbral de distancia semántica basándose en las distancias semánticas entre cada palabra clave candidata y la palabra clave de los recursos de información. Por ejemplo, el tercer umbral de distancia semántica puede establecerse para filtrar un cierto porcentaje (por ejemplo, 80-95%) de palabras clave relacionadas con la palabra clave candidata. Si el módulo calculador de frecuencia determina que la tercera distancia semántica es menor que el umbral semántico, el módulo puede determinar una coincidencia semántica entre la palabra clave candidata y la palabra clave del recurso de información
Mantener un contador para incrementar el recuento de frecuencias de la palabra clave candidata
Generar o determinar la puntuación de afinidad palabra clave-semilla a partir del recuento de frecuencias. La puntuación de afinidad palabra clave-semilla puede utilizar una medida ponderada del número de apariciones de la palabra clave candidata (ya sea con una coincidencia léxica o semántica) que aparece junto con la palabra clave semilla en los recursos de información
Ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata basándose en la distancia semántica entre la palabra clave candidata y la palabra clave del recurso de información. El módulo calculador de frecuencia puede ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata basándose en las propiedades de la palabra clave respectiva
Determinar o calcular un factor de ponderación para ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata. El factor de ponderación puede basarse en la ubicación de la palabra clave en el recurso de información. Por ejemplo, el módulo calculador de frecuencia puede aumentar la puntuación de afinidad de la palabra clave-semilla si la palabra clave candidata correspondiente aparece relativamente hacia la parte superior del recurso de información asociado. Por otro lado, el módulo de cálculo de la frecuencia puede disminuir la puntuación de afinidad de la palabra clave-semilla si la palabra clave candidata correspondiente aparece relativamente hacia la parte inferior del recurso de información asociado
Determinar o calcular un factor de ponderación para ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata basándose en el tamaño de la fuente de la palabra clave candidata en los recursos de información de la entidad de dominio. Por ejemplo, el módulo calculador de frecuencia puede aumentar la puntuación de afinidad de la palabra clave-semilla si la palabra clave candidata correspondiente es relativamente más grande que otras palabras clave en el recurso de información. Por el contrario, el módulo de cálculo de la frecuencia puede disminuir la puntuación de afinidad de la palabra clave-semilla si la palabra clave candidata correspondiente es relativamente más pequeña que otras palabras clave en el recurso de información
Ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata basándose en la profundidad o nivel jerárquico del recurso de información. El módulo calculador de frecuencia puede identificar el identificador de recurso para el recurso de información en el que la coincidencia léxica o la coincidencia semántica entre la palabra clave candidata y cualquiera de las palabras clave de los recursos de información de la entidad de dominio. El módulo de cálculo de la frecuencia puede analizar el identificador del recurso para identificar la profundidad jerárquica o el nivel del recurso de información a partir del nombre de la ruta del identificador del recurso. Por ejemplo, si el identificador del recurso de información con el que se ha producido una coincidencia léxica es «www.example.com/index/sub1/», el módulo de cálculo de la frecuencia puede identificar que la profundidad jerárquica es dos a partir del nombre de la ruta «/index/sub1/» basándose en las barras inclinadas
Ajustar la puntuación de afinidad palabra clave-semilla o la puntuación de frecuencia mediante un factor de normalización para la palabra clave candidata
Identificar un corpus general. El corpus general puede especificar una frecuencia nominal o media con la que aparecen las palabras clave. El corpus general puede recuperarse de las bases de datos o recursos de información que no pertenecen a la entidad de dominio. La frecuencia nominal puede convertirse, por ejemplo, en una medida de frecuencia de término-inversa de documento (td-idf)
Identificar la frecuencia nominal de la palabra clave candidata a partir del corpus general
Calcular o determinar la normalización basada en la frecuencia nominal de la palabra clave candidata identificada a partir del corpus general. Por ejemplo, el módulo de cálculo de la frecuencia puede identificar muchos de los recursos de información de la entidad de dominio y calcular un cociente entre el número de recursos de información y la frecuencia nominal del corpus general como factor de normalización

Basándose en el módulo calculador de frecuencias que determina la coincidencia léxica o semántica entre la palabra clave candidata y cualquiera de las palabras clave de los recursos de información, el módulo calculador de frecuencias puede calcular, incrementar o actualizar de otro modo el recuento de frecuencias para la palabra clave candidata. El recuento de frecuencias puede medir el número de apariciones de la palabra clave candidata (ya sea con una coincidencia léxica o semántica) que aparece junto con la palabra clave semilla en los recursos de información.

El tercer umbral de distancia semántica puede estar predefinido.

Un recurso de información con palabras clave que coincidan con la palabra clave semilla o con una palabra clave de una categoría de palabras clave

El recurso de información puede convertirse en una única página web y puede incluir contenido primario y otros elementos de contenido secundario. El contenido primario puede incluir palabras clave. En el contexto del sistema de procesamiento de datos, el módulo analizador de recursos puede haber identificado el recurso de información como perteneciente a la entidad de dominio de la que se recibió la palabra clave semilla.

Además, el módulo analizador de recursos puede haber analizado el recurso de información para recuperar las palabras clave en el contenido primario del recurso de información. Junto con el módulo analizador de recursos, el módulo calculador de frecuencia puede buscar la palabra clave semilla y una palabra clave candidata del conjunto de palabras clave candidatas o una de las categorías de palabras clave entre las palabras clave del recurso de información. A través de la búsqueda, el módulo calculador de frecuencias puede haber identificado tres palabras clave 315A-C, con al menos una que coincida con la palabra clave semilla y las otras una o dos que coincidan con una o dos de las palabras clave candidatas.

Al encontrar las coincidencias, el módulo calculador de frecuencias puede asignar un recuento de frecuencias a cada palabra clave candidata. El módulo calculador de frecuencias también puede calcular una puntuación de afinidad palabra clave-semilla a partir del recuento de frecuencias y ajustar la puntuación de afinidad palabra clave-semilla basándose en la ubicación de las palabras clave coincidentes en el recurso de información. En este ejemplo, el módulo calculador de frecuencia puede ponderar la puntuación de afinidad palabra clave-semilla de la palabra clave candidata correspondiente a la palabra clave coincidente más baja que la de la palabra clave candidata correspondiente a la palabra clave coincidente 315B, ya que la palabra clave aparece más abajo en el recurso de información la palabra clave.

El módulo calculador de frecuencia puede generar o calcular una puntuación de afinidad de categoría-semilla para cada categoría de palabra clave. El módulo calculador de frecuencias puede calcular una puntuación combinada para la respectiva categoría de palabras clave basándose en las puntuaciones de afinidad de categoría-semilla de cada palabra clave en la categoría de palabras clave. La puntuación combinada puede utilizar un promedio de las puntuaciones de afinidad palabra clave-semilla de las palabras clave de la categoría de palabras clave.

La media puede convertirse en una media ponderada para tener en cuenta el ajuste de la puntuación de afinidad palabra clave-semilla para las palabras clave de la categoría de palabras clave. Por ejemplo, mientras se calcula el promedio de las puntuaciones de afinidad palabra clave-semilla, el módulo de cálculo de la frecuencia puede ajustar el promedio basándose en las propiedades de las palabras clave, la colocación de las palabras clave, y otros.

El módulo calculador de frecuencias puede calcular la puntuación combinada para la respectiva categoría de palabras clave basándose en los recuentos de frecuencia de las palabras clave en la categoría de palabras clave. La puntuación combinada puede promediar los recuentos de frecuencia de las palabras clave en la respectiva categoría de palabras clave.

El módulo de selección de palabras clave puede

Identificar o seleccionar palabras clave dentro de categorías de palabras clave o palabras clave candidatas individuales relevantes para la palabra clave semilla y la entidad de dominio. Para seleccionar palabras clave individuales dentro de una categoría de palabras clave como relevantes, el módulo selector de palabras clave puede comparar la puntuación de afinidad de palabra clave-semilla con un umbral de puntuación de afinidad de palabra clave-semilla para cada palabra clave candidata del conjunto de palabras clave candidatas o cada una de las categorías de palabras clave
Identificar un subconjunto de palabras clave dentro de cada categoría de palabras clave. La puntuación de afinidad de la palabra clave respectiva es mayor, menor o igual que el umbral de puntuación de afinidad de la palabra clave-semilla. Si la puntuación de afinidad palabra clave-semilla es mayor o igual que el umbral, el módulo selector de palabras clave puede determinar, identificar o seleccionar la palabra clave relevante para la palabra clave semilla y la entidad de dominio. Si la afinidad palabra clave-semilla es menor que el umbral de la puntuación de afinidad palabra clave-semilla, el módulo selector de palabras clave puede determinar, identificar o deseleccionar la palabra clave respectiva como irrelevante para la palabra clave semilla y la entidad de dominio
Compara el recuento de frecuencia con un recuento de frecuencia umbral para cada palabra clave candidata del conjunto de palabras clave candidatas
Identifica el subconjunto de palabras clave candidatas con un recuento de frecuencia respectivo mayor o igual, o menor que el recuento de frecuencia umbral

Obtención del recuento de frecuencia umbral

El recuento de frecuencias umbral puede ser predefinido.

El módulo selector de palabras clave puede establecer o determinar dinámicamente el recuento de frecuencia umbral basándose en el número de palabras clave candidatas en el subconjunto de palabras clave. Por ejemplo, el módulo selector de palabras clave puede establecer el recuento de frecuencia umbral para filtrar un cierto porcentaje (por ejemplo, 40-60%) de las palabras clave candidatas del subconjunto. Si el recuento de frecuencias es mayor o igual que el recuento de frecuencias umbral, el módulo selector de palabras clave puede determinar, identificar o seleccionar la palabra clave relevante para la palabra clave semilla y la entidad de dominio. Si el recuento de frecuencias es menor que el umbral, el módulo selector de palabras clave puede determinar, identificar o deseleccionar la palabra clave respectiva como irrelevante para la palabra clave semilla y la entidad de dominio.

El módulo de selección de palabras clave compara la puntuación de afinidad de la palabra clave-semilla con un umbral para cada palabra clave candidata del conjunto de palabras clave candidatas.

El módulo selector de palabras clave puede identificar el subconjunto de palabras clave en cada categoría con una puntuación de afinidad palabra clave-semilla respectiva mayor o igual o menor que el umbral.

El umbral de la puntuación de afinidad palabra clave-semilla puede ser predefinido.

El módulo de selección de palabras clave puede establecer o determinar dinámicamente el umbral de puntuación de afinidad entre palabras clave y semillas basándose en el número de palabras clave de la categoría respectiva. Por ejemplo, el módulo de selección de palabras clave puede establecer el umbral de puntuación de afinidad de palabras clave-semilla para filtrar un cierto porcentaje (por ejemplo, 40-60%) de las palabras clave candidatas de la categoría de palabras clave.

Si la puntuación de afinidad palabra clave-semilla es mayor o igual que el umbral, el módulo selector de palabras clave puede determinar, identificar o seleccionar la palabra clave relevante para la palabra clave semilla y la entidad de dominio. Si la puntuación de afinidad palabra clave-semilla es menor que el umbral, el módulo selector de palabras clave puede determinar, identificar o deseleccionar la palabra clave respectiva como irrelevante para la palabra clave semilla y la entidad de dominio.

El módulo selector de palabras clave puede determinar, identificar o seleccionar más categorías de palabras clave o subconjuntos de palabras clave candidatas relevantes para la palabra clave semilla y la entidad de dominio. Para seleccionar las categorías de palabras clave como relevantes para la palabra clave semilla y la entidad de dominio, el módulo selector de palabras clave puede comparar las puntuaciones de afinidad categoría-semilla de cada categoría de palabras clave con un umbral de puntuación de afinidad categoría-semilla. El módulo selector de palabras clave puede identificar la puntuación de afinidad categoría-semilla de cada categoría de palabras clave como mayor, menor o igual que el umbral de puntuación de afinidad categoría-semilla. Si la puntuación de afinidad categoría-semilla es mayor o igual que el umbral de puntuación de afinidad categoría-semilla, el módulo selector de palabras clave puede determinar, identificar o seleccionar la categoría de palabras clave respectiva que es relevante para la palabra clave semilla y la entidad de dominio.

El módulo selector de palabras clave puede determinar, identificar o seleccionar la categoría de palabras clave respectiva como relevante, mientras que determinar, identificar o seleccionar un subconjunto de las palabras clave en la categoría de palabras clave es irrelevante. Si la puntuación de afinidad categoría-semilla es menor que el umbral, el módulo selector de palabras clave puede determinar, identificar o deseleccionar la categoría de palabras clave respectiva como irrelevante para la palabra clave semilla y la entidad de dominio. Utilizando el gráfico de relaciones semánticas, el módulo selector de palabras clave puede identificar o determinar un conflicto semántico entre dos o más categorías de palabras clave.

Ciertas categorías de palabras clave pueden no ser apropiadas en conjunto con otras categorías de palabras clave en la selección de elementos de contenido. Por ejemplo, las categorías de palabras clave pueden no estar relacionadas entre sí (por ejemplo, «squash» (raqueta) frente a «squash» (verdura)).

El módulo de selección de palabras clave puede identificar o determinar el conflicto semántico basándose en las aristas del gráfico de relación semántica.

El módulo selector de palabras clave puede identificar o determinar nodos para cada palabra clave en las categorías de palabras clave.

El módulo selector de palabras clave puede identificar los nodos que conectan cada nodo que representa una palabra clave atravesando el gráfico de relación semántica.

El módulo selector de palabras clave puede, si cada arista identificada que conecta los dos nodos respectivos, especificar que cada palabra clave representada por los dos nodos es semánticamente conflictiva.

Si una arista especifica que los dos nodos que representan palabras clave de dos categorías de palabras clave diferentes son semánticamente conflictivos, el módulo selector de palabras clave puede determinar o identificar un conflicto semántico entre las respectivas categorías de palabras clave.

Si una arista especifica que los dos nodos que representan palabras clave a través de dos categorías diferentes de palabras clave no son semánticamente conflictivas, el módulo selector de palabras clave puede identificar la ausencia de un conflicto semántico entre las respectivas categorías de palabras clave.

El módulo selector de palabras clave puede determinar, calcular o contar aristas que especifiquen que los nodos conectados que representan las respectivas palabras clave son semánticamente conflictivos.

El módulo selector de palabras clave puede comparar el número de aristas que especifican que los nodos conectados que representan las respectivas palabras clave son semánticamente conflictivos con un número umbral. El módulo selector de palabras clave puede identificar un conflicto semántico entre las dos categorías de palabras clave respectivas si las aristas son mayores o iguales al número umbral. Si el número de aristas es menor que el número umbral, el módulo selector de palabras clave puede identificar la ausencia de conflicto semántico entre las dos categorías de palabras clave respectivas.

El módulo de selección de palabras clave puede determinar que dos o más categorías de palabras clave son semánticamente conflictivas basándose en las distancias semánticas entre las palabras clave en las dos o más categorías de palabras clave.

El módulo de selección de palabras clave puede recorrer el gráfico de relación semántica para identificar las distancias semánticas entre las palabras clave a través de las dos o más categorías de palabras clave.

El módulo de selección de palabras clave puede comparar una distancia semántica para una palabra clave en una categoría de palabras clave con otra palabra clave en otra categoría de palabras clave con un umbral de distancia semántica. El umbral de distancia semántica puede diferir del umbral utilizado para identificar las palabras clave en la categoría de palabras clave a partir de la palabra clave semilla. Si la distancia semántica es mayor que el umbral de distancia semántica, el módulo selector de palabras clave puede identificar o determinar que existe un conflicto semántico entre las dos categorías de palabras clave respectivas.

Si se identifica o determina un conflicto semántico entre las dos o más categorías de palabras clave, el módulo selector de palabras clave puede comparar las respectivas puntuaciones de afinidad de la categoría-semilla con el módulo selector de palabras clave puede seleccionar la categoría correspondiente a la puntuación de afinidad de la categoría-semilla más alta o superior comparando las puntuaciones de afinidad de la categoría-semilla.

El módulo de selección de palabras clave puede determinar, identificar o seleccionar la categoría de palabras clave correspondiente a la puntuación de afinidad de categoría-semilla más alta o más elevada relevante para la palabra clave semilla y la entidad de dominio.

El módulo selector de palabras clave puede determinar, identificar o seleccionar la categoría correspondiente a la puntuación más baja de afinidad de categoría-semilla como irrelevante para la palabra clave semilla y la entidad de dominio.

El módulo selector de palabras clave puede identificar un conflicto semántico entre grupos de categorías de palabras clave basado en las categorías de palabras clave identificadas como con conflictos semánticos.

El módulo selector de palabras clave puede identificar grupos de categorías de palabras clave basándose en la falta de un conflicto semántico

El módulo selector de palabras clave puede identificar grupos de categorías de palabras clave basándose en la falta de un conflicto semántico entre las respectivas categorías de palabras clave. Por ejemplo, puede haber cuatro categorías de palabras clave «A», «B», «C» y «D» Basándose en las aristas que especifican los conflictos semánticos entre los nodos o en las distancias semánticas, el módulo selector de palabras clave puede identificar un conflicto semántico entre las categorías de palabras clave «A» y «B», «A» y «C», y «B» y «D» A partir de los conflictos semánticos identificados, el módulo selector de palabras clave puede identificar las categorías de palabras clave «A» y «D» como un grupo y «B» y «C» como otro grupo.

El módulo selector de palabras clave puede determinar o calcular una puntuación de afinidad de grupo-semilla para cada uno de los grupos de categorías de palabras clave identificadas que tienen conflictos semánticos entre sí.

El módulo de selección de palabras clave puede comparar la puntuación de afinidad grupo-semilla de cada categoría de palabras clave entre sí.

El módulo de selección de palabras clave puede determinar, identificar o seleccionar el grupo de categorías de palabras clave correspondiente a la puntuación de afinidad de grupo-semilla más alta o superior como relevante para la palabra clave semilla y la entidad de dominio.

El módulo de selección de palabras clave puede determinar, identificar o seleccionar el grupo de categorías de palabras clave correspondiente a la puntuación más baja de afinidad de categoría-semilla como irrelevante para la palabra clave semilla y la entidad de dominio.

El módulo proveedor de interfaz puede generar una interfaz para indicar las categorías de palabras clave y las palabras clave como seleccionadas o no seleccionadas en función del recuento de frecuencia correspondiente, la puntuación de afinidad de la palabra clave-semilla, la puntuación de afinidad de la categoría-semilla o la puntuación de afinidad del grupo-semilla.

La interfaz puede formar parte de un recurso de información o de una aplicación independiente, entre otros. La interfaz puede incluir listas de categorías de palabras clave y palabras clave seleccionadas o no seleccionadas.

La lista de categorías de palabras clave como seleccionadas puede ser diferente o separada de la lista de categorías de palabras clave como no seleccionadas. El módulo proveedor de interfaz puede enviar la interfaz al dispositivo informático proveedor de contenidos, al dispositivo informático editor de contenidos o al dispositivo cliente que envió la palabra clave inicial.

El módulo proveedor de interfaz puede generar o enviar la interfaz, en respuesta a la identificación o determinación de palabras clave o categorías de palabras clave como relevantes o irrelevantes para la palabra clave semilla y la entidad de dominio.

Palabras clave y categorías de palabras clave generadas a partir de la palabra clave inicial designada como seleccionada o no seleccionada

La interfaz puede incluir una entrada para la palabra clave semilla, una lista de categorías de palabras clave seleccionadas, categorías de palabras clave no seleccionadas, categorías de palabras clave y palabras clave. La lista de categorías de palabras clave seleccionadas puede mostrarse generalmente a lo largo del lado izquierdo del recurso de información. La lista de categorías de palabras clave no seleccionadas puede mostrarse generalmente a lo largo del lado derecho del recurso de información. En la columna de categorías de palabras clave seleccionadas, algunas de las palabras clave pueden ser seleccionadas, pero otras pueden quedar sin seleccionar.

Mientras que en la columna de categorías de palabras clave no seleccionadas, todas las palabras clave pueden quedar sin seleccionar. Utilizando el gráfico de relaciones semánticas y la palabra clave semilla, el módulo generador de palabras clave puede haber generado las palabras clave y determinado las categorías de palabras clave para cada palabra clave. El módulo analizador de recursos puede identificar los recursos de información que pertenecen a la entidad de dominio que presentó la palabra clave inicial.

Junto con el módulo analizador de recursos, el módulo calculador de frecuencias puede haber calculado el recuento de frecuencias de las palabras clave generadas y de la palabra clave inicial que aparecen juntas en los recursos de información identificados. Utilizando el recuento de frecuencias, el módulo calculador de frecuencias puede haber calculado una puntuación de afinidad palabra clave-semilla para cada palabra clave. A continuación, las puntuaciones de afinidad palabra clave-semilla para las palabras clave de la categoría de palabras clave calcularon una puntuación de afinidad categoría-semilla para la categoría de palabras clave.

El módulo selector de palabras clave puede haber comparado las puntuaciones de afinidad categoría-semilla con una puntuación umbral para identificar ciertas categorías como seleccionadas (420A-C) y otras categorías como no seleccionadas como relevantes para la palabra clave semilla y la entidad de dominio. Además, el módulo selector de palabras clave puede haber determinado las palabras clave individuales como seleccionadas o no seleccionadas, incluso cuando la categoría de la palabra clave se selecciona (por ejemplo, la palabra clave como no seleccionada bajo la categoría de la palabra clave como seleccionada como se indica en las casillas de verificación). El módulo proveedor de la interfaz puede haber utilizado los resultados para generar una interfaz con una columna que enumera las palabras clave seleccionadas y otra que enumera las palabras clave no seleccionadas.

Un recurso de información con una interfaz que muestra las palabras clave y las categorías de palabras clave generadas a partir de la palabra clave inicial designada como seleccionada o no seleccionada

La palabra clave semilla recibida de la entidad de dominio puede ser «espátula» Al recorrer el grafo de relaciones semánticas desde el nodo correspondiente a «espátula», el módulo generador de palabras clave puede haber identificado palabras clave, como «acero», «mango» y «culinaria», El módulo generador de palabras clave puede haber clasificado las palabras clave generadas en las categorías de palabras clave «material», «componente», «color», «disciplina» y «servicio»

Junto con el módulo analizador de recursos, el módulo calculador de frecuencias puede haber calculado el recuento de frecuencias, la puntuación de afinidad palabra clave-semilla y la puntuación de afinidad categoría-semilla para cada categoría de palabras clave. Basándose en la comparación, el módulo de selección de palabras clave puede comparar los recuentos de frecuencia y las puntuaciones de afinidad con un umbral e identificar las categorías de palabras clave como seleccionadas y las palabras clave como no seleccionadas. A partir de los resultados del módulo selector de palabras clave, el módulo proveedor de la interfaz puede generar la interfaz.

Al recorrer el gráfico de relaciones semánticas para encontrar más palabras clave y analizar los recursos de información de una entidad de dominio para calcular la relevancia y la afinidad de la palabra clave con la entidad de dominio, las técnicas detalladas aquí pueden mejorar el descubrimiento de nodos de palabras clave con palabras clave más precisas y relevantes para utilizar en las plataformas de campañas de selección de contenido.

Las palabras clave y las categorías generadas mediante el gráfico de relaciones semánticas pueden filtrarse y clasificarse como seleccionadas o no seleccionadas en función de la relevancia y la afinidad. Estas clasificaciones pueden informar mejor al proveedor de contenidos a la hora de seleccionar qué palabras clave y categorías de palabras clave utilizar en la campaña de selección de contenidos.

Además, el filtrado puede reducir la carga de potencia de procesamiento, disminuir el tiempo y aumentar la eficiencia de los servidores durante el proceso de selección y servicio de contenidos, al tiempo que mejora la selección de elementos de contenido más relevantes. Además, desde el punto de vista de la interacción persona-ordenador (HCI), la selección de elementos de contenido más relevantes puede dar lugar a una mayor probabilidad de que los usuarios finales interactúen con el elemento de contenido seleccionado, mejorando así la experiencia del usuario con los recursos de información en los que se muestra el elemento de contenido.

Uso de la relevancia semántica para identificar las categorías de palabras clave

La funcionalidad descrita en el presente documento puede ser realizada o ejecutada por el sistema de procesamiento de datos, el dispositivo informático del proveedor de contenidos o cualquier combinación de los mismos. En resumen, un sistema de procesamiento de datos puede recibir una palabra clave semilla de un dispositivo informático proveedor de contenidos correspondiente a una entidad de dominio para generar más palabras clave relevantes para la palabra clave semilla. El sistema de procesamiento de datos puede utilizar una relación semántica para identificar categorías de palabras clave, incluyendo una primera categoría de palabras clave y una segunda categoría de palabras clave. Cada una de las categorías de palabras clave puede incluir palabras clave. Cada una de las palabras clave puede tener una distancia semántica de la palabra clave semilla menor que un umbral de distancia semántica.

El sistema de procesamiento de datos puede generar, para cada palabra clave de la primera categoría de palabras clave y de la segunda categoría de palabras clave, una puntuación de afinidad de palabra clave-semilla basada en la frecuencia de la palabra clave que ocurre con la palabra clave semilla en un recurso de información de la entidad de dominio. El sistema de procesamiento de datos puede determinar, para la primera categoría de palabras clave, una puntuación de afinidad categoría-semilla basada en las puntuaciones de afinidad palabra clave-semilla para cada una de las palabras clave de la primera categoría de palabras clave.

El sistema de procesamiento de datos puede determinar, para la segunda categoría de palabras clave, una segunda puntuación de afinidad categoría-semilla basada en las puntuaciones de afinidad palabra clave-semilla para cada una de las palabras clave de la segunda categoría de palabras clave. El sistema de procesamiento de datos puede comparar la puntuación de afinidad de la primera categoría-semilla y la puntuación de afinidad de la segunda categoría-semilla con un umbral de puntuación de afinidad.

El sistema de procesamiento de datos puede determinar que la puntuación de afinidad de la primera categoría-semilla es mayor que el umbral de puntuación de afinidad y la puntuación de afinidad de la segunda categoría-semilla es menor que el umbral de puntuación de afinidad. El sistema de procesamiento de datos puede enviar, a un dispositivo informático proveedor de contenidos para su visualización, las palabras clave.

La primera categoría de palabras clave puede indicarse como seleccionada. La segunda categoría de palabras clave puede indicarse como no seleccionada en respuesta a la determinación de que la puntuación de afinidad de la primera categoría-semilla es mayor que el umbral de puntuación de afinidad y la puntuación de afinidad de la segunda categoría-semilla es menor que el umbral de puntuación de afinidad.

En más detalle, el sistema de procesamiento de datos puede recibir una palabra clave semilla de un dispositivo informático proveedor de contenidos correspondiente a una entidad de dominio para generar más palabras clave relevantes a la palabra clave semilla.

El sistema de procesamiento de datos puede recibir palabras clave semilla para generar más palabras clave relevantes o asociadas a las palabras clave semilla.

Las palabras clave iniciales pueden corresponder a una frase inicial. La frase semilla puede incluir palabras clave.

La palabra clave inicial puede formar parte de una solicitud de más palabras clave. La solicitud de más palabras clave también puede incluir un identificador de entidad que especifique una entidad de dominio o identificadores de recursos asociados con la entidad de dominio. La palabra clave semilla puede ser recibida desde el dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente.

El dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente del que se recibe la palabra clave semilla puede corresponder a la entidad de dominio o pertenecer a ella. Antes de seguir procesando la palabra clave semilla, el sistema de procesamiento de datos puede generar o determinar una forma canónica para la palabra clave semilla utilizando un diccionario o una tabla de búsqueda. El diccionario o la tabla de búsqueda pueden especificar una forma canónica para cada variante de la palabra.

La forma canónica puede ser representativa de una representación léxica estandarizada de la palabra clave. Por ejemplo, si la palabra clave recibida es «ratones», el sistema de procesamiento de datos puede generar «ratón» como la forma canónica de la palabra clave realizando una búsqueda en el diccionario especificando que «ratón» es la forma canónica de «ratones».

Cada una de las categorías de palabras clave puede incluir palabras clave. Cada una de las palabras clave puede tener una distancia semántica con respecto a la palabra clave inicial inferior a un umbral de distancia semántica. El gráfico de relaciones semánticas puede recorrerse para descubrir o encontrar más palabras clave cuantitativamente relevantes para la palabra clave inicial. El sistema de procesamiento de datos puede acceder a un grafo de relaciones semánticas o a una estructura de datos (por ejemplo, una matriz, una lista enlazada, un grafo, un árbol, un montón, etc.) de las bases de datos. El gráfico de relaciones semánticas puede incluir palabras clave o frases.

El gráfico de relación semántica también puede especificar, designar o definir de otro modo una distancia semántica o una medida de relevancia entre las palabras clave. El gráfico de relación semántica puede ser pregenerado utilizando palabras clave preestablecidas y distancias semánticas predefinidas o medidas de relevancia utilizando técnicas de procesamiento de lenguaje natural.

Las palabras clave y la distancia semántica o la medida de relevancia entre cada una de las palabras clave pueden actualizarse de vez en cuando aplicando técnicas de procesamiento del lenguaje natural a un corpus de palabras clave recuperadas de una variedad de fuentes (por ejemplo, recursos de información, libros escaneados, etc.).

El gráfico de relaciones semánticas puede incluir nodos y aristas. Cada uno de los nodos puede representar una palabra clave.

Los nodos pueden representar una frase que incluya dos o más palabras clave. Las aristas pueden conectar o enlazar dos de los nodos. Cada arista puede definir o especificar la distancia semántica o la medida de relevancia entre las dos palabras clave de los respectivos nodos en el gráfico de relación semántica. Cada arista también puede definir o especificar si los dos nodos respectivos en el gráfico de relación semántica son semánticamente concurrentes o semánticamente conflictivos.

El grafo de relación semántica puede implementarse utilizando cualquier estructura de datos, como un array, una lista enlazada, un árbol o un montón, entre otros. Utilizando el grafo de relación semántica, el sistema de procesamiento de datos puede identificar o buscar un nodo correspondiente a las palabras clave semilla utilizando el grafo de relación semántica. El nodo correspondiente a la palabra clave semilla puede denominarse nodo semilla o nodo inicial.

El sistema de procesamiento de datos puede recorrer el grafo de relaciones semánticas para identificar el nodo semilla.

El sistema de procesamiento de datos puede buscar en una tabla de búsqueda o en un diccionario el nodo semilla dentro del grafo de relación semántica. Cada tabla de búsqueda y diccionario puede convertirse en una estructura de datos utilizada para indexar o referenciar las palabras clave o los nodos del grafo de relación semántica.

La estructura de datos para cada tabla de búsqueda y el diccionario puede ser independiente del grafo de relación semántica.

A partir del nodo semilla correspondiente a la palabra clave semilla en el grafo de relación semántica, el sistema de procesamiento de datos puede identificar un conjunto de nodos adyacentes o conectados al nodo semilla a través de una arista respectiva.

El sistema de procesamiento de datos puede determinar si el nodo adyacente es semánticamente concurrente o semánticamente conflictivo con el nodo semilla. Para cada nodo adyacente o conectado que tenga una palabra clave semánticamente concurrente con la palabra clave semilla, el sistema de procesamiento de datos puede identificar una distancia semántica de la arista respectiva con respecto al nodo semilla.

El sistema de procesamiento de datos puede comparar la distancia semántica con un primer umbral de distancia semántica.

El primer umbral de distancia semántica puede ser predefinido.

El sistema de procesamiento de datos puede calcular el primer umbral de distancia semántica basándose en las distancias semánticas entre las palabras clave adyacentes y las palabras clave semilla. Por ejemplo, el sistema de procesamiento de datos puede establecer el primer umbral de distancia semántica para filtrar un cierto porcentaje (por ejemplo, 50-70%) de palabras clave adyacentes a la palabra clave semilla encontrada durante el recorrido.

Si la distancia semántica del borde respectivo entre el nodo semilla y el nodo adyacente es menor que el primer umbral de distancia semántica, el sistema de procesamiento de datos puede identificar el nodo como un nodo candidato e identificar la palabra clave correspondiente como una palabra clave candidata. El sistema de procesamiento de datos puede incluir el nodo en un conjunto de nodos candidatos. Cada nodo en el conjunto de nodos candidatos puede tener una distancia semántica menor que el primer umbral de distancia semántica desde el nodo semilla.

Para cada nodo candidato, el sistema de procesamiento de datos puede identificar un conjunto de nodos adyacentes o conectados al candidato respectivo a través de un borde respectivo, si lo hay. El sistema de procesamiento de datos puede determinar si hay más nodos adyacentes o conectados al respectivo nodo candidato. Si hay más nodos adyacentes o conectados al respectivo nodo candidato, el sistema de procesamiento de datos puede identificar de nuevo una distancia semántica de la arista respectiva para cada nodo candidato.

El sistema de procesamiento de datos puede identificar una distancia semántica entre el nodo adyacente y el nodo candidato para cada nodo adyacente. El sistema de procesamiento de datos puede determinar o calcular una distancia semántica total entre el nodo adyacente y el nodo semilla a través del nodo candidato. Por ejemplo, el sistema de procesamiento de datos puede sumar la distancia semántica entre el nodo semilla y el nodo candidato y la distancia entre el nodo adyacente al nodo candidato y el propio nodo candidato.

El sistema de procesamiento de datos puede comparar la distancia semántica total entre los nodos adyacentes y el nodo semilla con el umbral de distancia semántica. Si la distancia semántica total del borde respectivo entre el nodo semilla y el nodo adyacente al nodo candidato es menor que el umbral de distancia semántica, el sistema de procesamiento de datos puede identificar el nodo adyacente como nodo candidato y la palabra clave correspondiente como palabra clave candidata.

El sistema de procesamiento de datos puede comparar la distancia semántica entre los nodos candidatos y los adyacentes con un segundo umbral de distancia semántica.

El segundo umbral de distancia semántica puede ser menor o igual que el primer umbral de distancia entre la semilla y el nodo candidato original. El segundo umbral de distancia semántica puede ser predefinido.

El sistema de procesamiento de datos calcula el segundo umbral de distancia semántica basándose en las distancias semánticas entre la palabra clave adyacente y los candidatos o entre las palabras clave adyacentes y la semilla. Por ejemplo, el sistema de procesamiento de datos puede establecer el segundo umbral de distancia semántica para filtrar un cierto porcentaje (por ejemplo, 50-70%) de palabras clave adyacentes a la palabra clave candidata encontrada durante el recorrido. Si la distancia semántica de la arista respectiva entre el nodo candidato y el nodo próximo al nodo candidato es menor que el otro umbral de distancia semántica, el sistema de procesamiento de datos puede identificar el nodo adyacente como nodo candidato y la palabra clave correspondiente como palabra clave candidata.

El sistema de procesamiento de datos puede repetir este proceso para cada nodo del gráfico de relaciones semánticas. Puede continuar añadiendo más nodos o palabras clave al conjunto de palabras clave candidatas que atraviesan el grafo de relaciones semánticas hasta que todos los nodos dentro del umbral de distancia semántica del nodo semilla hayan sido visitados.

El sistema de procesamiento de datos puede identificar categorías de palabras clave a partir del conjunto de nodos y palabras clave candidatos. Cada categoría de palabras clave puede incluir palabras clave con una distancia semántica de la palabra clave semilla u otra palabra clave candidata menor que el umbral de distancia semántica.

El sistema de procesamiento de datos puede aplicar un algoritmo de agrupación al conjunto de nodos candidatos y las respectivas distancias semánticas a un nodo candidato para identificar las categorías de palabras clave. El algoritmo de agrupación puede ser, por ejemplo, el algoritmo de k-próximos (k-NN), el análisis de componentes principales (PCA), la maximización de expectativas (EM) y el análisis jerárquico de clusters (HCA), entre otros.

El sistema de procesamiento de datos puede identificar las distancias semánticas entre cada palabra clave candidata dentro del gráfico de relación semántica.

El sistema de procesamiento de datos puede utilizar el algoritmo de clustering para identificar clusters de los nodos candidatos basados en las distancias semánticas identificadas. Por ejemplo, utilizando el algoritmo k-NN, el sistema de procesamiento de datos puede elegir un conjunto inicial de k nodos al azar como media para k clusters y asignar el nodo más cercano al cluster. El sistema de procesamiento de datos puede entonces calcular un centroide utilizando las distancias semánticas identificadas para cada cluster y ajustar la media. En este ejemplo, el sistema de procesamiento de datos puede repetir estos pasos hasta la convergencia, cuando la media de cada clúster cambia por menos de un margen predeterminado.

El sistema de procesamiento de datos puede establecer o asignar las palabras clave de los nodos de cada clúster a una categoría de palabras clave.

El sistema de procesamiento de datos puede identificar las categorías de palabras clave basándose en el nivel o la profundidad del nodo candidato desde el nodo semilla.

El sistema de procesamiento de datos puede identificar la profundidad del nodo candidato desde el nodo semilla a través de la arista respectiva en el gráfico de relación semántica.

El sistema de procesamiento de datos puede identificar un subconjunto de nodos candidatos que tienen una profundidad de uno desde el nodo semilla. El sistema de procesamiento de datos puede asignar cada nodo del subconjunto identificado de nodos candidatos a una categoría respectiva de palabras clave. Para cada nodo del subconjunto identificado de nodos candidatos, el sistema de procesamiento de datos puede identificar los nodos adyacentes, conectados o más cercanos al respectivo nodo candidato. El sistema de procesamiento de datos puede establecer o asignar la palabra clave de los nodos identificados adyacentes, conectados o más cercanos al respectivo nodo candidato a la respectiva categoría de palabras clave correspondiente al nodo candidato.

El sistema de procesamiento de datos puede identificar una palabra clave tópica para cada categoría de palabras clave representativa de la respectiva categoría de palabras clave.

Para cada categoría de palabras clave, el sistema de procesamiento de datos puede seleccionar una palabra clave tópica de entre las palabras clave de la categoría de palabras clave.

El sistema de procesamiento de datos puede determinar o calcular las distancias semánticas entre cada una de las palabras clave dentro de cada categoría de palabras clave utilizando el gráfico de relación semántica.

Para cada categoría de palabras clave, el sistema de procesamiento de datos puede identificar una palabra clave con la menor distancia semántica de todas las demás palabras clave de la respectiva categoría de palabras clave.

El sistema de procesamiento de datos puede establecer la palabra clave identificada con la menor distancia semántica de todas las palabras clave de la categoría de palabras clave como la palabra clave tópica representativa de la respectiva categoría de palabras clave.

El sistema de procesamiento de datos puede generar, para cada palabra clave de la primera categoría de palabras clave y de la segunda categoría de palabras clave, una puntuación de afinidad palabra clave-semilla basada en la frecuencia de la palabra clave que ocurre con la palabra clave semilla en un recurso de información de la entidad de dominio. La puntuación de afinidad palabra clave-semilla puede indicar la relevancia de la palabra clave no sólo con la palabra clave semilla, sino también con las palabras clave de los recursos de información asociados con la entidad de dominio. Con la puntuación de afinidad palabra clave-semilla, el sistema de procesamiento de datos puede mejorar la precisión de descubrir o encontrar palabras clave relevantes para la entidad de dominio.

Para recuperar recursos de información para medir la relevancia semántica de las palabras clave, el sistema de procesamiento de datos puede identificar recursos de información de la entidad de dominio. La entidad de dominio puede estar asociada con al menos un dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente. La entidad de dominio puede ser una cuenta o una parte asociada a los recursos de información. La entidad de dominio puede ser identificada o asociada con un identificador de entidad o un identificador de recurso.

Cada uno de los identificadores de recursos (por ejemplo, el localizador universal de recursos (URL)) puede incluir un nombre de host y un nombre de ruta (por ejemplo, «www.example.com/level1/level2/page.html»). Por ejemplo, el módulo analizador de recursos puede utilizar un indexador de entidades de red (por ejemplo, un rastreador web) para identificar una multitud de recursos de información (por ejemplo, páginas web) disponibles a través de la red y encontrar un subconjunto de los recursos de información identificados como pertenecientes a la entidad de dominio basándose en el nombre de host del identificador de recursos.

El sistema de procesamiento de datos puede recibir identificadores de recursos para los recursos de información desde el dispositivo informático proveedor de contenidos, el dispositivo informático editor de contenidos o el dispositivo cliente.

El sistema de procesamiento de datos puede recuperar, obtener o acceder de otro modo a los recursos de información de la entidad de dominio. El sistema de procesamiento de datos puede analizar los recursos de información a los que se ha accedido de la entidad de dominio para obtener, recuperar o identificar de otro modo palabras clave en los recursos de información a los que se ha accedido. Para cada palabra clave identificada, el sistema de procesamiento de datos puede identificar el identificador de recurso asociado, el recurso de información asociado y las propiedades de la palabra clave del recurso de información.

Por ejemplo, las propiedades de la palabra clave pueden incluir una ubicación en el recurso de información, un tipo de letra, un tamaño de letra y un color, entre otros. El sistema de procesamiento de datos puede almacenar las palabras clave de los recursos de información, el identificador de recurso asociado a las palabras clave y las propiedades de las palabras clave en las bases de datos.

Utilizando las palabras clave de los recursos de información identificados por el sistema de procesamiento de datos, el sistema puede generar una puntuación de afinidad palabra clave-semilla para cada palabra clave del conjunto de palabras clave candidatas o de la categoría de palabras clave. La puntuación de afinidad palabra clave-semilla puede representar o indicar una frecuencia en la que la palabra clave semilla y la palabra clave candidata aparecen juntas en los recursos de información de la entidad de dominio. El sistema de procesamiento de datos puede determinar o calcular de otro modo un recuento de la frecuencia con la que la palabra clave semilla y cada palabra clave candidata aparecen en los recursos de información.

El sistema de procesamiento de datos puede realizar un algoritmo de búsqueda para determinar si la palabra clave semilla y la palabra clave candidata ocurren en los recursos de información. El algoritmo de búsqueda puede ser, por ejemplo, un algoritmo de búsqueda lineal, hashing, o de búsqueda binaria, entre otros. Cada instancia, la palabra clave semilla y la palabra clave candidata ocurren juntas en cualquier recurso de información. El sistema de procesamiento de datos puede incrementar el recuento de frecuencias. El sistema de procesamiento de datos puede establecer la puntuación de afinidad de la palabra clave-semilla con el recuento de frecuencia para cada palabra clave candidata.

El sistema de procesamiento de datos puede cambiar las palabras clave de los recursos de información a una forma canónica.

El sistema de procesamiento de datos puede identificar una coincidencia léxica entre la palabra clave candidata y cualquier palabra clave de los recursos de información. La coincidencia léxica puede ser, por ejemplo, una coincidencia exacta carácter por carácter o similar entre la palabra clave candidata y cualquiera de las palabras clave del recurso de información.

El sistema de procesamiento de datos puede identificar una palabra clave de los recursos de información.

El sistema de procesamiento de datos puede comparar los caracteres de la palabra clave de los recursos de información con los caracteres de la palabra clave candidata para determinar una coincidencia de caracteres uno a uno. Si los caracteres de una palabra clave de la información coinciden uno a uno con los caracteres de la palabra clave candidata, el sistema de procesamiento de datos puede determinar que existe una coincidencia léxica entre la palabra clave candidata y la palabra clave de los recursos de información.

El sistema de procesamiento de datos puede utilizar el gráfico de relación semántica para determinar una coincidencia semántica entre la palabra clave candidata y cualquier palabra clave de los recursos de información. El sistema de procesamiento de datos puede identificar el nodo del gráfico de relación semántica correspondiente a la palabra clave candidata. El sistema de procesamiento de datos puede determinar si la distancia semántica entre un nodo correspondiente a cualquiera de las palabras clave del recurso de información y el nodo identificado correspondiente a la palabra clave candidata es menor que un tercer umbral semántico.

El tercer umbral de distancia semántica puede ser predefinido.

El sistema de procesamiento de datos puede calcular el tercer umbral de distancia semántica basándose en las distancias semánticas entre cada palabra clave candidata y la palabra clave de los recursos de información. Por ejemplo, el tercer umbral de distancia semántica puede establecerse para filtrar un cierto porcentaje (por ejemplo, 80-95%) de palabras clave relacionadas con la palabra clave candidata. Si el sistema de procesamiento de datos determina que la tercera distancia semántica es menor que el umbral semántico, el sistema de procesamiento de datos puede determinar una coincidencia semántica entre la palabra clave candidata y la palabra clave del recurso de información.

Basándose en que el sistema de procesamiento de datos determina la coincidencia léxica o semántica entre la palabra clave candidata y cualquiera de las palabras clave de los recursos de información, el sistema de procesamiento de datos puede calcular, incrementar o actualizar de otro modo el recuento de frecuencia para la palabra clave candidata. El recuento de frecuencia puede medir el número de apariciones de la palabra clave candidata (ya sea con una coincidencia léxica o semántica) que aparece junto con la palabra clave semilla en los recursos de información.

El sistema de procesamiento de datos puede mantener un contador para incrementar el recuento de frecuencia de la palabra clave candidata.

El sistema de procesamiento de datos puede generar o determinar la puntuación de afinidad palabra clave-semilla a partir del recuento de frecuencias. La puntuación de afinidad palabra clave-semilla puede utilizar una medida ponderada del número de apariciones de la palabra clave candidata (ya sea con una coincidencia léxica o semántica) que aparece junto con la palabra clave semilla en los recursos de información.

El sistema de procesamiento de datos puede ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata basándose en la distancia semántica entre la palabra clave candidata y la palabra clave del recurso de información. El sistema de procesamiento de datos puede ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata basándose en las propiedades de la palabra clave respectiva.

El sistema de procesamiento de datos puede determinar o calcular un factor de ponderación para ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata. El factor de ponderación puede basarse en la ubicación de la palabra clave en el recurso de información. Por ejemplo, el sistema de procesamiento de datos puede aumentar la puntuación de afinidad de palabra clave-semilla si la palabra clave candidata correspondiente aparece relativamente hacia la parte superior del recurso de información asociado. El sistema de procesamiento de datos puede disminuir la puntuación de afinidad de la palabra clave-semilla si la palabra clave candidata correspondiente aparece relativamente hacia la parte inferior del recurso de información asociado.

El sistema de procesamiento de datos puede determinar o calcular un factor de ponderación para ajustar la puntuación de afinidad de palabra clave-semilla para la palabra clave candidata basándose en el tamaño de la fuente de la palabra clave candidata en los recursos de información de la entidad de dominio. Por ejemplo, el sistema de procesamiento de datos puede aumentar la puntuación de afinidad de palabra clave-semilla si la palabra clave candidata correspondiente es relativamente más grande que otras palabras clave en el recurso de información. Por el contrario, el sistema de procesamiento de datos puede disminuir la puntuación de afinidad de la palabra clave-semilla si la palabra clave candidata correspondiente es relativamente más pequeña que otras palabras clave en el recurso de información.

El sistema de procesamiento de datos puede ajustar la puntuación de afinidad palabra clave-semilla para la palabra clave candidata basándose en la profundidad o nivel jerárquico del recurso de información. El sistema de procesamiento de datos puede identificar el identificador de recurso para el recurso de información en el que la coincidencia léxica o la coincidencia semántica entre la palabra clave candidata y cualquiera de las palabras clave de los recursos de información de la entidad de dominio.

El sistema de procesamiento de datos puede analizar el identificador del recurso para identificar la profundidad jerárquica o el nivel del recurso de información a partir del nombre de la ruta del identificador del recurso. Por ejemplo, si el identificador del recurso de información con el que se ha producido una coincidencia léxica es «www.example.com/index/sub1/», el sistema de procesamiento de datos puede identificar que la profundidad jerárquica es dos a partir del nombre de la ruta «/index/sub1/» basándose en las barras.

El sistema de procesamiento de datos puede ajustar la puntuación de afinidad de palabra clave-semilla o la puntuación de frecuencia mediante un factor de normalización para la palabra clave candidata.

El sistema de procesamiento de datos puede identificar un corpus general. El corpus general puede especificar una frecuencia nominal o media con la que se producen las palabras clave. El corpus general puede recuperarse de las bases de datos o de los recursos de información que no pertenecen a la entidad de dominio. La frecuencia nominal puede convertirse, por ejemplo, en una medida de frecuencia de término-frecuencia de documento inversa (td-idf).

El sistema de procesamiento de datos puede identificar la frecuencia nominal de la palabra clave candidata a partir del corpus general.

El sistema de procesamiento de datos puede calcular o determinar la normalización basada en la frecuencia nominal de la palabra clave candidata identificada a partir del corpus general. Por ejemplo, el sistema de procesamiento de datos puede identificar muchos de los recursos de información de la entidad de dominio y calcular un cociente entre el número de recursos de información y la frecuencia nominal del corpus general como factor de normalización.

El sistema de procesamiento de datos puede determinar, para la primera categoría de palabras clave, una primera puntuación de afinidad categoría-semilla basada en las puntuaciones de afinidad palabra clave-semilla para cada una de las palabras clave en la primera categoría de palabras clave. El sistema de procesamiento de datos puede determinar una segunda puntuación de afinidad categoría-semilla basada en las puntuaciones de afinidad palabra clave-semilla para cada una de las palabras clave de la segunda categoría de palabras clave). La puntuación de afinidad categoría-semilla puede indicar la relevancia de las palabras clave y las respectivas categorías de palabras clave con la palabra clave semilla y las palabras clave de los recursos de información asociados con la entidad de dominio.

El sistema de procesamiento de datos puede mejorar la precisión de descubrir o encontrar palabras clave relevantes para el dominio con las puntuaciones de afinidad de categoría-semilla. El sistema de procesamiento de datos puede generar o calcular una puntuación de afinidad categoría-semilla para cada categoría de palabras clave.

Cómo interviene el sistema de procesamiento de datos en la relevancia semántica

El sistema de procesamiento de datos puede calcular una puntuación combinada para la respectiva categoría de palabras clave basándose en las puntuaciones de afinidad entre palabras clave y semillas de cada palabra clave de la categoría de palabras clave. La puntuación combinada puede ser una media de las puntuaciones de afinidad palabra clave-semilla de las palabras clave de la categoría de palabras clave.

La media puede ser una media ponderada para tener en cuenta el ajuste de la puntuación de afinidad palabra clave-semilla para las palabras clave de la categoría de palabras clave. Por ejemplo, mientras se calcula el promedio de las puntuaciones de afinidad palabra clave-semilla, el sistema de procesamiento de datos puede ajustar el promedio basándose en las propiedades de las palabras clave, la colocación de las palabras clave, y otros.

El sistema de procesamiento de datos puede calcular la puntuación combinada para la respectiva categoría de palabras clave basándose en los recuentos de frecuencia de las palabras clave en la categoría de palabras clave. La puntuación combinada puede promediar los recuentos de frecuencia de las palabras clave en la respectiva categoría de palabras clave.

El sistema de procesamiento de datos puede comparar la puntuación de afinidad de la primera categoría-semilla y la puntuación de afinidad de la segunda categoría-semilla con un umbral de puntuación de afinidad. El sistema de procesamiento de datos puede determinar que la puntuación de afinidad de la primera categoría-semilla es mayor que el umbral de puntuación de afinidad y la puntuación de afinidad de la segunda categoría-semilla es menor que el umbral de puntuación de afinidad. Con la comparación entre las puntuaciones de afinidad y el umbral, el sistema de procesamiento de datos puede filtrar, reducir, o de otra manera reducir el número de palabras clave procesadas en la selección de elementos de contenido, reduciendo así el consumo de energía de procesamiento en el sistema de procesamiento de datos.

El sistema de procesamiento de datos identifica o selecciona palabras clave dentro de categorías de palabras clave o palabras clave candidatas individuales relevantes para la palabra clave semilla y la entidad de dominio. Para seleccionar palabras clave individuales dentro de una categoría de palabras clave como relevantes, el sistema de procesamiento de datos puede comparar la puntuación de afinidad palabra clave-semilla con un umbral de puntuación de afinidad palabra clave-semilla para cada palabra clave candidata del conjunto de palabras clave candidatas o cada una de las categorías de palabras clave. El sistema de procesamiento de datos de frecuencia puede identificar un subconjunto de palabras clave dentro de cada categoría de palabras clave.

La puntuación de afinidad de la palabra clave respectiva es mayor, menor o igual que el umbral de puntuación de afinidad de la palabra clave-semilla. Si la puntuación de afinidad palabra clave-semilla es mayor o igual que el umbral, el sistema de procesamiento de datos puede determinar, identificar o seleccionar la palabra clave relevante para la palabra clave semilla y la entidad de dominio. Si la afinidad palabra clave-semilla es menor que el umbral de puntuación de afinidad palabra clave-semilla, el sistema de procesamiento de datos puede determinar, identificar o deseleccionar la palabra clave respectiva como irrelevante para la palabra clave semilla y la entidad de dominio.

Para cada palabra clave candidata de las palabras clave candidatas, el sistema de procesamiento de datos compara el recuento de frecuencia con un recuento de frecuencia umbral.

El sistema de procesamiento de datos puede identificar el subconjunto de palabras clave candidatas con un recuento de frecuencia respectivo mayor o igual, o menor que el recuento de frecuencia umbral.

El recuento de frecuencia umbral puede llegar a ser predefinido.

El sistema de procesamiento de datos puede establecer o determinar dinámicamente el recuento de frecuencia umbral basándose en el número de palabras clave candidatas en el subconjunto de palabras clave. Por ejemplo, el sistema de procesamiento de datos puede establecer el recuento de frecuencia umbral para filtrar un cierto porcentaje (por ejemplo, 40-60%) de las palabras clave candidatas del subconjunto. Si el recuento de frecuencias es mayor o igual que el recuento de frecuencias umbral, el sistema de procesamiento de datos puede determinar, identificar o seleccionar la palabra clave relevante para la palabra clave semilla y la entidad de dominio. Si el recuento de frecuencias es menor que el umbral, el sistema de procesamiento de datos puede determinar, identificar o deseleccionar la palabra clave respectiva como irrelevante para la palabra clave semilla y la entidad de dominio.

El sistema de procesamiento de datos compara la puntuación de afinidad palabra clave-semilla con un umbral de puntuación de afinidad palabra clave-semilla para cada palabra clave candidata del conjunto de palabras clave candidatas.

El sistema de procesamiento de datos puede identificar el subconjunto de palabras clave en cada categoría de palabras clave con una puntuación de afinidad palabra clave-semilla respectiva mayor o igual, o menor que el umbral de puntuación de afinidad palabra clave-semilla.

El umbral de puntuación de afinidad palabra clave-semilla puede ser predefinido.

El sistema de procesamiento de datos puede establecer o determinar dinámicamente el umbral de puntuación de afinidad palabra clave-semilla basándose en el número de palabras clave de la categoría respectiva. Por ejemplo, el sistema de procesamiento de datos puede establecer el umbral de puntuación de afinidad palabra clave-semilla para filtrar un cierto porcentaje (por ejemplo, 40-60%) de las palabras clave candidatas de la categoría de palabras clave.

Si la puntuación de afinidad palabra clave-semilla es mayor o igual que el umbral, el sistema de procesamiento de datos puede determinar, identificar o seleccionar la palabra clave relevante para la palabra clave semilla y la entidad de dominio. Si la afinidad palabra clave-semilla es menor que el umbral de la puntuación de afinidad palabra clave-semilla, el sistema de procesamiento de datos puede determinar, identificar o deseleccionar la palabra clave respectiva como irrelevante para la palabra clave semilla y la entidad de dominio.

El sistema de procesamiento de datos puede identificar, identificar o seleccionar categorías de palabras clave o subconjuntos de palabras clave candidatas relevantes para la palabra clave semilla y la entidad de dominio. Para seleccionar las categorías de palabras clave como relevantes para la palabra clave semilla y la entidad de dominio, el sistema de procesamiento de datos puede comparar las puntuaciones de afinidad categoría-semilla de cada categoría de palabras clave con un umbral de puntuación de afinidad categoría-semilla.

El sistema de procesamiento de datos puede identificar la puntuación de afinidad categoría-semilla de cada categoría de palabras clave como mayor, menor o igual al umbral de puntuación de afinidad categoría-semilla. Si la puntuación de afinidad categoría-semilla es mayor o igual que el umbral, el sistema de procesamiento de datos puede determinar, identificar o seleccionar la categoría de palabras clave respectiva que es relevante para la palabra clave semilla y la entidad de dominio.

El sistema de procesamiento de datos puede determinar, identificar o seleccionar la categoría de palabras clave respectiva como relevante, mientras que determinar, identificar o seleccionar un subconjunto de las palabras clave en la categoría de palabras clave es irrelevante. Si la puntuación de afinidad categoría-semilla es menor que el umbral, el sistema de procesamiento de datos puede determinar, identificar o deseleccionar la categoría de palabras clave respectiva como irrelevante para la palabra clave semilla y la entidad de dominio.

El sistema de procesamiento de datos puede identificar o determinar un conflicto semántico entre dos o más categorías de palabras clave utilizando el gráfico de relación semántica. Ciertas categorías de palabras clave pueden no ser apropiadas en conjunto con otras categorías de palabras clave en la selección de elementos de contenido. Por ejemplo, las categorías de palabras clave pueden no estar relacionadas entre sí (por ejemplo, «squash» (raqueta) frente a «squash» (vegetal)).

El sistema de procesamiento de datos puede identificar o determinar el conflicto semántico basándose en las aristas del gráfico de relación semántica.

El sistema de procesamiento de datos puede identificar o determinar nodos para cada palabra clave en las categorías de palabras clave.

El sistema de procesamiento de datos puede identificar los nodos que conectan cada nodo que representa una palabra clave recorriendo el gráfico de relación semántica.

El sistema de procesamiento de datos puede si cada borde identificado que conecta los dos nodos respectivos especifica que cada palabra clave representada por los dos nodos es semánticamente conflictiva.

Si una arista especifica que los dos nodos que representan palabras clave de dos categorías de palabras clave diferentes son semánticamente conflictivos, el sistema de procesamiento de datos puede determinar o identificar un conflicto semántico entre las respectivas categorías de palabras clave.

Si una arista especifica que los dos nodos que representan palabras clave a través de dos categorías de palabras clave diferentes no son semánticamente conflictivos, el sistema de procesamiento de datos puede identificar la ausencia de un conflicto semántico entre las respectivas categorías de palabras clave.

El sistema de procesamiento de datos puede:

Decidir, calcular o contar muchas aristas que especifiquen que los nodos conectados que representan las respectivas palabras clave están en conflicto
Comparar el número de aristas que especifican que los nodos conectados que representan las respectivas palabras clave son semánticamente conflictivos con un número umbral. Si el número de aristas es mayor o igual que el número umbral, el sistema de procesamiento de datos puede identificar un conflicto semántico entre las dos categorías de palabras clave respectivas. Si el número de aristas es inferior al número umbral, el sistema de procesamiento de datos puede identificar un conflicto semántico entre las dos categorías de palabras clave respectivas
Imaginar que dos o más categorías de palabras clave son semánticamente conflictivas basándose en las distancias semánticas entre las palabras clave a través de las dos o más categorías de palabras clave
Recorrer el gráfico de relaciones semánticas para identificar las distancias semánticas entre las palabras clave en las dos o más categorías de palabras clave
Calcular una distancia semántica para una palabra clave en una categoría de palabras clave a otra palabra clave en otra categoría de palabras clave a un umbral de distancia semántica. El umbral de distancia semántica puede diferir del umbral utilizado para identificar las palabras clave en la categoría de palabras clave a partir de la palabra clave semilla. Si la distancia semántica es mayor que el umbral de distancia semántica, el sistema de procesamiento de datos puede identificar un conflicto semántico entre las dos categorías de palabras clave respectivas
Identifica o selecciona la categoría de palabras clave correspondiente a la mayor o más alta puntuación de afinidad categoría-semilla relevante para la palabra clave semilla y la entidad de dominio
Encuentra un conflicto semántico entre grupos de categorías de palabras clave basados en los identificados con conflictos semánticos
Crear grupos de categorías de palabras clave basados en la identificación de la ausencia de un conflicto semántico entre las respectivas categorías de palabras clave. Por ejemplo, puede haber cuatro categorías de palabras clave «A», «B», «C» y «D» Basándose en las aristas que especifican los conflictos semánticos entre los nodos o en las distancias semánticas, el sistema de procesamiento de datos puede identificar conflictos semánticos entre las categorías de palabras clave «A» y «B», «A» y «C», y «B» y «D» A partir de los conflictos semánticos identificados, el sistema de procesamiento de datos puede identificar las categorías de palabras clave «A» y «D» como un grupo y «B» y «C» como otro grupo
Generar o calcular una puntuación de afinidad grupo-semilla para cada uno de los grupos de categorías de palabras clave identificadas que tienen conflictos semánticos entre sí
Comparar la puntuación de afinidad grupo-semilla de cada uno de los grupos de categorías de palabras clave entre sí
Determine, identifique o seleccione las categorías de palabras clave correspondientes a la puntuación de afinidad de semilla de grupo más alta o más elevada como relevantes para la palabra clave semilla y la entidad de dominio
Seleccionar el grupo de categorías de palabras clave correspondiente a la puntuación de afinidad categoría-semilla más baja o inferior como irrelevante para la palabra clave semilla y la entidad de dominio
Enviar, a un dispositivo informático proveedor de contenidos para su visualización, las palabras clave. La primera categoría de palabras clave puede indicarse como seleccionada. La segunda categoría de palabras clave puede indicarse como no seleccionada en respuesta a la determinación de que la puntuación de afinidad de la primera categoría-semilla es mayor que el umbral de puntuación de afinidad y la puntuación de afinidad de la segunda categoría-semilla es menor que el umbral de puntuación de afinidad. Proporcionar las palabras clave con subconjuntos indicados como relevantes o irrelevantes puede informar mejor a los proveedores de contenido en la selección de palabras clave más relevantes para usar en las campañas de selección de contenido

Si se identifica o determina un conflicto semántico entre las dos o más categorías de palabras clave, el sistema de procesamiento de datos puede comparar las respectivas puntuaciones de afinidad de la categoría-semilla entre sí. El sistema de procesamiento de datos puede seleccionar la categoría de palabras clave que corresponda a la puntuación de afinidad categoría-semilla más alta o superior a partir de la comparación de las puntuaciones de afinidad categoría-semilla.

Como resultado, los elementos de contenido elegidos y proporcionados a los dispositivos de los clientes para su visualización pueden ser más relevantes para cada usuario final. Pueden conducir a tasas de interacción más altas, mejorando así las interacciones humano-ordenador (HCI) y la experiencia del usuario con los recursos de información que el elemento de contenido se muestra. El sistema de procesamiento de datos puede generar una interfaz para declarar las categorías de palabras clave y las palabras clave como seleccionadas o no seleccionadas, basándose en el recuento de frecuencia correspondiente, la puntuación de afinidad de la semilla de la palabra clave, la puntuación de afinidad de la semilla de la categoría o la puntuación de afinidad de la semilla del grupo.

La lista de categorías de palabras clave como seleccionadas puede llegar a ser diferente o separada de la lista de categorías de palabras clave como no seleccionadas. El sistema de procesamiento de datos puede enviar la interfaz al dispositivo informático proveedor de contenidos, al dispositivo informático editor de contenidos o al dispositivo cliente que envió la palabra clave inicial.

El sistema de procesamiento de datos puede generar o enviar la interfaz, respondiendo a la identificación o determinación de palabras clave o categorías de palabras clave como relevantes o irrelevantes para la palabra clave semilla y la entidad de dominio.

Representación de la medición de la relevancia semántica de las palabras clave

La funcionalidad descrita aquí puede ser realizada o ejecutada de otro modo por el sistema de procesamiento de datos, el dispositivo informático del proveedor de contenidos o cualquier combinación de los mismos.

En mayor detalle, un sistema de procesamiento de datos puede recibir una palabra clave semilla. Dicha palabra clave semilla puede recibirse desde un dispositivo informático y puede utilizarse para generar más palabras clave relevantes para la palabra clave semilla.

Un sistema de procesamiento de datos puede acceder a un gráfico de relaciones semánticas. Este gráfico de relación semántica puede incluir palabras clave o frases. El gráfico de relación semántica puede especificar, elegir o definir de otro modo una distancia semántica o una medida de relevancia entre las palabras clave o las frases.

El sistema de procesamiento de datos puede identificar un nodo semilla del grafo de relación semántica correspondiente a la palabra clave semilla. El sistema de procesamiento de datos puede recorrer el gráfico de relaciones semánticas para identificar las palabras clave relevantes para la palabra clave semilla. Se pueden utilizar otras funcionalidades o algoritmos para recorrer el grafo de relaciones semánticas. El sistema de procesamiento de datos puede identificar un nodo aún no atravesado junto al nodo semilla o al nodo actual.

Este sistema de procesamiento de datos puede determinar si la distancia semántica del nodo actual con respecto al nodo semilla es menor o igual a un umbral.

Si la distancia semántica es menor o igual que el umbral, el sistema de procesamiento de datos puede incluir el nodo adyacente en un conjunto de nodos candidatos. El sistema de procesamiento de datos puede determinar si el número de nodos junto al nodo candidato es mayor o igual a uno. Si el número de nodos junto al nodo candidato es mayor o igual, el sistema de procesamiento de datos puede establecer el nodo candidato como el nodo actual.

En cualquier caso, el sistema de procesamiento de datos puede volver a la funcionalidad. Si la distancia semántica es mayor que el umbral, el sistema de procesamiento de datos puede determinar si el número de nodos recorridos es mayor o igual que el número de nodos próximos al nodo actual. Si no es así, el sistema de procesamiento de datos puede volver a la funcionalidad.

Si es así, el sistema de procesamiento de datos puede determinar si el nodo actual es el nodo semilla. Si el nodo actual no es el nodo semilla, el sistema de procesamiento de datos puede establecer el nodo previamente referenciado como el nodo actual y volver a la funcionalidad. Si el nodo actual es el nodo semilla, el sistema de procesamiento de datos puede continuar.

Agrupación de las palabras clave identificadas en categorías de palabras clave

Un paso hacia la relevancia semántica implica que el sistema de procesamiento de datos agrupe las palabras clave identificadas en categorías de palabras clave.

Otras funcionalidades y algoritmos pueden utilizarse para identificar las categorías de palabras clave. El sistema de procesamiento de datos puede identificar clusters de nodos iniciales basados en las distancias semánticas entre ellos. El sistema de procesamiento de datos puede calcular una métrica de cluster de nodos. Estos pueden incluir el centroide, la media, el promedio. Estos pueden llegar a basarse en las distancias semánticas.

El sistema de procesamiento de datos puede determinar si la métrica de cluster es menor o igual que el umbral de convergencia. Si no, el sistema de procesamiento de datos puede ajustar el cluster de nodos basado en las distancias semánticas y la métrica de cluster y repetir la funcionalidad. El sistema de procesamiento de datos puede establecer cada cluster de nodos como una categoría de palabras clave y continuar.

De forma separada o paralela a las otras funcionalidades, el sistema de procesamiento de datos puede identificar los recursos de información de la entidad de dominio. El sistema de procesamiento de datos puede analizar los recursos de información en busca de palabras clave. Desde, el sistema de procesamiento de datos puede identificar una palabra clave de una de las categorías de palabras clave. El sistema de procesamiento de datos puede determinar si la palabra clave semilla y la palabra clave actual de la categoría de palabras clave ocurren en el recurso de información.

Si tanto la palabra clave semilla como la palabra clave actual aparecen en los recursos de información, el sistema de procesamiento de datos puede incrementar el recuento de frecuencia para la palabra clave en la categoría de palabras clave. El sistema de procesamiento de datos puede calcular y ajustar una puntuación de afinidad de la palabra clave basada en el recuento de frecuencia de varios factores. Estos pueden incluir la ubicación de las palabras clave en los recursos de información).

El sistema de procesamiento de datos puede determinar si la puntuación de afinidad de la palabra clave en la categoría de palabras clave es mayor o igual a la puntuación del umbral de palabras clave. Si la puntuación de afinidad de la palabra clave es mayor o igual que la puntuación de umbral de la palabra clave, el sistema de procesamiento de datos puede establecer la palabra clave como seleccionada. El sistema de procesamiento de datos puede establecer la palabra clave como no seleccionada si la puntuación de afinidad de la palabra clave es menor que la puntuación de umbral de la palabra clave.

Si la palabra clave inicial y la palabra clave actual no se aplican en los recursos de información, el sistema de procesamiento de datos puede determinar si hay más palabras clave en la categoría de palabras clave actual. Si es así, el sistema de procesamiento de datos puede identificar la siguiente palabra clave en la categoría de palabras clave. Si no es así, el sistema de procesamiento de datos puede calcular una puntuación de afinidad de categoría para la categoría de palabras clave basándose en las puntuaciones de afinidad de cada una de las palabras clave.

El sistema de procesamiento de datos puede determinar si la puntuación total de afinidad de la categoría es mayor o igual que el umbral. Si es así, el sistema de procesamiento de datos puede establecer la categoría de palabras clave como seleccionada. En caso contrario, el sistema de procesamiento de datos puede establecer la categoría de palabras clave como no seleccionada.

En cualquier caso, el sistema de procesamiento de datos puede determinar si hay más categorías de palabras clave. Si hay más categorías de palabras clave, el sistema de procesamiento de datos puede identificar la siguiente categoría de palabras clave, identificar una palabra clave en la siguiente categoría de palabras clave y repetir la funcionalidad. Si no hay más categorías de palabras clave, el sistema de procesamiento de datos puede continuar.

El sistema de procesamiento de datos puede identificar cualquier conflicto semántico entre dos categorías de palabras clave utilizando el gráfico de relaciones semánticas. El sistema de procesamiento de datos puede identificar los recuentos de frecuencia total para cada categoría de palabras clave con un conflicto semántico. El sistema de procesamiento de datos puede determinar si el recuento de frecuencia total para una categoría de palabras clave es mayor o igual que el recuento de frecuencia total para otra categoría de palabras clave con el conflicto semántico.

Si es así, el sistema de procesamiento de datos puede establecer la primera categoría de palabras clave como seleccionada. En caso contrario, el sistema de procesamiento de datos puede establecer la otra categoría de palabras clave como seleccionada. En cualquier caso, el sistema de procesamiento de datos puede generar el script de interfaz utilizando las palabras clave y las categorías de palabras clave seleccionadas y no seleccionadas. El sistema de procesamiento de datos puede enviar el script de interfaz al dispositivo informático que proporcionó la palabra clave inicial.

Un sistema informático que utiliza la relevancia semántica

El sistema informático que utiliza la relevancia semántica es el módulo generador de palabras clave, el módulo analizador de recursos y el módulo calculador de frecuencias. El sistema informático puede proporcionar información a través de la red para su visualización. El sistema informático tiene muchos procesadores acoplados a la memoria, interfaces de comunicación, dispositivos de salida (por ejemplo, unidades de visualización) y dispositivos de entrada. Los procesadores pueden formar parte del sistema de procesamiento de datos o de otros componentes como el módulo generador de palabras clave, el módulo analizador de recursos, el módulo calculador de frecuencias, el módulo selector de palabras clave y el módulo proveedor de interfaces.

En el sistema informático, la memoria puede comprender cualquier medio de almacenamiento legible por ordenador y puede almacenar instrucciones informáticas tales como instrucciones ejecutables por el procesador para implementar las diversas funcionalidades descritas en el presente documento para los respectivos sistemas.

Refiriéndose al sistema, el sistema de procesamiento de datos puede incluir la memoria para almacenar información relacionada con la disponibilidad de inventario de unidades de contenido, reservas de unidades de contenido, entre otros. La memoria puede incluir la base de datos. Los procesadores pueden ser utilizados para ejecutar instrucciones almacenadas en la memoria y, al hacerlo, también pueden leer o escribir en la memoria diversas informaciones procesadas y/o generadas de acuerdo con la ejecución de las instrucciones.

Además de este movimiento hacia la relevancia semántica de las palabras clave, han ocurrido muchas cosas para que el SEO sea más semántico. He ido añadiendo a un post que he ido actualizando cuando salen nuevas patentes a las que merece la pena dedicar tiempo: ¿Qué es el SEO semántico?

Relevancia semántica de las palabras clave

Preludio – ¿Qué es una palabra clave?

Términos de dominio como palabras clave

Frases completas y significativas que se repiten con frecuencia en la indexación por frases

Palabras clave LSI

Relevancia semántica de las palabras clave

¿Qué es la relevancia semántica de las palabras clave?

El sistema de procesamiento de datos detrás de la relevancia semántica de las palabras clave

Cómo funciona el sistema de procesamiento de datos

Medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de los recursos de información

Un sistema para medir la relevancia semántica de las palabras clave mediante el análisis sintáctico de un recurso de información

Una puntuación de afinidad de la palabra clave-semilla basada en la frecuencia de la palabra clave

El sistema incluye un módulo analizador de recursos ejecutado en el sistema de procesamiento de datos

El módulo calculador de frecuencias puede calcular la puntuación de afinidad entre la palabra clave y la semilla

El sistema de procesamiento de datos puede recorrer los nodos del gráfico de relaciones semánticas

Con el gráfico de relaciones semánticas, el sistema de procesamiento de datos puede identificar un conflicto semántico entre la palabra clave

¿Qué es el gráfico de relaciones semánticas?

Medición de la relevancia semántica de las palabras clave mediante el análisis de los recursos de información

Puntuaciones de afinidad de categoría para cada categoría de palabras clave clasificadas

Un sistema de procesamiento de datos para medir la relevancia semántica de las palabras clave

¿Qué son las entidades de dominio?

El dispositivo informático editor de contenidos

Más aspectos del software detrás de la relevancia semántica de las palabras clave

Dispositivos de interfaz de usuario

La forma canónica de la palabra clave semilla

Uso de un gráfico de relaciones semánticas

Aristas y nodos en un grafo de relaciones semánticas

Cómo funciona el módulo generador de palabras clave

Una implementación de un gráfico de relaciones semánticas

El módulo analizador de recursos recibe los identificadores de recursos

Cómo interviene el módulo calculador de frecuencias en la determinación de la relevancia semántica

Un recurso de información con palabras clave que coincidan con la palabra clave semilla o con una palabra clave de una categoría de palabras clave

Obtención del recuento de frecuencia umbral

El módulo selector de palabras clave puede identificar grupos de categorías de palabras clave basándose en la falta de un conflicto semántico

Palabras clave y categorías de palabras clave generadas a partir de la palabra clave inicial designada como seleccionada o no seleccionada

Un recurso de información con una interfaz que muestra las palabras clave y las categorías de palabras clave generadas a partir de la palabra clave inicial designada como seleccionada o no seleccionada

Uso de la relevancia semántica para identificar las categorías de palabras clave

Cómo interviene el sistema de procesamiento de datos en la relevancia semántica

Representación de la medición de la relevancia semántica de las palabras clave

Agrupación de las palabras clave identificadas en categorías de palabras clave

Un sistema informático que utiliza la relevancia semántica

Artículos relacionados:

También te podría gustar...

Cómo aprender SEO en 2023 (según 130 expertos)

Los tres jefes del SEO

Avisos de Google Search Console para eliminar los intersticiales intrusivos

Deja una respuesta Cancelar la respuesta

Últimos artículos

Categorias