Factores de clasificación del algoritmo de Twitter: Una guía definitiva

Las patentes de Twitter y otras publicaciones revelan aspectos probables de cómo los tweets se promueven en los feeds de la línea de tiempo de los usuarios.

Algunos de los factores de clasificación de la línea de tiempo de Twitter son muy sorprendentes, y el ajuste de su enfoque de Tweets puede ayudarle a obtener una mayor visibilidad de sus Tweets.

Basándome en una serie de patentes clave y otras fuentes, he esbozado aquí una serie de factores de clasificación probables para el algoritmo de Twitter.

La línea de tiempo de Twitter

Twitter comenzó a utilizar una línea de tiempo basada en el algoritmo en 2016, cuando cambió lo que era puramente un feed cronológico de Tweets de todas las cuentas que uno seguía. El cambio clasificó las líneas de tiempo de los usuarios para permitirles ver «los mejores Tweets primero» Desde entonces, Twitter ha experimentado con variaciones de esto hasta el presente.

Un algoritmo basado en el feed para las redes sociales no es inusual. Facebook y otras plataformas de medios sociales han hecho lo mismo.

Las razones de este cambio a una mezcla algorítmica de Tweets en la línea de tiempo son bastante claras. Una cronología puramente personal, compuesta únicamente por las cuentas que uno ha seguido, es muy aislada y, por tanto, limitada, mientras que la introducción de publicaciones de cuentas más allá de las conexiones directas de uno tiene el potencial de aumentar el tiempo que uno pasa en la plataforma, lo que a su vez aumenta la adherencia general, que a su vez aumenta el valor del servicio para los anunciantes y los socios de datos.

Las diversas clasificaciones de intereses de los usuarios y los temas de interés asociados a sus cuentas y tuits permiten además la posibilidad de segmentar la publicidad en función de los datos demográficos de los usuarios y los temas de contenido.

Los usuarios avanzados de Twitter pueden haber desarrollado algunas intuiciones sobre diversos factores de los Tweets que pueden dar lugar a una mayor visibilidad dentro del algoritmo.

Un recordatorio sobre las patentes

Las empresas registran patentes todo el tiempo para invenciones que en realidad no utilizan en el servicio en vivo. Cuando trabajaba en Verizon, escribí personalmente varios borradores de patentes para diversas invenciones que mis colegas y yo desarrollamos en el curso de nuestro trabajo, incluyendo cosas que no terminamos utilizando en la producción.

Por lo tanto, el hecho de que Twitter tenga patentes que mencionan ideas sobre cómo podrían funcionar las cosas no garantiza en absoluto que eso sea así.

Además, las patentes suelen contener múltiples realizaciones, que son esencialmente varias formas en las que se podría implementar una invención: las patentes intentan describir los elementos clave de una invención de la forma más amplia posible para reclamar cualquier uso posible que se le pueda atribuir.

Por último, al igual que en el caso de la famosa patente del algoritmo PageRank, que fue la base del motor de búsqueda de Google, en los casos en los que Twitter ha utilizado una realización de una de sus patentes, es muy probable que haya cambiado y perfeccionado las invenciones simples y amplias descritas, y que siga haciéndolo.

Incluso a pesar de toda esta vaguedad e incertidumbre típicas, he encontrado una serie de conceptos muy interesantes en las descripciones de las patentes de Twitter, muchos de los cuales es muy probable que se incorporen a su sistema.

Twitter y el aprendizaje profundo

Una advertencia adicional antes de proseguir tiene que ver con la forma en que el algoritmo de la línea de tiempo de Twitter ha incorporado el Aprendizaje Profundo en su ADN, junto con varios niveles de supervisión humana, lo que lo convierte en una bestia que evoluciona por sí misma con frecuencia, si no constantemente.

Esto significa que tanto los grandes cambios como los pequeños cambios incrementales, pueden y van a ocurrir en la forma en que realiza la clasificación del contenido. Además, este enfoque de aprendizaje automático puede llevar a condiciones en las que los propios ingenieros humanos de Twitter pueden no saber directamente por qué algunos contenidos se muestran o superan a otros debido a la abstracción de los modelos de clasificación producidos, de forma similar a lo que describí al escribir sobre los modelos producidos por la clasificación de calidad de Google a través del aprendizaje automático.

A pesar de la complejidad y sofisticación del funcionamiento del algoritmo de Twitter, la comprensión de los factores que probablemente entran en la caja negra puede revelar lo que influye en las clasificaciones.

La línea de tiempo original de Twitter se componía simplemente de todos los Tweets de las cuentas que uno ha seguido desde su última visita, que se recopilaban y mostraban en orden cronológico inverso, con los Tweets más recientes mostrados en primer lugar, y cada Tweet anterior mostrado uno tras otro a medida que uno se desplazaba hacia abajo.

El algoritmo actual sigue estando compuesto en gran medida por esa misma lista cronológica inversa de Tweets, pero Twitter realiza una nueva clasificación para intentar mostrar los Tweets más interesantes en primer lugar de los Tweets recientes.

En segundo plano, un modelo de relevancia asigna a los Tweets una puntuación de clasificación que predice lo interesante que puede ser cada Tweet para usted, y este valor de puntuación dicta el orden de clasificación.

Los Tweets con las puntuaciones más altas se muestran primero en la lista de la línea de tiempo, y el resto de los Tweets más recientes se muestran más abajo. Cabe destacar que ahora también se intercalan en tu línea de tiempo Tweets de cuentas que no sigues, así como algunos Tweets de publicidad.

El gráfico de conexiones de Twitter

En primer lugar, uno de los aspectos más influyentes de la línea de tiempo de Twitter es la forma en que Twitter muestra ahora los Tweets basándose no sólo en tus conexiones directas en este punto, sino esencialmente en lo que es tu gráfico social único, al que Twitter se refiere en las patentes como «gráfico de conexiones».

El gráfico de conexiones representa las cuentas como nodos y las relaciones como líneas («aristas») que conectan uno o más nodos. Una relación puede referirse a asociaciones entre cuentas de Twitter.

Por ejemplo, seguir, suscribirse (como a través del programa Super Follows de Twitter o, potencialmente, para la función de suscripción anunciada por Twitter para las consultas de palabras clave), gustar, etiquetar, etc. – todos ellos crean relaciones.

Las relaciones en el gráfico de conexiones pueden ser unidireccionales (por ejemplo, yo te sigo) o bidireccionales (por ejemplo, ambos nos seguimos). Si yo te sigo, pero tú no me sigues, yo tendría una mayor expectativa de ver tus Tweets y Retweets apareciendo en mi línea de tiempo, pero tú no esperarías necesariamente ver los míos.

Basándose simplemente en el gráfico de conexiones, es probable que veas los Tweets y Retweets de aquellos a los que has seguido, así como los Tweets a los que tus conexiones han dado «Me gusta» o han respondido.

El algoritmo de Twitter ha ampliado los Tweets que puedes ver más allá de las cuentas con las que has interactuado directamente. Los Tweets que puedes ver en tu línea de tiempo ahora también incluyen Tweets de otras personas que publican sobre temas que has seguido, Tweets similares en cierto modo a los Tweets que te han gustado previamente, y Tweets basados en temas que el algoritmo predice que podrían gustarte.

Incluso entre estos tipos ampliados de Tweets que puedes recibir, se aplica el sistema de clasificación del algoritmo: no estás recibiendo todos los Tweets que coinciden con tus temas, gustos e intereses predichos; estás recibiendo una lista curada a través del algoritmo de Twitter.

Clasificación de interés

En el ADN de varias patentes y del algoritmo de Twitter para clasificar los Tweets está el concepto de «interés»

Es muy probable que se haya inspirado en una patente concedida a Yahoo en 2006 llamada «Clasificación de interés de los objetos multimedia«, que describía los métodos de clasificación utilizados en el algoritmo de Flickr (el servicio dominante de intercambio de fotos en las redes sociales que posteriormente ha sido eclipsado por Instagram y Pinterest).

Ese algoritmo anterior de Flickr tiene muchas similitudes con las patentes actuales de Twitter. Utilizaba factores similares e incluso idénticos para calcular el interés. Entre ellos se encontraban:

  • Información sobre la ubicación.
  • Metadatos de contenido.
  • Cronología.
  • Patrones de acceso de los usuarios.
  • Señales de interés (como el etiquetado, los comentarios, los favoritos).

El algoritmo de Twitter podría describirse fácilmente como una toma del algoritmo de interés de Flickr, ampliando algunos de los factores implicados, calculándolo a través de un proceso de aprendizaje automático más sofisticado, interpretando el contenido basándose en el procesamiento del lenguaje natural (NLP), e incorporando una serie de variaciones adicionales para permitir la rapidez de la presentación en tiempo casi real para un número gigantesco de usuarios simultáneamente.

El ranking de Twitter y el spam

También es interesante centrarse en los métodos utilizados por Twitter para detectar el spam, las cuentas de usuario no deseadas, y para degradar o suprimir de la vista los Tweets de spam.

La vigilancia de la desinformación, otros contenidos que violan las políticas y el acoso es igualmente intensa, pero no necesariamente converge tanto con las evaluaciones de clasificación.

Algunas de las patentes de detección de spam son interesantes porque veo que los usuarios frecuentemente encallan en los procesos de supresión de spam de Twitter de forma no intencionada, y hay una serie de cosas que uno puede hacer que resultan en los esfuerzos de promoción e interacción con la audiencia de Twitter. Twitter ha tenido que crear procesos de vigilancia agresivos para vigilar y eliminar el spam, e incluso los usuarios más prominentes pueden incumplir estos procesos de vez en cuando.

Por lo tanto, comprender los factores de spam de Twitter puede ser importante, ya que pueden hacer que los Tweets de uno obtengan deducciones de interés que de otro modo tendrían, y esta pérdida en las puntuaciones de relevancia puede reducir la visibilidad y el poder de distribución de sus Tweets.

Factores de clasificación de Twitter

Entonces, ¿cuáles son los factores mencionados en las patentes de Twitter para evaluar el «interés», y que influyen en la forma en que Twitter puntúa los Tweets para su clasificación?

La actualidad de la publicación del Tweet

Por lo general, se prefiere lo más reciente. Aparte de las búsquedas de palabras clave específicas y otros tipos de búsquedas, la mayoría de los Tweets serían de las últimas horas. También pueden incluirse algunos Tweets «en caso de que te lo hayas perdido», que parecen ser principalmente del último día o dos.

Imágenes o vídeos

En general, Google y otras plataformas han indicado que los usuarios tienden a preferir más las imágenes y los vídeos, por lo que un Tweet que contenga cualquiera de ellos podría obtener una mayor puntuación.

Twitter cita específicamente las tarjetas de imagen y vídeo, que se refieren a los sitios web que han implementado las Twitter Cards, que permiten a Twitter mostrar fácilmente fragmentos de vista previa más ricos cuando los Tweets contienen enlaces a páginas web con el marcado de la tarjeta.

Los Tweets con enlaces que muestran imágenes y vídeos suelen ser más atractivos para los usuarios, pero puede haber una ventaja adicional para los Tweets que enlazan con las páginas con el marcado de la tarjeta para mostrar el contenido de la tarjeta

Interacciones con el Tweet

Twitter cita los «Me gusta» y los «Retweets», pero otras métricas relacionadas con el Tweet también podrían aplicarse aquí. Las interacciones incluyen:

  • Likes
  • Retweets
  • Clics a enlaces que puedan estar en el Tweet
  • Clics a hashtags en el Tweet
  • Clics a cuentas de Twitter mencionadas en el Tweet
  • Detalles – clics para ver los detalles del Tweet, por ejemplo, para ver quién le dio «Me gusta» o lo retuiteó.
  • Nuevos seguimientos: cuántas personas han pasado por encima del nombre de usuario y han hecho clic para seguir la cuenta.
  • Visitas al perfil: cuántas personas han hecho clic en el avatar o en el nombre de usuario para visitar el perfil del autor.
  • Compartidos: cuántas veces se compartió el Tweet a través del botón de compartir.
  • Respuestas al Tweet

Impresiones

Aunque la mayoría de las impresiones provienen de la visualización del Tweet en las líneas de tiempo, algunas impresiones se derivan cuando los Tweets se comparten a través de la incrustación en páginas web. Es posible que el número de impresiones también afecte a la puntuación de interés del Tweet.

Probabilidad de interacciones

Una patente de Twitter describe el cálculo de una puntuación para un Tweet que representa la probabilidad de que los seguidores del autor del Tweet en el sistema de mensajería social interactúen con el mensaje, la puntuación se basa en la desviación del nivel de interacción calculado entre el nivel de interacción observado de los seguidores del autor y el nivel de interacción esperado de los seguidores.

Longitud del Tweet

Un tipo de clasificación es la longitud del texto contenido en el Tweet, que podría clasificarse como un valor numérico (por ejemplo, 103 caracteres), o podría designarse como una de algunas categorías (por ejemplo, corto, medio o largo).

En función de los temas relacionados con un Tweet, se podría evaluar si es más o menos interesante: para algunos temas, la longitud corta podría ser más beneficiosa, y para otros temas, la longitud media o larga podría hacer que el Tweet fuera más interesante.

Interacciones anteriores con el autor

Las interacciones anteriores con el autor de un Tweet aumentarán la probabilidad (y la puntuación de la clasificación en la línea de tiempo de uno) de que uno vea otros Tweets de ese mismo autor.

Estas métricas de interacción en el gráfico social pueden incluir una puntuación según el origen de la relación.

Por lo tanto, un historial de respuestas, gustos o retweets de un autor, incluso si no se sigue esa cuenta, puede aumentar la probabilidad de ver sus últimos tweets.

También es probable que se tenga en cuenta el tiempo de interacción con el autor del Tweet, de modo que si no has interactuado con uno de sus Tweets durante mucho tiempo, la visibilidad potencial de sus Tweets más recientes puede disminuir.

En el contexto del algoritmo, «autor» y «cuenta» se utilizan esencialmente para significar lo mismo, por lo que los Tweets de una cuenta corporativa se tratan igual que los Tweets de un individuo.

Puntuación de credibilidad del autor

Esta puntuación puede calcularse en función de las relaciones e interacciones de un autor con otros usuarios.

El ejemplo que se da en la patente es que un autor seguido por múltiples cuentas de alto perfil o prolíficas tendría una puntuación de credibilidad alta.

Aunque un valor de calificación citado es «bajo», «medio» y «alto», la patente también sugiere una escala de valores de calificación de 1 a 10, y puede incluir un factor cualitativo y/o cuantitativo.

Supongo que un rango de 1 a 10 es mucho más probable. Parece probable que algunos de los valores de evaluación del spam puedan utilizarse para restar una calificación de credibilidad del autor. Más información sobre los posibles factores de evaluación del spam en la última parte de este artículo.

Relevancia del autor

Es posible que los autores que se consideran más relevantes para un tema concreto tengan un valor de relevancia del autor más alto. Además, las menciones de un autor pueden hacerlo más relevante en el contexto de los Tweets que lo mencionan.

Las patentes también hablan de asociar a los autores con los temas, por lo que es posible que los autores que twittean sobre temas específicos con frecuencia, junto con buenas tasas de participación, se consideren más relevantes cuando sus tweets se refieren a ese tema.

Métricas del autor

Los Tweets pueden clasificarse en función de las propiedades del autor. Estas métricas pueden influir en el interés relativo de los mensajes del autor. Estas métricas del autor incluyen:

  • Ubicación del autor (como ciudad o país)
  • Edad (basada en la fecha de nacimiento que puede indicarse en los detalles de la cuenta)
  • Número de seguidores
  • Número de cuentas que sigue el autor
  • Relación entre el número de seguidores y las cuentas seguidas, ya que un mayor número de seguidores en comparación con las cuentas seguidas transmite una mayor popularidad junto con el número bruto de seguidores. Una relación más cercana a 1 indicaría una filosofía de seguimiento quid pro quo por parte del autor, lo que haría menos posible inferir la popularidad y daría una apariencia de popularidad artificial.
  • Número de Tweets publicados por el autor por periodo de tiempo (por ejemplo: por día o por semana).
  • Edad de la cuenta (meses desde la apertura de la cuenta, por ejemplo): las cuentas creadas muy recientemente tienen un peso mucho menor.
  • Confianza.

Temas

Los Tweets se clasifican según los temas que tratan. Hay algunos algoritmos muy sofisticados que intervienen en la clasificación de los Tweets.

Los usuarios de Twitter suelen haber seleccionado temas para asociarlos a sus cuentas, y obviamente se te mostrarán los Tweets populares de los temas que hayas seleccionado. Pero Twitter también crea automáticamente temas basados en palabras clave encontradas en los Tweets.

Basándose en tus interacciones con los Tweets y en las cuentas que sigues, Twitter también predice temas que probablemente te interesen y te muestra algunos Tweets de esos temas a pesar de que no te hayas suscrito formalmente a ellos.

Clasificación de frases

El sistema de Twitter es muy complejo y permite aplicar modelos de clasificación personalizados a los Tweets para temas concretos y cuando hay frases concretas.

Twitter cuenta con un amplio personal que trabaja en el desarrollo de modelos para determinados «viajes de los clientes», y esto parece coincidir con las descripciones de las patentes sobre cómo los editores podrían establecer reglas sobre publicaciones orientadas a temas y palabras clave o frases en las publicaciones.

Por ejemplo, los posts que contengan texto sobre «contratando ahora» o «saldrá en la televisión» podrían considerarse aburridos para un tema, mientras que frases como «fresco», «en oferta» o «sólo hoy» podrían tener más peso, ya que se podría predecir que son más interesantes.

Esto podría ser bastante difícil de atender, ya que hay un enorme campo de temas potenciales y ponderaciones personalizadas que podrían aplicarse.

Una reciente oferta de empleo en Twitter para un diseñador de productos de personal, Customer Journey, describía cómo ayudaría el puesto:

«Tanto si buscas fanart de Ariana Grande, #herpetología o monociclismo extremo, todo ocurre en Twitter. Nuestro equipo es responsable de ayudar a los nuevos miembros a navegar por la diversa gama de conversaciones públicas que ocurren en Twitter y encontrar rápidamente un sentido de pertenencia…»

«Reunir ideas a partir de datos e investigación cualitativa, desarrollar hipótesis, esbozar soluciones con prototipos y probar ideas con nuestro equipo de investigación y en experimentos.»

«Documentar modelos de interacción detallados y especificaciones de la interfaz de usuario»

«Experiencia en el diseño de aprendizaje automático, taxonomías ricas y / o gráficos de interés»

Esta descripción suena muy similar a lo que se describe en la patente de Twitter para «Sistema y método para determinar la relevancia del contenido social» donde:

«Los editores pueden establecer reglas para clasificar ciertas frases como más o menos interesantes…»

«…un editor puede decidir que algunas frases y atributos son interesantes en todos los contenidos, con independencia de la categoría del lugar que los escribe. Por ejemplo, la frase ‘en venta’ o ‘evento’ puede ser interesante en todos los casos y se puede aplicar un peso positivo.»

Una de las patentes describe cómo a los Tweets que se detecta que tienen lenguaje comercial se les podría asignar una puntuación más baja que a los Tweets que no tienen lenguaje comercial. (Por el contrario, esas ponderaciones podrían invertirse si el usuario realizara búsquedas que indicaran un interés en comprar algo, de modo que los Tweets que contuvieran lenguaje comercial podrían recibir una mayor ponderación)

Hora del día

La hora del día puede utilizarse para influir en la relevancia. Por ejemplo, se podría implementar una regla para dar más peso a los Tweets que mencionen «Café» entre las 8:00 y las 10:00 de la mañana, y/o a los Tweets publicados por las cafeterías.

Lugares

Las patentes describen cómo las «referencias a lugares» en los Tweets podrían dar mayor peso a los Tweets sobre un lugar, y/o a las cuentas asociadas con la referencia al lugar frente a otras cuentas que simplemente mencionan el lugar. Asimismo, la proximidad geográfica entre la ubicación del dispositivo de un usuario y la ubicación asociada a los elementos de contenido (el texto del Tweet, la imagen, el vídeo y/o el autor) puede aumentar o disminuir la relevancia potencial.

Idioma

Se puede clasificar el idioma del Tweet (por ejemplo, inglés, francés, etc.).

El idioma puede determinarse automáticamente utilizando diversas herramientas de evaluación lingüística automatizada.

Un Tweet en un idioma determinado sería de mayor interés para los hablantes de dicho idioma y de menor interés para los demás.

Tweets de respuesta

Los Tweets pueden clasificarse en función de si son respuestas a Tweets anteriores. Un Tweet que es una respuesta a un Tweet anterior puede considerarse menos interesante que un Tweet relativo a un tema nuevo.

En la descripción de una patente, el tema de un Tweet podría determinar si el Tweet será designado para ser mostrado a otra cuenta o incluido en los flujos de mensajes de otras cuentas.

Cuando usted ve su línea de tiempo, hay casos en los que algunas de las respuestas de un Tweet también se muestran con el Tweet principal, como cuando los Tweets de respuesta son publicados por cuentas que usted sigue. En la mayoría de los casos, los Tweets de respuesta sólo se podrán ver cuando uno haga clic para ver el hilo, o haga clic en el Tweet para ver todas las respuestas.

«Cuentas «bendecidas

Este es un concepto extraño, que creo que podría no estar en producción.

Twitter describe las cuentas bendecidas como identificadas dentro del gráfico de una conversación particular, donde el autor original en una conversación se consideraría «bendecido», y fuera de las respuestas subsiguientes a la publicación original, cualquiera de las respuestas que sea respondida posteriormente por la cuenta bendecida se convierte en «bendecida» también.

Los Tweets publicados por las cuentas bendecidas en la conversación recibirán una mayor puntuación de relevancia.

Perfil del sitio web

Esto no se menciona en las patentes de Twitter, pero tiene demasiado sentido en el contexto de todos los demás factores que han mencionado como para dejarlo pasar.

Muchos de los principales sitios web de contenido comparten con frecuencia sus enlaces en Twitter, y Twitter podría crear fácilmente una puntuación de reputación/popularidad del perfil del sitio web que también podría influir en la clasificación de los Tweets cuando se publiquen enlaces al contenido de los sitios web.

Sitios de noticias, recursos de información, sitios de entretenimiento: todos ellos podrían tener puntuaciones desarrolladas a partir de los mismos factores utilizados para evaluar las cuentas de Twitter. Los Tweets de los sitios web más populares y con mayor interacción podrían tener más peso que los sitios web relativamente desconocidos y con menor interacción.

Twitter verificado

Sí, si sospechabas que la insignia azul junto a los nombres de usuario transmite un trato preferente, hay una verborrea específica en una de las patentes de Twitter que confirma que al menos lo han considerado.

Dado que las cuentas verificadas suelen llevar asociados otros indicadores de popularidad, no es fácil saber si este factor está en uso o no. Los tuits publicados por una cuenta verificada pueden recibir una mayor puntuación de relevancia, lo que les permite aparecer más que los tuits de las cuentas no verificadas.

Esta es la descripción de la patente:

«En una o más realizaciones de la invención, el módulo de conversación (120) incluye funcionalidad para aplicar un filtro de relevancia para aumentar las puntuaciones de relevancia de una o más cuentas autoras del gráfico de conversación que se identifican en una lista blanca de cuentas verificadas. Por ejemplo, la lista blanca de cuentas verificadas puede ser una lista de cuentas de alto perfil que son susceptibles de ser suplantadas. En este ejemplo, las cuentas de celebridades y empresas serían verificadas por la plataforma de mensajería (100) para notificar a los usuarios de la plataforma de mensajería (100) que las cuentas son auténticas. En una o más realizaciones de la invención, el módulo de conversación (120) está configurado para aumentar las puntuaciones de relevancia de las cuentas de autor verificadas en una cantidad/porcentaje predefinido.»

Tiene tendencia

Se trata de una bandera binaria que indica si se ha identificado que el Tweet contiene un tema que era tendencia en el momento en que se emitió el mensaje.

Género, orientación sexual e intereses detectados por la aplicación

Twitter puede utilizar la información del dispositivo móvil del titular de una cuenta para inferir el género del titular de la cuenta, o inferir los intereses en temas como las noticias, los deportes, el entrenamiento con pesas y otros temas.

Algunos dispositivos móviles proporcionan información sobre otras aplicaciones cargadas en el teléfono con el fin de diagnosticar posibles conflictos de programación de aplicaciones. Así, algunos Tweets que coincidan con su género, orientación sexual e intereses temáticos podrían recibir más puntos de interés simplemente basándose en las inferencias realizadas por las aplicaciones de su teléfono. (Véase: https://screenrant.com/android-apps-collecting-app-data/ )

Y más factores de clasificación

Twitter afirma que:

«Nuestra lista de características consideradas y sus variadas interacciones sigue creciendo, informando a nuestros modelos de patrones de comportamiento cada vez más matizados»

Así que esta lista de factores es probablemente una subrepresentación de los factores que pueden estar utilizando, y su lista puede estar creciendo.

Imaginemos también que una combinación personalizada de algunos de los factores mencionados puede aplicarse como modelos para los Tweets asociados a temas concretos, lo que otorga una gran complejidad potencial a las clasificaciones mediante métodos de aprendizaje automático. (De nuevo, el aprendizaje automático aplicado para crear modelos de ponderación de rankings personalizados para consultas o temas concretos es muy similar a los métodos que probablemente se utilizan en Google)

Twitter ha declarado que la puntuación de los Tweets se realiza cada vez que uno visita Twitter y cada vez que actualiza su línea de tiempo. Teniendo en cuenta algunos de los complejos factores que intervienen, ¡eso es muy rápido!

Twitter utiliza pruebas A/B de ponderaciones de factores de clasificación, y otras alteraciones del algoritmo, y determina si un cambio propuesto es una mejora basada en el compromiso y el tiempo de visualización/interacción con un Tweet. Esto se utiliza para entrenar los modelos de clasificación.

La participación del aprendizaje automático en este proceso sugiere que los modelos de clasificación podrían producirse para muchos escenarios específicos, y potencialmente específicos para temas particulares y tipos de usuarios. Una vez desarrollado, el modelo puede probarse y, si mejora la participación, puede extenderse rápidamente a todos los usuarios.

Cómo pueden utilizar los profesionales del marketing esta información

Hay muchas deducciones que pueden extraerse de la lista de posibles factores de clasificación, y que pueden ser utilizadas por los profesionales del marketing para mejorar sus tácticas de tuiteo.

Una cuenta de Twitter que sólo publica anuncios sobre sus productos e información promocional sobre su empresa probablemente no tendrá tanta visibilidad como las cuentas que son más interactivas con su comunidad, porque las interacciones producen más señales de clasificación y beneficios potenciales.

Los expertos en redes sociales recomiendan desde hace tiempo un enfoque de mezcla de tipos de publicaciones en lugar de limitarse a publicar promoción autorreferencial – estas estrategias incluyen «La regla de los tercios», «La regla 80/20», y otras.

Los factores de clasificación de Twitter probablemente apoyan estas teorías, ya que provocar más interacciones con un número de usuarios de Twitter es más probable que aumente la visibilidad de una cuenta.

Por ejemplo, una cuenta de una gran empresa con muchos seguidores podría publicar una encuesta interesante para obtener consejos sobre qué características añadir a su producto. Los votos y comentarios publicados por los usuarios harán que los encuestados tengan muchas más probabilidades de ver la siguiente publicación de la empresa debido a las interacciones recientes, y esa próxima publicación podría estar promocionando o anunciando algo nuevo. Además, los seguidores de los encuestados también tendrán más probabilidades de ver la próxima publicación de la empresa, ya que Twitter parece tener en cuenta que los usuarios con intereses similares pueden estar más dispuestos a ver contenidos que coincidan con sus intereses.

Además, los factores sugieren una serie de enfoques potencialmente beneficiosos.

Cuando se publica un tuit promocionando un producto o haciendo un anuncio, combinar algo para provocar una respuesta de los propios seguidores podría ampliar fácilmente la exposición en la plataforma, ya que las respuestas de cada encuestado a su tuit pueden aumentar las probabilidades de que sus seguidores directos vean el tuit original y el tuit de respuesta de su conexión.

Aprovechar el aspecto del gráfico social del algoritmo de Twitter puede ayudar a aumentar el interés de tus Tweets, y puede aumentar la exposición de tus Tweets para otros usuarios.

Los factores de spam pueden afectar negativamente a la clasificación de los Tweets

Los algoritmos de detección de spam pueden afectar negativamente a la capacidad de clasificación de los Tweets.

Por un lado, Twitter es muy rápido para suspender las cuentas que son descaradamente spam, y en los casos en que es obvio e inequívoco, se puede esperar que la cuenta sea terminada abruptamente, haciendo que todos sus Tweets desaparezcan de los gráficos de conversación y líneas de tiempo, y haciendo que el perfil de la cuenta ya no esté disponible para ver.

En otros casos en los que no está tan claro si una cuenta está haciendo spam, los Tweets de la cuenta podrían simplemente ser degradados mediante la aplicación de puntuaciones negativas de peso de rango, o los Tweets podrían ser bloqueados o suspendidos hasta que el titular de la cuenta tome una acción correctiva o verifique su identidad.

Por ejemplo, una cuenta de Twitter con un largo historial de buenos Tweets podría empezar a publicar repentinamente anuncios de Viagra o enlaces a software malicioso, como si una cuenta establecida fuera hackeada. Twitter podría suspender temporalmente la cuenta hasta que se tomaran medidas correctivas, como pasar una verificación CAPTCHA, o recibir un código de verificación a través del móvil y cambiar las contraseñas. Otro ejemplo podría ser el de un nuevo usuario que accidentalmente sobrepasa algún umbral de seguir demasiadas cuentas en un corto periodo de tiempo, o publicar con demasiada frecuencia.

Twitter emplea una serie de métodos para detectar el spam y dejarlo de lado para que los usuarios lo vean menos.

Gran parte de la detección automatizada se basa en la detección de una combinación de características del perfil de la cuenta, los comportamientos de tuiteo de la cuenta y el contenido encontrado en los tuits de la cuenta.

Twitter ha desarrollado una serie de «huellas dactilares» características del spam para realizar una rápida detección de patrones. Una patente de Twitter describe cómo:

«El spam se determina comparando las características de las cuentas de spam identificadas, y construyendo un «gráfico de similitud» que puede ser comparado con otras cuentas sospechosas de spam»

Los tuits identificados como potencialmente spam podrían ser marcados con un valor binario como «sí» o «no», y luego los tuits marcados pueden ser filtrados de las líneas de tiempo.

También es posible que haya una escala de spam, calculada a partir de múltiples factores, y que una vez que un tuit o una cuenta sobrepase un umbral, sufra una degradación. Creo que merece la pena mencionar esto, ya que los usuarios de Twitter pueden no entender las implicaciones del uso de la plataforma. Por ejemplo, publicar un tuit demasiado agresivo puede afectar negativamente a los siguientes tuits de una cuenta durante algún tiempo. La repetición de un comportamiento agresivo podría resultar en algo peor, como la eliminación completa de la cuenta, sin posibilidad de recuperación.

Añadiré aquí algunos factores que no se mencionan específicamente en las patentes de Twitter o en las publicaciones del blog porque Twitter no revela todos los factores de identificación del spam por razones obvias. Sin embargo, algunas características del spam y de las cuentas de spam parecen tan obvias que añado algunas procedentes de observaciones personales o de fuentes de investigación bien consideradas para proporcionar una comprensión más amplia de lo que puede dar lugar a descensos de spam.

Factores de spam y otros factores de clasificación negativos

  • Los tuits que contienen un mensaje comercial publicado sin una relación de seguidores/seguidos o en una relación unidireccional (el autor del tuit sigue a la cuenta que menciona pero la cuenta receptora no sigue al autor), pero no han tenido interacciones previas, empieza a parecer sospechoso. Si esto se hace muchas veces con un texto similar o idéntico, no tardará en considerarse una actividad de spam, especialmente para las cuentas más nuevas.
  • Edad de la cuenta: la edad muestra que la cuenta ha sido creada muy recientemente. (La reciente investigación de SparkToro sobre el spam en Twitter sugiere una antigüedad de la cuenta de 90 días o menos)
  • Bandera NSFW de la cuenta – la cuenta tiene una bandera que indica que ha sido identificada por enlazar a sitios web documentados en una lista negra de sitios potencialmente ofensivos (como sitios con porno, material explícito, gore, etc.).
  • Bandera ofensiva: el Tweet ha sido identificado por contener uno o más términos de una lista negra de términos ofensivos.
  • Cuenta potencialmente falsa: se sospecha que la cuenta suplanta a una persona u organización real y no ha sido verificada.
  • Cuenta que publica frecuentemente infracciones de derechos de autor
  • Lista negra – Una patente sugiere el uso de una lista negra que aplicará un filtro de relevancia para disminuir las puntuaciones de relevancia de las cuentas que pueden incluir, pero no están limitadas a: spammers, cuentas potencialmente falsas, cuentas con un potencial o historial de publicación de contenido para adultos, cuentas con un potencial o historial de publicación de contenido ilegal, cuentas marcadas por otros usuarios, y/o que cumplen cualquier otro criterio para marcar cuentas.
  • Indicador de cuenta bot: identifica que la cuenta que emite el tuit ha sido identificada como potencialmente operada por una aplicación de software en lugar de por un humano. Este criterio en particular tiene una serie de implicaciones, especialmente para aquellas cuentas que han utilizado tipos de aplicaciones de programación para publicar Tweets, u otro software que genera Tweets automatizados. Por ejemplo, programar demasiados Tweets para ser publicados por período de tiempo a través de una aplicación como Hootsuite o Sprout Social puede dar lugar a que la cuenta del usuario sea suspendida, o que su acceso a la aplicación a través de la API de Twitter sea suspendido. Esto puede ser particularmente irritante, ya que si se publicara manualmente el mismo número de Tweets por período de tiempo, la cuenta no tendría problemas. Desde hace tiempo, los profesionales del marketing de Facebook y Twitter creen que los algoritmos respectivos podrían reducir la visibilidad de las publicaciones a través de software en comparación con las manuales, y este componente sugiere que ese podría ser el caso de Twitter.
  • Los tweets que contengan lenguaje ofensivo podrían erosionar su puntuación de interés.
  • Los tuits publicados a través de las API de Twitter, como por ejemplo a través de las herramientas de gestión de medios sociales que dependen de la API de Twitter, están generalmente sujetos a un mayor escrutinio como Twitter ha descrito «El problema puede ser exacerbado cuando un servicio de intercambio de contenidos abre su interfaz de programación de aplicaciones (API) a los desarrolladores» Mi observación es que las cuentas que dependen únicamente de las aplicaciones de publicación de terceros y de las API -especialmente las cuentas más nuevas- pueden ver su capacidad de distribución un tanto desvirtuada. Las cuentas más nuevas deberían trabajar para establecerse mediante el uso humano durante un período inicial antes de depender más de las aplicaciones de programación y publicación, e incluso las cuentas establecidas pueden ver un mayor potencial de distribución si combinan algunas publicaciones manuales humanas con sus publicaciones programadas/automatizadas/aplicaciones de terceros.
  • Cuentas inactivas durante mucho tiempo: las cuentas que no han publicado durante mucho tiempo y que de repente cobran vida no tienen inmediatamente la capacidad de clasificación que podrían tener. Esto se debe a que, en ocasiones, los spammers pueden secuestrar con éxito las cuentas inactivas para subvertir una cuenta que antes era de buena fe para que publique spam.
  • Perfil del dispositivo asociado con el spammer u otro infractor de la política – Esencialmente, las patentes sugieren que Twitter está utilizando Browser Fingerprinting y Device Fingerprinting para detectar a los spammers y otros malos jugadores. La huella digital permite a los servicios tecnológicos generar perfiles de una combinación de datos que incluirían cosas como la dirección IP, el ID del dispositivo, el agente de usuario, los plugins del navegador, el modelo y la versión de la plataforma del dispositivo y las descargas de aplicaciones para crear «huellas digitales» únicas para identificar dispositivos específicos. Una de las principales conclusiones de esto es que si tienes dos o más cuentas de Twitter que utilizas con tu teléfono o navegador, si realizas tuits abusivos a través de una de esas cuentas, existe la posibilidad muy real de que pueda perjudicar las clasificaciones de una cuenta más «profesional» que manejes en el mismo dispositivo. En el peor de los casos, incluso podría hacer que te bloquearan ambas cuentas por lo que pudieras hacer en una de ellas. Esto tiene implicaciones bastante serias para las empresas y agencias que tienen empleados que realizan Tweets profesionales, mientras que pueden cambiar en su dispositivo para publicar Tweets personales también. Algunos tipos de Tweets que podrían causar problemas serían: Spam, acoso, información falsa o engañosa, amenazas, infracción repetida de los derechos de autor, publicación de enlaces de malware, y probablemente más. Aunque teorizo que una cuenta personal también podría hacer que se suspendiera una cuenta profesional en el mismo dispositivo, me atrevería a decir que sólo se suspendería la cuenta profesional para el titular de ese dispositivo en particular, y que se podría acceder a la cuenta profesional a través de un dispositivo diferente.
  • Falta de datos de uso de otras aplicaciones – Es muy posible que Twitter pueda recibir datos de los dispositivos móviles que indiquen si el operador del dispositivo ha descargado o utilizado recientemente otras aplicaciones en el dispositivo más allá de la aplicación de Twitter. (Véase: https://screenrant.com/android-apps-collecting-app-data/ ) Una característica común de las cuentas de spam es que no reflejan el uso de otras aplicaciones porque el dispositivo se dedica principalmente a enviar spam a Twitter y no muestra características de uso humano. O bien, la cuenta está alojada en un servidor web en lugar de en un dispositivo móvil, e intenta imitar el perfil de uso de un usuario humano.
  • Bloqueos: las cuentas que otros usuarios han bloqueado en numerosas ocasiones, o las cuentas que han sido bloqueadas durante un periodo de tiempo concreto, pueden ser indicativas de una cuenta de spam.
  • Frecuencia de los Tweets: si el número de Tweets enviados desde la misma cuenta en un periodo de tiempo determinado supera un umbral, esa cuenta puede ser marcada como spam y se le deniega el envío de Tweets posteriores. Esta no es una regla rígida, o es variable en su aplicación, porque hay cuentas corporativas más grandes con muchos miembros del personal que se encargan de publicar Tweets a una gran base de clientes, como en el caso de American Airlines. Hay cuentas de este tipo que se añaden a las listas blancas para evitar la suspensión automática debido a los grandes volúmenes de Tweets que pueden publicar en plazos cortos.
  • Alto volumen de Tweets con el mismo Hashtag o menciones del mismo @nombredeusuario – Obviamente, los Tweets de alto volumen son arriesgados, y el aumento de su volumen en plazos cortos hará que su cuenta esté cada vez más cerca de ser considerada como la de un spammer. Por lo tanto, intentar saturar la línea de tiempo de un Hashtag en particular se considerará molesto y potencialmente spam. Del mismo modo, insistir en ganar la atención de una cuenta en particular mencionándola repetidamente comenzará a parecer molesto, innecesario, acoso abusivo y/o spam.
  • CAPTCHA – Si se sospecha que se trata de spam, el servicio puede impedir que se escriba o publique un Tweet, exigiendo que la cuenta de usuario pase primero un desafío CAPTCHA para establecer que la cuenta es operada por un humano. (Mi agencia se ha encontrado con esto al crear nuevas cuentas en nombre de los clientes. Es más probable que esto ocurra cuando el ordenador que se utiliza para configurar la cuenta se ha utilizado recientemente para configurar otras cuentas, y la cuenta se configura utilizando cuentas de servicios de correo electrónico gratuitos en lugar de a través de teléfonos móviles. Además, Twitter suele exigir el envío de un mensaje de texto al móvil para confirmar el número de teléfono antes de desbloquear la cuenta)
  • El registro de la cuenta refleja la anomia – Las nuevas cuentas están expuestas a un mayor escrutinio y sospecha dentro de los sistemas de Twitter, y una forma de criticar las nuevas cuentas se basa en los datos asociados al registro inicial de la cuenta, ya que los spammers han utilizado la automatización para intentar crear grandes volúmenes de nuevas cuentas para el uso de bots. El uso de Twitter puede reflejar configuraciones de cuentas reales o falsas, por lo que Twitter ha analizado muchas cuentas falsas y ha desarrollado tipos de patrones de huellas dactilares para detectar probables cuentas de spam/bot. Por ejemplo, cuando un usuario humano accede a la página de registro de cuentas de Twitter en una ventana del navegador para enviar la información de registro, el navegador realiza rápidamente llamadas a los servidores de Twitter para obtener docenas de elementos que se utilizan para componer la página en el navegador, como Javascripts, hojas de estilo en cascada e imágenes. Es más probable que los robots envíen la información de registro sin llamar primero a todos los elementos de la página de registro. Por lo tanto, las solicitudes de imágenes y otras solicitudes de tipo de archivo que preceden a un envío de registro pueden utilizarse para determinar si un nuevo registro refleja una anomalía que indica que se ha producido un registro generado por un bot. Así, a las cuentas que se registren con características anómalas se les puede restar algo de relevancia a sus Tweets.
  • Seguimiento masivo de cuentas verificadas: las cuentas de spam suelen seguir de forma masiva a cuentas prominentes y/o verificadas con el fin de establecer un punto de apoyo en el gráfico social. Al configurar una cuenta de Twitter para un usuario real, humano antes, solíamos seguir un puñado de las cuentas verificadas sugeridas por Twitter durante el proceso de registro. Curiosamente, este comportamiento por sí solo puede hacer que se suspenda una cuenta hasta que se pase un CAPTCHA u otra verificación. Por lo tanto, la conclusión es que no hay que seguir todas las cuentas que se sugieren en el proceso de registro si se está creando una nueva cuenta. Definitivamente, no utilices uno de esos servicios de seguimiento automatizado que la gente solía utilizar hace años, o tu cuenta podría perder relevancia o ser suspendida.
  • Pocos seguidores – Las cuentas de spam suelen ser más nuevas, y como a menudo no se promocionan de forma beneficiosa para la comunidad, inspiran muy pocos seguidores. Así, una cuenta con pocos seguidores puede ser un factor en combinación con otros para identificar a un usuario potencialmente spam.
  • Hashtags Irrelevantes en Tweets de Respuesta – Hashtags en Tweets que no tienen que ver con el tema del Tweet original.
  • Tweets que contienen enlaces de afiliados: se explica por sí mismo.
  • Solicitudes frecuentes de amistad con usuarios en un corto período de tiempo
  • Volver a publicar contenido duplicado en varias cuentas: especialmente el contenido duplicado que se publica cerca en el tiempo.
  • Cuentas que twittean sólo URLs
  • Publicación de contenido irrelevante o engañoso en los Trending Topics/Hashtags
  • Ubicación de perfil errónea o ficticia – Por ejemplo, una ubicación de perfil que muestra «Poughkeepsie, NY», pero la IP del usuario es China, produciría una aparente falta de coincidencia que indicaría una cuenta potencial de estafador o spammer.
  • Las direcciones IP de las cuentas coinciden con los rangos de las cuentas de los abusadores, o las ubicaciones de los países que originan mayores cantidades de abuso – Por ejemplo, Rusia. Del mismo modo, las direcciones IP proxy comúnmente conocidas son fácilmente detectables por Twitter, y se marcan como sospechosas.
  • Imagen de perfil predeterminada: es más probable que los usuarios humanos configuren imágenes de cuenta personalizadas («avatares»), por lo que no configurar una y seguir utilizando la imagen de perfil predeterminada de Twitter es una señal de alarma.
  • Imagen de perfil duplicada – Una imagen de perfil duplicada en muchas cuentas es una señal de alarma.
  • Imagen de portada predeterminada: no configurar una imagen de portada personalizada en la cabecera del perfil no es tan sospechoso como el uso continuado de una imagen de perfil predeterminada, pero el uso de una imagen de cabecera diferente es más representativo de una cuenta real.
  • URL sin resolver en el perfil – SparkToro sugiere esto, y se alinea con muchas cuentas de spam. A veces esto se debe a que los spammers pueden ser más propensos a crear sitios web que pueden ser suspendidos, o dominios de typosquatting destinados a crear sitios web de caballos de Troya que también pueden ser suspendidos.
  • Descripciones de perfiles que coinciden con las palabras clave/patrones de los spammers
  • Mostrar los nombres de usuario conforme a los patrones de spam – Los nombres de usuario que son secuencias alfanuméricas sin sentido, o nombres propios seguidos de múltiples dígitos numéricos reflejan una falta de imaginación por parte de los spammers que pueden estar intentando registrar cientos de cuentas en masa, con cada nombre generado al azar, o cada nombre de usuario generado añadiendo el siguiente número en una secuencia. Ejemplo: John32168762 es el tipo de nombre de usuario que la mayoría de los humanos consideran indeseable.
  • Patrones – Los patrones de perfiles y tuits utilizados por los spammers suelen revelar las cuentas de los mismos. Por ejemplo, si varias cuentas con fotos de perfil de Twitter predeterminadas y nombres de usuario con patrones similares twittean enlaces a una página o un dominio en particular, esas cuentas son muy fáciles de identificar y dejar de lado.

La simple enumeración de los factores de identificación del spam subestima considerablemente los sofisticados sistemas de Twitter utilizados para la identificación y la gestión del spam.

Las principales empresas tecnológicas de Silicon Valley llevan años luchando contra el spam, y se ha descrito como una especie de carrera armamentística.

La empresa tecnológica crea un método para detectar el spam, y los spammers evolucionan sus procesos para eludir la detección, y entonces el ciclo se repite una y otra vez.

En conclusión

Las patentes de Twitter ilustran una enorme sofisticación en cuanto al empleo de componentes de Inteligencia Artificial, análisis de grafos sociales y métodos que combinan el procesamiento sincrónico y asincrónico con el fin de ofrecer contenidos con extrema rapidez.

Los componentes de la IA incluyen:

  • Redes neuronales.
  • Procesamiento del lenguaje natural.
  • Cálculo circular.
  • Modelado de Markov.
  • Regresión logística.
  • Análisis de árboles de decisión.
  • Análisis de bosques aleatorios.
  • Aprendizaje automático supervisado y no supervisado.

Como las determinaciones de la clasificación pueden basarse en modelos de aprendizaje automático únicos y abstraídos en función de frases específicas, temas y perfiles de interés, lo que funciona para un área de interés puede funcionar de forma algo diferente para otras áreas de interés.

Aun así, creo que mirar estos muchos factores potenciales de clasificación que se han descrito en las patentes de Twitter puede ser útil para los vendedores que quieren lograr una mayor exposición en la plataforma de Twitter.

También te podría gustar...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *