TT : Pourquoi TikTok a rendu son utilisateur si obsessionnel? L’algorithme d’IA qui vous a rendu accro. , influenceur

Le moteur de recommandation n’est pas nouveau pour la communauté Data Science. Au lieu de cela, certains le considèrent comme l’ancien système d’IA en raison d’un manque d’effets vertigineux comme la reconnaissance d’image ou la génération de langage.

Néanmoins, la recommandation est toujours l’un des systèmes d’IA prédominants qui ont la mise en œuvre la plus étendue dans presque tous les services et plateformes en ligne. Par exemple, suggestion de vidéo YouTube, e-mail de campagne que vous avez reçu d’Amazon, livre que vous pourriez également aimer lorsque vous parcourez la librairie Kindle.

En fait, selon le document de recherche publié par Gomez-Uribe et le chef de produit de Netflix, Neil Hunt, a déclaré que l’effet combiné de la personnalisation et des recommandations permet à Netflix d’économiser plus de 1 milliard de dollars par an. De plus, 80% des abonnés choisissent des vidéos dans la liste de suggestions du moteur.

Voyons maintenant quelle dose TikTock fait différemment.

(Pour ceux qui connaissent déjà ce sujet, veuillez passer à la section suivante.)

Il y a trop d’articles utiles et de cours en ligne sur les moteurs de recommandation, et je ne veux pas réinventer la roue.

Voici deux ressources pour vous permettre d’acquérir des connaissances de base pour le moteur de recommandation.

  • Guide complet pour créer un moteur de recommandation à partir de zéro [LINK] (prenez environ 35 minutes pour lire et 40 à 60 minutes pour répliquer le code python)
  • Moteur de recommandation d’Andrew Ng [LINK] (prenez une heure pour regarder les vidéos)

Outre le moteur de recommandation basique et industrialisé, il faut un backend robuste et une conception d’architecture pour l’intégration. Voici un exemple principal.

Moteur de recommandation – créé par Catherine Wang, tous droits réservés

Un système en temps réel devrait avoir une base de données solide (pour la collecte et le stockage) pour prendre en charge les multiples couches abstraites (couche d’algorithme, couche de service et couche d’application) en plus qui répondent à différents problèmes commerciaux.

« Conception centrée sur l’utilisateur»Reste le cœur de l’archétype. En termes simples, TikTok ne recommandera que le contenu que vous aimeriez, d’un ajustement de démarrage à froid à une recommandation explicite pour les utilisateurs actifs.

Si vous cliquez sur une vidéo dansante, votre flux sera initialement personnalisé pour la catégorie divertissement, puis le mécanisme de suivi retracera vos comportements pour une analyse plus approfondie, qui vous fournira éventuellement des recommandations précises uniquement.

Le workflow de haut niveau.

3 composants principaux – créé par Catherine Wang, tous droits réservés

Dans l’archétype de TikTok, il existe trois principaux éléments constitutifs, 1) le balisage du contenu, 2) la création de profils utilisateur et de scénarios utilisateur, et 3) la formation et le service d’algorithmes de recommandation.

Nous discuterons de chacun d’eux dans le contenu suivant.

2.1 Données et fonctionnalités

Tout d’abord, les données. Si nous décrivons formellement le modèle de recommandation, il s’agit d’une fonction qui correspond à la satisfaction d’un utilisateur à l’égard du contenu généré par l’utilisateur. Pour fournir cette fonction, il faut saisir des données trois dimensions.

Données de contenu – TikTok est une plate-forme avec un énorme contenu généré par l’utilisateur. Chaque type de contenu a ses caractéristiques, le système doit pouvoir les identifier et les distinguer pour une recommandation fiable.

Données d’utilisateurIl s’agit notamment des étiquettes d’intérêt, de la carrière, de l’âge, du sexe, de la démographie, etc. Il comprend également des fonctionnalités latentes du clustering de clients basé sur ML.

Données de scénario – Ces données suivent le scénario d’utilisation et le changement de préférence de l’utilisateur en fonction de différents scénarios. Par exemple, quel type de vidéo un utilisateur aime regarder lorsqu’il est au travail, en voyage ou en déplacement

Une fois les données relatives collectées, quatre types de caractéristiques techniques critiques seraient dérivées et intégrées dans le moteur de recommandation.

  • Fonctions de corrélation: ils représentent la corrélation entre les attributs de contenu et les balises utilisateur, y compris la correspondance des mots clés, la balise de classification, la correspondance source, la balise thème et les fonctionnalités latentes telles que les distances vectorielles entre l’utilisateur et le contenu.
  • Fonctionnalités du scénario utilisateur: conçu à partir de données de scénario, y compris l’emplacement géographique, l’heure de la journée, les tags d’événement, etc.
  • Caractéristiques de la tendance: ils sont basés sur les interactions des utilisateurs et représentent une tendance mondiale, un sujet brûlant, des mots clés clés, des thèmes de tendance, etc.
  • Fonctionnalités collaboratives: basé sur une technique de filtrage collaboratif. Il équilibre la recommandation étroite (biais) et la recommandation de collaboration (généralisation). Plus précisément, il considérera non seulement l’historique d’un seul utilisateur, mais analysera les comportements collaboratifs d’un groupe d’utilisateurs similaire (clics, centres d’intérêt, mots clés, thèmes).

Le modèle prédira si le contenu convient à l’utilisateur dans un scénario en apprenant des fonctionnalités ci-dessus.

2.2 Objectifs intangibles

Dans le modèle recommandé, le taux de clics, le temps de lecture, les likes, les commentaires et les reposts sont tous des objectifs quantifiables. Vous pouvez utiliser le modèle ou les algorithmes pour les adapter, puis faire la prédiction de manière concluante.

Cependant, d’autres objectifs intangibles ne peuvent pas être évalués par ces indicateurs quantifiables.

Par exemple, pour maintenir une communauté et un écosystème sains, TikTok vise à supprimer le contenu qui implique de la violence, des escroqueries, de la pornographie, des flatulences et peser dans les faits, un contenu de haute qualité comme les actualités.

Pour atteindre cet objectif, un cadre de contrôle aux frontières doit être défini au-delà des objectifs du modèle quantifiables. (Système d’audit de contenu)

2.3 Algorithmes

Les objectifs de recommandation peuvent être formulés en un problème classique d’apprentissage automatique. Ensuite, résolvez par des algorithmes comprenant un modèle de filtrage collaboratif, un modèle de régression logistique, une machine de factorisation, un GBD et un apprentissage en profondeur.

Une illustration du filtrage collaboratif

Un système de recommandation de qualité industrielle nécessite une plate-forme ML flexible et extensible pour constituer le pipeline expérimental afin de former rapidement divers modèles. Empilez-les ensuite pour servir en temps réel. (par exemple, combiner LR et DNN, SVM avec CNN)

Outre l’algorithme de recommandation principal, TikTok doit également former l’algorithme de classification de contenu et l’algorithme de profilage utilisateur. Vous trouverez ci-dessous une architecture de classification hiérarchique pour l’analyse de contenu.

Arbre de classification hiérarchique – créé par Catherine Wang, tous droits réservés

Accédez à la racine principale. Chaque couche vers le bas est la catégorie principale et la sous-catégorie. Comparé à un classificateur séparé, l’utilisation d’un mécanisme de classification hiérarchique peut mieux résoudre le problème de l’inclinaison des données.

2.4 Mécanisme de formation

TikTok utilise un protocole de formation en ligne en temps réel, il nécessite moins de ressources de calcul et fournit une rétroaction rapide. Ceux-ci sont importants pour les produits de streaming et de flux d’informations.

Les comportements et actions de l’utilisateur peuvent être capturés instantanément, puis renvoyés au modèle pour réfléchir au flux suivant. (par exemple, lorsque vous cliquez sur une nouvelle vidéo, votre flux change rapidement en fonction de vos dernières actions)

Très probablement, TikTok utilise Storm Cluster pour traiter les exemples de données en temps réel, y compris les clics, les émissions, les collections, les likes, les commentaires et le partage.

Ils construisent également leur système haute performance en tant que serveur de paramètres et de fonctionnalités du modèle (magasin de fonctionnalités et magasin de modèles). le Boutique de fonctionnalités peut préserver et servir des dizaines de millions de caractéristiques originales et de vecteurs techniques. Et le Boutique de modèles maintiendra et fournira des modèles et tuned_parameters.

Mécanisme de formation en ligne (version simplifiée) – Créé par Catherine Wang, tous droits réservés

Le processus de formation global est le suivant: 1) le serveur en ligne capture les données en temps réel puis les stocke dans le Kafka, 2) le cluster Storm utilise les données et les fonctionnalités du produit Kafka, 3) le magasin de fonctionnalités collecte de nouvelles fonctionnalités et des étiquettes de recommandation pour construire un nouvel ensemble de formation , 4) pipeline de formation en ligne recycler les paramètres du modèle, les même dans le magasin de modèles, 5) mettre à jour la liste de recommandations côté client, capturer de nouveaux commentaires (actions de l’utilisateur) et diffuser à nouveau.

Nouveau :   TT : Comment gagner de l'argent avec Tik Tok (Guide du débutant), influenceur

TikTok ne révèle jamais son algorithme de base au public ou à la communauté technologique. Mais sur la base des informations fragmentées publiées via la société et des pistes découvertes par les geeks en utilisant les techniques de rétro-ingénierie. Je tire la conclusion suivante.

(Avis de non-responsabilité – ceci est mon interprétation et mon extrapolation, et pourrait s’écarter de ce que fait TikTok)

Workflow de recommandation – Créé par Catherine Wang, tous droits réservés

Étape 0: Système Duo-Audit pour le contenu généré par l’utilisateur (UGC)

Chez TikTok, des millions de contenus sont téléchargés quotidiennement par les utilisateurs. Un contenu malveillant pourrait plus facilement trouver les failles dans le seul système d’examen des machines, et l’examen manuel n’est pas réaliste dans ce contexte. Par conséquent, la duo-review devient l’algorithme principal de TikTok pour filtrer le contenu vidéo.

Revue de la machine: De manière générale, le modèle Duo-audit (basé sur la vision par ordinateur) permet d’identifier vos images vidéo et vos mots clés. Il a principalement deux fonctions principales: 1) vérifier s’il y a des brèches dans les clips et vérifier le copywriting. S’il est soupçonné de violation, le contenu sera intercepté par le modèle et étiqueté comme jaune ou rouge pour examen humain. 2) en extrayant les images et les images clés de la vidéo, l’algorithme d’audit duo de TikTok associerait les extractions à sa base de contenu archivée massive. La duplication sera ramassée et réduira le trafic et mettra moins de poids dans le moteur de recommandation.

Examen manuel: principalement axé sur 3 domaines: titre vidéo, miniature de couverture et images clés vidéo. Pour le contenu étiqueté comme suspect via le modèle Duo-Audit, les techniciens les examineront manuellement. Si elle est identifiée comme une violation du règlement, la vidéo sera supprimée et suspendra le compte.

Étape 1: démarrage à froid

Le cœur du mécanisme de recommandation de TikTok est Entonnoir de flux d’informations. Lorsque le contenu a réussi l’examen du duo-audit, il sera placé dans un pool de trafic de démarrage à froid. Par exemple, après que votre nouvelle vidéo a passé le processus de révision, TikTok attribue le trafic initial de 200 à 300 utilisateurs actifs, vous pouvez y gagner jusqu’à quelques milliers d’expositions.

Dans ce mécanisme, un nouveau créateur peut rivaliser avec un influenceur social (qui pourrait avoir des dizaines de milliers de followers), car ils ont le même point de départ.

Étape 2: pesée métrique

Grâce au pool de trafic initial, la vidéo peut gagner des milliers de vues et ces données seront collectées et analysées. Les mesures à prendre en compte dans l’analyse incluent les likes, les vues, les vues complètes, les commentaires, les followers, les reposts, les partages ata et etc.

Ensuite, le moteur de recommandation évaluera votre contenu en fonction de ces mesures initiales et du score de votre compte (que vous soyez ou non un créateur de haute qualité).

Si le moteur décide de peser votre contenu, les 10% supérieurs alimenteront 10 000 à 100 000 expositions de trafic supplémentaires.

Étape 3: Amplificateur de profil utilisateur

La rétroaction du pool de trafic de l’étape 2 sera analysée plus avant pour la décision d’utiliser l’amplificateur de profil utilisateur. À cette étape, le contenu surperformant sera renforcé et amplifié dans un groupe d’utilisateurs spécifique (par exemple, les amateurs de sport, les amateurs de mode).

Ceci est similaire à la fonction de concept «devinez ce que vous aimez». Le moteur de recommandation créera une base de profils d’utilisateurs afin de trouver la meilleure correspondance entre le contenu et le groupe d’utilisateurs.

Étape 4: Boutique Trending Pool

Moins de 1% du contenu finira par entrer dans le pool de tendances. La quantité d’exposition que le contenu peut obtenir dans ce pool est plus élevée que les autres. Parce que le contenu tendance sera recommandé à tous les utilisateurs indifféremment. (Assomption, peu importe qui vous êtes, vous voudrez peut-être voir la dernière vidéo des manifestants de «Les vies noires comptent»)

Autre étape: allumage retardé

Certains Tiktokers remarqueraient que leur contenu obtient soudainement une énorme traction après des semaines de publication avec des performances moyennes.

Il y a principalement deux raisons:

  • D’abord, TikTok a un algorithme (surnom de «fossoyeur») pour revenir à l’ancien contenu et à l’exploration des candidats de haute qualité pour l’exposition. Si votre contenu a été choisi par cet algorithme, cela indique que votre compte contient suffisamment de vidéos verticales pour en tirer une étiquette propre. Cette étiquette augmentera la visibilité de votre contenu dans le fossoyeur.
  • Deuxièmement, «effet tendance». Cela signifie que si l’un de vos contenus obtient des millions de vues, il dirigera le trafic vers votre page principale, augmentant ainsi les vues de notre ancien contenu. Cela se produit souvent dans le créateur vertical (par exemple, créateur de vidéo drôle de chat). Une vidéo à la mode enflammera toutes les autres vidéos de haute qualité (les gens veulent voir plus de votre chat mignon et curieux).
wiflegif.com

Limitation: pic de trafic

Si un cloud de contenu passe l’entonnoir de flux d’informations (audit en duo, pondération des itérations et amplificateurs), le compte du créateur gagnera en exposition excessive, en interactions avec les utilisateurs et en fans.

Mais cette fenêtre de temps d’exposition élevée est étroite, d’après la recherche. Habituellement, la fenêtre durera environ une semaine. Après cette plage horaire, ce contenu et ce compte se refroidiront, et même les vidéos suivantes peuvent difficilement devenir à la mode.

Pourquoi?

La raison principale est que TikTok veut introduire des variétés et supprimer les biais involontaires dans son algorithme. De par cette conception, le moteur de recommandation ne sera pas enclin à un type particulier de contenu, donc assurez-vous que le nouveau contenu aura des chances égales d’entrer dans le pool branché.

Références:

  1. https://www.businessofapps.com/data/tik-tok-statistics/
  2. https://mediakix.com/blog/top-tik-tok-statistics-demographics/
  3. https://en.wikipedia.org/wiki/TikTok
  4. http://shop.oreilly.com/product/9780596529321.do
  5. https://sensortower.com/
  6. https://www.nytimes.com/2020/06/03/technology/tiktok-is-the-future.html

C’était: Pourquoi TikTok a rendu son utilisateur si obsessionnel? L’algorithme d’IA qui vous a rendu accro.

#Pourquoi #TikTok #rendu #son #utilisateur #obsessionnel #Lalgorithme #dIA #qui #vous #rendu #accro
2020-06-07 13:46:00

Happy
Happy
%
Sad
Sad
%
Excited
Excited
%
Sleepy
Sleepy
%
Angry
Angry
%
Surprise
Surprise
%

Average Rating

5 Star
0%
4 Star
0%
3 Star
0%
2 Star
0%
1 Star
0%

Laisser un commentaire

%d blogueurs aiment cette page :