Comment fonctionnent les systèmes de recommandation sur les plateformes numériques ?

Peu de choses sont aussi vitales pour la démocratie que la libre circulation de l'information. Si des citoyens éclairés sont essentiels à la démocratie, comme l'a suggéré Thomas Jefferson, alors les citoyens ont besoin d'un moyen d'être tenus informés. Pendant la majeure partie de l'ère moderne, ce rôle a été joué par la presse, et en particulier les éditeurs et les producteurs qui exercent un contrôle sur les nouvelles à publier et à diffuser.

Pourtant, à mesure que le flux d'informations a changé, la distribution et la consommation d'informations se sont de plus en plus éloignées des médias traditionnels vers les médias sociaux et les plateformes numériques, avec plus d'un quart des Américains obtenant désormais des informations uniquement sur YouTube et plus de la moitié sur les réseaux sociaux. Alors que les éditeurs décidaient autrefois quelles histoires devaient bénéficier de la plus large portée, aujourd'hui, les systèmes de recommandation déterminent le contenu que les utilisateurs rencontrent sur les plateformes en ligne et les informations qui bénéficient d'une diffusion de masse. En conséquence, les systèmes de recommandation sous-jacents à ces plates-formes, ainsi que les algorithmes de recommandation et les modèles entraînés qu'ils englobent, ont acquis une importance nouvelle. Si des informations précises et fiables sont la pierre angulaire de la démocratie, les systèmes de recommandation en sont de plus en plus le cœur.

Alors que les systèmes de recommandation se sont développés pour occuper un rôle central dans la société, un nombre croissant d'éruditions ont documenté les liens potentiels entre ces systèmes et une gamme de dommages, de la propagation du discours de haine à la propagande étrangère en passant par l'extrémisme politique. Néanmoins, les modèles eux-mêmes restent mal compris, tant par le public que par les communautés politiques chargées de les réglementer et de les superviser. Compte tenu à la fois de leur importance démesurée et de la nécessité d'une surveillance éclairée, cet article vise à démystifier les systèmes de recommandation en expliquant comment ils ont évolué et comment fonctionnent les algorithmes et modèles de recommandation modernes. L'objectif est d'offrir aux chercheurs et aux décideurs une base de référence à partir de laquelle ils peuvent finalement prendre des décisions éclairées sur la façon de les superviser et de les gouverner.

Supposons que vous exploitiez un média social ou une plateforme numérique. Chaque fois que vos utilisateurs ouvrent votre application, vous souhaitez leur montrer un contenu attrayant en une seconde. Comment feriez-vous pour faire apparaître ce contenu ?

L'approche la plus rapide et la plus efficace consiste simplement à trier le contenu par heure. Étant donné que la plupart des réseaux sociaux et des plates-formes numériques disposent d'un vaste catalogue de contenu, le contenu le plus récent ou le plus « frais » est plus susceptible d'être convaincant que le contenu tiré au hasard. Le simple fait d'afficher les éléments les plus récents dans l'ordre chronologique inverse est donc un bon point de départ. En prime, cette approche est à la fois facile à mettre en œuvre et simple à comprendre - vos utilisateurs auront toujours une idée claire de la raison pour laquelle ils voient un contenu donné et un modèle mental précis du comportement de l'application. Bien que l'industrie les ait dépassés, les algorithmes de recommandation chronologique inverse ont alimenté la première génération de flux de médias sociaux et expliquent pourquoi la plupart des flux sont encore connus aujourd'hui sous le nom de « chronologies ».

Bien qu'attrayants par leur simplicité, les flux purement chronologiques inversés présentent un énorme inconvénient : ils ne s'adaptent pas bien. À mesure que les plates-formes se développent, la quantité de contenu qu'elles hébergent augmente de façon exponentielle, mais pas le temps libre d'un utilisateur. Le contenu le plus récemment ajouté servira donc de proxy de moins en moins efficace pour le contenu le plus convaincant. Pire encore, les utilisateurs qui souhaitent créer un large public inonderont la plate-forme de nouveaux contenus dans le but de rester au sommet des flux des autres utilisateurs. En conséquence, votre application deviendra rapidement orientée vers les utilisateurs les plus actifs plutôt que vers les plus intéressants. Un contenu moins engageant, ou même du spam pur et simple, commencera à inonder les fils d'actualité des utilisateurs.

Pour résoudre ce problème, vous pouvez créer des règles codées en dur pour hiérarchiser le contenu le plus récent. Par exemple, vous pouvez écrire une règle qui dit : si Nicole a aimé les messages de Dia plus que tout autre utilisateur, affichez le dernier message de Nicole Dia d'aujourd'hui avant toute autre chose. Ou vous pourriez écrire une règle qui dit : si Nicole a aimé la vidéo plus que toute autre forme de contenu, alors la vidéo la plus récemment ajoutée par ses amis doit être montrée à Nicol en premier, avant tout autre contenu. En mélangeant et en faisant correspondre ces règles manuelles, les algorithmes de recommandation basés sur les attributs et les catégories peuvent afficher un contenu attrayant de manière plus fiable qu'un flux purement chronologique inversé.

Cependant, s'appuyer sur des règles codées à la main a aussi ses inconvénients. Cela oblige les développeurs à faire de nombreuses hypothèses sur ce qui intéressera le plus les utilisateurs, dont beaucoup peuvent ne pas être vraies. Les utilisateurs préfèrent-ils toujours la vidéo au texte ? Et lorsqu'un utilisateur aime un article donné, veut-il toujours en voir plus de son auteur ? Tant qu'un algorithme de recommandation est purement codé à la main, les algorithmes seront biaisés vers les hypothèses des développeurs sur ce que les utilisateurs sont les plus intéressés à voir.

À une certaine taille, la meilleure approche pour faire apparaître efficacement un contenu attrayant consiste à s'appuyer sur l'apprentissage automatique. En s'appuyant sur les données des utilisateurs antérieurs, les algorithmes de recommandation d'apprentissage en profondeur - et les modèles de recommandation d'apprentissage en profondeur formés sur eux - se sont révélés particulièrement efficaces pour « apprendre » le contenu que les utilisateurs trouveront attrayant et pour le mettre en évidence pour eux. Chaque plate-forme majeure s'appuie désormais sur une version de l'apprentissage en profondeur pour choisir le contenu à afficher, mais ces approches ont un coût : alors que les algorithmes chronologiques inversés sont faciles à mettre en œuvre et à comprendre, les algorithmes d'apprentissage en profondeur à grande échelle sont complexes à mettre en œuvre et effectivement impossibles à comprendre et à interpréter.

L'algorithme de recommandation qui fonctionne le mieux pour votre plate-forme dépendra des compromis entre performances, coût et interprétabilité, ou de la facilité avec laquelle il est possible d'identifier pourquoi l'algorithme se comporte d'une certaine manière. Pour les grands réseaux sociaux et les plateformes numériques, les gains de performance des algorithmes de recommandation d'apprentissage en profondeur l'emportent largement sur le coût de leur développement et la baisse correspondante de l'interprétabilité.

Bien que ce compromis puisse rendre les utilisateurs plus susceptibles de continuer à interagir avec le contenu de la plate-forme, il présente des externalités importantes pour les sociétés démocratiques. Aux États-Unis seulement, des chercheurs ont documenté comment les systèmes de recommandation exposaient clairement les utilisateurs aux mouvements d'extrême droite, ainsi qu'aux théories du complot concernant le COVID-19 et le résultat des élections de 2020. Malgré le rôle joué par les systèmes de recommandation dans la diffusion de contenus liés à ces mouvements et récits - qui ont contribué à fomenter la violence politique récente - ils restent néanmoins mal compris à la fois par les décideurs politiques et le public. Comprendre le fonctionnement de la technologie est donc un premier pas essentiel vers une "citoyenneté éclairée" capable de la gouverner.

Bien que les détails varient légèrement selon la plate-forme, les systèmes de recommandation à grande échelle suivent généralement les mêmes étapes de base. Comme le montre la figure 1, les systèmes de recommandation produisent généralement d'abord un inventaire du contenu disponible, puis le filtrent conformément à leurs politiques de modération de contenu, après quoi ils réduisent l'inventaire aux seuls éléments qui intéressent le plus les utilisateurs.

Ces dernières années, de nombreuses discussions politiques sur l'atténuation des dommages liés aux plateformes numériques se sont concentrées sur l'étape d'intégrité - en particulier les politiques de modération de contenu qui déterminent si un élément de contenu peut être publié ou partagé - mais une attention beaucoup plus grande doit être accordée à l'étape de classement. Si, en fait, les systèmes de recommandation ont un impact significatif sur tout, de l'intégrité électorale à la santé publique, alors le processus par lequel les systèmes de recommandation trient et classent le contenu est également très important. En comprenant mieux le système complexe qui sous-tend le classement des contenus, les décideurs politiques seront mieux placés pour superviser leur utilisation.

Bien que les plates-formes de médias sociaux conçoivent leurs algorithmes de classement légèrement différemment des autres plates-formes numériques, en général, presque toutes les grandes plates-formes utilisent désormais une variante de ce que l'on appelle une architecture à « deux tours » pour classer les éléments.

Pour voir ce que cela signifie en pratique, imaginez que vous avez deux feuilles de calcul différentes. Le premier est une feuille de calcul où chaque ligne est un utilisateur et chaque colonne est un attribut utilisateur (par exemple, l'âge, l'emplacement, l'historique de recherche). Dans la deuxième feuille de calcul, chaque ligne est un élément de contenu et chaque colonne est un attribut de contenu (par exemple, type de contenu, titre, nombre de likes). En modélisant les informations de chaque feuille de calcul dans des parties distinctes d'un réseau neuronal profond - un algorithme dont la structure est (très) vaguement analogue à la façon dont les neurones se connectent dans le cerveau - une approche "à deux tours" apprend au fil du temps la probabilité qu'un utilisateur donné s'engage avec un contenu particulier.

Bien que cette approche se soit avérée remarquablement efficace, les plates-formes disposant d'une large base d'utilisateurs et d'un catalogue de contenu approfondi finissent par avoir besoin de former des modèles extrêmement volumineux. Une plate-forme avec un milliard d'utilisateurs et un billion d'éléments de contenu, par exemple, aurait besoin d'apprendre un modèle capable de généraliser efficacement à 10 ^ 21 paires utilisateur-élément potentiels, un défi d'autant plus décourageant que la plupart des utilisateurs n'interagissent jamais avec la grande majorité du contenu. En conséquence, ils doivent inclure un nombre extraordinairement élevé de paramètres de modèle, ou "neurones" dans un réseau de neurones, pour bien fonctionner sur autant de paires utilisateur-élément différentes. Les algorithmes de recommandation sont beaucoup plus volumineux que les autres formes d'apprentissage en profondeur pour cette raison. Alors que GPT-3, un grand modèle de langage puissant publié en 2020 par OpenAI, avait 175 milliards de paramètres, ou "neurones" dans son réseau neuronal profond, le modèle de recommandation qui alimente le fil d'actualité de Facebook a 12 000 milliards de paramètres. Avec autant de paramètres, il est effectivement impossible de comprendre et de raisonner sur le comportement du modèle simplement en examinant le modèle entraîné lui-même.

L'architecture des systèmes de recommandation modernes a des implications importantes pour les décideurs et le grand public, mais elles peuvent ne pas être évidentes pour un public non technique. Les implications suivantes sont particulièrement importantes :

Étant donné que l'architecture des grands systèmes de recommandation rend difficile la compréhension de leur comportement, il est essentiel de trouver de meilleures façons d'évaluer leur comportement. Les régulateurs, les chercheurs et l'industrie technologique peuvent tous prendre des mesures pour mieux évaluer les modèles. Des collaborations plateforme-chercheur aux environnements simulés et autres techniques de préservation de la vie privée, il est possible d'obtenir une plus grande clarté sur le comportement et l'impact des systèmes de recommandation que nous n'en bénéficions actuellement.

Saisir ces opportunités sera d'autant plus vital que les systèmes de recommandation continueront de gagner en importance. TikTok, une application vidéo virale, a récemment éclipsé Google dans le trafic Internet en grande partie grâce à son système de recommandation amélioré, qui affiche le contenu de l'ensemble de la base d'utilisateurs de l'application plutôt que des connexions d'un utilisateur. En réponse, les plates-formes de médias sociaux comme Facebook et Twitter ont commencé à étendre de la même manière «l'inventaire» initialement mis en évidence par leurs systèmes de recommandation pour inclure plus de contenu sur l'ensemble de la plate-forme. Mark Zuckerberg, par exemple, a récemment déclaré qu'il s'attend à ce que d'ici 2023, plus de 30 % des éléments du flux d'un utilisateur sur Instagram et Facebook proviendront de comptes qu'un utilisateur n'a pas suivis ou suivis. Alors que d'autres plates-formes se précipitent pour suivre le rythme, elles aussi augmenteront certainement leur dépendance à l'égard du contenu purement recommandé.

À son tour, l'impact potentiel des systèmes de recommandation sur les sociétés démocratiques ne fera que croître, tout comme l'importance de comprendre leur fonctionnement.

Chris Meseroleest chercheur en politique étrangère à la Brookings Institution et directeur de recherche pour la Brookings Artificial Intelligence and Emerging Technology Initiative.

Facebook et Google apportent un soutien financier à la Brookings Institution, une organisation à but non lucratif consacrée à une recherche rigoureuse, indépendante et approfondie sur les politiques publiques.

Processus d'intégrité de l'inventaire Génération de candidats. Classement Reclassement La métrique des résultats est importante. Beaucoup Ils sont trop volumineux pour être expliqués et interprétés Les recyclages fréquents et les mises à jour des modèles font de l'évaluation un défi Les impacts algorithmiques ne peuvent pas être évalués uniquement en auditant le code sous-jacent et le modèle formé Chris Meserole