L’influence diffuse des algorithmes en ligne

Alors que Yahoo proposait à ses débuts un annuaire thématique, la plateforme a évolué pour se transformer en moteur de recherche. Ce choix était motivé par le besoin de répertorier un nombre de sites exponentiel. Les algorithmes permettaient, alors, de répondre à ce problème. Avec le développement du Word Wide Web, une pléthore d’informations, comme des livres, des articles, des vidéos et des podcasts, est devenue disponible. Cela change la façon dont les gens peuvent découvrir de nouvelles idées et modifier leurs visions de leur environnement pour le meilleur ou pour le pire. L’internet a été considérablement influencé par les algorithmes avec le développement de l’apprentissage automatique.

Un algorithme est un ensemble d’instructions ou de règles mathématiques qui, en particulier si elles sont données à un ordinateur, aideront à calculer une réponse à un problème. En clair, cela signifie que chaque action effectuée sur l’internet l’est grâce à ces algorithmes. Ces algorithmes sont opaques, protégés par les entreprises et conçus pour retenir l’utilisateur dans des bulles de filtre. Popularisées par l’activiste Eli Pariser, les bulles de filtre créent un environnement ultra personnalisé pour un internaute au point de l’enfermer dedans. L’internaute ne voit que des contenus correspondant à ses opinions, envies, hobbies et il n’est plus confronté à des concepts ou idées différents ou contradictoires.

La relation entre l’algorithme et l’internaute

Au début, les programmeurs avaient un impact significatif sur la façon dont les gens vivaient l’internet. Leurs décisions et leurs préjugés avaient un impact sur l’expérience Internet des utilisateurs, comme avec TrustRank qui est un algorithme créé pour éliminer les pages de spam des résultats du moteur de recherche Google. Cet algorithme rend l’expérience plus agréable et plus rapide pour l’utilisateur. Avec le temps, ces algorithmes se sont améliorés et peuvent, maintenant, apprendre directement de l’expérience de l’utilisateur sans nouvelles modifications effectuées par des programmeurs. Kartik Hosanagar, professeur d’opérations, d’information et de décisions à Wharton, explique cette distinction : « la nature, pour les algorithmes, n’est pas un cordon génétique, mais le code que l’ingénieur écrit réellement. C’est la logique de l’algorithme. La nature, c’est les données à partir desquelles l’algorithme apprend. » Ces deux notions peuvent se mélanger. Google utilise par exemple Wikipédia comme source fiable dans ses résultats de recherche et l’utilise pour former des algorithmes d’apprentissage automatique afin de détecter les fausses informations sur YouTube. Dans ce cas, les articles sont créés par des contributeurs de Wikipédia et les algorithmes les analysent pour améliorer les résultats fournis par le moteur de recherche.

Parce que nous regardons des informations choquantes, voire  fausses, les algorithmes concluent que ce type de contenu est ce que nous voudrions voir davantage. Ce graphique montre que les contenus les plus polémiques sont plus attrayants à mesure qu’ils se rapprochent de la limite des contenus autorisés :

image 10

L’impact des algorithmes

Avec l’apprentissage automatique, les préférences des utilisateurs influencent les algorithmes et à leur tour les utilisateurs sont influencés par ce qui est mis en avant par les plateformes. Le psychologue Robert Epstein a travaillé sur « l’effet de manipulation du moteur de recherche » et la façon dont un moteur de recherche peut influencer les électeurs indécis avec des classements de recherche biaisés non détectés par l’utilisateur[1]. Au Sri Lanka, les autorités ont décidé de bloquer temporairement Facebook et WhatsApp en raison des émeutes contre la minorité musulmane alimentées par la désinformation sur les médias sociaux.

Les algorithmes guident également les articles des sites d’informations pour attirer les lecteurs. Shape, la plateforme d’analyse de Melty, un site d’infodivertissement, analyse les sujets tendances en temps réel afin de guider les rédacteurs pour créer un « contenu attrayant »[2]. Elle est devenue la rédactrice en chef officieuse du site web. Le succès d’une plateforme est intrinsèquement lié à l’efficacité de ses algorithmes. La forte croissance de l’application TikTok est en partie imputée à son algorithme qui permet de proposer des courtes vidéos virales et de provoquer une forte rétention d’attention de ses utilisateurs. L’application conseille régulièrement les créateurs de contenus pour leur assurer un fort engagement sur leurs publications, mais joue aussi le rôle d’intermédiaire pour des partenariats commerciaux avec des marques.

L’influence des algorithmes est difficile à cerner même pour les créateurs et les influenceurs sur les réseaux sociaux. Les créateurs de YouTube ne connaissent pas les paramètres des algorithmes qui favorisent certaines vidéos plutôt que d’autres. Des milliers de vidéos sont consacrées à tenter de comprendre les paramètres des algorithmes de YouTube pour identifier les types de vidéos mises en avant sur la plateforme. Sous une apparence de transparence, YouTube présente en effet  de manière tronquée les principaux indicateurs permettant à l’algorithme d’identifier les vidéos à promouvoir : la part d’abonnés d’une chaine regardant la vidéo la plus récente, le nombre de commentaires, ou le temps moyen de visionnage.

En réalité, beaucoup d’autres paramètres confidentiels entrent en jeu et la plateforme les garde secrets. En 2019, des youtubeurs et le journaliste Chris Stoker-Walker dévoilent l’existence du P-Score permettant de noter une vidéo selon cinq critères : la popularité, la passion, la protection (contenu non-sensible), l’outil de visionnage (téléphone, télévision, ou tablette) et la qualité de production. Ce score n’est pas destiné aux vidéastes, mais aux annonceurs. Il confirme les soupçons de certains youtubeurs sur le fait que la plateforme privilégie les vidéos des entreprises des médias et du monde du spectacle au détriment des youtubeurs. La monétisation et la recommandation d’une vidéo sont aussi confirmées comme étant bien indépendantes.

Une étude réalisée par des étudiantes de l’Université de Berkeley propose une grille de lecture de cette relation asymétrique entre les créateurs et la plateforme YouTube. Les chercheuses personnifient les algorithmes en trois persona[3] pour mieux les appréhender[4]. « L’Agent » est celui qui gère et aide le « Créateur » à trouver une audience et faire la promotion de leurs contenus. Le « Gardien » se place entre le créateur et le « Spectateur » et décide de les faire aller de l’un à l’autre ou non. Le « Trafiquant de drogues » tient les spectateurs accros à la plateforme le plus longtemps possible. Le « Gardien » surveille les contenus diffusés et bloque les termes et images considérés comme incompatibles avec les attentes des annonceurs publicitaires. Un exemple est la publication d’une vidéo du YouTubeur français « Joueur du Grenier » dans laquelle il a utilisé des images des attaques terroristes du 11 septembre pour illustrer le contexte social du début du 21ème siècle. Bien qu’il ne s’agisse pas de désinformation ou de discours de haine, la vidéo a été jugée non adaptée à la publicité et il a perdu tous ses revenus publicitaires jusqu’à la publication d’une version « adaptée à la publicité » :

image 11

Première version de la vidéo

image 12

Seconde version de la vidéo

Comme la plupart des revenus proviennent des publicités, la concurrence est féroce pour attirer l’attention des internautes. Les cookies ou traceurs créent un profil virtuel des utilisateurs pour proposer des publicités ou des contenus sur-mesure, mieux adaptés et plus efficaces. Ils sont donc les plus coûteux. Combien de créateurs avez-vous découvert sur YouTube ou une nouvelle émission sur Netflix par recommandation ? Je présume que c’est un grand nombre. La plateforme vous connaît tellement qu’elle peut deviner ce que vous allez regarder. C’est une bonne chose, car cela permet de gagner du temps, mais vous perdez l’occasion de découvrir des contenus moins populaires. Guillaume Chaslot, un ancien employé de Google, explique que l’algorithme de recommandation de YouTube « est conçu pour vous rendre accro à YouTube. Les recommandations ont été conçues pour vous faire perdre votre temps ”. Le vidéaste Cyrus North a testé le lecteur automatique de YouTube afin d’observer s’il amenait à des vidéos conspirationnistes. Il a conclu que les algorithmes ont été mis à jour afin d’exclure le plus rapidement possible ce type de vidéos de la liste de lecture automatique. À la place, la plateforme propose des vidéos de longue durée sur des sujets comparables. Les algorithmes sont programmés pour garder les utilisateurs le plus longtemps possible sur les plateformes.

Les algorithmes aident donc à maximiser les revenus publicitaires. Récemment, les sites web du groupe Webmedia comme Allociné ont modifié leur politique en matière de cookies. Les utilisateurs doivent accepter les cookies publicitaires pour accéder gratuitement au site. Grâce à cette décision, nous pouvons connaître la valeur des données de l’activité de l’utilisateur sur le site internet : 2€ par mois. Cette décision est liée aux nouvelles obligations du Règlement européen sur la protection des données (RGPD) pour les entreprises traitant des données personnelles qui imposent le consentement des internautes pour les cookies publicitaires. Le refus suppose une baisse des revenus puisque les régies publicitaires ne peuvent pas cibler précisément les annonces. Pour y faire face, Google a développé une technologie s’affranchissant des cookies, le « Federated Learning of Cohorts » ou FLoC. Cet algorithme analyse l’historique de navigation web pour placer les internautes dans des groupes avec des historiques similaires pour proposer des publicités ciblées. Plusieurs navigateurs web ont annoncé leur refus d’utiliser cette technologie en raison du manque de transparence de Google sur l’utilisation des données personnelles à des fins commerciales.

La socialisation en ligne, les scrutins électoraux ou les pratiques culturelles des internautes sont de plus en plus guidées par les algorithmes. Mais l’influence de ces algorithmes se propage bien au-delà de ces activités. Les entreprises et les administrations publiques utilisent progressivement des algorithmes pour l’obtention de prêts bancaires, le processus de recrutement, la sanction pénale à une infraction, ou les admissions universitaires[5]. Les algorithmes sont tenus secrets pour préserver la compétitivité de leurs concepteurs mais des appels à plus de transparence se font entendre.

Récemment, Twitter a présenté leur « Initiative d’apprentissage automatique responsable » pour répondre aux critiques sur les dangers de la diffusion de contenus clivant, haineux et de désinformation. Les réseaux sociaux ont été pris pour partie responsable pour la propagation de contenus conspirationnistes comme le mouvement QAnon ou anti-vax. Ce projet annonce de futures études sur l’impact des algorithmes sur les tweets mis en avant sur la plateforme. Il répond à de fortes critiques de biais sexistes, racistes et offre une meilleure visibilité de certains courants politiques. Google est aussi visé par des critiques en interne. Deux chercheuses en éthique de l’intelligence artificielle ont été licenciées chez Google Brain, le groupe de recherche sur le deep learning. L’une d’entre elles, Timnit Gebru, a critiqué, en interne, l’ingérence de Google dans la rédaction d’un article scientifique sur le biais des algorithmes.

L’absence de législation régulant les algorithmes incite certaines parties prenantes à exiger davantage de transparence à ce sujet, alors que d’autres émettent des réserves sur une transparence totale. William Seymour, enseignant en sciences de l’informatique à l’Université d’Oxford, considère que la complexité des algorithmes rend caduque une transparence de ces derniers. Il prône une transparence des résultats des algorithmes[6]. La complexité croissante des algorithmes utilisés sur les plateformes en ligne amène à une situation de quasi-monopole. Le manque de connaissances techniques des législateurs et des administrations publiques sur le fonctionnement opaque des algorithmes rendent leur encadrement difficile. La Commission européenne ne parvient pas à enquêter sur les pratiques commerciales d’Amazon car les enquêteurs n’ont pas les compétences pour analyser les algorithmes de détermination des prix.

Les revenus générés et les habitudes prises par les internautes ancrent la présence des algorithmes et le développement de l’apprentissage automatique au cœur du fonctionnement des sites internet à l’avenir malgré des efforts législatifs pour encadrer leur influence.


[1] Epstein, Robert, et Ronald E. Robertson. « The Search Engine Manipulation Effect (SEME) and Its Possible Impact on the Outcomes of Elections ». Proceedings of the National Academy of Sciences, vol. 112, nᵒ 33, National Academy of Sciences, août 2015, p. E4512‑21. www.pnas.org, doi:10.1073/pnas.1419828112.

[2] Targnion, Pierre. Les algorithmes des sites d’infodivertissement destinés aux jeunes.De la récolte de data au choix éditorial. Un triomphe de l’économie de l’attention à l’ère digitale : le cas Melty. Université de Liège, Liège, Belgique, 30 août 2019. orbi.uliege.be, https://orbi.uliege.be/handle/2268/239539.

[3] Personne fictive stéréotypée

[4] Wu, Eva Yiwei, et al. « Agent, Gatekeeper, Drug Dealer: How Content Creators Craft Algorithmic Personas ». Proceedings of the ACM on Human-Computer Interaction, vol. 3, nᵒ CSCW, novembre 2019, p. 219:1-219:27. November 2019, doi:10.1145/3359321.

[5] Hosanagar, Kartik, et Vivian Jair. « We Need Transparency in Algorithms, But Too Much Can Backfire ». Harvard Business Review, juillet 2018. hbr.org, https://hbr.org/2018/07/we-need-transparency-in-algorithms-but-too-much-can-backfire.

[6] Seymour, William. « Detecting Bias: Does an Algorithm Have to Be Transparent in Order to Be Fair? » BIAIS 2018, 2018, p. 7.