Citation
L'auteur
Robert VISEUR
(robert.viseur@umons.ac.be) - UMONS - ORCID : 0000-0003-4385-4332
Copyright
Déclaration d'intérêts
Financements
Aperçu
Contenu
Cette contribution est une synthèse légèrement actualisée et reformatée de la communication qui fut sélectionnée pour etre présentée en session publique lors de la « french session » de la conférence ICTO2023 qui a eut lieu à Paris à la Sorbonne les 4, 5 et 6 juillet 2023 et qui donna lieu à la présentation de 7 communications rédigées et présentées en français réparties sur deux sessions de deux heures programmées les 5 et 6 juillet.
Développement des pratiques SEO et du spamindexing
Avec plus de 90 % de parts de marché, le moteur de recherche Google est devenu un moyen d’accès incontournable à l’information publiée sur le Web. Conséquence de cette importance, et de la complexité de cet outil, le métier de référenceur a progressivement émergé pour aider les entreprises à accroître leur visibilité sur le Web (Cardon, 2013). L’optimalisation du référencement (SEO : Search Engine Optimization) améliore en effet la visibilité et les revenus des entreprises (Tomasi et Li, 2020). Cela passe par le SEO « on page » et le SEO « off page » (Shahzad et al., 2020). Le premier inclut la sélection des mots-clefs sur lesquels les pages vont être optimisées, la création du contenu et l’insertion des mots-clefs aux bons emplacements du document (c’est-à-dire en exploitant la hiérarchie de balises HTML et en prenant en compte l’importance toute particulière de la balise <TITLE>). Le second inclut la stratégie de construction de « backlinks », c’est-à-dire d’hyperliens pointant vers les pages du site depuis des sites tiers (« referrer »). Ces techniques peuvent être qualifiées de « White Hat SEO » (Shahzad et al., 2020). Elles se distinguent du « Black Hat SEO » (BH) et « Grey Hat SEO » (GH).
Les tactiques GH consistent à sur-optimiser les pages, typiquement sur le plan des mots-clefs et des hyperliens, en cohérence avec les critères de pertinence adoptés par les moteurs de recherche (Cardon, 2013). Les tactiques BH recourent quant à elles à des techniques ostensiblement réprouvées par les moteurs de recherche (spamindexing) incluant l’ajout de textes invisibles, le bourrage de mots-clefs, les échanges massifs d’hyperliens ou la création de pages satellites (Chandra et al., 2015). Au cours de son existence, Google a dès lors été amené à faire évoluer son algorithme, non seulement pour améliorer le service rendu aux utilisateurs, mais aussi pour pénaliser les sites recourant au référencement abusif. Peuvent notamment être cités les algorithmes Cassandra en 2003 (lutte contre les fermes de liens) ou les algorithmes Panda, Penguin et Hummingbird (lutte contre les sites de faible qualité) (Patil et al., 2021 ; Chandra et al., 2015).
L’agent conversationnel ChatGPT a contribué à populariser les Large Language Models (LLM) tels que GPT. GPT-3 (Generative Pre-trained Transformer) est un modèle de langue autorégressif de troisième génération qui utilise l’apprentissage profond pour produire des textes d’apparence humaine (Floridi et Chiriatti, 2020). Au travers de ChatGPT, cette technologie s’est distinguée par ses capacités, d’une part, à interpréter une consigne exprimée en langage naturel (ou prompt), d’autre part, à réaliser une large variété de tâches. Ces nouveaux outils ont attiré l’attention de référenceurs ouverts aux techniques BH dans le but de donner de la visibilité à des sites web monétisés par la publicité ou par le dropshipping.
Des questions éthiques soulevées par l’utilisation des IA génératives
Les comptes de réseaux sociaux, en particulier Twitter (X), d’un professionnel ont dès lors fait l’objet d’une observation, inspirée par la netnographie de Kozinets (2002), visant à identifier les outils et les méthodes, puis d’en discuter le caractère éthique. L’éthique se réfère ici, dans le contexte du marketing, à un ensemble de principes et de normes morales qui régissent les pratiques commerciales et publicitaires. Nantel et Weeks (1996) distinguent ainsi deux approches de l’éthique : l’approche utilitariste (centrée sur la satisfaction du client) et l’approche déontologique (centrée sur les codes d’éthique ainsi que le respect de l’esprit et de la lettre des législations). Cette analyse a permis de comprendre les usages mobilisant un ensemble d’outils permettant de collecter des données (scrapping), de les transformer, de les traduire, de les intégrer puis de les publier. Cette trousse à outils permet l’automatisation de la production massive de sites web, soit à l’aide d’outils nécessitant des compétences en programmation (Python, Selenium, APIs publiques…), soit à l’aide d’outils « no code » (Google Sheets, Zapier…). Des outils spécialisés émergent également pour, d’une part, la production massive de contenus, d’autre part, l’optimisation de contenus existants.
En matière de pratiques WH, les IA génératives permettent l’automatisation de l’optimisation des pages web, de manière à proposer des contenus à la fois qualitatifs pour le client et optimisés pour le référencement. En matière de techniques GH, les IA génératives permettent l’animation automatique de sites web par la synthèse de contenus issus de sites tiers (par exemple au départ de leur flux RSS). Cet usage pose le problème de sa généralisation, de la saturation des index de moteurs de recherche par des contenus générés automatiquement, sans doute similaires, en plus de poser la question du partage de revenus avec les créateurs. Cette problématique n’est pas sans rappeler le conflit ayant récemment opposé la presse et les « infomédiaires » tels que Google (Rebillard et Smyrnaios, 2010). En matière de pratique BH, les IA génératives permettent de reformuler, massivement et automatiquement, des contenus préalablement « pillés ». Cette pratique ne respecte clairement pas les règles déontologiques du secteur (p. ex. droit d’auteur et respect de la paternité des œuvres), en plus d’exposer les clients à des contenus créés pour la captation de revenus plutôt que pour leur satisfaction. Ce dernier type de pratique menace en outre la qualité des index des moteurs de recherche confrontés à des difficultés de détection de contenus générés automatiquement (Pegoraro et al., 2023).