Spamindexing 2.0 : les moteurs de recherche face aux défis des IA génératives

doi:https://doi.org/10.36863/mds.a.25052

Aperçu

L’importance croissante des moteurs de recherche sur les performances commerciales des entreprises a conduit au développement de techniques permettant d'optimiser le référencement des sites web (SEO). À côté des techniques encouragées par les moteurs de recherche, plus éthiques, se sont développées des techniques dites « Black Hat SEO » (BH). Régulièrement soumises aux contre-mesures des moteurs de recherche tels que Google, ces techniques ont connu un renouveau avec le développement des outils en ligne d'automatisation de tâches et des IA génératives telles que ChatGPT. Dans cette recherche exploratoire, nous proposons, après avoir présenté les techniques classiques de référencement abusif (spamindexing), l’analyse des techniques promues par un réseau de gestionnaires de sites web et de comptes de réseaux sociaux. Ces techniques sont basées sur la transformation de contenus massivement collectés en ligne à l’aide d’outils no code ou par programmation. Elles posent des questions sur le plan de la propriété intellectuelle mais aussi sur les moyens de lutte des moteurs de recherche permettant de préserver la qualité de leur index, face à la prolifération de contenus générés massivement et automatiquement, sans pour autant handicaper le développement des pratiques légitimes.

Contenu

Cette contribution est une synthèse légèrement actualisée et reformatée de la communication qui fut sélectionnée pour etre présentée en session publique lors de la « french session » de la conférence ICTO2023 qui a eut lieu à Paris à la Sorbonne les 4, 5 et 6 juillet 2023 et qui donna lieu à la présentation de 7 communications rédigées et présentées en français réparties sur deux sessions de deux heures programmées les 5 et 6 juillet.

Développement des pratiques SEO et du spamindexing

Avec plus de 90 % de parts de marché, le moteur de recherche Google est devenu un moyen d’accès incontournable à l’information publiée sur le Web. Conséquence de cette importance, et de la complexité de cet outil, le métier de référenceur a progressivement émergé pour aider les entreprises à accroître leur visibilité sur le Web (Cardon, 2013). L’optimalisation du référencement (SEO : Search Engine Optimization) améliore en effet la visibilité et les revenus des entreprises (Tomasi et Li, 2020). Cela passe par le SEO « on page » et le SEO « off page » (Shahzad et al., 2020). Le premier inclut la sélection des mots-clefs sur lesquels les pages vont être optimisées, la création du contenu et l’insertion des mots-clefs aux bons emplacements du document (c’est-à-dire en exploitant la hiérarchie de balises HTML et en prenant en compte l’importance toute particulière de la balise <TITLE>). Le second inclut la stratégie de construction de « backlinks », c’est-à-dire d’hyperliens pointant vers les pages du site depuis des sites tiers (« referrer »). Ces techniques peuvent être qualifiées de « White Hat SEO » (Shahzad et al., 2020). Elles se distinguent du « Black Hat SEO » (BH) et « Grey Hat SEO » (GH).

Les tactiques GH consistent à sur-optimiser les pages, typiquement sur le plan des mots-clefs et des hyperliens, en cohérence avec les critères de pertinence adoptés par les moteurs de recherche (Cardon, 2013). Les tactiques BH recourent quant à elles à des techniques ostensiblement réprouvées par les moteurs de recherche (spamindexing) incluant l’ajout de textes invisibles, le bourrage de mots-clefs, les échanges massifs d’hyperliens ou la création de pages satellites (Chandra et al., 2015). Au cours de son existence, Google a dès lors été amené à faire évoluer son algorithme, non seulement pour améliorer le service rendu aux utilisateurs, mais aussi pour pénaliser les sites recourant au référencement abusif. Peuvent notamment être cités les algorithmes Cassandra en 2003 (lutte contre les fermes de liens) ou les algorithmes Panda, Penguin et Hummingbird (lutte contre les sites de faible qualité) (Patil et al., 2021 ; Chandra et al., 2015).

L’agent conversationnel ChatGPT a contribué à populariser les Large Language Models (LLM) tels que GPT. GPT-3 (Generative Pre-trained Transformer) est un modèle de langue autorégressif de troisième génération qui utilise l’apprentissage profond pour produire des textes d’apparence humaine (Floridi et Chiriatti, 2020). Au travers de ChatGPT, cette technologie s’est distinguée par ses capacités, d’une part, à interpréter une consigne exprimée en langage naturel (ou prompt), d’autre part, à réaliser une large variété de tâches. Ces nouveaux outils ont attiré l’attention de référenceurs ouverts aux techniques BH dans le but de donner de la visibilité à des sites web monétisés par la publicité ou par le dropshipping.

Des questions éthiques soulevées par l’utilisation des IA génératives

Les comptes de réseaux sociaux, en particulier Twitter (X), d’un professionnel ont dès lors fait l’objet d’une observation, inspirée par la netnographie de Kozinets (2002), visant à identifier les outils et les méthodes, puis d’en discuter le caractère éthique. L’éthique se réfère ici, dans le contexte du marketing, à un ensemble de principes et de normes morales qui régissent les pratiques commerciales et publicitaires. Nantel et Weeks (1996) distinguent ainsi deux approches de l’éthique : l’approche utilitariste (centrée sur la satisfaction du client) et l’approche déontologique (centrée sur les codes d’éthique ainsi que le respect de l’esprit et de la lettre des législations). Cette analyse a permis de comprendre les usages mobilisant un ensemble d’outils permettant de collecter des données (scrapping), de les transformer, de les traduire, de les intégrer puis de les publier. Cette trousse à outils permet l’automatisation de la production massive de sites web, soit à l’aide d’outils nécessitant des compétences en programmation (Python, Selenium, APIs publiques…), soit à l’aide d’outils « no code » (Google Sheets, Zapier…). Des outils spécialisés émergent également pour, d’une part, la production massive de contenus, d’autre part, l’optimisation de contenus existants.

En matière de pratiques WH, les IA génératives permettent l’automatisation de l’optimisation des pages web, de manière à proposer des contenus à la fois qualitatifs pour le client et optimisés pour le référencement. En matière de techniques GH, les IA génératives permettent l’animation automatique de sites web par la synthèse de contenus issus de sites tiers (par exemple au départ de leur flux RSS). Cet usage pose le problème de sa généralisation, de la saturation des index de moteurs de recherche par des contenus générés automatiquement, sans doute similaires, en plus de poser la question du partage de revenus avec les créateurs. Cette problématique n’est pas sans rappeler le conflit ayant récemment opposé la presse et les « infomédiaires » tels que Google (Rebillard et Smyrnaios, 2010). En matière de pratique BH, les IA génératives permettent de reformuler, massivement et automatiquement, des contenus préalablement « pillés ». Cette pratique ne respecte clairement pas les règles déontologiques du secteur (p. ex. droit d’auteur et respect de la paternité des œuvres), en plus d’exposer les clients à des contenus créés pour la captation de revenus plutôt que pour leur satisfaction. Ce dernier type de pratique menace en outre la qualité des index des moteurs de recherche confrontés à des difficultés de détection de contenus générés automatiquement (Pegoraro et al., 2023).

Spamindexing 2.0 : les moteurs de recherche face aux défis des IA génératives

Spamindexing 2.0 : les moteurs de recherche face aux défis des IA génératives

Citation

L'auteur

Robert VISEUR

Copyright

Déclaration d'intérêts

Financements

Aperçu

Contenu

Développement des pratiques SEO et du spamindexing

Des questions éthiques soulevées par l’utilisation des IA génératives

Date de publication

Catégorie

DOI

Revue

ORCID

Affiliation

Commentaires

Spamindexing 2.0 : les moteurs de recherche face aux défis des IA génératives

Citation

Citation

L'auteur

L'auteur

Robert VISEUR

Copyright

Copyright

Déclaration d'intérêts

Déclaration d'intérêts

Financements

Financements

Aperçu

Aperçu

Contenu

Contenu

Développement des pratiques SEO et du spamindexing

Des questions éthiques soulevées par l’utilisation des IA génératives

Métriques

Métadonnées

Date de publication

Catégorie

DOI

Revue

Auteurs et copyright

ORCID

Affiliation

Total

Évaluations

Commentaires

Commentaires