Sélectionner une page

Introduction : comment ça marche un serveur web (rapidement)

Chez Octopuce, on infogère des serveurs, et on surveille de près leur activité pour s’assurer qu’ils fournissent les pages web de nos clients dans les meilleures conditions. Une page web, c’est un gros bloc de HTML, le plus souvent calculé par un logiciel côté serveur (wordpress, symfony, python …) et des tas de petits fichiers statiques (js, css, jpg …). Le plus souvent, chaque calcul de page HTML prend un peu de ressource sur le serveur : des cycles CPU, de la RAM, quelques requêtes sur une base de données (Mariadb, Redis …). On doit donc s’assurer au maximum que les visites sur les sites de nos clients sont légitimes : si quelqu’un fait trop de visites illégitimes sur un site, cela consomme des ressources et peut ralentir sérieusement le service des autres internautes.

Jusqu’à 2023, le web était, finalement plutôt calme : si quelques robots d’indexation de site passaient régulièrement et légitimement sur nos serveurs (googlebot, bingbot essentiellement, et quelques autres) ll arrivait qu’un robot plus zélé ou moins bien codé qu’un autre (oui, on parle de toi Ahrefsbot, mais tu n’es pas le seul, loin de là !) doive être bloqué par notre équipe pour éviter de ralentir un serveur d’un client.

L’IApocalypse et les robots tueurs (de serveurs)

depuis 2023, et les délires industriels mondiaux de l’IA, nous avons vu arriver des nouveaux bots bien mal codés, aux profils de comportement très divers. Peu à peu, certains serveurs de nos clients (souvent les moins optimisés) se sont vus saturés, CPU et RAM au taquet.

Au début, nous arrivions à comprendre ce qu’il se passe : un robot passait, d’un genre nouveau (GPTBot et consorts) et ne sachant pas bien « crawler » les sites web, se retrouvait à aspirer en boucle des milliers de sous-sous-page d’un site, des lieux ou personne n’allait d’habitude, défiant les caches de nos clients et nécessitant beaucoup de ressource. Pas grave, on a l’habitude : on bloque sur la base du « User-Agent » (le nom que le robot annonce quand il vient aspirer la page) et tout va bien.

Hélas, les délires de l’industrie étant ce qu’ils sont, et les budgets associés à ces délires visiblement illimités, sont apparus ensuite de nouveaux robots, qui se « cachaient » en utilisant le nom d’un navigateur connu « Firefox 122 », ou « Chrome 37 ». Tout aussi mal codés, ils sont alors plus difficile à bloquer. On a alors utilisé 2 techniques. La première, « la bourrin » : on bloque toutes les adresses IPs du prestataire utilisé par ces robots, quand elles sont facile à détecter (par exemple, toutes les IPs d’Alibaba, gros prestataire chinois, qui intéresse peu ou pas nos clients de toute façon). La seconde technique était plus rigolote : souvent, ces robots utilisaient des noms de navigateurs représentant littéralement 0 % du trafic Internet de 2024, par exemple des vieux téléphone mobile Sony Ericsson, ou des version de Firefox ou Chrome périmées depuis de nombreuses années. On bloque donc à nouveau…

Reste que cela prend du temps, du temps d’ingénieur chargé de comprendre et bloquer ces pénibles (c’est le nom poli qu’on leur donne) et aussi, mais surtout, du temps de CPU, de la bande passante, de l’usure de serveur et de SSD, donc, un coût non négligeable pour Octopuce et donc pour ses clients. En 2024, on a commencé à se demander si ce surcoût pour toute société d’hébergement était pris en compte dans le bilan carbone des sociétés d’IA

Le boss de fin de niveau : des proxies, des proxies, partout

En 2025, on a vu apparaître un nouveau type de robot nocif, qui cette fois-ci est assez indétectable, et a commencé à nous pourrir la vie :

  • ils se cachent
  • ils utilisent un user-agent légitime et récent (Safari / Chrome / Firefox en gros)
  • ils ne font que 1 à 5 demande de page par adresse IP.

En pratique, on pourrait se dire « s’ils ne demandent que une à 5 page, ce n’est pas si grave, non ? »

Sauf que s’ils ne font que 1 à 5 demande par IP (et le plus souvent 1 à 2), ils ont plusieurs millions d’adresses IP distinctes (!!!). Pour ceux qui connaissent un peu l’Internet, disposer d’un tel pool d’adresses IPs différentes nécessite de gros moyens. Nous avons eu en septembre 2025 un crawl sauvage d’un tel robot qui, en l’espace de 2 semaines, a utilisé 1 300 000 adresses IPs distinctes, dont 950 000 ne faisaient que 1 seul appel de page. Un tel nombre d’adresses IP c’est ce qu’on appelle en réseau un « /11 », et seuls de très gros opérateurs peuvent se payer ça (orange, free, par exemple).

Sur le coup, on s’est dit : Pas grave, on va bloquer intégralement l’opérateur fautif, tant pis pour ses clients s’il y en a des légitimes. Sauf que, après analyse, on a découvert que ces adresses IPs venaient de centaines d’opérateurs distincts dans presque tous les pays ! Avec une sur-représentation du Brésil, de la Chine et de quelques autres pays inattendus de nos clients toutefois, mais on ne peut cependant pas bloquer intégralement ces pays sur nos serveurs…

À ce jour, nous n’avons pas trouvé de solution non-intrusive contre ces robots. Pour l’instant on espère juste qu’ils n’attaqueront pas nos clients, notamment les plus fragiles (ceux aux CMS un peu coûteux en ressource à chaque page, faute de cache…)

Il existe tout de même des solutions comme Anubis qui affichent une page demandant un calcul compliqué à votre navigateur avant d’autoriser la connexion à un site web. Anubis n’est hélas pas transparent pour les internautes : il affiche une page même si brièvement, le temps de résoudre le calcul demandé de manière automatique. Aucune interaction humaine n’est requise, contrairement aux Captcha, mais c’est quand même un outil plus compliqué à installer, et nécessite l’approbation de notre client.

Depuis ces attaques, on a trouvé ce qui semblerait être la source d’un si grand nombre d’adresses IPs attaquantes : certaines applications sur Android utilisent les téléphones sur lesquels ils sont installés pour offrir une partie de votre trafic (mobile ou wifi) au propriétaire de l’app installée ! Ces apps utilisent une bibliothèque nommée ProxyLib renommée plus tard SDK LumiApps, qui permet donc de monétiser votre bande passante mobile. Ce type de code est probablement illégal et assurément illégitime, mais tant que personne ne fait rien, ils pourront nuire mondialement.

En écrivant cet article, on a pu retrouver une entreprise offrant un tel service, à prix d’or, et se vantant, typiquement, ce mois-ci, d’avoir accès à 800 000 adresses IPs résidentielles américaines …

Conclusion :

Des robots d’IA aspirent de manière indiscriminée les sites web du monde entier, souvent en ne respectant pas les fichiers robots.txt, parfois en se cachant volontairement, voire en utilisant des méthodes illégales.

Ces robots entrainent un surcout d’énergie, de ressource et de temps d’ingénieur pour être contournés ou bloqués, et ce surcout, important, n’est assurément pas compté dans les bilan carbone sur le cycle de vie de ces services d’IA.

Être hébergeur de serveurs, en 2025, c’est aussi prendre en compte ces catégories particulières de pénibles…