La Douille, c’est la newsletter de Volkane qui raconte le droit au monde des affaires, un dimanche sur deux. Pour la recevoir, abonnez-vous ici.
1. L’HISTOIRE : Trois heures dans nos serveurs
Herminie ne vend rien.
Elle ne stocke rien. Elle ne fabrique rien.
Elle compare.
Elle dirige une jeune société qui référence les équipements utilisés par les laboratoires privés : microscopes, centrifugeuses, éprouvettes….
Les laboratoires paient un abonnement mensuel pour accéder à une interface de comparaison instantanée des offres du marché.
Lorsque le laboratoire choisit un produit, il est redirigé vers le site du fournisseur concerné pour l’achat en direct – la plateforme ne vendant pas directement elle évite tout risque d’être accusé de détournement de clientèle.
La valeur de cette plateforme repose entièrement sur le conseil : elle vend l’accès à l’information et à l’aide à la décision.
Un comparateur construit à partir des données publiques des fournisseurs
Pour construire la solution, Archibald, le CTO a récupéré les informations publiquement accessibles sur les sites des fournisseurs spécialisés : références produits, caractéristiques techniques, prix, délais de livraison.
Les photos ont été générées par IA.
Les descriptions reformulées, pour ne pas reprendre à l’identique celles des fournisseurs. Et pour ne pas se faire bloquer, Archibald avait utilisé une infrastructure de proxys rotatifs. À chaque requête, une adresse IP différente. Les fournisseurs ne pouvaient pas voir que c’était toujours lui.
Avant, chaque laboratoire devait naviguer sur cinq sites différents. Maintenant, les écarts de prix apparaissent en un clic sur une colonne.
Après 3 mois de démarches commerciales, 20 clients sont signés.
Puis un matin, à 9h12, on sonne au siège social de la société.
Ce n’est pas une livraison.
C’est la police, munie d’une ordonnance de saisie-contrefaçon autorisée par le président du tribunal.
Une saisie-contrefaçon est ordonnée
Trois fournisseurs ont saisi la juridiction en urgence.
Leur argument tient en quatre points :
– leurs catalogues constituent des bases de données protégées ;
– la start-up en aurait extrait une partie substantielle ;
– les extractions répétées auraient permis de reconstituer l’essentiel de leurs bases ;
– et le modèle par abonnement monétiserait indûment leurs investissements.
En droit des bases de données, la question centrale n’est pas seulement la manière dont vous collectez, mais surtout l’existence d’un investissement substantiel du producteur de ces données.
La saisie est exécutée immédiatement.
Les serveurs examinés
Les serveurs sont copiés. Le code est dupliqué. Les bases de données examinées.
Tout GitHub est capturé.
Archibald fixe l’écran de l’expert judiciaire.
Il se répète en boucle : “On n’a rien fait d’illégal. Tout le monde scrape. Tout le monde.”
Le vrai risque : une procédure longue… et une technologie exposée
Mais Herminie, elle, ne répond pas. Elle réfléchit aux arguments pour sa défense : la redirection systématique vers les fournisseurs sans les encapsuler dans sa propre interface, l’absence de vente concurrente, la reformulation des descriptions, etc.
Elle pense aux honoraires. Aux mois de procédure. À l’expertise judiciaire. Aux avocats spécialisés. À la trésorerie qui fondra pendant que le produit, lui, n’évoluera plus aussi vite.
Et une deuxième pensée s’impose, plus froide encore :
L’expert judiciaire est là, dans les serveurs. Il voit l’architecture. Les scripts. La logique de structuration. Il voit exactement ce qui fait la valeur de la plateforme — et ce que les fournisseurs, eux, n’ont jamais su construire.
La saisie-contrefaçon est un outil probatoire. Mais entre les mains d’adversaires bien informés, c’est aussi le moyen d’espionnage industriel le plus légalement encadré qui soit.
À 12h03, les officiers repartent.
La plateforme fonctionne toujours. Les vingt clients sont toujours là.
Mais les fournisseurs qui accusent Herminie d’avoir accédé à ce qui ne leur appartenait pas viennent, en trois heures de saisie, d’accéder à ce qui ne leur appartient pas non plus.
2. TEMPS TECHNIQUE : Les règles du scraping
Si vous développez un outil d’agrégation, il y a deux cadres juridiques qui s’appliquent :
– Le droit de la propriété intellectuelle et des producteurs de bases de données d’abord.
– Ensuite, le RGPD si le scraping concerne au moins en partie des données personnelles.
FRONT 1 – Scraper peut violer les règles de propriété intellectuelle
1. Un catalogue peut être protégé, mais ce n’est pas automatique
Le contenu d’un site peut constituer une base de données protégée si son producteur démontre des investissements substantiels pour la constituer, la vérifier et l’organiser.
La preuve est exigeante, il faut par exemple que la société produise des attestations de commissaire aux comptes démontrant les dépenses, des rapports d’experts, des factures de prestataires et des fiches de masse salariale par équipe.
Conséquence :
– Si vous êtes du côté de celui qui veut scrapper : vérifiez en amont si votre cible est réellement productrice de la base ou si elle se contente d’agréger des flux transmis par des tiers sans investissement propre.
– Si vous êtes du côté du producteur de base de données : conservez méticuleusement les preuves des frais investis dans la constitution de la base de données.
Dans le cas où il s’agit d’une base de données protégée, la violation des droits du producteur est sévèrement sanctionnée jusqu’à 3 ans d’emprisonnement et 300 000 € d’amende (L343-4 CPI).
2. Même une petite extraction peut devenir illégale
Une extraction non substantielle devient illicite dans si elle est répétée, systématique, et permet de reconstituer la base par accumulation.
C’est le piège du srapping automatisé.
L’extraction devient également illicite si l’accès au site source n’était pas licite. Par exemple, vous avez utilisé le compte d’un tiers, contourné les détecteurs de robot, utilisés des proxys rotatifs pour éviter la détection d’adresse IP.
L’accès illicite peut suffire, même si le volume extrait est limité.
La question clé n’est pas “Ai-je tout copié ?” La question est : “Ai-je, par accumulation ou par contournement, franchi une ligne ?”
3. Ce que vous pouvez scraper et ce que vous ne pouvez pas
Les caractéristiques purement techniques d’un produit ne sont généralement pas protégées par le droit d’auteur et peuvent être plus librement scrappées.
En revanche, les descriptions personnalisées, les photographies mises en scène selon une esthétique distinctive, et tout élément créatif sont en revanche protégés par le droit d’auteur.
FRONT 2 — Scraper peut violer le RGPD
Le scraping déclenche des obligations RGPD dès lors que des données personnelles sont collectées — même accessoirement, même involontairement.
1. La base légale : l’intérêt légitime sous conditions strictes
Le scraping peut reposer sur l’intérêt légitime comme base légale. Mais cette base impose un équilibre démontrable entre votre intérêt et les droits des personnes, et des mesures concrètes pour le justifier.
Cet équilibre doit être formalisé par un test de mise en balance écrit qu’il faut conserver en cas de contrôle.
2. La collecte doit être strictement nécessaire
Définissez des critères précis de collecte en amont et n’aspirez que ce qui est strictement nécessaire pour votre finalité.
La logique “on collecte tout, on triera après” est incompatible avec le principe de minimisation.
3. Respecter les signaux d’opposition
Si les sites cibles ont mis en place des mesures pour refuser le scraping, il faut en tenir compte : robots.txt, CAPTCHA, CGU interdisant le scraping.
Si vous les ignorez, cela fragilise votre position, à la fois au regard du RGPD et du droit des bases de données.
4. Exclure certaines sources
Exclure par défaut certaines catégories de sites — forums de santé, réseaux sociaux, sites fréquentés par des mineurs — qui contiennent structurellement des données sensibles.
Pour aller plus loin
FAQ : scraping de données, propriété intellectuelle et RGPD
Le scraping de données est-il légal ?
Tout dépend de deux cadres juridiques qui s’appliquent : le droit de la propriété intellectuelle et des producteurs de bases de données d’une part, et le RGPD d’autre part dès lors que le scraping porte, au moins en partie, sur des données personnelles.
Un catalogue ou une base de données en ligne est-il protégé contre le scraping ?
Pas automatiquement. Le contenu d’un site constitue une base de données protégée uniquement si son producteur démontre des investissements substantiels pour la constituer, la vérifier et l’organiser. La preuve est exigeante : attestations de commissaire aux comptes, rapports d’experts, factures de prestataires et fiches de masse salariale.
Quelle base légale RGPD pour scraper des données personnelles ?
L’intérêt légitime, mais sous conditions strictes : la collecte doit être strictement nécessaire, il faut respecter les signaux d’opposition des personnes et exclure certaines sources.
Toute ressemblance avec des faits et des personnages existants ou ayant existé serait purement fortuite et ne pourrait être que le fruit d’une pure coïncidence.

