Transformer une source de données publique en flux mensuel à 29 euros

Vendre des données en abonnement est le side hustle IA le plus ennuyeux que j’ai mené, et c’est celui qui dégage la marge la plus propre. Le produit n’est pas un chatbot tape-à-l'œil, c’est un tableur qui se rafraîchit selon un planning et atterrit dans la boîte mail ou l’API de l’acheteur. Le crawler est petit, le filtre légal est strict, et la liste de clients est courte et fidèle. J’ai construit le mien en quatre week-ends, et il tourne presque sans intervention depuis cinq mois. Voici comment je choisis la niche, comment je reste dans la légalité et comment je décroche les premiers clients payants.
Le test de niche, avant tout code
Un flux de données vendable possède trois propriétés : la source est publique, les données changent assez souvent pour justifier un abonnement, et les acheteurs paient déjà quelqu’un pour une version moins soignée. J’élimine tout ce qui échoue à ne serait-ce qu’un de ces critères. Je présélectionne les candidats en postant un pitch de deux lignes dans des forums sectoriels et des sous-reddits restreints, le même filtre que pour mon abonnement chatbot IA. Si je n’obtiens pas au moins quatre réponses sérieuses en 72 heures, la niche est abandonnée sur-le-champ. Construire un flux que personne n’a demandé est l’échec que je refuse de répéter.
La checklist légale que je ne franchis pas
C’est l’étape qui tue la plupart des projets, et à juste titre. Avant d’écrire une seule ligne de code de crawler, je réponds à cinq questions sur la source. Les données sont-elles derrière un login ? Les conditions d’utilisation interdisent-elles l’accès automatisé ? Le robots.txt exclut-il les chemins qui m’intéressent ? Mon rythme de crawl dépasse-t-il ce que ferait un agent utilisateur poli ? L’output expose-t-il des données personnelles d’une façon que l’éditeur d’origine ne fait pas ? Si une réponse est inconfortable, je passe au candidat suivant. En France, le RGPD ajoute une dimension supplémentaire dès lors que les données peuvent identifier des personnes physiques — raison de plus pour rester sur des données purement professionnelles ou factuelles. Je conserve un dossier écrit par source, daté, de façon à pouvoir démontrer la vérification si un litige devait survenir. L’hygiène légale ici rejoint le dossier papier que je tiens sur les flips de domaines : la documentation ennuyeuse vous sauve plus tard.
La stack, volontairement réduite
Un petit VPS à 6 euros par mois, Python avec requests et selectolax pour le parsing, SQLite pour l’état, un pool de proxies résidentiels rotatifs à 15 euros par mois, un seul cron job toutes les 60 minutes. Pas de Kafka, pas de queues, pas de microservices. Le coût d’infrastructure total est de 21 euros par mois. L’IA intervient exactement en deux endroits : d’abord pour rédiger les sélecteurs d’extraction à partir d’une page exemple, ce qui économise peut-être trois heures ; ensuite pour normaliser les champs de texte libre tels que noms d’entreprises et localisations. Le crawler lui-même fait 380 lignes de Python déterministe. Du code ennuyeux, facile à déboguer à 23 h quand quelque chose se casse.
- Récupérer la page liste, comparer avec le dernier snapshot, extraire les URLs des nouveaux éléments.
- Récupérer chaque nouvel élément, parser les champs, valider les types.
- Normaliser le texte libre via un appel LLM bon marché, coût plafonné à 0,002 euro par ligne.
- Dédupliquer contre SQLite par hash du payload normalisé.
- Ajouter au CSV quotidien, pousser aux abonnés par email et via un petit endpoint JSON.
Tarification, packaging et les 14 premiers acheteurs
J’ai fixé le prix à 29 euros par mois dès le premier jour, sans essai gratuit. Un essai gratuit aurait attiré des curieux, et ce produit vit d’acheteurs qui connaissent déjà la douleur. Les trois premiers abonnés venaient du même forum où j’avais testé le pitch. Les huit suivants venaient d’un lot de cold emails envoyés à 40 petites agences qui faisaient manifestement le même travail manuellement. Taux de réponse : 28 %, taux de conversion sur les réponses : 25 %. Les trois derniers m’ont trouvé via la recherche après deux courts articles que j’avais publiés. Revenus au mois cinq : 406 euros mensuels, coûts : 21 euros d’infrastructure plus environ 85 euros de tokens et proxies lors du mois le plus chargé, marge nette autour de 300 euros. C’est une marge de 74 % sur un produit qui me demande environ 90 minutes par semaine de maintenance. L’économie unitaire se rapproche davantage de ma newsletter payante que de la plupart des projets de wrappers IA.
La maintenance, la partie que personne ne montre dans une page de vente
Chaque mardi soir j’ouvre le tableau de bord, je parcours le journal d’erreurs et je corrige ce qui a changé. En cinq mois j’ai touché les sélecteurs quatre fois. Deux étaient de légères modifications de mise en page sur la source, une était un 403 silencieux nécessitant une nouvelle rotation de user agent, une était un changement de schéma cassant qui m’a coûté une soirée entière. Je prévois 90 minutes par semaine et utilise en moyenne 60. Sans ce créneau fixe, le flux se dégraderait en moins d’un trimestre, ce qui est l’échec que j’évoque sur le hub IA & revenus annexes.
Vendez le schéma, pas le scrape
Les acheteurs s’en fichent que vous scrapiez. Ce qui les intéresse, c’est que votre output soit un schéma propre et stable qu’ils peuvent intégrer dans leurs propres outils sans renommer de colonnes. Je publie le schéma sur la page de vente avec un exemple de CSV et un petit fichier JSON Schema. Ce seul détail a converti au moins trois de mes dix premiers abonnés qui avaient déjà été déçus par un flux précédent qui changeait de colonnes sans prévenir. Un document de schéma d’une page vaut plus que tout le copy de landing page que je pourrais écrire.
Ne scrapez rien qui nécessite une authentification, même si ça semble facile. La seule fois où j’ai enfreint cette règle, sur une source avec une très fine paroi de login, j’ai perdu une semaine à négocier avec l’éditeur et j’ai dû rembourser deux abonnés. Une source publique étroite avec un volume modeste bat systématiquement une source riche mais verrouillée avec un risque légal. Si le seul moyen de construire le flux passe par un login, construisez un flux différent.
Questions fréquentes
Le scraping de données publiques est-il légal ?
Les données publiques sans login et sans conditions d’utilisation clickwrap interdisant l’accès automatisé constituent la zone sûre dans la plupart des juridictions. Scraper derrière un login, contourner des limites de débit ou ignorer une exclusion robots.txt vous en sort rapidement. Je tiens une checklist légale d’une page par source et refuse tout flux qui ne peut pas répondre oui à chaque ligne.
Combien peut-on vraiment facturer un flux de niche ?
Mon flux est à 29 euros par mois pour 14 abonnés payants, soit 406 euros de revenus récurrents. Un flux d’actualités généraliste ne survivrait pas à ce prix ; un flux sectoriel étroit avec une fraîcheur de 60 minutes et un schéma propre, si. Les acheteurs sont presque toujours de petites agences ou des cellules de veille mono-personne qui valorisent le temps économisé, pas la donnée brute.
L’IA peut-elle remplacer le pipeline de scraping ?
L’IA rédige les sélecteurs d’extraction et normalise les champs de texte libre, mais la plomberie — planification, relances, déduplication, détection des changements — reste du code ordinaire. J’ai essayé de faire tourner l’ensemble du pipeline via un agent LLM : ça a fonctionné un week-end puis a dérivé silencieusement. Utilisez l’IA pour les parties floues, gardez les parties déterministes déterministes.