Transformarea unei surse de date publice într-un feed lunar de 29 de euro

Grilă de date pe laptop și foi de calcul adnotate reprezentând extragerea și revânzarea datelor de nișă

Vânzarea datelor ca abonament este cel mai plictisitor side hustle AI pe care l-am rulat și este cel care produce cea mai curată marjă. Produsul nu este un chatbot spectaculos, ci o foaie de calcul care se actualizează după un program și ajunge în inbox-ul sau API-ul cumpărătorului. Crawlerul este mic, filtrul legal este strict, iar lista de clienți este scurtă și loială. L-am construit în patru weekend-uri și funcționează aproape nemodificat de cinci luni. Iată cum aleg nișa, cum o păstrez legală și cum atrag primii clienți plătitori.

Testul de nișă, înainte de orice cod

Un feed de date vandabil are trei proprietăți: sursa este publică, datele se schimbă suficient de des pentru a justifica un abonament, iar cumpărătorii plătesc deja pe cineva pentru o versiune mai urâtă a lor. Resping orice sursă care eșuează la măcar unul dintre acestea. Listez candidații postând un pitch de două rânduri în forumuri de industrie și subreddit-uri mici — același filtru pe care îl folosesc pentru abonamentul la chatbot AI. Dacă nu primesc cel puțin patru răspunsuri serioase în 72 de ore, nișa moare pe loc. A construi un feed pe care nimeni nu l-a cerut este modul de eșec pe care refuz să îl repet.

Checklist-ul legal pe care nu îl depășesc

Acesta este pasul care ucide majoritatea proiectelor, și pe bună dreptate. Înainte să scriu o singură linie de cod crawler, răspund la cinci întrebări despre sursă. Datele sunt în spatele unui login? Termenii de utilizare interzic accesul automatizat? Fișierul robots.txt exclude căile pe care le doresc? Rata mea de crawl depășește ce ar face un user agent politicos? Rezultatul expune date cu caracter personal într-un mod pe care publicatorul original nu îl face? Dacă vreun răspuns este incomod, trec la următorul candidat. Păstrez un document scris per sursă, datat, astfel încât dacă apare vreodată un litigiu pot demonstra verificarea efectuată. Igiena juridică aici se suprapune cu documentația pe care o păstrez pentru flip-ul de domenii; documentația plictisitoare te salvează ulterior.

Stiva tehnică, deliberat minimă

Un VPS mic la 6 euro pe lună, Python cu requests și selectolax pentru parsare, SQLite pentru stare, un pool de proxy-uri rezidențiale rotative la 15 euro lunar, un singur cron job la fiecare 60 de minute. Fără Kafka, fără cozi, fără microservicii. Costul total de infrastructură este de 21 de euro pe lună. AI intră în exact două locuri: în primul rând, redactarea selectorilor de extracție dintr-o pagină eșantion, care economisește poate trei ore; în al doilea rând, normalizarea câmpurilor de text dezordonate precum denumirile de companii și locațiile. Crawlerul în sine are 380 de linii de Python determinist. Cod plictisitor, ușor de depănat la ora 23 când ceva se strică.

  1. Preia pagina de listă, compară cu ultima captură, extrage URL-urile elementelor noi.
  2. Preia fiecare element nou, parsează câmpurile, validează tipurile.
  3. Normalizează textul liber cu un apel LLM ieftin, plafonând costul la 0,002 euro per rând.
  4. Deduplicare față de SQLite prin hash-ul payload-ului normalizat.
  5. Adaugă la CSV-ul zilnic, trimite abonaților prin e-mail plus un endpoint JSON mic.

Prețuri, pachete și primii 14 cumpărători

Am stabilit prețul la 29 de euro lunar de la bun început, fără perioadă de probă gratuită. O perioadă de probă gratuită ar fi adus curioși fără intenție de cumpărare, iar acest produs supraviețuiește pe cumpărători care cunosc deja problema. Primii trei abonați au venit din același forum unde am testat pitch-ul. Următorii opt au venit dintr-un singur val de e-mailuri reci trimise la 40 de agenții mici care evident făceau același lucru manual. Rata de răspuns a fost de 28%, rata de conversie din răspunsuri de 25%. Restul de trei m-au găsit prin căutare după două articole scurte pe care le-am publicat. Venituri la luna cinci: 406 euro lunar, costuri 21 de euro infrastructură plus aproximativ 85 de euro de tokeni și proxy-uri în luna cea mai intensă, marjă netă în jur de 300 de euro. Asta înseamnă o marjă de 74% pe un produs care îmi ocupă aproximativ 90 de minute pe săptămână de mentenanță. Economiile unitare sunt mai aproape de newsletter-ul meu plătit decât de majoritatea proiectelor AI wrapper.

Mentenanța, partea pe care nimeni nu o arată pe o pagină de vânzări

În fiecare marți seară deschid dashboard-ul, parcurg jurnalul de erori și corectez ce s-a schimbat. În cinci luni am atins selectorii de patru ori. Două au fost modificări minore de layout pe sursă, una a fost un 403 silențios care necesita o nouă rotație de user agent, una a fost o schimbare majoră de schema care mi-a costat o seară întreagă. Bugetez 90 de minute pe săptămână și folosesc în medie circa 60. Fără acel interval fix, feed-ul s-ar degrada într-un trimestru — acesta este modul de eșec despre care avertizez pe hub-ul AI Side Hustles.

Sfatul rar al lui John

Vinde schema, nu scraping-ul

Cumpărătorii nu le pasă că faci scraping. Le pasă că rezultatul tău este un schema curat și stabil pe care îl pot integra în propriile instrumente fără să redenumească coloane. Publichez schema pe pagina de vânzări cu un CSV exemplu și un fișier JSON Schema mic. Acel detaliu singular a convins cel puțin trei dintre primii zece abonați care fuseseră arși de un feed anterior ce schimbase coloanele fără avertisment. Un document de o pagină cu schema valorează mai mult decât orice text de vânzare pe care l-aș putea scrie.

Ce aș evita

Nu scrapa nimic care necesită autentificare, chiar dacă pare ușor. Singura dată când am încălcat această regulă, pe o sursă cu un perete de login foarte subțire, am pierdut o săptămână argumentând cu publicatorul și a trebuit să rambursez doi abonați. O sursă publică îngustă cu volum modest bate o sursă bogată cu acces restricționat și risc legal de fiecare dată. Dacă singura modalitate de a construi feed-ul este în spatele unui login, construiește un feed diferit.

Întrebări frecvente

Este scraping-ul pe date publice legal?

Datele publice fără autentificare și fără termeni clickwrap care interzic accesul automatizat reprezintă zona sigură în majoritatea jurisdicțiilor. Scraping-ul în spatele unui login, ocolirea limitelor de rată sau ignorarea excluderilor din robots.txt te scoate rapid din această zonă. Păstrez un checklist legal de o pagină per sursă și refuz orice feed care nu răspunde cu da la fiecare punct.

Cât poți câștiga cu adevărat dintr-un feed de nișă?

Feed-ul meu costă 29 de euro lunar pentru 14 abonați plătitori, generând 406 euro venituri recurente. Un feed general de știri nu ar supraviețui la acel preț; un feed de industrie îngust, cu prospețime de 60 de minute și un schema curat, da. Cumpărătorii sunt aproape întotdeauna agenții mici sau cercetători individuali care apreciază timpul economisit, nu datele brute.

Poate AI înlocui pipeline-ul de scraping?

AI scrie prompturile de extracție și normalizează câmpurile dezordonate, dar instalația de bază — programare, reîncercări, deduplicare, detectarea modificărilor — rămâne cod clasic. Am încercat să rulez întregul pipeline printr-un agent LLM și a funcționat un weekend, apoi s-a degradat silențios. Folosește AI pentru părțile fuzzy, păstrează deterministul determinist.