Trasformare una fonte di dati pubblica in un feed mensile da 29 euro

Griglia dati del laptop e fogli di calcolo annotati che rappresentano lo scraping e la rivendita di dati di nicchia

Vendere dati come abbonamento è il side hustle AI più noioso che abbia gestito, ed è quello che stampa il margine più pulito. Il prodotto non è un chatbot appariscente, è un foglio di calcolo che si aggiorna secondo una pianificazione e atterra nella casella o nell'API dell'acquirente. Il crawler è piccolo, il filtro legale è severo, la lista clienti è corta e fedele. Ho costruito il mio in quattro weekend e sta girando quasi senza toccarlo da cinque mesi. Ecco come scelgo la nicchia, come la mantengo legale e come chiudo i primi clienti paganti.

Il test di nicchia, prima di scrivere codice

Un feed di dati vendibile ha tre proprietà: la fonte è pubblica, i dati cambiano abbastanza spesso da giustificare un abbonamento e gli acquirenti stanno già pagando qualcuno per una versione più brutta. Escludo qualsiasi cosa fallisca anche una sola di queste. Seleziono i candidati pubblicando un pitch di due righe in forum di settore e piccoli subreddit, lo stesso filtro che uso per la mia sottoscrizione chatbot AI. Se non ricevo almeno quattro risposte serie in 72 ore, la nicchia muore sul posto. Costruire un feed che nessuno ha chiesto è la modalità di fallimento che rifiuto di ripetere.

La checklist legale che non supero

Questo è il passo che uccide la maggior parte dei progetti, e giustamente. Prima di scrivere una sola riga di codice del crawler, rispondo a cinque domande sulla fonte. I dati sono dietro un login? I termini di servizio vietano l'accesso automatico? Il robots.txt esclude i percorsi che voglio? La mia frequenza di crawl supera quella di un user agent educato? L'output espone dati personali in un modo che il publisher originale non fa? Se una qualsiasi risposta è scomoda, passo al candidato successivo. Tengo un registro scritto per fonte, datato, così se mai sorgesse una disputa posso dimostrare il controllo. L'igiene legale qui si sovrappone al paper trail che tengo sui flip di domini; la documentazione noiosa ti salva dopo.

Lo stack, volutamente piccolo

Un piccolo VPS a 6 euro al mese, Python con requests e selectolax per il parsing, SQLite per lo stato, un pool di proxy residenziali a rotazione a 15 euro al mese, un singolo cron job ogni 60 minuti. Niente Kafka, niente code, niente microservizi. Il costo totale dell'infrastruttura è 21 euro al mese. L'AI entra esattamente in due punti: primo, a buttare giù i selettori di estrazione da una pagina di esempio, il che mi risparmia forse tre ore; secondo, a normalizzare campi di testo libero disordinati come nomi di aziende e città. Il crawler in sé è 380 righe di Python deterministico. Codice noioso, facile da debuggare alle 23 quando qualcosa si rompe.

  1. Scarica la pagina elenco, diff contro l'ultimo snapshot, estrae gli URL dei nuovi elementi.
  2. Scarica ogni nuovo elemento, parsa i campi, valida i tipi.
  3. Normalizza il testo libero con una chiamata LLM economica, costo capato a 0,002 euro per riga.
  4. Deduplica contro SQLite tramite hash del payload normalizzato.
  5. Aggiunge al CSV giornaliero, invia agli abbonati via email più un piccolo endpoint JSON.

Pricing, packaging e i primi 14 acquirenti

Ho prezzato a 29 euro al mese dal primo giorno, niente prova gratuita. Una prova gratuita avrebbe portato curiosi da vetrina, e questo prodotto sopravvive con acquirenti che conoscono già il dolore. I primi tre abbonati sono arrivati dallo stesso forum in cui avevo testato il pitch. I successivi otto da un singolo batch di cold email inviato a 40 piccole agenzie che stavano chiaramente facendo lo stesso lavoro a mano. Tasso di risposta 28 per cento, tasso di chiusura sulle risposte 25 per cento. I restanti tre mi hanno trovato tramite ricerca dopo due brevi articoli che ho pubblicato. Ricavi al quinto mese: 406 euro mensili, costi 21 di infrastruttura più circa 85 euro di token e proxy nel mese più pesante, margine netto intorno a 300 euro. È un margine del 74 per cento su un prodotto che mi prende circa 90 minuti alla settimana di manutenzione. L'economia unitaria è più vicina alla mia newsletter a pagamento che alla maggior parte dei wrapper AI. Se fatturo come residente in Italia in regime forfettario, questi ricavi entrano sotto la soglia senza complicazioni IVA e tengo traccia mensile per l'Agenzia delle Entrate.

Manutenzione, la parte che nessuno mostra in una sales page

Ogni martedì sera apro la dashboard, scorro il log degli errori e patcho quel che è cambiato. In cinque mesi ho toccato i selettori quattro volte. Due erano piccoli ritocchi di layout sulla fonte, uno era un 403 silenzioso che richiedeva una nuova rotazione di user agent, uno era un cambio di schema breaking che mi è costato una serata intera. Programmo 90 minuti a settimana e in media ne uso circa 60. Senza quello slot fisso il feed marcirebbe entro un trimestre, che è la modalità di fallimento di cui avverto nell'hub AI Side Hustles.

Il consiglio raro di John

Vendi lo schema, non lo scrape

Agli acquirenti non importa che tu faccia scraping. Importa che il tuo output sia uno schema pulito e stabile che possono calare nei loro strumenti senza rinominare colonne. Pubblico lo schema sulla sales page con un CSV di esempio e un piccolo file JSON Schema. Quel solo dettaglio ha chiuso almeno tre dei miei primi dieci abbonati che erano rimasti scottati da un feed precedente che cambiava colonne senza preavviso. Un documento di schema di una pagina vale più di qualsiasi copy di landing potessi scrivere.

Cosa eviterei

Non fare scraping di nulla che richieda autenticazione, anche se sembra facile. L'unica volta che ho piegato questa regola, su una fonte con un muro di login molto sottile, ho perso una settimana a discutere con il publisher e ho dovuto rimborsare due abbonati. Una fonte pubblica ristretta con volume modesto batte una fonte ricca e chiusa con rischio legale ogni singola volta. Se l'unico modo di costruire il feed è dietro un login, costruisci un feed diverso.

Domande frequenti

Fare scraping di dati pubblici è legale?

I dati pubblici senza login e senza clausole clickwrap che vietino l'accesso automatico sono la zona sicura in gran parte delle giurisdizioni. Fare scraping dietro un login, aggirare i rate limit o ignorare un'esclusione robots.txt ti porta fuori da quella zona in fretta. Tengo una checklist legale di una pagina per ogni fonte e rifiuto qualsiasi feed che non possa rispondere sì a ogni riga.

Quanto si può davvero far pagare per un feed di nicchia?

Il mio feed è a 29 euro al mese per 14 abbonati paganti, 406 euro di ricavi ricorrenti. Un feed generalista di news non sopravvivrebbe a quel prezzo; un feed di settore stretto con freschezza a 60 minuti e uno schema pulito sì. Gli acquirenti sono quasi sempre piccole agenzie o singoli ricercatori che apprezzano il tempo risparmiato, non il dato grezzo.

L'AI può sostituire la pipeline di scraping?

L'AI scrive i prompt di estrazione e normalizza i campi disordinati, ma l'idraulica (scheduling, retry, deduplicazione, change detection) resta codice noioso. Ho provato a far girare tutta la pipeline tramite un agente LLM e ha funzionato per un weekend, poi è derivato in silenzio. Usa l'AI per le parti sfumate, mantieni deterministiche le parti deterministiche.