Förvandla en offentlig datakälla till ett månadsflöde för 319 kronor

Att sälja data som prenumeration är den tråkigaste AI-sidoinkomsten jag har kört, och det är den som ger den renaste marginalen. Produkten är inte en flashig chattbot, det är ett kalkylblad som uppdateras enligt ett schema och landar i köparens inkorg eller API. Crawlern är liten, det juridiska filtret är strängt och kundlistan är kort och lojal. Jag byggde min på fyra helger och den har körts mestadels opåverkad i fem månader. Här är hur jag väljer nischen, hur jag håller det lagligt och hur jag hittar de första betalande kunderna.
Nichentestet, innan en enda rad kod
Ett säljbart dataflöde har tre egenskaper: källan är offentlig, data förändras tillräckligt ofta för att motivera en prenumeration och köparna betalar redan någon för en fulare version av det. Jag utesluter allt som misslyckas med ens ett av dessa. Jag kortlistar kandidater genom att lägga upp en tvåradig pitch i branschforum och små subreddits, samma filter som jag använder för min AI-chattbotprenumeration. Om jag inte får minst fyra seriösa svar inom 72 timmar dör nischen på fläcken. Att bygga ett flöde ingen bad om är det misslyckande jag vägrar upprepa.
Den juridiska checklistan jag inte korsar
Detta är steget som dödar de flesta projekt, och med rätta. Innan jag skriver en enda rad crawlerkod svarar jag på fem frågor om källan. Är data bakom en inloggning? Förbjuder användarvillkoren automatiserad åtkomst? Utesluter robots.txt de sökvägar jag vill ha? Överskrider min crawlhastighet vad en artig användaragent skulle göra? Exponerar resultatet personuppgifter på ett sätt som den ursprungliga utgivaren inte gör? Om något svar är obekvämt går jag vidare till nästa kandidat. Jag håller ett skriftligt register per källa, daterat, så att om en tvist skulle uppstå kan jag visa att kontrollen gjordes. Juridisk hygien här överlappar med det papperspår jag håller på domänaffärer; tråkig dokumentation räddar dig senare.
Stacken, medvetet liten
En liten VPS på 66 kronor per månad, Python med requests och selectolax för parsning, SQLite för tillstånd, en roterande proxy-pool med bostads-IP:er på 165 kronor per månad, ett enda cron-jobb var 60:e minut. Ingen Kafka, inga köer, inga mikrotjänster. Total infrastrukturkostnad är 230 kronor per månad. AI används på exakt två ställen: för det första att ta fram extraktionsselectorerna från en exempelsida, vilket sparar kanske tre timmar; för det andra att normalisera stökiga fritext-fält som företagsnamn och platser. Crawlern i sig är 380 rader deterministisk Python. Tråkig kod, lätt att felsöka kl. 23 när något går sönder.
- Hämta listsida, jämför mot senaste ögonblicksbild, extrahera nya objekt-URL:er.
- Hämta varje nytt objekt, parsa fält, validera typer.
- Normalisera fritext med ett billigt LLM-anrop, kapa kostnaden på 0,02 kronor per rad.
- Deduplicera mot SQLite med hash av den normaliserade nyttolasten.
- Lägg till i daglig CSV, skicka till prenumeranter via e-post plus en liten JSON-slutpunkt.
Prissättning, paketering och de första 14 köparna
Jag prissatte till 319 kronor per månad från dag ett, ingen gratis provperiod. En gratis provperiod hade lockat fönstershoppare, och den här produkten överlever på köpare som redan känner smärtan. De tre första prenumeranterna kom från samma forum där jag testade pitchen. De nästa åtta kom från ett enda kallmails-utskick jag skickade till 40 små byråer som uppenbarligen gjorde samma arbete manuellt. Svarsfrekvensen var 28 procent, konverteringsgraden på svar var 25 procent. De resterande tre hittade mig via sökning efter två korta artiklar jag publicerade. Intäkter i månad fem: 4 470 kronor per månad, kostnader 230 kronor infrastruktur plus ungefär 935 kronor i token- och proxyanvändning den tyngsta månaden, nettomarginal runt 3 300 kronor. Det är 74 procents marginal på en produkt som tar mig ungefär 90 minuter per vecka i underhåll. Enhetsekonomin liknar mer mitt betalda nyhetsbrev än de flesta AI-omslagsprojekt.
Underhåll, den del ingen visar på en säljsida
Varje tisdag kväll öppnar jag instrumentpanelen, skummar felloggen och lagar vad som ändrats. På fem månader har jag rört selectorerna fyra gånger. Två var mindre layoutjusteringar på källan, en var en tyst 403 som behövde en ny användaragentrotation, en var en brytande schemaändring som kostade mig en hel kväll. Jag budgeterar 90 minuter per vecka och använder ungefär 60 i genomsnitt. Utan den fasta tidsplatsen skulle flödet ruttna inom ett kvartal, vilket är det misslyckande jag varnar om på hubben för AI-sidoinkomster.
Sälj schemat, inte scrapen
Köparna bryr sig inte om att du scrapar. De bryr sig om att ditt resultat är ett rent, stabilt schema de kan lägga in i sina egna verktyg utan att byta namn på kolumner. Jag publicerar schemat på säljsidan med en exempel-CSV och en liten JSON Schema-fil. Den enda detaljen stängde minst tre av mina första tio prenumeranter som hade blivit brända av ett tidigare flöde som ändrade kolumner utan varning. Ett ensidigt schemadokument är värt mer än all landningssidetext jag skulle kunna skriva.
Scrapa inte något som kräver autentisering, även om det verkar enkelt. Den ena gången jag böjde den här regeln, på en källa med en mycket tunn inloggningsbarriär, förlorade jag en vecka på att argumentera med utgivaren och var tvungen att återbetala två prenumeranter. En smal offentlig källa med modest volym slår en rik bevakad källa med juridisk risk varje enda gång. Om det enda sättet att bygga flödet är bakom en inloggning, bygg ett annat flöde.
Vanliga frågor
Är det lagligt att scrapa offentlig data?
Offentlig data utan inloggning och utan klickbara villkor som förbjuder automatiserad åtkomst är den säkra zonen i de flesta jurisdiktioner. Att scrapa bakom en inloggning, kringgå hastighetsgränser eller ignorera en robots.txt-uteslutning tar dig snabbt ur den zonen. Jag håller en ensidig juridisk checklista per källa och vägrar alla flöden som inte kan svara ja på varje punkt.
Hur mycket kan man egentligen ta betalt för ett nischflöde?
Mitt flöde ligger på 319 kronor i månaden för 14 betalande prenumeranter, 4 470 kronor i återkommande intäkter. Ett allmänt nyhetsflöde skulle inte överleva till det priset; ett smalt branschflöde med 60 minuters uppdateringsfrekvens och ett rent schema gör det. Köparna är nästan alltid små byråer eller enpersons-forskningsteam som värdesätter den sparade tiden, inte rådata.
Kan AI ersätta scrapingpipelinen?
AI skriver extraktionsprompterna och normaliserar stökiga fält, men rörmokeriarbetet (schemaläggning, omförsök, deduplicering, förändringsdetektion) är fortfarande tråkig kod. Jag försökte köra hela pipelinen genom en LLM-agent och det fungerade en helg, sedan drev det tyst iväg. Använd AI för de otydliga delarna, håll de deterministiska delarna deterministiska.