Slik gjør jeg en offentlig datakilde til en månedlig feed på 29 euro

Laptop-datanett og annoterte regneark som representerer nisje-datahøsting og videresalg

Å selge data som et abonnement er den kjedeligste AI-sideinntekten jeg har drevet, og den som gir den reneste marginen. Produktet er ikke en flashy chatbot – det er et regneark som oppdateres etter en plan og havner i kjøperens innboks eller API. Crawleren er liten, det juridiske filteret er strengt, og kundelisten er kort og lojal. Jeg bygde min på fire helger, og den har kjørt nesten urørt i fem måneder. Her er hvordan jeg velger nisje, holder det lovlig og skaffer de første betalende kundene.

Nisjetesten – før en eneste kodelinje

En salgbar datafeeder har tre egenskaper: kilden er offentlig, dataene endrer seg ofte nok til å rettferdiggjøre et abonnement, og kjøperne betaler allerede noen for en styggere versjon av dem. Jeg utelukker alt som mislykkes på ett eneste av disse punktene. Jeg setter opp kandidater ved å poste en to-linjers pitch i bransjefora og små subreddits – det samme filteret jeg bruker for mine AI-chatbot-abonnementer. Får jeg ikke minst fire seriøse svar på 72 timer, er nisjen avlyst på stedet. Å bygge en feed ingen ba om, er feilmodus jeg nekter å gjenta.

Den juridiske sjekklisten jeg aldri krysser

Dette er steget som dreper de fleste prosjekter, og med rette. Før jeg skriver en eneste linje crawlerkode, svarer jeg på fem spørsmål om kilden. Er dataene bak en innlogging? Forbyr brukervilkårene automatisert tilgang? Utelukker robots.txt stiene jeg vil bruke? Overskrider crawle-raten min det en høflig brukeragent ville gjort? Eksponerer resultatet persondata på en måte den opprinnelige utgiveren ikke gjør? Dersom noe svar er ubehagelig, går jeg videre til neste kandidat. Jeg fører et skriftlig register per kilde, datert, slik at jeg kan dokumentere sjekken hvis det skulle oppstå en tvist. Juridisk hygiene her overlapper med papirstien jeg fører på domeneflipping; kjedelig dokumentasjon redder deg senere.

Stacken, bevisst holdt liten

Én liten VPS til 6 euro per måned, Python med requests og selectolax til parsing, SQLite for tilstand, et roterende bolig-proxy-basseng til 15 euro månedlig, én enkelt cron-jobb hvert 60. minutt. Ingen Kafka, ingen køer, ingen mikrotjenester. Total infrastrukturkostnad er 21 euro per måned. AI er involvert på nøyaktig to steder: først ved å utarbeide ekstraksjonsselelektorer fra en eksempelside, noe som sparer rundt tre timer; deretter ved å normalisere rotete fritekstfelt som firmanavn og steder. Crawleren selv er 380 linjer deterministisk Python. Kjedelig kode, lett å feilsøke klokken 23 når noe går galt.

  1. Hent listeside, diff mot sist øyeblikksbilde, trekk ut nye element-URLer.
  2. Hent hvert nytt element, parse felt, valider typer.
  3. Normaliser fritekst med et billig LLM-kall, begrens kostnaden til 0,002 euro per rad.
  4. Dedupliser mot SQLite med hash av den normaliserte nyttelasten.
  5. Legg til i daglig CSV, push til abonnenter via e-post pluss et lite JSON-endepunkt.

Prising, pakketering og de 14 første kjøperne

Jeg satte prisen til 29 euro månedlig fra dag én, uten gratis prøveperiode. En gratis prøveperiode ville ha trukket til seg vindusshopping, og dette produktet lever av kjøpere som allerede kjenner smerten. De tre første abonnentene kom fra det samme forumet der jeg testet pitchen. De neste åtte kom fra ett kaldt e-postbatch jeg sendte til 40 små byråer som tydelig utførte det samme arbeidet manuelt. Svarprosent var 28 prosent, konverteringsrate på svar var 25 prosent. De resterende tre fant meg via søk etter to korte innlegg jeg publiserte. Inntekter ved måned fem: 406 euro månedlig, kostnader 21 euro infrastruktur pluss omtrent 85 euro i token- og proxy-bruk den tyngste måneden, nettomarginen rundt 300 euro. Det er 74 prosent margin på et produkt som tar meg omtrent 90 minutter per uke å vedlikeholde. Enhetsøkonomien ligner mer på mitt betalte nyhetsbrev enn på de fleste AI-wrapper-konsepter.

Vedlikehold – den delen ingen viser på salgssiden

Hver tirsdagskveld åpner jeg dashbordet, skumleser feilloggen og fikser hva enn som har endret seg. I fem måneder har jeg rørt selectorene fire ganger. To var mindre layoutjusteringer på kilden, én var en stille 403 som trengte ny brukeragentrotasjon, én var en bruddhendelse i skjemaet som kostet meg en hel kveld. Jeg budsjetterer 90 minutter per uke og bruker gjennomsnittlig rundt 60. Uten den faste tidsblokken ville feeden råtne innen et kvartal – den feilmodusen jeg advarer om på AI-sideinntekter-huben.

Johns sjeldne tips

Selg skjemaet, ikke skrapingen

Kjøperne bryr seg ikke om at du skraper. De bryr seg om at resultatet ditt er et rent, stabilt skjema de kan slippe inn i sine egne verktøy uten å omdøpe kolonner. Jeg publiserer skjemaet på salgssiden med en eksempel-CSV og en liten JSON Schema-fil. Den ene detaljen lukket minst tre av mine første ti abonnenter som hadde blitt brent av en tidligere feeder som endret kolonner uten varsel. Et skjemadokument på én side er verdt mer enn all landingssidetekst jeg kan skrive.

Det jeg ville unngått

Skrap aldri noe som krever autentisering, selv om det ser enkelt ut. Den ene gangen jeg bøyde denne regelen – på en kilde med en svært tynn innloggingsvegg – mistet jeg en uke på å krangle med utgiveren og måtte refundere to abonnenter. En smal offentlig kilde med moderat volum slår alltid en rik, innelåst kilde med juridisk risiko. Hvis den eneste måten å bygge feeden på er bak en innlogging, bygg en annen feed.

Ofte stilte spørsmål

Er skraping av offentlige data lovlig?

Offentlige data uten innlogging og uten brukervilkår som forbyr automatisert tilgang, er den trygge sonen i de fleste jurisdiksjoner. Skraping bak en innlogging, omgåelse av ratebegrensninger eller ignorering av robots.txt-eksklusjoner tar deg raskt ut av den sonen. Jeg holder en juridisk sjekkliste på én side per kilde og avslår enhver feed som ikke kan svare ja på hvert punkt.

Hva kan man egentlig ta betalt for en nisjefeeder?

Feeden min ligger på 29 euro månedlig for 14 betalende abonnenter – 406 euro i løpende inntekter. En generell nyhetsfeeder ville ikke overleve til den prisen; en smal bransjefeeder med 60-minutters ferskhet og et ryddig skjema gjør det. Kjøperne er nesten alltid små byråer eller enkeltpersoners forskningsstaber som setter pris på den sparte tiden, ikke på rådataene.

Kan AI erstatte skrapingspipelinen?

AI skriver eksraksjons-promptene og normaliserer rotete felt, men rørleggerarbeidet – planlegging, nye forsøk, deduplicering, endringsdeteksjon – er fortsatt kjedelig kode. Jeg prøvde å kjøre hele pipelinen gjennom en LLM-agent, og det fungerte en helg, deretter driftet den stille bort. Bruk AI på de uklare delene; hold de deterministiske delene deterministiske.