Premena verejného dátového zdroja na mesačný feed za 29 eur

Dátová mriežka laptopu a anotované tabuľky predstavujúce výklenkové škrabanie dát a ďalší predaj

Predaj dát ako predplatné je najnudnejší vedľajší zárobkový projekt s AI, aký som realizoval, a zároveň ten s najčistejšou maržou. Produkt nie je okázalý chatbot — je to tabuľka, ktorá sa podľa plánu obnovuje a pristane v schránke alebo API odberateľa. Crawler je malý, právny filter prísny a zoznam zákazníkov krátky a lojálny. Postavil som ho za štyri víkendy a od tej doby beží takmer bez zásahu päť mesiacov. Tu je návod, ako vyberám výklenok, ako zostávam v legálnych medziach a ako získavam prvých platiacich zákazníkov.

Test výklenku, skôr ako napíšem akýkoľvek kód

Predajný dátový feed má tri vlastnosti: zdroj je verejný, dáta sa menia dostatočne často, aby predplatné malo zmysel, a kupujúci už niekomu platia za jeho ošklivejšiu verziu. Čokoľvek, čo nesplní čo len jednu z týchto podmienok, automaticky vyraďujem. Kandidátov vyberám zverejnením dvojriadkového pitchu v odvetvových fórach a malých subredditoch — rovnaký filter ako pri mojom AI chatbot predplatnom. Ak nezískam aspoň štyri vážne odpovede za 72 hodín, výklenok na mieste zomrie. Budovať feed, o ktorý nikto nepožiadal, je chyba, ktorú odmietam opakovať.

Právna kontrolná listina, ktorú neprekročím

Toto je krok, ktorý väčšinu projektov zabije — a oprávnene. Skôr ako napíšem jediný riadok kódu crawlera, odpoviem si na päť otázok o zdroji. Sú dáta za prihlásením? Zakazujú podmienky služby automatizovaný prístup? Vylučuje robots.txt cesty, ktoré chcem? Presahuje moja rýchlosť crawlovania to, čo by robil zdvorilý používateľský agent? Odhaľuje výstup osobné údaje spôsobom, ktorý pôvodný vydavateľ nezverejňuje? Ak je akákoľvek odpoveď nepohodlná, prechadzám na ďalšieho kandidáta. Pre každý zdroj vediem písomný záznam s dátumom, aby som v prípade sporu mohol preukázať kontrolu. Právna hygiena tu sa prekrýva s papierovou stopou, ktorú vediem pri predaji domén — nudná dokumentácia vás zachráni neskôr.

Zásobník nástrojov, zámerne malý

Jeden malý VPS za 6 eur mesačne, Python s requests a selectolax na parsovanie, SQLite na stav, rotujúci pool rezidenčných proxy za 15 eur mesačne, jeden cron job každých 60 minút. Žiadny Kafka, žiadne fronty, žiadne mikroslužby. Celkové náklady na infraštruktúru sú 21 eur mesačne. AI vstupuje presne na dvoch miestach: po prvé, návrh extrakčných selektorov zo vzorkovej stránky, čo ušetrí asi tri hodiny; po druhé, normalizácia neporiadnych textových polí ako názvy spoločností a lokality. Samotný crawler má 380 riadkov deterministického Pythonu. Nudný kód, ľahko laditeľný o 23:00, keď niečo prestane fungovať.

  1. Načíta sa zoznamová stránka, porovná sa s poslednou snímkou, extrahujú sa nové URL položiek.
  2. Načíta sa každá nová položka, naparsujú sa polia, overia sa typy.
  3. Normalizácia voľného textu lacným LLM volaním, náklad obmedzený na 0,002 eura na riadok.
  4. Deduplikácia oproti SQLite pomocou hashu normalizovaného obsahu.
  5. Pridanie do denného CSV, odoslanie odberateľom e-mailom a cez malý JSON endpoint.

Cenník, balenie a prvých 14 kupujúcich

Od prvého dňa som stanovil cenu 29 eur mesačne bez bezplatného skúšobného obdobia. Bezplatná skúška by pritiahla okukujúcich záujemcov a tento produkt prežíva vďaka kupujúcim, ktorí bolesť problému už poznajú. Prví traja odberatelia prišli z toho istého fóra, kde som testoval pitch. Ďalších osem prišlo z jednej hromadnej studenej e-mailovej kampane, ktorú som rozoslal 40 malým agentúram, ktoré zjavne robili tú istú prácu ručne. Miera odpovedí bola 28 percent, miera uzavretia z odpovedí 25 percent. Zostávajúci traja ma našli cez vyhľadávanie po dvoch krátkych textoch, ktoré som zverejnil. Príjmy v piatom mesiaci: 406 eur mesačne, náklady 21 eur infraštruktúra plus asi 85 eur na tokeny a proxy v najťažšom mesiaci, čistá marža okolo 300 eur. To je 74-percentná marža na produkte, ktorý mi zaberá asi 90 minút týždennej údržby. Jednotková ekonómia sa viac podobá môjmu platenému newsletteru ako väčšine AI wrapper projektov.

Údržba, časť, ktorú nikto neukazuje na predajnej stránke

Každý utorok večer otvorím dashboard, prezriem chybový log a opravím, čo sa zmenilo. Za päť mesiacov som upravil selektory štyrikrát. Dve boli menšie zmeny rozloženia na zdroji, jedna bola tichá chyba 403, ktorá si vyžiadala novú rotáciu user agentov, jedna bola zásadná zmena schémy, ktorá ma stála celý večer. Rozpočtujem 90 minút týždenne a v priemere spotrebujem asi 60. Bez tohto pevného časového bloku by feed zhnilo za štvrť roka, čo je chyba, pred ktorou varujem na hub AI vedľajších zárobkov.

Johnov vzácny tip

Predávajte schému, nie scrape

Kupujúcich nezaujíma, že scrapujete. Zaujíma ich, aby váš výstup bol čistá, stabilná schéma, ktorú môžu priamo zapojiť do vlastných nástrojov bez premenovávania stĺpcov. Schému zverejňujem na predajnej stránke s ukážkovým CSV a malým súborom JSON Schema. Tento jediný detail uzavrel aspoň troch z mojich prvých desiatich odberateľov, ktorých predchádzajúci feed poškodil zmenou stĺpcov bez varovania. Jednostranný dokument so schémou má väčšiu hodnotu ako akýkoľvek predajný text, ktorý by som mohol napísať.

Čomu by som sa vyhol

Nescrapujte nič, čo vyžaduje autentifikáciu, aj keby to vyzeralo jednoducho. Raz, keď som toto pravidlo porušil na zdroji s veľmi tenkou prihlasovacou stenou, stratil som týždeň hádaním sa s vydavateľom a musel som vrátiť peniaze dvom odberateľom. Úzky verejný zdroj s miernym objemom poráža bohatý uzamknutý zdroj s právnym rizikom vždy a za každých okolností. Ak sa feed dá postaviť iba za prihlásením, postavte iný feed.

Často kladené otázky

Je škrabanie verejných dát legálne?

Verejné dáta bez prihlásenia a bez podmienok clickwrap zakazujúcich automatizovaný prístup sú bezpečnou zónou vo väčšine jurisdikcií. Škrabanie za prihlásením, obchádzanie obmedzení rýchlosti alebo ignorovanie vylúčení v robots.txt vás z tejto zóny rýchlo vyvedú. Pre každý zdroj vediem jednostrannú právnu kontrolnú listinu a odmieta akýkoľvek feed, ktorý nedokáže odpovedať áno na každý jej bod.

Koľko môžete skutočne účtovať za výklenkový feed?

Môj feed je za 29 eur mesačne pre 14 platiacich odberateľov, čo je 406 eur opakujúcich sa príjmov. Všeobecný spravodajský feed by pri takejto cene neprežil; úzky odvetvový feed s čerstvosťou 60 minút a čistou schémou áno. Kupujúcimi sú takmer vždy malé agentúry alebo jednotlivci na výskumných pozíciách, ktorí oceňujú ušetrený čas, nie surové dáta.

Môže AI nahradiť scrapovací pipeline?

AI píše extrakčné výzvy a normalizuje neporiadne polia, ale potrubí (plánovanie, opakovanie, deduplikácia, detekcia zmien) je stále nudný kód. Skúsil som celý pipeline spustiť cez LLM agenta — cez víkend to fungovalo, potom ticho odišlo do straty. Použite AI na nejasné časti, deterministické časti nechajte deterministickými.