Egy nyilvános adatforrás átalakítása 29 eurós havi feeddé

Az adatok előfizetésként való értékesítése a legunalmasabb MI-mellékkereset, amit futtattam, és ez az, amelyik a legtisztább marzsot nyomja. A termék nem egy látványos chatbot, hanem egy táblázat, amely ütemezetten frissül, és a vevő postaládájába vagy API-jába érkezik. A crawler kicsi, a jogi szűrő szigorú, és az ügyféllista rövid és hűséges. Az enyémet négy hétvégén építettem, és öt hónapja jórészt érintetlenül fut. Íme, hogyan választom a rést, hogyan tartom jogszerűen, és hogyan szerzem meg az első fizető ügyfeleket.
A rés teszt, mielőtt egy sor kódot is írnál
Egy eladható adatfeednek három tulajdonsága van: a forrás nyilvános, az adat elég gyakran változik ahhoz, hogy előfizetést indokoljon, és a vevők már fizetnek valakinek egy csúnyább verzióért. Kizárok mindent, ami akár egynek sem felel meg. A jelölteket rövid listára veszem úgy, hogy egy kétsoros pitchet teszek iparági fórumokba és kisebb subreddit-ekre — ugyanaz a szűrő, amit az MI-chatbot előfizetésemnél használok. Ha 72 óra alatt nem kapok legalább négy komoly választ, a rés azonnal meghal. Olyan feedet építeni, amit senki sem kért, az a hibamód, amit nem ismételek meg.
A jogi checklist, amit nem lépek át
Ez a lépés öli meg a legtöbb projektet, és joggal. Mielőtt egyetlen sor crawler-kódot is írnék, öt kérdésre válaszolok a forrásról. Bejelentkezés mögött van az adat? A felhasználási feltételek tiltják az automatizált hozzáférést? A robots.txt kizárja az útvonalakat, amiket szeretnék? A crawl-rátám meghaladja azt, amit egy udvarias user agent tenne? A kimenet úgy tár fel személyes adatot, ahogy az eredeti kiadó nem? Ha bármelyik válasz kényelmetlen, továbblépek a következő jelöltre. Forrásonként írásos nyilvántartást vezetek, dátumozva, hogy ha valaha vita merülne fel, bizonyítani tudjam az ellenőrzést. A jogi higiénia itt átfedi a domainflippelésnél vezetett papírnyomot; az unalmas dokumentáció később megment.
A stack, szándékosan kicsire szabva
Egy kis VPS havi 6 euróért, Python requests-szel és selectolax-szal a parseoláshoz, SQLite az állapothoz, rotáló lakossági proxypool havi 15 euróért, egyetlen cron-job 60 percenként. Nincs Kafka, nincsenek sorok, nincsenek mikroszolgáltatások. Az infrastruktúra teljes költsége havi 21 euró. Az MI pontosan két helyen lép be: először, a kinyerő szelektorok piszkozatát készíti el egy minta oldalról, ami talán három órát megspórol; másodszor, normalizálja a rendetlen szabadszöveges mezőket, mint a cégnevek és a helyszínek. Maga a crawler 380 sornyi determinisztikus Python. Unalmas kód, könnyen debugolható este 11-kor, amikor valami eltörik.
- Lista oldal lekérése, összevetés az utolsó snapshottal, új elem-URL-ek kinyerése.
- Minden új elem lekérése, mezők parseolása, típusok validálása.
- Szabadszöveg normalizálása olcsó LLM-hívással, költséghatár 0,002 euró/sor.
- Deduplikáció SQLite-ban a normalizált payload hash-e alapján.
- Hozzáfűzés napi CSV-hez, eljuttatás az előfizetőkhöz e-mailben és egy kicsi JSON-végponton.
Árazás, csomagolás és az első 14 vevő
29 eurós havi árral indultam az első naptól, ingyenes próba nélkül. Egy ingyenes próba kirakatnézőket hozott volna, és ez a termék azokból él, akik már ismerik a fájdalmat. Az első három előfizető ugyanabból a fórumból jött, ahol a pitchet teszteltem. A következő nyolc egyetlen cold email kör eredménye volt, amit 40 kis ügynökségnek küldtem, akik nyilvánvalóan ugyanezt a munkát csinálták kézzel. Válaszadási arány 28 százalék, zárási arány a válaszokon 25 százalék. A maradék három keresőmotoron keresztül talált meg két rövid írásom után. Bevétel az ötödik hónapban: 406 euró havonta, költségek 21 euró infrastruktúra plusz nagyjából 85 euró token- és proxyhasználat a legnehezebb hónapban, nettó marzs körülbelül 300 euró. Ez 74 százalékos marzs egy olyan terméken, amely heti körülbelül 90 perc karbantartást igényel. Az egységgazdaságtan közelebb áll a fizetős hírlevelemhez, mint a legtöbb MI-wrapper játékhoz. Magyarországon KATA vagy átalányadós egyéni vállalkozóként futtatom a számlázást, a NAV felé tisztán könyvelve.
Karbantartás, amit egy értékesítési oldal sem mutat
Minden kedd este megnyitom a dashboardot, átfutom a hibalogot, és megfoltozom, ami változott. Öt hónap alatt négyszer nyúltam a szelektorokhoz. Kettő apró elrendezési módosítás volt a forráson, egy csendes 403, amihez új user agent rotáció kellett, egy pedig egy törő sémaváltás, ami egy egész estémbe került. Hetente 90 percet tervezek, és átlagosan körülbelül 60-at használok. Ez a rögzített sáv nélkül a feed egy negyedév alatt megrohadna, ez az a hibamód, amire az MI mellékkeresetek hub figyelmeztet.
A sémát add el, ne a scrapelést
A vevőket nem érdekli, hogy scrapelsz. Az érdekli őket, hogy a kimeneted tiszta, stabil séma, amit oszlopok átnevezése nélkül tudnak a saját eszközeikbe ejteni. A sémát az értékesítési oldalon publikálom egy példa CSV-vel és egy apró JSON Schema fájllal. Ez az egy részlet zárta le az első tíz előfizetőm közül legalább hármat, akiket egy korábbi feed figyelmeztetés nélküli oszlopváltozása égetett meg. Egy egyoldalas sémadokumentum többet ér, mint bármilyen landing szöveg, amit írni tudnék.
Ne scrapelj semmit, ami hitelesítést igényel, még akkor sem, ha könnyűnek tűnik. Amikor egyszer meghajlítottam ezt a szabályt egy nagyon vékony bejelentkezéses falú forrásnál, egy hetet vitatkoztam a kiadóval, és két előfizetőt kellett visszatérítenem. Egy szűk nyilvános forrás szerény volumennel minden alkalommal legyőz egy gazdag, kapuzárt forrást jogi kockázattal. Ha a feedet csak bejelentkezés mögül lehet felépíteni, akkor építs másik feedet.
Gyakori kérdések
Jogszerű-e nyilvános adatokat scrapelni?
A bejelentkezés mögött nem lévő, clickwrap-feltétel nélküli nyilvános adat a legtöbb joghatóságban biztonságos zóna. Bejelentkezés mögötti scrapelés, rate limit megkerülése vagy egy robots.txt tiltás figyelmen kívül hagyása gyorsan kivisz ebből a zónából. Forrásonként egyoldalas jogi checklistet vezetek, és elutasítok minden olyan feedet, amely nem tud minden sorra igennel válaszolni.
Mennyit lehet valójában kérni egy szűk rés feedért?
A feedem havi 29 euró 14 fizető előfizetőnél, 406 euró ismétlődő bevétel. Egy általános hírfeed nem élne túl ezen az áron; egy szűk iparági feed 60 perces frissességgel és tiszta sémával igen. A vevők szinte mindig kis ügynökségek vagy egyszemélyes kutatói asztalok, akik a megspórolt időt értékelik, nem a nyers adatot.
Helyettesítheti az MI a scrapelési pipeline-t?
Az MI megírja a kinyerő promptokat és normalizálja a rendetlen mezőket, de a csövezés (ütemezés, újrapróbálás, deduplikáció, változásdetektálás) továbbra is unalmas kód. Megpróbáltam a teljes pipeline-t egy LLM-ügynökön átfuttatni, egy hétvégéig ment, aztán csendben elsodródott. Az MI-t a fuzzy részekhez használd, a determinisztikus részeket tartsd determinisztikusnak.