Avaliku andmeallika muutmine 29-euroseks kuuvooks

Andmete müümine tellimusena on igavaim tehisaru kõrvaltulu, mida olen ajanud, ja see on kõige puhtama marginaaliga. Toode ei ole mitte uhke vestlusrobot, vaid arvutustabel, mis ajakava alusel uueneb ja maandub ostja postkasti või API-sse. Robot on väike, juriidiline filter range ja kliendinimekiri lühike ning lojaalne. Ehitasin oma lahenduse nelja nädalavahetusega ja see on viis kuud töötanud peaaegu puutumatult. Siit saad teada, kuidas nišši valis, kuidas seaduslikust piirist kinnipidamist tagatsin ja kuidas esimesed maksavad kliendid leidsin.
Nišitest enne ühtegi koodirida
Müüdaval andmevool on kolm omadust: allikas on avalik, andmed muutuvad piisavalt sageli, et tellimuseks õigustada, ning ostjad maksavad juba kellegi käest sama asja inelekantsemat versiooni. Keeldun kõigest, mis ei vasta isegi ühele neist. Kandidaate valin lihtsa kahe-realise pigi postitamisega tööstusharu foorumites ja väikestes subredditites – sama filter, mida kasutan oma tehisaru vestlusroboti tellimuse puhul. Kui ma ei saa 72 tunniga vähemalt nelja tõsist vastust, sureb niši kohapeal. Voo ehitamine, mida keegi ei küsinud, on see ebaõnnestumise viis, mida ei ole nõus kordama.
Juriidiline kontrollnimekiri, mida ei ületa
See on samm, mis tapab enamiku projekte, ja õigusega. Enne kui kirjutan ühtegi roboti koodirida, vastan viiele küsimusele allika kohta. Kas andmed on sisselogimise taga? Kas kasutustingimused keelavad automaatse juurdepääsu? Kas robots.txt välistab soovitud teed? Kas minu kraapimiskiirus ületab viisakas kasutajaagendis oodatavat? Kas väljund paljastab isikuandmeid viisil, mida algne avaldaja ei tee? Kui mõni vastus tekitab ebamugavust, liigun järgmise kandidaadi juurde. Pean iga allika kohta kirjalikku dokumenti koos kuupäevaga, et vaidluse korral saaksin tõendada kontrolli teostamist. Siin kattub juriidiline hügieen paberimajandusega, mida piiriülesel domeeniflippimisel pean; igav dokumentatsioon päästab hiljem.
Tehniline lahendus, tahtlikult väike
Üks väike VPS 6 euro eest kuus, Python koos requests-i ja selectolaxiga sõelumiseks, SQLite oleku jaoks, pöörduv residentne puhverserveri pool 15 eurot kuus, üks cron-töö iga 60 minuti järel. Ei Kafkat, ei järjekordi, ei mikroteenuseid. Taristu kogukulu on 21 eurot kuus. Tehisaru siseneb täpselt kahes kohas: esiteks eraldusselektor näidislehelt, mis säästab umbes kolm tundi; teiseks segaste vabatekstiväljade (nagu ettevõtte nimed ja asukohad) normaliseerimine. Robot ise on 380 rida deterministlikku Pythonit. Igav kood, mida on kl 23 lihtne siluda, kui midagi katki läheb.
- Tõmba nimekirjaleht, võrdle viimase hetktõmmisega, eralda uute üksuste URL-id.
- Tõmba iga uus üksus, sõelu väljad, valideeri tüübid.
- Normaliseeri vabatekst odava LLM-kutsega, piira kulu 0,002 euroni rea kohta.
- Eemalda duplikaadid SQLite-st normaliseeritud koorma räsi alusel.
- Lisa päevasesse CSV-sse, saada tellijatele e-posti ja väikese JSON-otspunkti kaudu.
Hinnakujundus, pakendamine ja esimesed 14 ostjat
Hinnastasin esimesest päevast 29 eurot kuus, ilma tasuta prooviversioonita. Tasuta prooviversioon oleks toonud kaasa vaatajaid-mitte-ostjaid, ning see toode elab ostjatest, kes teavad juba valu. Esimesed kolm tellijat tulid samast foorumist, kus pigin testisin. Järgmised kaheksa tulid ühest külmast meilisaadetisest, mille saatsin 40 väikeagentuurille, kes tegid selgelt sama tööd käsitsi. Vastamismäär oli 28 protsenti, sulgumismäär vastustest 25 protsenti. Ülejäänud kolm leidsid mind otsingu kaudu pärast kahte lühikest kirjutist, mille avaldasin. Tulu viiendal kuul: 406 eurot kuus, kulud 21 eurot taristu pluss ligikaudu 85 eurot tokenite ja puhverserveri kasutust raskeimal kuul, puhas marginaal umbes 300 eurot. See on 74-protsendine marginaal toote pealt, mille hooldamine võtab mul umbes 90 minutit nädalas. Ühiku ökonoomika on lähemal minu tasulisele uudiskirjale kui enamikule tehisaru ümbrislahendusele.
Hooldus – osa, mida müügilehel kunagi ei näidata
Iga teisipäeva õhtul avan armatuurlaua, vaatan vealogikat ja parandan mis muutus. Viie kuu jooksul olen selektor-seadistust muutnud neli korda. Kaks olid allika väikesed kujundusmuudatused, üks oli vaikne 403-viga, mis nõudis uut kasutajaagendi rotatsiooni, üks oli murduv skeemimuutus, mis maksis terve õhtu. Eelarvestasin 90 minutit nädalas ja kasutan keskmiselt umbes 60. Ilma selle fikseeritud ajaslotita mädaneb voog ühe kvartali jooksul – see on see ebaõnnestumisviis, millest hoiatan tehisaru kõrvaltulude koondlehel.
Müü skeemi, mitte kraapimist
Ostjaid ei huvita, et kraabid. Neid huvitab, et sinu väljund on puhas, stabiilne skeem, mille saab oma tööriistadesse sisestada ilma veerge ümber nimetamata. Avaldan skeemi müügilehel koos näidis-CSV ja väikese JSON Schema failiga. See üks detail sulges vähemalt kolm minu esimesest kümnest tellijast, kes olid põletud eelmisest voost, mis muutis veerge hoiatamata. Üheleheküljeline skeemidokument on väärt rohkem kui ükski maandumislehe tekst, mida suudaksin kirjutada.
Ära kraabi midagi, mis nõuab autentimist, isegi kui see tundub lihtne. Ainsal korral, kui painutasin seda reeglit – allika puhul, millel oli väga õhuke sisselogimisbarjäär – kaotasin nädala avaldajaga vaidlemisele ja pidin kahele tellijale raha tagastama. Kitsas avalik allikas mõõduka mahuga võidab rikka ligipääsupiiratud allika juriidilise riskiga alati. Kui ainuke viis voogu ehitada on sisselogimise taga, ehita teine voog.
Korduvad küsimused
Kas avalike andmete kraapimine on seaduslik?
Avalikud andmed ilma sisselogimiseta ja ilma automaatset juurdepääsu keelava nõustumisklauslita on enamikus jurisdiktsioonides turvaline ala. Sisselogimise taha kraapimine, kiiruspiirangute eiramine või robots.txt keeldude ignoreerimine viib sind sellest alast kiiresti välja. Pean iga allika kohta üheleheküljelist juriidilist kontrollnimekirja ja keeldun igast voost, mis ei saa kõigile ridadele "jah" vastata.
Kui palju saab nišivoo eest tegelikult küsida?
Minu voog on 29 eurot kuus, 14 maksvat tellijat – korduv tulu 406 eurot. Üldine uudistevoog ei elaks selle hinnaga; kitsas tööstusharu andmevoog 60-minutilise värskusega ja puhta skeemiga suudab. Ostjad on peaaegu alati väikeagentuurid või ühe inimese uurimislauad, kes hindavad säästetud aega, mitte toore andmeid.
Kas tehisaru saab kraapimistorustiku asendada?
Tehisaru kirjutab eralduspromptid ja normaliseerib segaseid välju, kuid torutöö (ajastamine, korduskatsed, duplikaatide eemaldamine, muutuste tuvastamine) on endiselt tavaline kood. Proovisin kogu torustikku LLM-agendi kaudu käitada – töötas ühe nädalavahetuse, siis vajus vaikselt alla. Kasuta tehisaru ebamääraseks osaks, hoia deterministlikud osad deterministlikena.