Julkisesta tietolähteestä 29 euron kuukausisyötteeksi

Kannettavan tietokoneen dataruudukko ja kommentoidut laskentataulukot kuvaamassa erikoistuneen datan keräämistä ja jälleenmyyntiä

Datan myyminen tilauksena on tylsin tekoälyn sivuhustle, jota olen pyörittänyt – ja se tuottaa puhtaimman katteen. Tuote ei ole näyttävä chatbot vaan taulukko, joka päivittyy aikataulun mukaan ja ilmestyy ostajan sähköpostiin tai API:in. Botti on pieni, lakisuodatin tiukka ja asiakasluettelo lyhyt mutta uskollinen. Rakensin omani neljässä viikonlopussa, ja se on pyörinyt lähes koskeamattomana viisi kuukautta. Tässä kerron, miten valitsen nichen, pidän toiminnan laillisena ja hankin ensimmäiset maksavat asiakkaat.

Nichetesti ennen yhtään koodiriviä

Myytävillä datasyötteillä on kolme ominaisuutta: lähde on julkinen, data muuttuu riittävän usein perustellakseen tilauksen, ja ostajat maksavat jo jollekin rumemmasta versiosta. Hylkään kaiken, mikä epäonnistuu edes yhdessä näistä. Listaan ehdokkaat lähettämällä kahden rivin myyntipuheen alan foorumeille ja pieniin subredditeihin – sama suodatin kuin tekoälychatbot-tilauksessani. Jos en saa vähintään neljää vakavaa vastausta 72 tunnissa, niche kuolee siihen paikkaan. Syötteen rakentaminen, jota kukaan ei pyytänyt, on se epäonnistumistapa, jota en halua toistaa.

Lakitarkistuslista, jota en ylitä

Tämä on vaihe, joka tappaa useimmat projektit – aiheesta. Ennen kuin kirjoitan yhtään koodiriviä bottiin, vastaan viiteen kysymykseen lähteestä. Onko data kirjautumisen takana? Kieltävätkö käyttöehdot automaattisen käytön? Sulkeeko robots.txt haluamani polut? Ylittääkö indeksointinopeuteni sen, mitä kohtelias käyttäjäagentti tekisi? Paljastaako tuloste henkilötietoja tavalla, jota alkuperäinen julkaisija ei tee? Jos mikään vastaus tuntuu epämukavalta, siirryn seuraavaan ehdokkaaseen. Pidän kirjallista päivättyä kirjanpitoa jokaisesta lähteestä, jotta voin osoittaa tarkastuksen suoritetuksi, jos riita koskaan nousee pintaan. Oikeudellinen hygienia täällä liittyy samaan paperijälkeen kuin domain-flippauksessa – tylsä dokumentaatio pelastaa myöhemmin.

Teknologiapino, tarkoituksella pienenä

Yksi pieni VPS 6 euroa kuukaudessa, Python requests- ja selectolax-kirjastoilla jäsentämiseen, SQLite tilaa varten, kiertävä asuntoverkkovälityspalvelinpool 15 euroa kuukaudessa, yksi cron-tehtävä 60 minuutin välein. Ei Kafkaa, ei jonoja, ei mikropalveluja. Infrastruktuurikulut yhteensä 21 euroa kuukaudessa. Tekoäly astuu kuvaan kahdessa kohdassa: ensiksi poimintaselektoreiden luomisessa mallisivulta, mikä säästää ehkä kolme tuntia; toiseksi epäsiistien vapaatekstikenttien, kuten yritysnimet ja sijainnit, normalisoinnissa. Botti itsessään on 380 riviä determinististä Pythonia. Tylsää koodia, helppo debugata klo 23 kun jokin hajoaa.

  1. Hae listasivu, vertaa viimeiseen tilannekuvaan, poimi uusien kohteiden URL-osoitteet.
  2. Hae kukin uusi kohde, jäsennä kentät, validoi tyypit.
  3. Normalisoi vapaateksti halvalla LLM-kutsulla, rajoita kustannus 0,002 euroon per rivi.
  4. Deduplikoi SQLiteä vasten normalisoidun hyötykuorman hashilla.
  5. Lisää päivittäiseen CSV:hen, toimita tilaajille sähköpostitse sekä pienen JSON-päätepisteen kautta.

Hinnoittelu, paketointi ja ensimmäiset 14 ostajaa

Hinnoittelin 29 euroon kuukaudessa heti alusta, ilman ilmaista kokeilujaksoa. Ilmainen kokeilu olisi tuonut ikkunaostajia, ja tämä tuote elää ostajista, jotka tietävät jo kivun. Kolme ensimmäistä tilaajaa tuli samalta foorumilta, jossa testasin myyntipuheen. Seuraavat kahdeksan tuli yhdestä kylmäsähköpostierästä, jonka lähetin 40 pienelle toimistolle, jotka selvästi tekivät saman työn käsin. Vastausprosentti oli 28, kauppojen sulkemisprosentti vastauksista 25. Loput kolme löysivät minut haun kautta kahden lyhyen kirjoitelman jälkeen. Tulo kuukaudella viisi: 406 euroa kuukaudessa, kulut 21 infrastruktuuria plus noin 85 euroa tokeni- ja välityspalvelinkuluja raskaimmalla kuukaudella, nettokate noin 300 euroa. Se on 74 prosentin kate tuotteelle, joka vaatii minulta noin 90 minuuttia viikkohuoltoa. Yksikkötalous on lähempänä maksullista uutiskirjettäni kuin useimpia tekoäly-wrapper-projekteja.

Ylläpito – se osa, jota kukaan ei näytä myyntisivullaan

Joka tiistai-ilta avaan dashboardin, selaan virhelokin ja korjaan mitä on muuttunut. Viidessä kuukaudessa olen koskenut selektoreihin neljä kertaa. Kaksi oli pieniä ulkoasumuutoksia lähteessä, yksi oli hiljainen 403-virhe, joka vaati uuden käyttäjäagenttikiertymän, yksi oli rikkova skeemamuutos, joka maksoi minulle kokonaisen illan. Budjetoin 90 minuuttia viikossa ja käytän keskimäärin noin 60. Ilman tätä kiinteää aikapaikkaa syöte mätänisi kvartaalissa – se on epäonnistumistapa, josta varoitan tekoälyn sivutulot -hubissa.

Johnin harvinainen vinkki

Myy skeema, älä scrappaus

Ostajia ei kiinnosta, että scrapaat. Heitä kiinnostaa, että tulosteesi on puhdas, vakaa skeema, jonka he voivat pudottaa suoraan omiin työkaluihinsa ilman sarakkeiden uudelleennimeämistä. Julkaisen skeeman myyntisivulla esimerkkiCSV:n ja pienen JSON Schema -tiedoston kera. Tuo yksityiskohta sulki vähintään kolme kymmenestä ensimmäisestä tilaajastani, jotka olivat aiemmin polttaneet sormensa syötteeseen, joka muutti sarakkeita varoittamatta. Yksisivuinen skeemadokumentti on arvokkaampaa kuin mikään laskeutumissivun teksti, jonka voisin kirjoittaa.

Mitä välttäisin

Älä scrappaa mitään, mikä vaatii tunnistautumisen, vaikka se näyttäisi helpolta. Kerran kun lipsuin tästä säännöstä lähteellä, jolla oli hyvin ohut kirjautumisseinä, menetin viikon väitellessäni julkaisijan kanssa ja jouduin hyvittämään kahden tilaajan maksut. Kapea julkinen lähde vaatimattomalla volyymillä voittaa rikkaan portatun lähteen oikeudellisilla riskeillä joka kerta. Jos ainoa tapa rakentaa syöte on kirjautumisen takana, rakenna eri syöte.

Usein kysyttyä

Onko julkisten tietojen scrappaus laillista?

Julkiset tiedot ilman kirjautumista ja ilman automatisoitua käyttöä kieltäviä napsautusehtopalveluehtoja ovat turvallista aluetta useimmissa lainkäyttöalueissa. Kirjautumisen takana olevan datan scrappaus, nopeusrajoitusten kiertäminen tai robots.txt-poissuljentien sivuuttaminen vie nopeasti pois tältä alueelta. Pidän yhden sivun oikeudellisen tarkistuslistan jokaisesta lähteestä enkä hyväksy syötettä, joka ei vastaa myöntävästi jokaiseen kohtaan.

Kuinka paljon kapean alan syötteestä voi oikeasti laskuttaa?

Syötteeni hinta on 29 euroa kuukaudessa 14 maksavalle tilaajalle – 406 euroa toistuvaa kuukausituloa. Yleinen uutissyöte ei selviäisi sillä hinnalla; kapean alan syöte 60 minuutin tuoreudella ja puhtaalla skeemalla kyllä. Ostajat ovat lähes aina pieniä toimistoja tai yhden hengen tutkimustiimejä, jotka arvostavat säästettyä aikaa, eivät raakaa dataa.

Voiko tekoäly korvata koko scrappausputkiston?

Tekoäly kirjoittaa poimintakehotukset ja normalisoi epäsiistejä kenttiä, mutta putkisto (ajoitus, uudelleenyritykset, deduplikointi, muutoksentunnistus) on silti tavanomaista koodia. Yritin ajaa koko putken LLM-agentin läpi – se toimi viikonlopun sitten hiljaa ajautui pois radaltaan. Käytä tekoälyä epämääräisiin osiin, pidä deterministiset osat deterministisinä.