Publiska datu avota pārvēršana par 29 eiro ikmēneša plūsmu

Klēpjdatora datu režģis un anotētas tabulas, kas simbolizē nišas datu skrāpēšanu un tālākpārdošanu

Datu pārdošana kā abonēšana ir visgarlaicīgākā AI papildu nodarbe, ko esmu vadījis, un tā ir tā, kas rada tīrāko peļņas normu. Produkts nav spožs čatbots, tā ir izklājlapa, kas atsvaidzinās pēc grafika un nonāk pircēja iesūtnē vai API. Pārmeklētājs ir mazs, juridiskais filtrs ir stingrs, un klientu saraksts ir īss un lojāls. Savu izveidoju četrās nedēļas nogalēs, un tas darbojas lielākoties neaiztikts piecus mēnešus. Lūk, kā izvēlos nišu, kā saglabāju to likumīgu un kā piesaistu pirmos maksājošos klientus.

Nišas tests, pirms jebkāda koda

Pārdodamai datu plūsmai ir trīs īpašības: avots ir publisks, dati mainās pietiekami bieži, lai attaisnotu abonēšanu, un pircēji jau maksā kādam par neglītāku tās versiju. Es izslēdzu visu, kas neatbilst kaut vienai no tām. Kandidātus atlasu, publicējot divu rindu piedāvājumu nozares forumos un mazos subreddit, tas pats filtrs, ko izmantoju savai AI čatbotu abonēšanai. Ja 72 stundās nesaņemu vismaz četras nopietnas atbildes, niša mirst uz vietas. Būvēt plūsmu, ko neviens neprasīja, ir kļūdas režīms, ko atsakos atkārtot.

Juridiskais kontrolsaraksts, ko nešķērsošu

Šis ir solis, kas nogalina vairākumu projektu, un pamatoti. Pirms uzrakstu pārmeklētāja koda rindu, atbildu uz pieciem jautājumiem par avotu. Vai dati ir aiz pieteikšanās? Vai pakalpojuma noteikumi aizliedz automatizētu piekļuvi? Vai robots.txt izslēdz ceļus, ko vēlos? Vai mans pārmeklēšanas ātrums pārsniedz to, ko darītu pieklājīgs lietotājs? Vai izvade atklāj personas datus tādā veidā, kā sākotnējais izdevējs to nedara? Ja kāda atbilde ir neērta, pārvietojos uz nākamo kandidātu. Saglabāju rakstisku ierakstu par katru avotu, datētu, lai, ja kādreiz parādīsies strīds, varētu pierādīt pārbaudi. Juridiskā higiēna šeit pārklājas ar papīra taku, ko uzturu domēnu pārdošanai; garlaicīga dokumentācija vēlāk jūs glābs.

Tehnoloģiju kaudze, apzināti maza

Viens mazs VPS par 6 eiro mēnesī, Python ar requests un selectolax parsēšanai, SQLite stāvoklim, rotējošs dzīvojamo starpniekserveru fonds par 15 eiro mēnesī, viens cron uzdevums ik pēc 60 minūtēm. Nekāda Kafka, nekādas rindas, nekādi mikroservisi. Kopējās infrastruktūras izmaksas ir 21 eiro mēnesī. AI iesaistās tieši divās vietās: pirmkārt, ekstrakcijas selektoru izveide no parauga lapas, kas ietaupa varbūt trīs stundas; otrkārt, nekārtīgu brīva teksta lauku, piemēram, uzņēmumu nosaukumu un atrašanās vietu, normalizēšana. Pats pārmeklētājs ir 380 rindas deterministiska Python. Garlaicīgs kods, viegli atkļūdojams plkst. 23, kad kaut kas salūst.

  1. Iegūt saraksta lapu, salīdzināt ar pēdējo momentuzņēmumu, izvilkt jaunos vienumu URL.
  2. Iegūt katru jauno vienumu, parsēt laukus, validēt tipus.
  3. Normalizēt brīvu tekstu ar lētu LLM izsaukumu, ierobežot izmaksas līdz 0,002 eiro par rindu.
  4. Novērst dublikātus pret SQLite pēc normalizētās kravas hash.
  5. Pievienot dienas CSV, nosūtīt abonentiem pa e-pastu plus niecīgu JSON galapunktu.

Cenu noteikšana, iepakojums un pirmie 14 pircēji

Noteicu cenu 29 eiro mēnesī jau no pirmās dienas, bez bezmaksas izmēģinājuma. Bezmaksas izmēģinājums būtu atnesis logu skatītājus, un šis produkts izdzīvo no pircējiem, kas jau zina sāpes. Pirmie trīs abonenti nāca no tā paša foruma, kur testēju piedāvājumu. Nākamie astoņi nāca no vienas aukstas e-pasta partijas, ko nosūtīju 40 mazām aģentūrām, kas skaidri darīja to pašu darbu manuāli. Atbildes īpatsvars bija 28 procenti, slēgšanas īpatsvars uz atbildēm bija 25 procenti. Atlikušie trīs mani atrada caur meklēšanu pēc diviem īsiem rakstiem, ko publicēju. Ieņēmumi piektajā mēnesī: 406 eiro mēnesī, izmaksas 21 infrastruktūra plus aptuveni 85 eiro žetonu un starpniekserveru lietojuma smagākajā mēnesī, neto peļņas norma aptuveni 300 eiro. Tā ir 74 procentu peļņas norma produktam, kas man prasa aptuveni 90 minūtes nedēļā uzturēšanas. Vienības ekonomika ir tuvāka manam maksas jaunumu izdevumam nekā vairākumam AI saiņotāju projektu.

Uzturēšana, daļa, ko neviens nerāda pārdošanas lapā

Katru otrdienas vakaru atveru paneli, pārskatu kļūdu žurnālu un labošu to, kas mainījies. Piecos mēnešos esmu pieskāries selektoriem četras reizes. Divas bija nelielas izkārtojuma korekcijas avotā, viena bija klusa 403, kurai vajadzēja jaunu lietotāja aģenta rotāciju, viena bija shēmas izmaiņa, kas maksāja man pilnu vakaru. Plānoju 90 minūtes nedēļā un vidēji izmantoju aptuveni 60. Bez šī fiksētā laika plūsma satrūdētu ceturkšņa laikā, kas ir kļūdas režīms, par ko brīdinu AI papildu nodarbju centrā.

Džona retais padoms

Pārdodiet shēmu, nevis skrāpēšanu

Pircēji nerūpējas, ka jūs skrāpējat. Viņiem rūp, ka jūsu izvade ir tīra, stabila shēma, ko viņi var iekļaut savos rīkos, nepārdēvējot kolonnas. Publicēju shēmu pārdošanas lapā ar parauga CSV un niecīgu JSON Schema failu. Tā vienīgā detaļa noslēdza vismaz trīs no maniem pirmajiem desmit abonentiem, kurus bija apdedzinājusi iepriekšēja plūsma, kas mainīja kolonnas bez brīdinājuma. Vienas lapas shēmas dokuments ir vērtīgāks par jebkuru galvenās lapas tekstu, ko varētu uzrakstīt.

No kā izvairītos

Neskrāpējiet neko, kas prasa autentifikāciju, pat ja tas izskatās viegli. Vienīgā reize, kad pārkāpu šo noteikumu, par avotu, kuram bija ļoti plāna pieteikšanās siena, es zaudēju nedēļu strīdoties ar izdevēju un man bija jāatmaksā diviem abonentiem. Šaurs publisks avots ar mērenu apjomu pārspēj bagātīgu slēgtu avotu ar juridisku risku katru reizi. Ja vienīgais veids, kā izveidot plūsmu, ir aiz pieteikšanās, izveidojiet citu plūsmu.

Biežāk uzdotie jautājumi

Vai publisku datu skrāpēšana ir likumīga?

Publiski dati bez pieteikšanās un bez klikšķa nosacījumiem, kas aizliedz automatizētu piekļuvi, ir drošā zona vairumā jurisdikciju. Skrāpēšana aiz pieteikšanās, ātruma ierobežojumu apiešana vai robots.txt izslēgšanas ignorēšana ātri izved no šīs zonas. Es uzturu vienas lapas juridisko kontrolsarakstu katram avotam un atsakos no jebkuras plūsmas, kas nevar atbildēt "jā" uz katru rindu.

Cik daudz patiešām var prasīt par nišas plūsmu?

Mana plūsma ir 29 eiro mēnesī 14 maksājošiem abonentiem, 406 eiro atkārtotu ieņēmumu. Vispārīga ziņu plūsma pie tās cenas neizdzīvotu; šaura nozares plūsma ar 60 minūšu svaigumu un tīru shēmu — jā. Pircēji gandrīz vienmēr ir mazas aģentūras vai viencilvēka pētniecības galdi, kas novērtē ietaupīto laiku, nevis neapstrādātos datus.

Vai AI var aizstāt skrāpēšanas cauruļvadu?

AI raksta ekstrakcijas uzvednes un normalizē nekārtīgus laukus, bet santehnika (plānošana, atkārtotie mēģinājumi, dublikātu novēršana, izmaiņu atklāšana) joprojām ir garlaicīgs kods. Mēģināju visu cauruļvadu palaist caur LLM aģentu, un tas strādāja nedēļas nogali, tad klusi aizgāja. Izmantojiet AI izplūdušajām daļām, deterministiskās daļas turiet deterministiskas.