Jak zamienić publiczne źródło danych w miesięczny feed za 29 EUR

Sprzedaż danych jako subskrypcja to najbardziej nudny side hustle AI, który prowadziłem – i ten, który generuje najczystszą marżę. Produktem nie jest błyszczący chatbot, lecz arkusz kalkulacyjny odświeżający się zgodnie z harmonogramem i trafiający do skrzynki odbiorczej lub API kupującego. Crawler jest mały, filtr prawny jest surowy, a lista klientów jest krótka i lojalna. Zbudowałem swój w cztery weekendy i od pięciu miesięcy działa prawie bez zmian. Oto jak wybieram niszę, jak zachowuję zgodność z prawem i jak pozyskuję pierwszych płacących klientów.
Test niszowy, zanim napiszę jakikolwiek kod
Możliwy do sprzedania feed danych ma trzy cechy: źródło jest publiczne, dane zmieniają się wystarczająco często, by uzasadnić subskrypcję, a kupujący już płacą komuś za brzydszą wersję tych samych danych. Odrzucam wszystko, co nie spełnia choćby jednego z tych warunków. Kandydatów selekcjonuję, publikując dwuzdaniowy pitch na forach branżowych i małych subredditach – ten sam filtr, którego używam przy mojej subskrypcji chatbota AI. Jeśli w ciągu 72 godzin nie otrzymam co najmniej czterech poważnych odpowiedzi, nisza ginie na miejscu. Budowanie feeda, którego nikt nie zamawiał, to porażka, którą odmawiuję powtarzać.
Lista kontrolna prawna, której nie przekraczam
To krok, który niszczy większość projektów – i słusznie. Zanim napiszę jedną linię kodu crawlera, odpowiadam na pięć pytań dotyczących źródła. Czy dane są za loginem? Czy regulamin zabrania automatycznego dostępu? Czy robots.txt wyklucza ścieżki, które chcę crawlować? Czy moje tempo crawlowania przekracza to, co zrobiłby grzeczny user agent? Czy wynik ujawnia dane osobowe w sposób, w jaki oryginalny wydawca tego nie robi? Jeśli którakolwiek odpowiedź jest niekomfortowa, przechodzę do następnego kandydata. Prowadzę pisemną dokumentację per źródło, datowaną, aby w razie sporu móc udowodnić przeprowadzoną weryfikację. Higiena prawna tutaj pokrywa się z dokumentacją papierową, którą prowadzę przy flipowaniu domen; nudna dokumentacja ratuje cię później.
Stos technologiczny, celowo mały
Jeden mały VPS za 6 EUR miesięcznie, Python z requests i selectolax do parsowania, SQLite do zarządzania stanem, rotujący pulę proxy rezydencjalnych za 15 EUR miesięcznie, jeden cron job co 60 minut. Żadnego Kafki, żadnych kolejek, żadnych mikroserwisów. Całkowity koszt infrastruktury to 21 EUR miesięcznie. AI pojawia się dokładnie w dwóch miejscach: po pierwsze, przy tworzeniu selektorów ekstrakcji na podstawie przykładowej strony – oszczędza to może trzy godziny; po drugie, przy normalizacji nieporządnych pól tekstowych, takich jak nazwy firm i lokalizacje. Sam crawler ma 380 linii deterministycznego Pythona. Nudny kod, łatwy do debugowania o 23:00, gdy coś się posypie.
- Pobierz stronę listy, porównaj z ostatnim snapshotem, wyodrębnij nowe URL-e elementów.
- Pobierz każdy nowy element, sparsuj pola, zwaliduj typy.
- Normalizuj dowolny tekst tanią rozmową z LLM, ogranicz koszt do 0,002 EUR per wiersz.
- Deduplikuj względem SQLite na podstawie hasha znormalizowanego payloadu.
- Dołącz do dziennego CSV, wyślij subskrybentom e-mailem i przez mały endpoint JSON.
Wycena, pakietowanie i pierwsze 14 kupujących
Wyceniłem na 29 EUR miesięcznie od pierwszego dnia, bez darmowego okresu próbnego. Darmowy trial przyciągnąłby gapiów, a ten produkt utrzymuje się dzięki kupującym, którzy już znają ten ból. Pierwsi trzej subskrybenci przyszli z tego samego forum, gdzie testowałem pitch. Kolejnych ośmiu pozyskałem z jednej serii zimnych e-maili wysłanych do 40 małych agencji, które wyraźnie wykonywały tę samą pracę ręcznie. Wskaźnik odpowiedzi wyniósł 28%, wskaźnik konwersji na odpowiedzi – 25%. Pozostała trójka znalazła mnie przez wyszukiwarkę po dwóch krótkich artykułach, które opublikowałem. Przychody w piątym miesiącu: 406 EUR miesięcznie, koszty 21 EUR infrastruktury plus ok. 85 EUR na tokeny i proxy w najcięższym miesiącu, marża netto ok. 300 EUR. To marża 74% na produkcie, który zajmuje mi ok. 90 minut tygodniowo utrzymania. Ekonomia jednostkowa jest bliższa mojemu płatnemu newsletterowi niż większości projektów AI wrapper.
Utrzymanie, część, której nikt nie pokazuje na stronie sprzedażowej
W każdy wtorek wieczór otwieram dashboard, przeglądam log błędów i naprawiam to, co się zmieniło. W ciągu pięciu miesięcy cztery razy dotknąłem selektorów. Dwa przypadki to drobne zmiany układu na źródle, jeden to cichy błąd 403 wymagający nowej rotacji user agenta, jeden to poważna zmiana schematu, która kosztowała mnie cały wieczór. Planuję 90 minut tygodniowo, a zużywam średnio 60. Bez tego stałego okna feed zgniłby w ciągu kwartału – to właśnie porażka, przed którą ostrzegam na hubie AI Side Hustles.
Sprzedaj schemat, nie scrapa
Kupujących nie obchodzi, że scrapujesz. Zależy im na tym, by twój wynik był czystym, stabilnym schematem, który mogą wrzucić do własnych narzędzi bez konieczności zmiany nazw kolumn. Publikuję schemat na stronie sprzedażowej z przykładowym CSV i małym plikiem JSON Schema. Ten jeden szczegół zamknął co najmniej trzech z moich pierwszych dziesięciu subskrybentów, którzy wcześniej mieli złe doświadczenia z feedem zmieniającym kolumny bez ostrzeżenia. Jednostronicowy dokument schematu jest wart więcej niż jakikolwiek copywriting landing page'a, który mógłbym napisać.
Nie scrapuj niczego, co wymaga uwierzytelnienia – nawet jeśli wygląda łatwo. Jeden raz złamałem tę zasadę, przy źródle z bardzo cienką ścianą logowania, i straciłem tydzień na spór z wydawcą, a dwóm subskrybentom musiałem zwrócić pieniądze. Wąskie publiczne źródło z umiarkowanym wolumenem bije bogate, bramkowane źródło z ryzykiem prawnym za każdym razem. Jeśli jedynym sposobem na zbudowanie feeda jest logowanie, zbuduj inny feed.
Często zadawane pytania
Czy scrapowanie publicznych danych jest legalne?
Dane publiczne bez logowania i bez regulaminów clickwrap zakazujących automatycznego dostępu to bezpieczna strefa w większości jurysdykcji. Scrapowanie za loginem, omijanie limitów żądań lub ignorowanie wykluczeń robots.txt szybko wyprowadza cię poza tę strefę. Prowadzę jedną stronę listy kontrolnej prawnej per źródło i odmawiam każdego feeda, który nie może odpowiedzieć „tak" na każdy punkt.
Ile można naprawdę zarobić na niszowym feedzie?
Mój feed kosztuje 29 EUR miesięcznie przy 14 płacących subskrybentach – 406 EUR powtarzających się przychodów. Ogólny feed informacyjny nie przeżyłby w tej cenie; wąski feed branżowy z aktualnością co 60 minut i czystym schematem – tak. Kupującymi są prawie zawsze małe agencje lub jednoosobowe działy badań, które cenią zaoszczędzony czas, a nie surowe dane.
Czy AI może zastąpić pipeline scrapowania?
AI pisze prompty ekstrakcji i normalizuje brudne pola, ale hydraulika (harmonogram, ponowne próby, deduplikacja, wykrywanie zmian) to wciąż zwykły kod. Próbowałem uruchomić cały pipeline przez agenta LLM – działało przez weekend, potem cicho dryfowało. Używaj AI do niejednoznacznych części, zachowaj deterministyczne części deterministycznymi.