Mengubah Sumber Data Publik Menjadi Feed Bulanan 29 Euro

Grid data di laptop dan spreadsheet beranotasi yang mewakili scraping data niche dan penjualan ulang

Menjual data sebagai langganan adalah AI side hustle paling membosankan yang pernah saya jalankan, dan ini yang mencetak margin paling bersih. Produknya bukan chatbot mencolok, melainkan spreadsheet yang refresh sesuai jadwal lalu mendarat di inbox atau API pembeli. Crawler-nya kecil, filter hukumnya ketat, dan daftar pelanggannya pendek serta loyal. Saya membangunnya dalam empat akhir pekan, dan ia sudah berjalan nyaris tanpa disentuh selama lima bulan. Berikut cara saya memilih niche-nya, menjaganya tetap legal, dan mendapatkan pelanggan berbayar pertama.

Uji niche, sebelum satu baris kode pun

Feed data yang layak jual punya tiga properti: sumbernya publik, datanya cukup sering berubah untuk membenarkan langganan, dan pembelinya sudah membayar orang lain untuk versi yang lebih jelek. Saya coret kandidat yang gagal bahkan pada satu saja. Saya membuat shortlist dengan memposting pitch dua baris di forum industri dan subreddit kecil, filter yang sama yang saya pakai untuk langganan chatbot AI saya. Jika saya tidak mendapat setidaknya empat balasan serius dalam 72 jam, niche itu mati di tempat. Membangun feed yang tidak diminta siapa pun adalah mode kegagalan yang saya menolak mengulangi.

Checklist hukum yang tidak akan saya lintasi

Ini tahap yang membunuh sebagian besar proyek, dan memang seharusnya begitu. Sebelum saya menulis satu baris kode crawler pun, saya menjawab lima pertanyaan tentang sumbernya. Apakah datanya di balik login? Apakah ketentuan layanan melarang akses otomatis? Apakah robots.txt mengecualikan jalur yang saya inginkan? Apakah laju crawl saya melebihi apa yang dilakukan user agent yang sopan? Apakah output-nya mengekspos data pribadi dengan cara yang tidak dilakukan penerbit asli? Jika ada jawaban yang tidak nyaman, saya lanjut ke kandidat berikutnya. Saya simpan catatan tertulis per sumber, bertanggal, supaya jika ada sengketa muncul, saya bisa menunjukkan pemeriksaannya. Di Indonesia, hal ini juga menjaga saya dari risiko UU ITE dan UU PDP. Higiene hukum di sini tumpang tindih dengan paper trail yang saya simpan untuk flip domain; dokumentasi membosankan yang menyelamatkan Anda nanti.

Stack, sengaja dijaga tetap kecil

Satu VPS kecil seharga 6 euro per bulan, Python dengan requests dan selectolax untuk parsing, SQLite untuk state, pool proxy residensial berputar seharga 15 euro per bulan, satu cron job setiap 60 menit. Tanpa Kafka, tanpa queue, tanpa microservices. Total biaya infrastruktur 21 euro per bulan. AI masuk di tepat dua tempat: pertama, menyusun selector ekstraksi dari sampel halaman, yang menghemat mungkin tiga jam; kedua, menormalkan field teks bebas yang berantakan seperti nama perusahaan dan lokasi. Crawler-nya sendiri 380 baris Python deterministik. Kode membosankan, mudah di-debug jam 11 malam ketika ada yang rusak.

  1. Ambil halaman daftar, diff dengan snapshot terakhir, ekstrak URL item baru.
  2. Ambil setiap item baru, parse field, validasi tipe.
  3. Normalkan teks bebas dengan panggilan LLM murah, batasi biaya 0,002 euro per baris.
  4. Deduplikasi terhadap SQLite berdasarkan hash payload ternormalisasi.
  5. Tambahkan ke CSV harian, kirim ke pelanggan via email plus endpoint JSON kecil.

Harga, pengemasan, dan 14 pembeli pertama

Saya menetapkan 29 euro per bulan sejak hari pertama, tanpa trial gratis. Trial gratis hanya akan mendatangkan window shopper, dan produk ini bertahan dari pembeli yang sudah tahu rasa sakitnya. Tiga pelanggan pertama datang dari forum yang sama tempat saya menguji pitch. Delapan berikutnya datang dari satu batch cold email yang saya kirim ke 40 agensi kecil yang jelas mengerjakan hal yang sama secara manual. Reply rate 28 persen, close rate atas balasan 25 persen. Tiga sisanya menemukan saya lewat pencarian setelah dua tulisan pendek yang saya posting. Pendapatan di bulan kelima: 406 euro bulanan berulang, biaya 21 untuk infrastruktur ditambah sekitar 85 euro pemakaian token dan proxy di bulan terberat, margin bersih sekitar 300 euro. Itu margin 74 persen pada produk yang memakan waktu pemeliharaan sekitar 90 menit seminggu. Unit ekonominya lebih dekat ke paid newsletter saya ketimbang kebanyakan AI wrapper.

Pemeliharaan, bagian yang tidak pernah ditampilkan di halaman jualan

Setiap Selasa malam saya buka dashboard, skim log error, dan tambal apa pun yang berubah. Dalam lima bulan saya menyentuh selector empat kali. Dua adalah perubahan layout kecil di sumber, satu adalah 403 senyap yang butuh rotasi user agent baru, satu adalah perubahan skema breaking yang memakan satu malam penuh. Saya menganggarkan 90 menit per minggu dan rata-rata menggunakan sekitar 60. Tanpa slot tetap itu feed-nya akan membusuk dalam satu kuartal, yaitu mode kegagalan yang saya peringatkan di hub AI Side Hustles.

Tip langka dari John

Jual skemanya, bukan scrape-nya

Pembeli tidak peduli bahwa Anda scrape. Mereka peduli bahwa output Anda adalah skema bersih dan stabil yang bisa mereka masukkan ke tool mereka sendiri tanpa mengganti nama kolom. Saya publikasikan skemanya di halaman jualan dengan contoh CSV dan file JSON Schema kecil. Detail tunggal itu menutup setidaknya tiga dari sepuluh pelanggan pertama saya yang sebelumnya terbakar feed lain yang mengubah kolom tanpa peringatan. Dokumen skema satu halaman lebih berharga daripada copy landing page mana pun yang bisa saya tulis.

Yang akan saya hindari

Jangan scrape apa pun yang butuh autentikasi, meskipun terlihat mudah. Satu kali saya melanggar aturan ini, pada sumber yang punya tembok login sangat tipis, saya kehilangan seminggu berdebat dengan penerbit dan harus merefund dua pelanggan. Sumber publik sempit dengan volume sedang mengalahkan sumber berdinding kaya yang berisiko hukum setiap saat. Jika satu-satunya cara membangun feed adalah di balik login, bangun feed yang berbeda.

Sering ditanyakan

Apakah scraping data publik itu legal?

Data publik tanpa login dan tanpa ketentuan clickwrap yang melarang akses otomatis adalah zona aman di sebagian besar yurisdiksi. Scraping di balik login, melewati batas rate, atau mengabaikan pengecualian robots.txt akan cepat membawa Anda keluar dari zona itu. Saya menyimpan checklist hukum satu halaman per sumber dan menolak feed apa pun yang tidak bisa menjawab ya pada setiap barisnya. Di Indonesia, UU ITE dan UU PDP juga perlu diperhatikan, terutama untuk data yang berpotensi memuat informasi pribadi.

Berapa sebenarnya harga yang bisa dikenakan untuk feed niche?

Feed saya dihargai 29 euro per bulan untuk 14 pelanggan berbayar, 406 euro pendapatan berulang. Feed berita umum tidak akan bertahan di harga itu; feed industri sempit dengan kesegaran 60 menit dan skema bersih bisa. Pembeli hampir selalu agensi kecil atau peneliti solo yang menghargai waktu yang dihemat, bukan data mentahnya.

Bisakah AI menggantikan pipeline scraping?

AI menulis prompt ekstraksi dan menormalkan field yang berantakan, tetapi pipa-nya (penjadwalan, retry, deduplikasi, deteksi perubahan) tetap kode membosankan. Saya mencoba menjalankan seluruh pipeline melalui agen LLM dan itu bekerja selama satu akhir pekan lalu diam-diam melenceng. Gunakan AI untuk bagian fuzzy, biarkan bagian deterministik tetap deterministik.