Menukar Sumber Data Awam kepada Suapan Bulanan RM145

Menjual data sebagai langganan adalah sampingan AI paling membosankan yang pernah saya jalankan, dan ia adalah yang mencetak margin paling bersih. Produknya bukan chatbot mewah, ia adalah hamparan yang disegarkan mengikut jadual dan mendarat di peti masuk atau API pembeli. Crawler itu kecil, penapis undang-undang ketat, dan senarai pelanggan pendek serta setia. Saya bina milik saya dalam empat hujung minggu, dan ia telah berjalan sebahagian besarnya tanpa disentuh selama lima bulan. Berikut cara saya pilih niche, cara saya menjaganya sah, dan cara saya mendapat pelanggan berbayar pertama.
Ujian niche, sebelum sebarang kod
Suapan data boleh jual mempunyai tiga sifat: sumbernya awam, data berubah cukup kerap untuk mewajarkan langganan, dan pembeli sudah membayar seseorang untuk versi yang lebih buruk. Saya tolak apa-apa yang gagal walaupun satu daripada ini. Saya senaraikan calon dengan menyiarkan cadangan dua baris dalam forum industri dan subreddit kecil, penapis yang sama yang saya guna untuk langganan chatbot AI saya. Jika saya tidak dapat sekurang-kurangnya empat balasan serius dalam 72 jam, niche itu mati di tempat. Membina suapan yang tiada siapa minta ialah mod kegagalan yang saya enggan ulang.
Senarai semak undang-undang yang saya tidak akan langgar
Inilah langkah yang membunuh kebanyakan projek, dan dengan betulnya. Sebelum saya menulis satu baris kod crawler, saya jawab lima soalan tentang sumber itu. Adakah data di sebalik log masuk? Adakah terma perkhidmatan melarang akses automatik? Adakah robots.txt mengecualikan laluan yang saya mahu? Adakah kadar kikisan saya melebihi apa yang pengguna beradab akan lakukan? Adakah output mendedahkan data peribadi dengan cara yang penerbit asal tidak? Jika mana-mana jawapan tidak selesa, saya beralih kepada calon seterusnya. Saya simpan rekod bertulis bagi setiap sumber, bertarikh, supaya jika pertikaian pernah muncul saya boleh tunjukkan semakan itu. Kebersihan undang-undang di sini bertindih dengan jejak kertas yang saya simpan pada pembalikan domain; dokumentasi membosankan menyelamatkan anda kemudian.
Stack, sengaja dikekalkan kecil
Satu VPS kecil pada RM30 sebulan, Python dengan requests dan selectolax untuk penghuraian, SQLite untuk state, kumpulan proksi kediaman berputar pada RM75 bulanan, satu kerja cron setiap 60 minit. Tiada Kafka, tiada baris gilir, tiada microservices. Jumlah kos infrastruktur ialah RM105 sebulan. AI masuk di tepat dua tempat: pertama, merangka pemilih pengekstrakan daripada halaman sampel, yang menjimatkan mungkin tiga jam; kedua, menormalkan medan teks bebas berserabut seperti nama syarikat dan lokasi. Crawler itu sendiri ialah 380 baris Python deterministik. Kod membosankan, mudah didebug pada jam 11 malam apabila sesuatu rosak.
- Ambil halaman senarai, diff terhadap syot terakhir, ekstrak URL item baharu.
- Ambil setiap item baharu, huraikan medan, sahkan jenis.
- Normalkan teks bebas dengan panggilan LLM murah, hadkan kos pada RM0.01 setiap baris.
- Nyahduplikat terhadap SQLite melalui hash muatan yang dinormalkan.
- Tambah pada CSV harian, hantar kepada pelanggan melalui e-mel ditambah endpoint JSON kecil.
Harga, pembungkusan, dan 14 pembeli pertama
Saya letak harga RM145 sebulan dari hari pertama, tiada percubaan percuma. Percubaan percuma akan membawa peninjau tingkap, dan produk ini bertahan atas pembeli yang sudah tahu kesakitannya. Tiga pelanggan pertama datang dari forum yang sama tempat saya uji cadangan itu. Lapan seterusnya datang dari satu kumpulan e-mel dingin yang saya hantar kepada 40 agensi kecil yang jelas melakukan kerja sama secara manual. Kadar balas ialah 28 peratus, kadar menutup pada balasan ialah 25 peratus. Tiga yang selebihnya menemui saya melalui carian selepas dua tulisan pendek yang saya siarkan. Hasil pada bulan kelima: RM2,030 bulanan, kos RM105 infrastruktur ditambah kira-kira RM425 penggunaan token dan proksi dalam bulan paling berat, margin bersih sekitar RM1,500. Itu margin 74 peratus pada produk yang mengambil saya kira-kira 90 minit seminggu untuk penyelenggaraan. Ekonomi unit lebih dekat dengan surat berita berbayar saya daripada kebanyakan permainan pembungkus AI.
Penyelenggaraan, bahagian yang tiada siapa tunjuk dalam halaman jualan
Setiap petang Selasa saya buka papan pemuka, imbas log ralat, dan tampal apa sahaja yang berubah. Dalam lima bulan saya telah menyentuh pemilih empat kali. Dua ialah pengubahsuaian susun atur kecil pada sumber, satu ialah 403 senyap yang memerlukan putaran agen pengguna baharu, satu ialah perubahan skema yang memecahkan saya satu petang penuh. Saya peruntukkan 90 minit seminggu dan guna kira-kira 60 secara purata. Tanpa slot tetap itu suapan akan reput dalam suku tahun, iaitu mod kegagalan yang saya amaran pada hab Sampingan AI.
Jual skema, bukan kikisan
Pembeli tidak peduli bahawa anda mengikis. Mereka peduli bahawa output anda ialah skema bersih dan stabil yang boleh mereka jatuhkan ke dalam alat mereka sendiri tanpa menamakan semula lajur. Saya terbitkan skema pada halaman jualan dengan contoh CSV dan fail JSON Schema kecil. Butiran tunggal itu menutup sekurang-kurangnya tiga daripada sepuluh pelanggan pertama saya yang pernah terbakar oleh suapan sebelumnya yang mengubah lajur tanpa amaran. Dokumen skema satu muka surat berbaloi lebih daripada mana-mana salinan pendaratan yang saya boleh tulis.
Jangan kikis apa-apa yang memerlukan pengesahan, walaupun ia kelihatan mudah. Satu kali saya bengkokkan peraturan ini, pada sumber yang mempunyai dinding log masuk sangat tipis, saya hilang seminggu berdebat dengan penerbit dan terpaksa bayar balik dua pelanggan. Sumber awam sempit dengan volum sederhana mengalahkan sumber berpagar kaya dengan risiko undang-undang setiap kali. Jika satu-satunya cara untuk bina suapan ialah di sebalik log masuk, bina suapan yang berbeza.
Soalan lazim
Adakah mengikis data awam itu sah?
Data awam tanpa log masuk dan tanpa terma clickwrap yang melarang akses automatik ialah zon selamat dalam kebanyakan bidang kuasa. Mengikis di sebalik log masuk, memintas had kadar, atau mengabaikan pengecualian robots.txt menolak anda keluar dari zon itu dengan cepat. Saya simpan senarai semak undang-undang satu muka surat bagi setiap sumber dan enggan mana-mana suapan yang tidak boleh jawab ya pada setiap baris di dalamnya.
Berapakah yang benar-benar boleh anda caj untuk suapan khusus?
Suapan saya berada pada RM145 sebulan untuk 14 pelanggan berbayar, RM2,030 hasil berulang. Suapan berita am tidak akan bertahan pada harga itu; suapan industri sempit dengan kesegaran 60 minit dan skema bersih akan. Pembeli hampir selalunya agensi kecil atau meja penyelidikan satu orang yang menghargai masa yang dijimatkan, bukan data mentah.
Bolehkah AI gantikan saluran pengikisan?
AI menulis prompt pengekstrakan dan menormalkan medan berserabut, tetapi paip (penjadualan, cubaan semula, penyahduplikatan, pengesanan perubahan) masih kod membosankan. Saya cuba jalankan keseluruhan saluran melalui ejen LLM dan ia berfungsi satu hujung minggu kemudian senyap-senyap hanyut. Guna AI untuk bahagian kabur, kekalkan bahagian deterministik deterministik.