Halka Açık Bir Veri Kaynağını Aylık 29 Euro Beslemeye Dönüştürmek

Niş veri kazıma ve yeniden satışı temsil eden dizüstü bilgisayar veri ızgarası ve açıklamalı elektronik tablolar

Veriyi abonelik olarak satmak, yürüttüğüm en sıkıcı yapay zeka ek geliri ve en temiz marjı basan girişimdir. Ürün gösterişli bir sohbet robotu değil, bir programa göre yenilenen ve alıcının gelen kutusuna veya API'sine ulaşan bir e-tablodur. Tarayıcı küçük, yasal filtre sıkı, müşteri listesi kısa ve sadıktır. Madeni dört haftasonunda kurdum ve beş aydır büyük ölçüde dokunmadan çalışıyor. Niş nasıl seçiyorum, nasıl yasal kalıyorum ve ilk ödeme yapan müşterileri nasıl buluyorum — işte bunların hepsi burada.

Herhangi bir kod yazmadan önce niş testi

Satılabilir bir veri beslemesinin üç özelliği vardır: kaynak halka açıktır, veriler aboneliği haklı kılacak kadar sık değişir ve alıcılar zaten birine bunun daha çirkin bir versiyonu için ödeme yapıyordur. Bunlardan birini bile geçemeyeni eleyorum. yapay zeka sohbet robotu aboneliğimde kullandığım filtrenin aynısı olan iki satırlık bir tanıtımı sektör forumlarına ve küçük subreddit'lere göndererek adayları kısa listeye alıyorum. 72 saat içinde en az dört ciddi yanıt almazsam, niş orada ölüyor. Kimsenin istemediği bir besleme oluşturmak, tekrarlamayı reddettiğim başarısızlık modudur.

Geçmeyeceğim yasal kontrol listesi

Bu, çoğu projeyi öldüren ve haklı olarak öldüren adımdır. Tek bir tarayıcı kodu satırı yazmadan önce kaynak hakkında beş soruyu yanıtlarım. Veriler bir girişin arkasında mı? Hizmet şartları otomatik erişimi yasaklıyor mu? robots.txt istediğim yolları dışarıda bırakıyor mu? Tarama hızım kibar bir kullanıcı ajanının yapacağından fazla mı? Çıktı, kişisel verileri orijinal yayıncının yapmadığı bir şekilde açığa çıkarıyor mu? Herhangi bir yanıt rahatsız ediciyse, bir sonraki adaya geçiyorum. Bir uyuşmazlık ortaya çıktığında kontrolü gösterebildiğimi kanıtlamak için tarihli, kaynak başına yazılı bir kayıt tutuyorum. Buradaki yasal titizlik, domain çevirmelerinde tuttuğum kağıt izlemiyle örtüşüyor; sıkıcı belgeler sizi sonradan kurtarır.

Kasıtlı olarak küçük tutulan teknoloji yığını

Aylık 6 Euro'ya küçük bir VPS, ayrıştırma için requests ve selectolax içeren Python, durum yönetimi için SQLite, aylık 15 Euro'ya dönen konut proxy havuzu, her 60 dakikada bir tek bir cron işi. Kafka yok, kuyruk yok, mikro hizmet yok. Toplam altyapı maliyeti aylık 21 Euro. Yapay zeka tam olarak iki yerde devreye giriyor: birincisi, yaklaşık üç saati kurtaran örnek bir sayfadan çıkarma seçicilerini taslak oluşturmak; ikincisi, şirket adları ve konumlar gibi dağınık serbest metin alanlarını normalleştirmek. Tarayıcının kendisi 380 satır deterministik Python kodu. Gece 23'te bir şeyler bozulduğunda hata ayıklaması kolay, sıkıcı kod.

  1. Liste sayfasını getir, son anlık görüntüyle karşılaştır, yeni öğe URL'lerini çıkar.
  2. Her yeni öğeyi getir, alanları ayrıştır, türleri doğrula.
  3. Satır başına maliyeti 0,002 Euro'ya sınırlayarak ucuz bir LLM çağrısıyla serbest metni normalleştir.
  4. Normalleştirilmiş yükün karması aracılığıyla SQLite'a göre tekilleştir.
  5. Günlük CSV'ye ekle, abonelere e-posta artı küçük bir JSON uç noktası aracılığıyla gönder.

Fiyatlandırma, paketleme ve ilk 14 alıcı

Gün birden itibaren ücretsiz deneme olmaksızın aylık 29 Euro fiyatlandırdım. Ücretsiz deneme, vitrin müşterileri getirirdi ve bu ürün zaten acıyı bilen alıcılarla ayakta durur. İlk üç abone, teklifi test ettiğim forumun aynısından geldi. Sonraki sekizi, aynı işi manuel olarak yaptığı açık olan 40 küçük ajansa gönderdiğim tek bir soğuk e-posta grubundan geldi. Yanıt oranı yüzde 28, yanıtlar üzerinden kapanma oranı yüzde 25. Kalan üçü, yayımladığım iki kısa yazının ardından arama yoluyla buldu. Beşinci aydaki gelir: aylık 406 Euro, en yoğun ayda yaklaşık 85 Euro token ve proxy kullanımına ek olarak 21 Euro altyapı maliyeti, net marj yaklaşık 300 Euro. Bu, çoğu yapay zeka sarmalayıcı oyunundan çok ücretli bültenimi andıran yüzde 74 marjdır.

Bakım — satış sayfalarında kimsenin göstermediği kısım

Her Salı akşamı panoyu açıyor, hata günlüğüne göz atıyor ve ne değiştiyse yama yapıyorum. Beş ayda seçicilere dört kez dokundum. İkisi kaynaktaki küçük düzen değişiklikleriydi, biri yeni bir kullanıcı ajanı rotasyonu gerektiren sessiz bir 403 hatasıydı, biri tam bir akşamıma mal olan kırıcı bir şema değişikliğiydi. Haftalık 90 dakika bütçe ayırıyorum ve ortalama 60 dakika kullanıyorum. Bu sabit zaman dilimi olmadan besleme bir çeyrek içinde çürürdü; bu, Yapay Zeka Ek Gelirleri merkezinde uyardığım başarısızlık modudur.

John'un nadir ipucu

Kazımayı değil, şemayı sat

Alıcılar kazıma yaptığınızı umursamaz. Umursadıkları, çıktınızın sütunları yeniden adlandırmadan kendi araçlarına ekleyebilecekleri temiz ve kararlı bir şema olmasıdır. Şemayı örnek bir CSV ve küçük bir JSON Şema dosyasıyla birlikte satış sayfasında yayımlıyorum. Bu tek ayrıntı, sütunları uyarmadan değiştiren önceki bir besleme tarafından zarar görmüş olan ilk on abonemin en az üçünü kapattı. Tek sayfalık bir şema belgesi, yazabileceğim herhangi bir açılış sayfası metninden daha değerlidir.

Kaçınacaklarım

Kolay görünse bile kimlik doğrulama gerektiren hiçbir şeyi kazımayın. Bu kuralı bir kez çiğnediğimde, çok ince bir giriş duvarı olan bir kaynakta, yayıncıyla tartışarak bir hafta harcadım ve iki aboneyi iade etmek zorunda kaldım. Düşük hacimli dar bir halka açık kaynak, yasal riske sahip zengin bir kapalı kaynağı her seferinde geçer. Besleyi oluşturmanın tek yolu giriş arkasındaysa, farklı bir besleme oluşturun.

Sık sorulan sorular

Halka açık veri kazımak yasal mı?

Giriş gerektirmeyen ve otomatik erişimi yasaklayan tıklama sözleşmesi bulunmayan halka açık veriler, çoğu yargı bölgesinde güvenli alandır. Giriş arkasında kazıma yapmak, hız limitlerini aşmak veya robots.txt dışlamalarını görmezden gelmek sizi bu alandan hızla çıkarır. Kaynak başına tek sayfalık bir yasal kontrol listesi tutuyorum ve her satırına evet diyemeyen herhangi bir beslemeyi reddediyorum.

Niş bir besleme için gerçekten ne kadar ücret alabilirsiniz?

Beslememde 14 ödeme yapan aboneye aylık 29 Euro, 406 Euro yinelenen gelir var. Genel bir haber beslemesi bu fiyata hayatta kalamaz; 60 dakikalık tazelik ve temiz bir şemayla dar bir sektör beslemesi hayatta kalır. Alıcılar neredeyse her zaman tasarruf edilen zamanı, ham veriyi değil, değerli bulan küçük ajanslar veya tek kişilik araştırma masalarıdır.

Yapay zeka kazıma hattının yerini alabilir mi?

Yapay zeka çıkarma istemlerini yazar ve dağınık alanları normalleştirir, ancak sıhhi tesisat (zamanlama, yeniden denemeler, tekilleştirme, değişiklik algılama) hâlâ sıkıcı koddur. Tüm hattı bir LLM ajanı üzerinden çalıştırmayı denedim ve bir hafta sonu çalıştı, ardından sessizce kaymaya başladı. Belirsiz kısımlar için yapay zekayı kullanın, deterministik kısımları deterministik tutun.