एक सार्वजनिक डेटा स्रोत को ₹2,610 मासिक फीड में बदलना

लैपटॉप डेटा ग्रिड और एनोटेटेड स्प्रेडशीट, विशेष डेटा स्क्रेपिंग और रीसेल का प्रतिनिधित्व करते हैं

डेटा को सब्सक्रिप्शन के रूप में बेचना सबसे उबाऊ AI साइड हसल है जो मैंने चलाया है, और यह वही है जो सबसे साफ मार्जिन देता है। उत्पाद एक चमकदार चैटबॉट नहीं है, यह एक स्प्रेडशीट है जो एक शेड्यूल पर रीफ्रेश होती है और खरीदार के इनबॉक्स या API में पहुँचती है। क्रॉलर छोटा है, कानूनी फिल्टर सख्त है, और ग्राहक सूची छोटी और वफादार है। मैंने इसे चार सप्ताहांतों में बनाया, और यह पाँच महीनों से बिना किसी बड़े बदलाव के चल रहा है। यहाँ बताता हूँ कि मैं नीच कैसे चुनता हूँ, इसे कानूनी कैसे रखता हूँ, और पहले भुगतान करने वाले ग्राहक कैसे लाता हूँ।

कोड से पहले नीच टेस्ट

एक बिकाऊ डेटा फीड में तीन गुण होते हैं: स्रोत सार्वजनिक है, डेटा इतनी बार बदलता है कि सब्सक्रिप्शन उचित हो, और खरीदार पहले से ही किसी को उसके बदतर संस्करण के लिए भुगतान कर रहे हैं। जो इनमें से एक भी पर फेल हो, उसे मैं खारिज कर देता हूँ। मैं उद्योग फोरम और छोटे सबरेडिट्स में दो लाइन का पिच पोस्ट करके उम्मीदवारों की शॉर्टलिस्ट बनाता हूँ — वही फिल्टर जो मैं अपने AI चैटबॉट सब्सक्रिप्शन के लिए उपयोग करता हूँ। अगर 72 घंटों में मुझे कम से कम चार गंभीर जवाब नहीं मिलते, तो नीच वहीं खत्म हो जाती है। ऐसी फीड बनाना जो किसी ने नहीं माँगी — यह वह विफलता है जिसे मैं दोहराने से मना करता हूँ।

कानूनी चेकलिस्ट जिसे मैं पार नहीं करता

यह वह कदम है जो अधिकांश प्रोजेक्ट को मार देता है, और सही भी है। क्रॉलर कोड की एक लाइन लिखने से पहले, मैं स्रोत के बारे में पाँच सवालों का जवाब देता हूँ। क्या डेटा लॉगिन के पीछे है? क्या सेवा की शर्तें स्वचालित एक्सेस को मना करती हैं? क्या robots.txt उन पथों को बाहर करता है जो मुझे चाहिए? क्या मेरी क्रॉल दर एक विनम्र यूज़र एजेंट से अधिक है? क्या आउटपुट व्यक्तिगत डेटा को उस तरह उजागर करता है जो मूल प्रकाशक नहीं करता? अगर कोई भी जवाब असहज करता है, तो मैं अगले उम्मीदवार की ओर बढ़ता हूँ। मैं प्रत्येक स्रोत के लिए दिनांकित लिखित रिकॉर्ड रखता हूँ — अगर कभी कोई विवाद उठे तो मैं जाँच का प्रमाण दे सकता हूँ। यहाँ कानूनी स्वच्छता उस पेपर ट्रेल से मेल खाती है जो मैं डोमेन फ्लिप्स में रखता हूँ; उबाऊ दस्तावेज़ीकरण बाद में बचाता है।

स्टैक, जानबूझकर छोटा रखा

एक छोटा VPS ₹540 प्रति माह पर, Python के साथ requests और selectolax पार्सिंग के लिए, स्टेट के लिए SQLite, हर 60 मिनट पर रोटेटिंग रेज़िडेंशियल प्रॉक्सी पूल ₹1,350 मासिक, एक सिंगल क्रॉन जॉब। कोई Kafka नहीं, कोई क्यू नहीं, कोई माइक्रोसर्विसेज़ नहीं। कुल इन्फ्रास्ट्रक्चर लागत ₹1,890 प्रति माह। AI ठीक दो जगह आता है: पहले, सैंपल पेज से एक्सट्रैक्शन सेलेक्टर्स का मसौदा तैयार करना — जिससे शायद तीन घंटे बचते हैं; दूसरे, कंपनी के नाम और स्थान जैसे अव्यवस्थित फ्री-टेक्स्ट फील्ड्स को नॉर्मलाइज़ करना। क्रॉलर खुद 380 लाइन का डेटर्मिनिस्टिक Python है। उबाऊ कोड, रात 11 बजे जब कुछ टूटे तो डीबग करना आसान।

  1. लिस्ट पेज फेच करें, पिछले स्नैपशॉट से diff करें, नए आइटम URLs निकालें।
  2. प्रत्येक नया आइटम फेच करें, फील्ड्स पार्स करें, टाइप्स वैलिडेट करें।
  3. सस्ती LLM कॉल से फ्री-टेक्स्ट नॉर्मलाइज़ करें, लागत ₹0.18 प्रति पंक्ति तक सीमित।
  4. नॉर्मलाइज़्ड पेलोड के हैश द्वारा SQLite के विरुद्ध डिडुप्लीकेट करें।
  5. दैनिक CSV में जोड़ें, ईमेल प्लस एक छोटे JSON एंडपॉइंट के ज़रिए सब्सक्राइबर्स को भेजें।

मूल्य निर्धारण, पैकेजिंग, और पहले 14 खरीदार

मैंने पहले दिन से ₹2,610 मासिक (कोई मुफ्त ट्रायल नहीं) पर मूल्य निर्धारण किया। मुफ्त ट्रायल से विंडो शॉपर्स आते, और यह उत्पाद उन खरीदारों पर टिकता है जो पहले से दर्द जानते हैं। पहले तीन सब्सक्राइबर उसी फोरम से आए जहाँ मैंने पिच टेस्ट किया था। अगले आठ एक एकल कोल्ड ईमेल बैच से आए जो मैंने 40 छोटी एजेंसियों को भेजा था जो स्पष्ट रूप से वही काम मैन्युअली कर रही थीं। रिप्लाई रेट 28 प्रतिशत था, रिप्लाई पर क्लोज रेट 25 प्रतिशत था। शेष तीन दो छोटे राइट-अप्स के बाद सर्च के ज़रिए मुझे मिले। महीने पाँच पर राजस्व: ₹36,540 मासिक, लागत ₹1,890 इन्फ्रास्ट्रक्चर प्लस सबसे भारी महीने में लगभग ₹7,650 टोकन और प्रॉक्सी उपयोग, नेट मार्जिन लगभग ₹27,000। यह एक ऐसे उत्पाद पर 74 प्रतिशत मार्जिन है जिसमें मुझे प्रति सप्ताह लगभग 90 मिनट रखरखाव लगता है। यूनिट इकोनॉमिक्स मेरे पेड न्यूज़लेटर के करीब है, न कि अधिकांश AI रैपर प्लेज़ के।

रखरखाव — वह हिस्सा जो सेल्स पेज पर नहीं दिखता

हर मंगलवार शाम मैं डैशबोर्ड खोलता हूँ, एरर लॉग स्किम करता हूँ, और जो भी बदला है उसे पैच करता हूँ। पाँच महीनों में मैंने सेलेक्टर्स चार बार टच किए हैं। दो स्रोत पर मामूली लेआउट बदलाव थे, एक साइलेंट 403 था जिसे नए यूज़र-एजेंट रोटेशन की ज़रूरत थी, एक ब्रेकिंग स्कीमा बदलाव था जिसमें मुझे एक पूरी शाम लगी। मैं प्रति सप्ताह 90 मिनट का बजट रखता हूँ और औसतन लगभग 60 उपयोग करता हूँ। उस तय स्लॉट के बिना फीड एक तिमाही के अंदर सड़ जाएगी — यही विफलता मैं AI साइड हसल्स हब पर चेताता हूँ।

जॉन की दुर्लभ टिप

स्क्रेप नहीं, स्कीमा बेचें

खरीदारों को परवाह नहीं है कि आप स्क्रेप करते हैं। उन्हें परवाह है कि आपका आउटपुट एक साफ, स्थिर स्कीमा है जिसे वे कॉलम्स का नाम बदले बिना अपने टूल्स में डाल सकते हैं। मैं सेल्स पेज पर एक उदाहरण CSV और एक छोटी JSON Schema फाइल के साथ स्कीमा प्रकाशित करता हूँ। उस एक विवरण ने मेरे पहले दस में से कम से कम तीन सब्सक्राइबर्स को क्लोज़ किया जो पिछली फीड से जल चुके थे जो चेतावनी के बिना कॉलम बदल देती थी। एक पृष्ठ का स्कीमा दस्तावेज़ किसी भी लैंडिंग कॉपी से ज़्यादा मूल्यवान है।

क्या न करें

कभी भी ऐसी चीज़ स्क्रेप न करें जिसके लिए प्रमाणीकरण की ज़रूरत हो, भले ही यह आसान लगे। एक बार जब मैंने यह नियम मोड़ा — एक स्रोत पर जिसमें बहुत पतली लॉगिन वॉल थी — तो मैंने प्रकाशक के साथ बहस में एक हफ्ता बर्बाद किया और दो सब्सक्राइबर्स को रिफंड देना पड़ा। कानूनी जोखिम के साथ एक समृद्ध गेटेड स्रोत से कम मात्रा वाला एक संकीर्ण सार्वजनिक स्रोत हर बार बेहतर होता है। अगर फीड बनाने का एकमात्र तरीका लॉगिन के पीछे है, तो एक अलग फीड बनाएं।

अक्सर पूछे जाने वाले सवाल

क्या सार्वजनिक डेटा स्क्रेप करना कानूनी है?

बिना लॉगिन और बिना क्लिकरैप शर्तों वाला सार्वजनिक डेटा जो स्वचालित एक्सेस को नहीं रोकता — यही अधिकांश न्यायालयों में सुरक्षित क्षेत्र है। लॉगिन के पीछे स्क्रेप करना, रेट लिमिट्स को बायपास करना, या robots.txt को अनदेखा करना आपको तुरंत उस क्षेत्र से बाहर कर देता है। मैं प्रत्येक स्रोत के लिए एक पृष्ठ की कानूनी चेकलिस्ट रखता हूँ और कोई भी फीड मना कर देता हूँ जो उसकी हर लाइन पर "हाँ" नहीं कह सकती।

नीच फीड के लिए वास्तव में कितना चार्ज कर सकते हैं?

मेरी फीड 14 भुगतान करने वाले ग्राहकों के साथ ₹2,610 मासिक (लगभग 29 यूरो) पर है — ₹36,540 की आवर्ती आय। एक सामान्य समाचार फीड उस मूल्य पर टिक नहीं पाएगी; 60 मिनट की ताज़गी और क्लीन स्कीमा वाली एक संकीर्ण उद्योग फीड टिकती है। खरीदार लगभग हमेशा छोटी एजेंसियाँ या एकल व्यक्ति रिसर्च डेस्क होते हैं जो बचाए गए समय को महत्व देते हैं, न कि कच्चे डेटा को।

क्या AI स्क्रेपिंग पाइपलाइन की जगह ले सकता है?

AI एक्सट्रैक्शन प्रॉम्प्ट लिखता है और अव्यवस्थित फील्ड्स को नॉर्मलाइज़ करता है, लेकिन प्लंबिंग (शेड्यूलिंग, रिट्राई, डिडुप्लीकेशन, चेंज डिटेक्शन) अभी भी उबाऊ कोड है। मैंने पूरी पाइपलाइन को एक LLM एजेंट के माध्यम से चलाने की कोशिश की — यह एक सप्ताहांत के लिए काम किया, फिर धीरे-धीरे बह गया। फजी भागों के लिए AI का उपयोग करें, डेटर्मिनिस्टिक भागों को डेटर्मिनिस्टिक रखें।