تحويل مصدر بيانات عامة إلى تغذية شهرية بـ 29 يورو

بيع البيانات كاشتراك هو أكثر مشاريع الذكاء الاصطناعي الجانبية مللاً أداَرتها، وهو الذي يطبع أنظف الهوامش. المنتج ليس روبوت دردشة لافتاً، بل جدول بيانات يتحدّث وفق جدول زمني ويصل إلى صندوق بريد المشتري أو واجهة برمجية. الزاحف صغير، والمرشح القانوني صارم، وقائمة العملاء قصيرة ومخلصة. بنيت نظامي في أربع عطل نهاية أسبوع، وظل يعمل دون تدخل يُذكر لخمسة أشهر. هذا هو كيف أختار المجال، وكيف أبقيه قانونياً، وكيف أُوقِع أول العملاء الدافعين.
اختبار المجال، قبل أي كود
تغذية البيانات القابلة للبيع لها ثلاث خصائص: المصدر عام، والبيانات تتغير بما يكفي لتبرير اشتراك، والمشترون يدفعون بالفعل لشخص ما مقابل نسخة أقل جمالاً منها. أستبعد أي شيء يفشل في واحدة منها. أُقصِّر قائمة المرشحين بنشر عرض من سطرين في منتديات صناعية وسب-ريديتات صغيرة، نفس المرشح الذي أستخدمه لـ اشتراك روبوت الدردشة بالذكاء الاصطناعي. إن لم أحصل على أربع ردود جدية خلال 72 ساعة، يموت المجال في الحال. بناء تغذية لم يطلبها أحد هو نمط الفشل الذي أرفض تكراره.
قائمة المراجعة القانونية التي لن أتجاوزها
هذه هي الخطوة التي تُجهض معظم المشاريع، وبحق. قبل أن أكتب سطراً واحداً من كود الزاحف، أجيب عن خمسة أسئلة حول المصدر. هل البيانات خلف تسجيل دخول؟ هل تحظر شروط الخدمة الوصول الآلي؟ هل يستثني robots.txt المسارات التي أريدها؟ هل معدل زحفي يتجاوز ما سيفعله وكيل مستخدم مؤدّب؟ هل يكشف الناتج بيانات شخصية بطريقة لا تُتيحها الجهة الناشرة الأصلية؟ إن كان أي جواب مزعجاً، انتقلت إلى المرشح التالي. أحتفظ بسجل مكتوب لكل مصدر، مُؤرَّخ، حتى إذا نشأ نزاع ما يوماً ما أستطيع إثبات المراجعة. النظافة القانونية هنا تتداخل مع سجل الأوراق الذي أحتفظ به في صفقات قلب الدومينات؛ التوثيق الممل يُنقذك لاحقاً.
المكدس، صغير عن قصد
خادم VPS صغير بـ 6 يورو شهرياً، Python مع requests وselectolax للتحليل، SQLite للحالة، مجموعة بروكسيات سكنية دوّارة بـ 15 يورو شهرياً، مهمة cron واحدة كل 60 دقيقة. لا Kafka، لا طوابير انتظار، لا خدمات مصغّرة. تكلفة البنية التحتية الإجمالية 21 يورو شهرياً. يدخل الذكاء الاصطناعي في موضعين تحديداً: أولاً، صياغة محددات الاستخراج من صفحة نموذجية مما يوفّر ثلاث ساعات تقريباً؛ ثانياً، تعيير حقول النص الحر الفوضوية كأسماء الشركات والمواقع. الزاحف نفسه 380 سطراً من Python الحتمية. كود ممل، سهل التصحيح عند الحادية عشرة مساءً حين ينكسر شيء.
- جلب صفحة القائمة، مقارنتها بالنسخة الأخيرة، استخراج روابط العناصر الجديدة.
- جلب كل عنصر جديد، تحليل الحقول، التحقق من الأنواع.
- تعيير النص الحر بنموذج لغوي رخيص، تحديد التكلفة بـ 0.002 يورو لكل صف.
- إزالة التكرار مقابل SQLite بواسطة تجزئة الحمولة المُعيَّرة.
- إلحاق بـ CSV يومي، دفعه للمشتركين عبر البريد الإلكتروني وطرف بيانات JSON صغير.
التسعير، والتغليف، وأول 14 مشترك
سعّرت بـ 29 يورو شهرياً من اليوم الأول، دون تجربة مجانية. التجربة المجانية كانت ستجلب المتفرجين، وهذا المنتج يبقى على المشترين الذين يعرفون الألم مسبقاً. جاء أول ثلاثة مشتركين من المنتدى ذاته الذي اختبرت فيه العرض. جاء الثمانية التاليون من دفعة بريد إلكتروني بارد أرسلته إلى 40 وكالة صغيرة كانت تقوم بالعمل ذاته يدوياً. معدل الرد كان 28 بالمئة، ومعدل الإغلاق على الردود 25 بالمئة. وجدني الثلاثة الأخيرون عبر البحث بعد مقالتين قصيرتين نشرتهما. الإيراد في الشهر الخامس: 406 يورو شهرياً، التكاليف 21 بنية تحتية بالإضافة إلى ما يقارب 85 يورو من استخدام الرموز والبروكسيات في أثقل الأشهر، صافي الهامش حوالي 300 يورو. هامش 74 بالمئة على منتج يأخذ مني نحو 90 دقيقة أسبوعياً من الصيانة. اقتصاديات الوحدة أقرب إلى النشرة الإخبارية المدفوعة مني إلى معظم مشاريع أغلفة الذكاء الاصطناعي.
الصيانة، الجزء الذي لا يظهر في صفحات المبيعات
كل مساء ثلاثاء أفتح لوحة التحكم، وأتصفح سجل الأخطاء، وأُصلح ما تغيّر. في خمسة أشهر لمست المحددات أربع مرات. اثنتان كانتا تعديلات تخطيط بسيطة على المصدر، وواحدة كانت خطأ 403 صامتاً احتاج تدوير وكيل مستخدم جديد، وواحدة كانت تغييراً مقطوعاً في المخطط كلّفني مساءً كاملاً. أُخصّص 90 دقيقة أسبوعياً وأستخدم في المتوسط نحو 60. بدون ذلك الفتحة الثابتة ستتعفن التغذية خلال ربع سنة، وهو نمط الفشل الذي أُحذّر منه في محور مشاريع الذكاء الاصطناعي الجانبية.
بِع المخطط، لا الكشط
المشترون لا يهتمون بأنك تكشط. يهتمون بأن ناتجك مخطط نظيف ومستقر يمكنهم إدراجه في أدواتهم الخاصة دون إعادة تسمية الأعمدة. أنشر المخطط على صفحة المبيعات مع CSV نموذجي وملف JSON Schema صغير. هذه التفصيلة الواحدة أغلقت ثلاثة على الأقل من أول عشرة مشتركين لدي ممن سبق أن احترقوا بتغذية سابقة غيّرت أعمدتها دون تحذير. وثيقة مخطط من صفحة واحدة تساوي أكثر من أي نص هبوط يمكنني كتابته.
لا تكشط أي شيء يتطلب مصادقة، حتى لو بدا سهلاً. المرة الوحيدة التي انعطفت فيها عند هذه القاعدة، على مصدر كان له جدار تسجيل دخول رفيع جداً، خسرت أسبوعاً في الجدال مع الناشر واضطررت لرد رسومي لمشتركين. مصدر عام ضيق بحجم معتدل يتفوق على مصدر محمي غني بمخاطر قانونية في كل مرة. إن كانت الطريقة الوحيدة لبناء التغذية هي خلف تسجيل دخول، ابنِ تغذية مختلفة.
الأسئلة الشائعة
هل كشط البيانات العامة قانوني؟
البيانات العامة التي لا تتطلب تسجيل دخول ولا شروط نقر تحظر الوصول الآلي هي المنطقة الآمنة في معظم الولايات القضائية. أما الكشط خلف تسجيل دخول، أو تجاوز حدود المعدل، أو تجاهل استثناءات robots.txt فيُخرجك من تلك المنطقة بسرعة. أحتفظ بقائمة مراجعة قانونية من صفحة واحدة لكل مصدر، وأرفض أي تغذية لا تُجيب بنعم على كل بند من بنودها.
كم يمكنك فعلاً تقاضيه مقابل تغذية متخصصة؟
تقف تغذيتي عند 29 يورو شهرياً مع 14 مشتركاً بدفع، أي 406 يورو كإيراد متكرر. تغذية أخبار عامة لن تصمد بهذا السعر؛ أما تغذية صناعية ضيقة بانتعاش كل 60 دقيقة ومخطط بيانات نظيف فتصمد. المشترون في الغالب وكالات صغيرة أو باحثون منفردون يُقدّرون الوقت الموفّر، لا البيانات الخام.
هل يمكن للذكاء الاصطناعي استبدال مسار الكشط؟
الذكاء الاصطناعي يكتب مطالبات الاستخراج ويُعيّر الحقول الفوضوية، لكن السباكة (الجدولة، وإعادة المحاولات، وإزالة التكرار، وكشف التغييرات) ما زالت كوداً مملاً. جربت تشغيل المسار كله عبر وكيل نموذج لغوي فعمل لعطلة نهاية الأسبوع ثم انجرف بصمت. استخدم الذكاء الاصطناعي في الأجزاء الضبابية، وأبقِ الأجزاء الحتمية حتمية.