Μετατροπή μιας Δημόσιας Πηγής Δεδομένων σε Τροφοδοσία 29 Ευρώ το Μήνα

Η πώληση δεδομένων ως συνδρομή είναι η πιο βαρετή δουλειά πλαγίου με ΤΝ που έχω τρέξει, και είναι αυτή που αποδίδει το καθαρότερο περιθώριο. Το προϊόν δεν είναι ένα εντυπωσιακό chatbot· είναι ένα υπολογιστικό φύλλο που ανανεώνεται σε πρόγραμμα και φτάνει στα εισερχόμενα ή στο API του αγοραστή. Ο crawler είναι μικρός, το νομικό φίλτρο αυστηρό και η λίστα πελατών σύντομη και πιστή. Το έφτιαξα σε τέσσερα Σαββατοκύριακα και τρέχει σχεδόν αυτόματα για πέντε μήνες. Δείτε πώς επιλέγω θεματολογία, πώς παραμένω νόμιμος και πώς αποκτώ τους πρώτους πληρωτέους πελάτες.
Η δοκιμή θεματολογίας, πριν από οποιονδήποτε κώδικα
Μια εμπορεύσιμη τροφοδοσία δεδομένων έχει τρεις ιδιότητες: η πηγή είναι δημόσια, τα δεδομένα αλλάζουν αρκετά συχνά για να δικαιολογούν συνδρομή και οι αγοραστές ήδη πληρώνουν κάποιον για μια άσχημη εκδοχή τους. Αποκλείω ό,τι αποτυγχάνει έστω σε ένα από αυτά. Κάνω προεπιλογή υποψηφίων δημοσιεύοντας ένα δίγραμμο pitch σε επαγγελματικά forums και μικρά subreddits, το ίδιο φίλτρο που χρησιμοποιώ για τη συνδρομή AI chatbot. Αν δεν πάρω τουλάχιστον τέσσερις σοβαρές απαντήσεις σε 72 ώρες, η θεματολογία πεθαίνει επί τόπου. Η κατασκευή τροφοδοσίας που κανείς δεν ζήτησε είναι ο τρόπος αποτυχίας που αρνούμαι να επαναλάβω.
Η νομική λίστα που δεν διασχίζω
Αυτό είναι το βήμα που σκοτώνει τα περισσότερα projects, και δικαίως. Πριν γράψω μία γραμμή κώδικα crawler, απαντώ πέντε ερωτήσεις για την πηγή. Τα δεδομένα βρίσκονται πίσω από σύνδεση; Οι όροι χρήσης απαγορεύουν την αυτόματη πρόσβαση; Το robots.txt εξαιρεί τα μονοπάτια που θέλω; Ο ρυθμός ανίχνευσής μου υπερβαίνει αυτόν που θα έκανε ένας ευγενικός χρήστης; Το αποτέλεσμα εκθέτει προσωπικά δεδομένα με τρόπο που ο αρχικός εκδότης δεν εκθέτει; Αν οποιαδήποτε απάντηση είναι άβολη, προχωράω στον επόμενο υποψήφιο. Τηρώ γραπτό αρχείο ανά πηγή, με ημερομηνία, ώστε αν ποτέ προκύψει διαφορά να μπορώ να αποδείξω τον έλεγχο. Η νομική υγιεινή εδώ επικαλύπτεται με το χαρτί ίχνος που τηρώ στα flips domain· η βαρετή τεκμηρίωση σε σώζει αργότερα.
Το σύνολο εργαλείων, σκόπιμα μικρό
Ένα μικρό VPS στα 6 ευρώ το μήνα, Python με requests και selectolax για ανάλυση, SQLite για κατάσταση, ένα pool εναλλασσόμενων οικιακών μεσολαβητών στα 15 ευρώ το μήνα, ένα μόνο cron job κάθε 60 λεπτά. Χωρίς Kafka, χωρίς ουρές, χωρίς microservices. Συνολικό κόστος υποδομής 21 ευρώ το μήνα. Η ΤΝ εισέρχεται ακριβώς σε δύο σημεία: πρώτον, στη σύνταξη των selectors εξαγωγής από μια δειγματική σελίδα, που εξοικονομεί ίσως τρεις ώρες· δεύτερον, στην κανονικοποίηση ακατάστατων πεδίων ελεύθερου κειμένου όπως ονόματα εταιρειών και τοποθεσίες. Ο ίδιος ο crawler είναι 380 γραμμές ντετερμινιστικής Python. Βαρετός κώδικας, εύκολος στην αποσφαλμάτωση στις 11 το βράδυ όταν κάτι χαλάσει.
- Ανάκτηση σελίδας λίστας, διαφορά έναντι τελευταίου snapshot, εξαγωγή νέων URL στοιχείων.
- Ανάκτηση κάθε νέου στοιχείου, ανάλυση πεδίων, επικύρωση τύπων.
- Κανονικοποίηση ελεύθερου κειμένου με φτηνή κλήση LLM, κόστος ανώτατο 0,002 ευρώ ανά γραμμή.
- Αποπληθωρισμός έναντι SQLite με hash του κανονικοποιημένου payload.
- Προσάρτηση σε ημερήσιο CSV, αποστολή στους συνδρομητές μέσω email και μικρού endpoint JSON.
Τιμολόγηση, συσκευασία και οι πρώτοι 14 αγοραστές
Τιμολόγησα στα 29 ευρώ το μήνα από την πρώτη μέρα, χωρίς δωρεάν δοκιμή. Μια δωρεάν δοκιμή θα έφερνε θεατές, και αυτό το προϊόν επιβιώνει από αγοραστές που ήδη γνωρίζουν τον πόνο. Οι τρεις πρώτοι συνδρομητές ήρθαν από το ίδιο forum όπου δοκίμασα το pitch. Οι επόμενοι οκτώ ήρθαν από μία μόνο δέσμη κρύων email που έστειλα σε 40 μικρά γραφεία που έκαναν προφανώς την ίδια δουλειά χειροκίνητα. Ποσοστό απάντησης 28%, ποσοστό κλεισίματος στις απαντήσεις 25%. Οι υπόλοιποι τρεις με βρήκαν μέσω αναζήτησης μετά από δύο σύντομα κείμενα που δημοσίευσα. Έσοδα στον πέμπτο μήνα: 406 ευρώ μηνιαίως, κόστη 21 υποδομής συν περίπου 85 ευρώ χρήσης tokens και μεσολαβητών τον βαρύτερο μήνα, καθαρό περιθώριο γύρω στα 300 ευρώ. Αυτό είναι 74% περιθώριο σε ένα προϊόν που μου παίρνει περίπου 90 λεπτά εβδομαδιαίας συντήρησης. Τα unit economics είναι πιο κοντά στη πληρωτέα newsletter μου παρά στις περισσότερες κατασκευές AI wrapper.
Συντήρηση, το μέρος που κανείς δεν δείχνει σε μια σελίδα πωλήσεων
Κάθε Τρίτη βράδυ ανοίγω τον πίνακα εργαλείων, σαρώνω το αρχείο σφαλμάτων και επιδιορθώνω ό,τι άλλαξε. Σε πέντε μήνες άγγιξα τους selectors τέσσερις φορές. Δύο ήταν μικρές τροποποιήσεις διάταξης στην πηγή, μία ήταν σιωπηλό 403 που χρειαζόταν νέα εναλλαγή user agent, μία ήταν breaking αλλαγή schema που μου κόστισε ένα ολόκληρο βράδυ. Προϋπολογίζω 90 λεπτά την εβδομάδα και χρησιμοποιώ περίπου 60 κατά μέσο όρο. Χωρίς αυτή τη σταθερή θέση, η τροφοδοσία θα αποσυντεθεί μέσα σε ένα τρίμηνο, που είναι ο τρόπος αποτυχίας για τον οποίο προειδοποιώ στον κόμβο Δουλειών Πλαγίου με ΤΝ.
Πούλα το schema, όχι το scrape
Οι αγοραστές δεν νοιάζονται για το scraping. Νοιάζονται για το ότι το αποτέλεσμά σου είναι ένα καθαρό, σταθερό schema που μπορούν να βάλουν στα εργαλεία τους χωρίς να μετονομάσουν στήλες. Δημοσιεύω το schema στη σελίδα πωλήσεων με παράδειγμα CSV και ένα μικρό αρχείο JSON Schema. Αυτή η μία λεπτομέρεια έκλεισε τουλάχιστον τρεις από τους πρώτους δέκα συνδρομητές μου που είχαν κάψει τα χέρια τους από προηγούμενη τροφοδοσία που άλλαξε στήλες χωρίς προειδοποίηση. Ένα έγγραφο schema μίας σελίδας αξίζει περισσότερο από οποιοδήποτε κείμενο landing page θα μπορούσα να γράψω.
Μην κάνεις scraping σε τίποτα που απαιτεί ταυτοποίηση, ακόμα και αν φαίνεται εύκολο. Τη μία φορά που έκαμψα αυτόν τον κανόνα, σε μια πηγή με πολύ λεπτό τοίχο σύνδεσης, έχασα μια εβδομάδα διαφωνώντας με τον εκδότη και έπρεπε να επιστρέψω χρήματα σε δύο συνδρομητές. Μια στενή δημόσια πηγή με μέτρια κυκλοφορία νικά κάθε φορά μια πλούσια κλειδωμένη πηγή με νομικό ρίσκο. Αν ο μόνος τρόπος για να χτίσεις την τροφοδοσία είναι πίσω από σύνδεση, φτιάξε μια διαφορετική τροφοδοσία.
Συχνές ερωτήσεις
Είναι νόμιμο το scraping δημόσιων δεδομένων;
Τα δημόσια δεδομένα χωρίς σύνδεση και χωρίς όρους clickwrap που απαγορεύουν την αυτόματη πρόσβαση αποτελούν την ασφαλή ζώνη στις περισσότερες δικαιοδοσίες. Το scraping πίσω από σύνδεση, η παράκαμψη ορίων ρυθμού ή η αγνόηση εξαιρέσεων robots.txt σε βγάζουν γρήγορα από αυτήν. Τηρώ μία σελίδα νομικού ελέγχου ανά πηγή και αρνούμαι κάθε τροφοδοσία που δεν μπορεί να απαντήσει ναι σε κάθε γραμμή.
Πόσο μπορείς πραγματικά να χρεώσεις για μια εξειδικευμένη τροφοδοσία;
Η τροφοδοσία μου κοστίζει 29 ευρώ το μήνα για 14 πληρωτέους συνδρομητές, 406 ευρώ επαναλαμβανόμενα έσοδα. Μια γενική τροφοδοσία ειδήσεων δεν θα επιβίωνε σε αυτή την τιμή· μια στενή κλαδική τροφοδοσία με ανανέωση κάθε 60 λεπτά και καθαρό schema το καταφέρνει. Οι αγοραστές είναι σχεδόν πάντα μικρά γραφεία ή ατομικοί ερευνητές που εκτιμούν τον εξοικονομούμενο χρόνο, όχι τα ακατέργαστα δεδομένα.
Μπορεί η ΤΝ να αντικαταστήσει τον αγωγό scraping;
Η ΤΝ γράφει τα prompts εξαγωγής και κανονικοποιεί ακατάστατα πεδία, αλλά το υδραυλικό σύστημα (προγραμματισμός, επαναλήψεις, αποπληθωρισμός, ανίχνευση αλλαγών) παραμένει κανονικός κώδικας. Δοκίμασα να τρέξω ολόκληρο τον αγωγό μέσω ενός LLM agent· λειτούργησε για ένα Σαββατοκύριακο και μετά σιωπηλά παρεκκλίνε. Χρησιμοποίησε ΤΝ για τα ασαφή μέρη, κράτα τα ντετερμινιστικά μέρη ντετερμινιστικά.